Learning representations for clustering users of web applications

Biblioteche e Archivi
POLITesi - Archivio digitale delle tesi di laurea e di dottorato

The Web has become a huge source of information due to the development of new digital technologies. User information can be profitable for companies to reach a strong competitive advantage. Hence, nowadays almost all companies exploit systems able to analyse user information and transform it into meaningful knowledge. The task of subdividing customers into distinct segments according to some specific factors is called customer segmentation. In order to perform customer segmentation in an automatic way, Data Mining techniques can be employed. However, Web user data are dynamical and often appear in an unstructured format, thus a suitable data representation from which a Data Mining algorithm is able to learn is essential. Users can perform multiple sessions navigating through a varying number of pages. The purpose of this thesis is to propose data representations of Web users able to describe them in a fixed-dimensionality space. The proposed representations are Markov chains and documents, with the aim of performing user segmentation. The main focus of the thesis is on data representation and data modelling, however a complete description of the customer segmentation process is outlined, from data ingestion to results analysis. The performance of the proposed approach is tested and evaluated on two real different datasets, and in both cases meaningful results are obtained.

Il Web è diventato una importante fonte di informazione, grazie anche allo sviluppo di nuove tecnologie digitali. Avere maggiori informazioni sui clienti può risultare conveniente per le aziende per poter raggiungere un vantaggio competitivo. E' per questo che oggi, molte aziende adottano sistemi in grado di gestire tali informazioni per trasformarle in conoscenza. La segmentazione dei clienti consiste nel suddividere i clienti in gruppi distinti, in base ad alcuni fattori specifici. Per rendere automatica la segmentazione dei clienti, è utile ricorrere a tecniche di Data Mining. Tuttavia, i dati di utenti Web sono dinamici e spesso appaiono non strutturati, quindi una opportuna rappresentazione dei dati, da cui un algoritmo di Data Mining è in grado di apprendere, è fondamentale. Infatti, gli utenti possono eseguire più sessioni navigando attraverso un numero variabile di pagine. Lo scopo di questa tesi è proporre rappresentazioni dei dati per utenti Web, che siano in grado di descriverli in uno spazio di dimensionalità fissa. Le rappresentazioni principali presentate sono catene di Markov e documenti, con lo scopo di eseguire la segmentazione degli utenti. Pertanto, l'obiettivo principale della tesi è la rappresentazione e modellazione dei dati, tuttavia viene proposta una guida completa dell'implementazione dell'intero processo di segmentazione dei clienti, dall'ingestione dei dati all'analisi dei risultati. Le prestazioni dell'approccio proposto sono valutate su due diversi set di dati reali.

Learning representations for clustering users of web applications

Straccia, Agnese

2021/2022

Abstract

The Web has become a huge source of information due to the development of new digital technologies. User information can be profitable for companies to reach a strong competitive advantage. Hence, nowadays almost all companies exploit systems able to analyse user information and transform it into meaningful knowledge. The task of subdividing customers into distinct segments according to some specific factors is called customer segmentation. In order to perform customer segmentation in an automatic way, Data Mining techniques can be employed. However, Web user data are dynamical and often appear in an unstructured format, thus a suitable data representation from which a Data Mining algorithm is able to learn is essential. Users can perform multiple sessions navigating through a varying number of pages. The purpose of this thesis is to propose data representations of Web users able to describe them in a fixed-dimensionality space. The proposed representations are Markov chains and documents, with the aim of performing user segmentation. The main focus of the thesis is on data representation and data modelling, however a complete description of the customer segmentation process is outlined, from data ingestion to results analysis. The performance of the proposed approach is tested and evaluated on two real different datasets, and in both cases meaningful results are obtained.

Scheda breve

Scheda completa

	Relatore
	
				AMIGONI, FRANCESCO
			
	Correlatore/i
	
				AZZALINI, DAVIDE
FLAMMINI, BENEDETTA
			
	Scuola / Dip.
	
				ING  - Scuola di Ingegneria Industriale e dell'Informazione
			
	Data
	
				20-dic-2022
			
	Anno accademico
	
				2021/2022
			
	Abstract in italiano
	
				Il Web è diventato una importante fonte di informazione, grazie anche allo sviluppo di nuove tecnologie digitali. Avere maggiori informazioni sui clienti può risultare conveniente per le aziende per poter raggiungere un vantaggio competitivo. E' per questo che oggi, molte aziende adottano sistemi in grado di gestire tali informazioni per trasformarle in conoscenza. La segmentazione dei clienti consiste nel suddividere i clienti in gruppi distinti, in base ad alcuni fattori specifici. Per rendere automatica la segmentazione dei clienti, è utile ricorrere a tecniche di Data Mining. Tuttavia, i dati di utenti Web sono dinamici e spesso appaiono non strutturati, quindi una opportuna rappresentazione dei dati, da cui un algoritmo di Data Mining è in grado di apprendere, è fondamentale. Infatti, gli utenti possono eseguire più sessioni navigando attraverso un numero variabile di pagine. Lo scopo di questa tesi è proporre rappresentazioni dei dati per utenti Web, che siano in grado di descriverli in uno spazio di dimensionalità fissa. Le rappresentazioni principali presentate sono catene di Markov e documenti, con lo scopo di eseguire la segmentazione degli utenti. Pertanto, l'obiettivo principale della tesi è la rappresentazione e modellazione dei dati, tuttavia viene proposta una guida completa dell'implementazione dell'intero processo di segmentazione dei clienti, dall'ingestione dei dati all'analisi dei risultati. Le prestazioni dell'approccio proposto sono valutate su due diversi set di dati reali.
			
	Appare nelle tipologie:
	
				Tesi di laurea Magistrale

File allegati

File	Dimensione	Formato
2022_12_Straccia_Executive_Summary.pdf non accessibile Descrizione: Executive Summary Dimensione 757.57 kB Formato Adobe PDF Visualizza/Apri	757.57 kB	Adobe PDF	Visualizza/Apri
2022_12_Straccia_Thesis.pdf non accessibile Descrizione: Thesis Dimensione 14.67 MB Formato Adobe PDF Visualizza/Apri	14.67 MB	Adobe PDF	Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/196639