The Web has become a huge source of information due to the development of new digital technologies. User information can be profitable for companies to reach a strong competitive advantage. Hence, nowadays almost all companies exploit systems able to analyse user information and transform it into meaningful knowledge. The task of subdividing customers into distinct segments according to some specific factors is called customer segmentation. In order to perform customer segmentation in an automatic way, Data Mining techniques can be employed. However, Web user data are dynamical and often appear in an unstructured format, thus a suitable data representation from which a Data Mining algorithm is able to learn is essential. Users can perform multiple sessions navigating through a varying number of pages. The purpose of this thesis is to propose data representations of Web users able to describe them in a fixed-dimensionality space. The proposed representations are Markov chains and documents, with the aim of performing user segmentation. The main focus of the thesis is on data representation and data modelling, however a complete description of the customer segmentation process is outlined, from data ingestion to results analysis. The performance of the proposed approach is tested and evaluated on two real different datasets, and in both cases meaningful results are obtained.
Il Web è diventato una importante fonte di informazione, grazie anche allo sviluppo di nuove tecnologie digitali. Avere maggiori informazioni sui clienti può risultare conveniente per le aziende per poter raggiungere un vantaggio competitivo. E' per questo che oggi, molte aziende adottano sistemi in grado di gestire tali informazioni per trasformarle in conoscenza. La segmentazione dei clienti consiste nel suddividere i clienti in gruppi distinti, in base ad alcuni fattori specifici. Per rendere automatica la segmentazione dei clienti, è utile ricorrere a tecniche di Data Mining. Tuttavia, i dati di utenti Web sono dinamici e spesso appaiono non strutturati, quindi una opportuna rappresentazione dei dati, da cui un algoritmo di Data Mining è in grado di apprendere, è fondamentale. Infatti, gli utenti possono eseguire più sessioni navigando attraverso un numero variabile di pagine. Lo scopo di questa tesi è proporre rappresentazioni dei dati per utenti Web, che siano in grado di descriverli in uno spazio di dimensionalità fissa. Le rappresentazioni principali presentate sono catene di Markov e documenti, con lo scopo di eseguire la segmentazione degli utenti. Pertanto, l'obiettivo principale della tesi è la rappresentazione e modellazione dei dati, tuttavia viene proposta una guida completa dell'implementazione dell'intero processo di segmentazione dei clienti, dall'ingestione dei dati all'analisi dei risultati. Le prestazioni dell'approccio proposto sono valutate su due diversi set di dati reali.
Learning representations for clustering users of web applications
Straccia, Agnese
2021/2022
Abstract
The Web has become a huge source of information due to the development of new digital technologies. User information can be profitable for companies to reach a strong competitive advantage. Hence, nowadays almost all companies exploit systems able to analyse user information and transform it into meaningful knowledge. The task of subdividing customers into distinct segments according to some specific factors is called customer segmentation. In order to perform customer segmentation in an automatic way, Data Mining techniques can be employed. However, Web user data are dynamical and often appear in an unstructured format, thus a suitable data representation from which a Data Mining algorithm is able to learn is essential. Users can perform multiple sessions navigating through a varying number of pages. The purpose of this thesis is to propose data representations of Web users able to describe them in a fixed-dimensionality space. The proposed representations are Markov chains and documents, with the aim of performing user segmentation. The main focus of the thesis is on data representation and data modelling, however a complete description of the customer segmentation process is outlined, from data ingestion to results analysis. The performance of the proposed approach is tested and evaluated on two real different datasets, and in both cases meaningful results are obtained.File | Dimensione | Formato | |
---|---|---|---|
2022_12_Straccia_Executive_Summary.pdf
non accessibile
Descrizione: Executive Summary
Dimensione
757.57 kB
Formato
Adobe PDF
|
757.57 kB | Adobe PDF | Visualizza/Apri |
2022_12_Straccia_Thesis.pdf
non accessibile
Descrizione: Thesis
Dimensione
14.67 MB
Formato
Adobe PDF
|
14.67 MB | Adobe PDF | Visualizza/Apri |
I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/10589/196639