The Web has become a huge source of information due to the development of new digital technologies. User information can be profitable for companies to reach a strong competitive advantage. Hence, nowadays almost all companies exploit systems able to analyse user information and transform it into meaningful knowledge. The task of subdividing customers into distinct segments according to some specific factors is called customer segmentation. In order to perform customer segmentation in an automatic way, Data Mining techniques can be employed. However, Web user data are dynamical and often appear in an unstructured format, thus a suitable data representation from which a Data Mining algorithm is able to learn is essential. Users can perform multiple sessions navigating through a varying number of pages. The purpose of this thesis is to propose data representations of Web users able to describe them in a fixed-dimensionality space. The proposed representations are Markov chains and documents, with the aim of performing user segmentation. The main focus of the thesis is on data representation and data modelling, however a complete description of the customer segmentation process is outlined, from data ingestion to results analysis. The performance of the proposed approach is tested and evaluated on two real different datasets, and in both cases meaningful results are obtained.

Il Web è diventato una importante fonte di informazione, grazie anche allo sviluppo di nuove tecnologie digitali. Avere maggiori informazioni sui clienti può risultare conveniente per le aziende per poter raggiungere un vantaggio competitivo. E' per questo che oggi, molte aziende adottano sistemi in grado di gestire tali informazioni per trasformarle in conoscenza. La segmentazione dei clienti consiste nel suddividere i clienti in gruppi distinti, in base ad alcuni fattori specifici. Per rendere automatica la segmentazione dei clienti, è utile ricorrere a tecniche di Data Mining. Tuttavia, i dati di utenti Web sono dinamici e spesso appaiono non strutturati, quindi una opportuna rappresentazione dei dati, da cui un algoritmo di Data Mining è in grado di apprendere, è fondamentale. Infatti, gli utenti possono eseguire più sessioni navigando attraverso un numero variabile di pagine. Lo scopo di questa tesi è proporre rappresentazioni dei dati per utenti Web, che siano in grado di descriverli in uno spazio di dimensionalità fissa. Le rappresentazioni principali presentate sono catene di Markov e documenti, con lo scopo di eseguire la segmentazione degli utenti. Pertanto, l'obiettivo principale della tesi è la rappresentazione e modellazione dei dati, tuttavia viene proposta una guida completa dell'implementazione dell'intero processo di segmentazione dei clienti, dall'ingestione dei dati all'analisi dei risultati. Le prestazioni dell'approccio proposto sono valutate su due diversi set di dati reali.

Learning representations for clustering users of web applications

Straccia, Agnese
2021/2022

Abstract

The Web has become a huge source of information due to the development of new digital technologies. User information can be profitable for companies to reach a strong competitive advantage. Hence, nowadays almost all companies exploit systems able to analyse user information and transform it into meaningful knowledge. The task of subdividing customers into distinct segments according to some specific factors is called customer segmentation. In order to perform customer segmentation in an automatic way, Data Mining techniques can be employed. However, Web user data are dynamical and often appear in an unstructured format, thus a suitable data representation from which a Data Mining algorithm is able to learn is essential. Users can perform multiple sessions navigating through a varying number of pages. The purpose of this thesis is to propose data representations of Web users able to describe them in a fixed-dimensionality space. The proposed representations are Markov chains and documents, with the aim of performing user segmentation. The main focus of the thesis is on data representation and data modelling, however a complete description of the customer segmentation process is outlined, from data ingestion to results analysis. The performance of the proposed approach is tested and evaluated on two real different datasets, and in both cases meaningful results are obtained.
AZZALINI, DAVIDE
FLAMMINI, BENEDETTA
ING - Scuola di Ingegneria Industriale e dell'Informazione
20-dic-2022
2021/2022
Il Web è diventato una importante fonte di informazione, grazie anche allo sviluppo di nuove tecnologie digitali. Avere maggiori informazioni sui clienti può risultare conveniente per le aziende per poter raggiungere un vantaggio competitivo. E' per questo che oggi, molte aziende adottano sistemi in grado di gestire tali informazioni per trasformarle in conoscenza. La segmentazione dei clienti consiste nel suddividere i clienti in gruppi distinti, in base ad alcuni fattori specifici. Per rendere automatica la segmentazione dei clienti, è utile ricorrere a tecniche di Data Mining. Tuttavia, i dati di utenti Web sono dinamici e spesso appaiono non strutturati, quindi una opportuna rappresentazione dei dati, da cui un algoritmo di Data Mining è in grado di apprendere, è fondamentale. Infatti, gli utenti possono eseguire più sessioni navigando attraverso un numero variabile di pagine. Lo scopo di questa tesi è proporre rappresentazioni dei dati per utenti Web, che siano in grado di descriverli in uno spazio di dimensionalità fissa. Le rappresentazioni principali presentate sono catene di Markov e documenti, con lo scopo di eseguire la segmentazione degli utenti. Pertanto, l'obiettivo principale della tesi è la rappresentazione e modellazione dei dati, tuttavia viene proposta una guida completa dell'implementazione dell'intero processo di segmentazione dei clienti, dall'ingestione dei dati all'analisi dei risultati. Le prestazioni dell'approccio proposto sono valutate su due diversi set di dati reali.
File allegati
File Dimensione Formato  
2022_12_Straccia_Executive_Summary.pdf

non accessibile

Descrizione: Executive Summary
Dimensione 757.57 kB
Formato Adobe PDF
757.57 kB Adobe PDF   Visualizza/Apri
2022_12_Straccia_Thesis.pdf

non accessibile

Descrizione: Thesis
Dimensione 14.67 MB
Formato Adobe PDF
14.67 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/196639