In this thesis, we explore the potential of clickstream data for business applications. In particular, we are going to look at how clickstream data can be useful in the retail banking industry. How data collected on the Cetelem Portugal website can be used for both segmentation tasks as well as conversion prediction. In our application, using k-means we find eight visitor segments which are mainly distinguished by how far they progress along the theoretical customer journey. From a business perspective three of them prove to be very relevant representing converted and potential or hesitant visitors. Visits on the other hand can also be segmented using HDBSCAN into two main kinds: visits with purchase intention and visits without purchase intention. Regarding the conversion prediction task, we find that predicting if a visit is going to be a purchase visit or not using only clickstream data yields very good results, we use symbolized trajectories and sequence features (k-grams and horizontal visibility graph motifs) to build hand-crafted feature models. We also find that even early prediction that is based on only a limited observation window/number of clicks is possible.
In questa tesi, esploriamo il potenziale dei dati di clickstream per le applicazioni aziendali. In particolare, esamineremo come i dati di clickstream possano essere utili nell’industria bancaria al dettaglio. Come i dati raccolti sul sito web di Cetelem Portugal possano essere utilizzati sia per compiti di segmentazione che per la previsione delle conversioni. Nella nostra applicazione, utilizzando il metodo k-means, individuiamo otto segmenti di visitatori che sono principalmente distinti da quanto avanzano lungo il percorso teorico del cliente. Dal punto di vista aziendale, tre di essi si rivelano molto rilevanti, rappresentando visitatori convertiti e potenziali o titubanti. D’altra parte, le visite possono anche essere suddivise utilizzando HDBSCAN in due tipi principali: visite con l’intenzione di acquisto e visite senza l’intenzione di acquisto. Per quanto riguarda il compito di previsione delle conversioni, troviamo che prevedere se una visita si trasformerà in un acquisto o meno utilizzando solo i dati di clickstream produce risultati molto buoni. Utilizziamo traiettorie simbolizzate e caratteristiche di sequenza (k-grammi e motivi di grafo di visibilità orizzontale) per costruire modelli di caratteristiche realizzate manualmente. Troviamo anche che è possibile effettuare previsioni anche in anticipo basandosi solo su una finestra di osservazione limitata/numero di clic.
Segmentation and Conversion Prediction using Clickstream Data in retail banking
Bahtaoui, Anas
2022/2023
Abstract
In this thesis, we explore the potential of clickstream data for business applications. In particular, we are going to look at how clickstream data can be useful in the retail banking industry. How data collected on the Cetelem Portugal website can be used for both segmentation tasks as well as conversion prediction. In our application, using k-means we find eight visitor segments which are mainly distinguished by how far they progress along the theoretical customer journey. From a business perspective three of them prove to be very relevant representing converted and potential or hesitant visitors. Visits on the other hand can also be segmented using HDBSCAN into two main kinds: visits with purchase intention and visits without purchase intention. Regarding the conversion prediction task, we find that predicting if a visit is going to be a purchase visit or not using only clickstream data yields very good results, we use symbolized trajectories and sequence features (k-grams and horizontal visibility graph motifs) to build hand-crafted feature models. We also find that even early prediction that is based on only a limited observation window/number of clicks is possible.File | Dimensione | Formato | |
---|---|---|---|
Anas_Bahtaoui_Master_Thesis.pdf
non accessibile
Descrizione: Master Thesis
Dimensione
2.53 MB
Formato
Adobe PDF
|
2.53 MB | Adobe PDF | Visualizza/Apri |
I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/10589/210533