One of the most widely used technique in the service sector is customer segmentation. With the radical data science transformation that is currently happening in every industry, customer segmentation techniques are quickly shifting to more advanced Artificial Intelligence approaches. The unsupervised Machine Learning area of clustering can help in solving this task and it is currently used in many real case scenarios.\\ However, when it comes to perform customer segmentation using clustering techniques over transactional data, defining a proper method can be not so straight-forward. Many research works, tried to solve this task by aggregating the time-series of transactions using a set of explanatory indicators, and subsequently applying traditional clustering methods. Nonetheless, this process can lead to loss of information as well as biased outcome due to the manual choice of aggregation functions.\\ This thesis aims to overcome this problem proposing a Deep Learning approach that enables handling raw time-series of transactions. First, a compressed representation of the raw time-series is generated by employing an under-complete autoencoder, and secondly an ad-hoc designed Neural Network is used to modify the found representation and making it more suitable for the clustering task. The learning happens by jointly optimize the autoencoder reconstruction loss and a specifically chosen clustering loss. \\ Results are then validated both in a syntactic and in a semantic way by using clustering quality metrics and by involving domain experts. The proposed approach, applied to raw transactions, improve the classical clustering method and produce valuable clusters in the specific domain. \\ Being this a first attempt of applying deep clustering techniques to raw transactional data, many areas of improvement are still open and future works needed.

Una delle tecniche più usate nell’ambito del settore terziario è la così detta "customer segmentation". \\ Con la radicale trasformazione di ogni industria dovuta all'avanzamento nel campo Data Science, anche le classiche tecniche di customer segmentation stanno evolvendosi in più sofisticate tecniche di Artificial Intelligence. La branca di Unsupervised Learning chiamata clustering può essere d'aiuto in questi casi, ed è già molto usata in diversi scenari.\\ Tuttavia, quando si tratta di applicare tecniche di clustering per customer segmentation, usando dati transazionali, definire un metodo appropriato ed efficiente non é immediato. Molti studi hanno provato a risolvere questo problema aggregando serie di transazioni per ogni cliente e, in un secondo momento, applicando classici algoritmi di clustering. Questo processo però, che include la scelta arbitraria di funzioni di aggregazione, può portare alla perdita di informazione e a risultati distorti.\\ Questa tesi si propone di risolvere questo problema presentando un approccio che, facendo uso di tecniche di Deep Learning, è capace di trattare serie di transazione "grezze" senza dover preoccuparsi di come aggregarle. Le serie di transazioni vengono prima rappresentate usando un under-complete autoencoder e poi date come input ad una rete neurale, appositamente creata per modificare la rappresentazione trovata e renderla più adatta al clustering. L'apprendimento della rete neurale avviene minimizzando la reconstruction loss dell'autoencoder e una clustering loss appositamente studiata, allo stesso tempo.\\ I risultati sono valutati, sia sintatticamente che semanticamente, usando specifiche indicatori di qualità dei clusters e collaborando con esperti nel settore. L'approccio proposto, applicato a serie di transazioni grezze, supera i risultati ottenuti con metodi di clustering classici, e produce risultati sensati nel settore.\\ Essendo questo il primo tentativo di applicare tecniche di Deep Learning a serie di transazioni grezze, c'è ancora molto spazio per miglioramenti e futuri studi.

Multivariate time series deep clustering : customer segmentation by financial transactions

PORCIANI, ALEX
2018/2019

Abstract

One of the most widely used technique in the service sector is customer segmentation. With the radical data science transformation that is currently happening in every industry, customer segmentation techniques are quickly shifting to more advanced Artificial Intelligence approaches. The unsupervised Machine Learning area of clustering can help in solving this task and it is currently used in many real case scenarios.\\ However, when it comes to perform customer segmentation using clustering techniques over transactional data, defining a proper method can be not so straight-forward. Many research works, tried to solve this task by aggregating the time-series of transactions using a set of explanatory indicators, and subsequently applying traditional clustering methods. Nonetheless, this process can lead to loss of information as well as biased outcome due to the manual choice of aggregation functions.\\ This thesis aims to overcome this problem proposing a Deep Learning approach that enables handling raw time-series of transactions. First, a compressed representation of the raw time-series is generated by employing an under-complete autoencoder, and secondly an ad-hoc designed Neural Network is used to modify the found representation and making it more suitable for the clustering task. The learning happens by jointly optimize the autoencoder reconstruction loss and a specifically chosen clustering loss. \\ Results are then validated both in a syntactic and in a semantic way by using clustering quality metrics and by involving domain experts. The proposed approach, applied to raw transactions, improve the classical clustering method and produce valuable clusters in the specific domain. \\ Being this a first attempt of applying deep clustering techniques to raw transactional data, many areas of improvement are still open and future works needed.
ING - Scuola di Ingegneria Industriale e dell'Informazione
3-ott-2019
2018/2019
Una delle tecniche più usate nell’ambito del settore terziario è la così detta "customer segmentation". \\ Con la radicale trasformazione di ogni industria dovuta all'avanzamento nel campo Data Science, anche le classiche tecniche di customer segmentation stanno evolvendosi in più sofisticate tecniche di Artificial Intelligence. La branca di Unsupervised Learning chiamata clustering può essere d'aiuto in questi casi, ed è già molto usata in diversi scenari.\\ Tuttavia, quando si tratta di applicare tecniche di clustering per customer segmentation, usando dati transazionali, definire un metodo appropriato ed efficiente non é immediato. Molti studi hanno provato a risolvere questo problema aggregando serie di transazioni per ogni cliente e, in un secondo momento, applicando classici algoritmi di clustering. Questo processo però, che include la scelta arbitraria di funzioni di aggregazione, può portare alla perdita di informazione e a risultati distorti.\\ Questa tesi si propone di risolvere questo problema presentando un approccio che, facendo uso di tecniche di Deep Learning, è capace di trattare serie di transazione "grezze" senza dover preoccuparsi di come aggregarle. Le serie di transazioni vengono prima rappresentate usando un under-complete autoencoder e poi date come input ad una rete neurale, appositamente creata per modificare la rappresentazione trovata e renderla più adatta al clustering. L'apprendimento della rete neurale avviene minimizzando la reconstruction loss dell'autoencoder e una clustering loss appositamente studiata, allo stesso tempo.\\ I risultati sono valutati, sia sintatticamente che semanticamente, usando specifiche indicatori di qualità dei clusters e collaborando con esperti nel settore. L'approccio proposto, applicato a serie di transazioni grezze, supera i risultati ottenuti con metodi di clustering classici, e produce risultati sensati nel settore.\\ Essendo questo il primo tentativo di applicare tecniche di Deep Learning a serie di transazioni grezze, c'è ancora molto spazio per miglioramenti e futuri studi.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
Tesi_Porciani_Alex.pdf

non accessibile

Descrizione: Documento di tesi
Dimensione 2.96 MB
Formato Adobe PDF
2.96 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/149914