Survival analysis is a subfield of statistics where the goal is to analyse and model the data where the outcome is the time until the occurrence of an event of interest. Because of the intrinsic temporal nature of the analysis, the employment of more recently developed sequential models (Recurrent Neural Network (RNN) and Long Short Term Memory (LSTM)) has been paired with the use of dynamic temporal features, in contrast with the past reliance on static ones. Such an abrupt shift of policy has left open the challenge of understanding how those two kinds of features influence the predictive capabilities of models. This thesis aims at assessing the effect of combining static and dynamic features on the most commonly used models in survival analysis. In doing so, we compare the error measurements of such models with dataset composed of purely dynamic features or a combination of static and dynamic ones. Empirical measurements have shown that models respond differently to the addition of static features to the analysis, with more complex, sequential models like the LSTM struggling to deal with the added data complexity (with a 12% increase in error), while non sequential models see reductions of up to 14.7% in error. The thesis also includes a clusterization task aimed at aiding the interpretation of survival analysis outcomes.

L’analisi della sopravvivenza è una branca della statistica il cui obiettivo è l’analisi e la modellazione di dati il cui risultato è il tempo che intercorre fino al verificarsi di un evento di interesse. A causa dell’intrinseca natura temporale dell’analisi, l’impiego di modelli sequenziali di più recente sviluppo (RNN e LSTM) è stato abbinato all’uso di attributi temporali dinamici, a differenza dell’uso più diffuso in passato di attributi statici. Questo brusco cambiamento ha lasciato aperta la sfida di capire come questi due tipi di attributi influenzino le capacità predittive dei modelli. Questa tesi si propone di valutare l’effetto della combinazione di attributi statici e dinamici sui modelli più comunemente utilizzati nell’analisi della sopravvivenza. A tal fine, confrontiamo le misure di errore di tali modelli con set di dati composti da attributi puramente dinamici o da una combinazione di statici e dinamici. I risultati empirici hanno mostrato che i modelli rispondono in modo diverso all’aggiunta di attributi statici, con i modelli sequenziali più complessi, come l’LSTM, che faticano a gestire la complessità dei dati aggiunti (con un aumento dell’errore del 12%), mentre i modelli non sequenziali registrano riduzioni dell’errore fino al 14,7%. La tesi comprende anche una clusterizzazione volta a facilitare l’interpretazione dei risultati dell’analisi di sopravvivenza.

Customer churn prediction in a slow fashion e-commerce context : an analysis of the effect of static data in customer churn prediction

COLASANTI, LUCA
2021/2022

Abstract

Survival analysis is a subfield of statistics where the goal is to analyse and model the data where the outcome is the time until the occurrence of an event of interest. Because of the intrinsic temporal nature of the analysis, the employment of more recently developed sequential models (Recurrent Neural Network (RNN) and Long Short Term Memory (LSTM)) has been paired with the use of dynamic temporal features, in contrast with the past reliance on static ones. Such an abrupt shift of policy has left open the challenge of understanding how those two kinds of features influence the predictive capabilities of models. This thesis aims at assessing the effect of combining static and dynamic features on the most commonly used models in survival analysis. In doing so, we compare the error measurements of such models with dataset composed of purely dynamic features or a combination of static and dynamic ones. Empirical measurements have shown that models respond differently to the addition of static features to the analysis, with more complex, sequential models like the LSTM struggling to deal with the added data complexity (with a 12% increase in error), while non sequential models see reductions of up to 14.7% in error. The thesis also includes a clusterization task aimed at aiding the interpretation of survival analysis outcomes.
ING - Scuola di Ingegneria Industriale e dell'Informazione
4-mag-2023
2021/2022
L’analisi della sopravvivenza è una branca della statistica il cui obiettivo è l’analisi e la modellazione di dati il cui risultato è il tempo che intercorre fino al verificarsi di un evento di interesse. A causa dell’intrinseca natura temporale dell’analisi, l’impiego di modelli sequenziali di più recente sviluppo (RNN e LSTM) è stato abbinato all’uso di attributi temporali dinamici, a differenza dell’uso più diffuso in passato di attributi statici. Questo brusco cambiamento ha lasciato aperta la sfida di capire come questi due tipi di attributi influenzino le capacità predittive dei modelli. Questa tesi si propone di valutare l’effetto della combinazione di attributi statici e dinamici sui modelli più comunemente utilizzati nell’analisi della sopravvivenza. A tal fine, confrontiamo le misure di errore di tali modelli con set di dati composti da attributi puramente dinamici o da una combinazione di statici e dinamici. I risultati empirici hanno mostrato che i modelli rispondono in modo diverso all’aggiunta di attributi statici, con i modelli sequenziali più complessi, come l’LSTM, che faticano a gestire la complessità dei dati aggiunti (con un aumento dell’errore del 12%), mentre i modelli non sequenziali registrano riduzioni dell’errore fino al 14,7%. La tesi comprende anche una clusterizzazione volta a facilitare l’interpretazione dei risultati dell’analisi di sopravvivenza.
File allegati
File Dimensione Formato  
Customer_Churn_Prediction_In_A_Slow_Fashion_E-commerce_Context.pdf

accessibile in internet per tutti

Descrizione: Thesis document
Dimensione 7.2 MB
Formato Adobe PDF
7.2 MB Adobe PDF Visualizza/Apri
Executive_Summary.pdf

accessibile in internet per tutti

Descrizione: Executive Summary
Dimensione 325.63 kB
Formato Adobe PDF
325.63 kB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/210432