This work stems from the necessity of an insurtech start-up to profile the increasing number of users visiting their company website for the purpose of purchasing insurance policies. Customers who do not complete the entire process of policy subscription are subsequently contacted to finalize the process, receiving telephonic assistance from the in-house sales department or an external call center in collaboration with the company. The surge in leads, up to the point of saturating the company's resources for handling potential new clients, has led to the need to classify these leads into three main categories: the first involves no assistance from a consultant to the users, while the other two categories entail providing user support through either an in-house sales representative or an external call center. To adequately classify each customer, an analysis of their key commercial characteristics, which are most significant, is necessary. These characteristics are used to identify the commercially most appealing prospects. The idea is to develop a lead scoring system aimed at establishing priority among new prospects through a coefficient representing the level of interest the company assigns to each of them. Based on the data provided by users on the website, integrated with system data associated with each user, a logistic multinomial classification model has been designed. In this model, each user constitutes an observation in the dataset, and the response variable consists of three classes indicating their respective allocation modes: \textit{Not Managed}, \textit{Sales Department}, and \textit{Call Center}. The model assigns a probability to each user belonging to each of the three categories, and the probability of belonging to the \textit{Sales Department} category represents the lead's scoring. Subsequently, the company's project, which extends beyond the scope of this thesis, involves transitioning from a logistic multinomial model to a machine learning model. This transition represents a significant improvement in the dynamics of learning from new data, reflecting the company's data-driven process automation policy. This non-parametric version of the model allows for greater flexibility and adaptability to the data, further enhancing the model's predictive performance. However, the insurtech sector presents some unique characteristics that require a distinctive approach to data management. Specifically, the nature of the insurance products sold by the Lokky start-up and the needs of each customer imply that each user is interested in only one insurance product, unlike other sectors where a customer may be interested in multiple products. Secondly, the influx of new data into the company's database is often limited because once a user subscribes to a policy, they are unlikely to be interested in other insurance products before the expiration of their current policy, typically on an annual basis. Both dynamics necessitate a data enrichment approach to better explore the space of variables used as regressors in the machine learning model more comprehensively. Through this approach, it will be possible to acquire additional insights into user behavior and further enhance the predictive performance of both models. Therefore, the thesis will be structured as follows: in the first chapter, the multinomial logistic model will be presented from both a theoretical and applied perspective, including the implementation of various structural variations and the selection of the model, along with the presentation of key results. In the second chapter, the theme of data enrichment and the techniques used in generating synthetic data for database enrichment will be introduced. Theoretical discussions on the functioning of Bayesian networks, used in estimating conditional distributions of variables, will precede the presentation of the synthetic data generation algorithm. This will involve a detailed walkthrough of the main phases of the process, from estimating joint distributions to sampling synthetic data, and ultimately, the analysis and validation of data quality. In the third chapter, the results of the multinomial logistic model trained with real data will be compared to those obtained with enriched data, using appropriate metrics to evaluate predictive capacity. In the initial phase, the real database was replicated in a general manner, and subsequently, the decision was made to enrich information related to a specific cluster of clients. The results produced in both contexts will be compared, discussing the optimal choice of parameters to be set in the data generation algorithm to ensure the best predictive performance.

Questo lavoro nasce dall'esigenza di una start-up nel settore insurtech di profilare i sempre più numerosi utenti che entrano nel sito aziendale per stipulare una polizza assicurativa. I clienti che non ultimano l'iter fino alla sottoscrizione della polizza vengono ricontattati per concludere il processo, assistiti telefonicamente dal reparto sales o dal call center esterno in collaborazione con l'azienda. L'aumento dei lead fino alla saturazione delle risorse aziendali per la gestione dei possibili nuovi clienti ha portarto alla necessità di classificare gli stessi in tre macrocategorie: la prima prevede di non affiancare alcun consulente agli utenti, nelle altre due invece si procede con un affiancamento del cliente rispettivamente ad un addetto alle vendite interno all'azienda o a un call center esterno. Per classificare in modo adeguato ciascun cliente è necessaria un'analisi delle principali caratteristiche dei clienti stessi che risultino commercialmente più significative, in base alle quali vengono individuati i soggetti commercialmente più appetibili. L'idea quindi è di sviluppare un lead scoring volto a stabilire una priorità tra i nuovi prospect tramite un coefficiente che simboleggi il grado di interesse che l'azienda attribuisce a ciascuno di essi. Sulla base dei dati forniti dagli utenti sul sito online integrati con i dati di sistema associabili a ciascuno di essi, è stato progettato un modello di classificazione multinomiale logistico in cui ogni utente costituisce un'osservazione del dataset, e la variabile risposta è formata da tre classi per indicare la rispettiva modalità di allocazione: \textit{Non gestito}, \textit{Sales Interno} e \textit{Call Center}. Il modello prevede l'assegnazione di una probabilità ad ogni utente di appartenere a ciascuna delle 3 categorie, e la probabilità di appartenere alla categoria \textit{Sales Interno} rappresenta lo scoring del relativo lead. Successivamente il progetto aziendale, che si estende al di fuori dei confini di questa tesi, prevede il passaggio da un modello multinomiale logistico a un modello di machine learning, transizione che rappresenta un importante miglioramento della dinamicità del processo di apprendimento dei nuovi dati, e in generale rispecchia una politica aziendale di automatizzazione dei processi data-driven. Questa versione non parametrica del modello, infatti, permette una maggiore flessibilità e capacità di adattamento ai dati. Inoltre, offre una maggiore flessibilità, peraltro già soddisfacente, nell'utilizzo delle variabili esplicative, migliorando così le performance predittive del modello stesso. Tuttavia il settore insuretech presenta alcune peculiarità che rendono necessario un approccio singolare nella gestione dei dati. In particolare, la natura dei prodotti assicurativi venduti dalla startup Lokky e le esigenze di ciascun cliente implicano che ogni utente sia interessato a un solo prodotto assicurativo, a differenza di altri settori nei quali un cliente può essere interessato a diversi prodotti. In secondo luogo, il flusso di nuovi dati nel database aziendale è spesso limitato dal fatto che lo stesso utente, una volta sottoscritta la polizza, difficilmente sarà interessato ad altri prodotti assicurativi prima della scadenza della polizza stessa, solitamente di durata annuale. Entrambe le dinamiche rendono necessario un approccio di data enrichment al fine di esplorare in modo più completo lo spazio delle variabili utilizzate come regressori nel modello di machine learning. Grazie a questo approccio, sarà possibile acquisire ulteriori informazioni sul comportamento degli utenti e migliorare ulteriormente le performance predittive di entrambi i modelli. Pertanto la tesi sarà strutturata nel modo seguente: nel primo capitolo viene presentato il modello logistico multinomiale sia dal punto di vista teorico che applicato al contesto di lavoro, l'implementazione di diverse varianti struttrali, la scelta del modello con l'esposizione dei principali risultati. Nel secondo capitolo viene introdotto il tema del data enrichment e le tecniche utilizzate nella generazione dei dati sintetici volta all'arricchimento del database. In primo luogo viene trattato teoricamente il funzionamento delle reti bayesiane, utilizzate nella stima delle distribuzioni condizionate delle variabili. Segue la presentazione dell'algoritmo di generazione dei dati sintetici, percorrendo in modo dettagliato le fasi principali del processo, dalla stima della distribuzione congiunta al campionamento dei dati sintetici, fino all'analisi e alla validazione della qualità dei dati generati. Nel terzo capitolo vengono confrontati i risultati del modello multinomiale logistico allenato con i dati reali e con i dati arricchiti, attraverso l'utilizzo di apposite metriche di valutazione della capacità predittiva. In una prima fase il database reale è stato replicato in maniera generale, successivamente si è scelto di arricchire le informazioni relative ad un cluster specifico di clienti. Sono stati confrontati i risultati prodotti in entrambi i contesti, discutendo la scelta ottimale dei parametri da fissare nell'algoritmo di generazione dei dati al fine di garantire le performance predittive migliori.

Lead scoring: modello di classificazione dei clienti di una insurtech

Palli, Edoardo Maria
2022/2023

Abstract

This work stems from the necessity of an insurtech start-up to profile the increasing number of users visiting their company website for the purpose of purchasing insurance policies. Customers who do not complete the entire process of policy subscription are subsequently contacted to finalize the process, receiving telephonic assistance from the in-house sales department or an external call center in collaboration with the company. The surge in leads, up to the point of saturating the company's resources for handling potential new clients, has led to the need to classify these leads into three main categories: the first involves no assistance from a consultant to the users, while the other two categories entail providing user support through either an in-house sales representative or an external call center. To adequately classify each customer, an analysis of their key commercial characteristics, which are most significant, is necessary. These characteristics are used to identify the commercially most appealing prospects. The idea is to develop a lead scoring system aimed at establishing priority among new prospects through a coefficient representing the level of interest the company assigns to each of them. Based on the data provided by users on the website, integrated with system data associated with each user, a logistic multinomial classification model has been designed. In this model, each user constitutes an observation in the dataset, and the response variable consists of three classes indicating their respective allocation modes: \textit{Not Managed}, \textit{Sales Department}, and \textit{Call Center}. The model assigns a probability to each user belonging to each of the three categories, and the probability of belonging to the \textit{Sales Department} category represents the lead's scoring. Subsequently, the company's project, which extends beyond the scope of this thesis, involves transitioning from a logistic multinomial model to a machine learning model. This transition represents a significant improvement in the dynamics of learning from new data, reflecting the company's data-driven process automation policy. This non-parametric version of the model allows for greater flexibility and adaptability to the data, further enhancing the model's predictive performance. However, the insurtech sector presents some unique characteristics that require a distinctive approach to data management. Specifically, the nature of the insurance products sold by the Lokky start-up and the needs of each customer imply that each user is interested in only one insurance product, unlike other sectors where a customer may be interested in multiple products. Secondly, the influx of new data into the company's database is often limited because once a user subscribes to a policy, they are unlikely to be interested in other insurance products before the expiration of their current policy, typically on an annual basis. Both dynamics necessitate a data enrichment approach to better explore the space of variables used as regressors in the machine learning model more comprehensively. Through this approach, it will be possible to acquire additional insights into user behavior and further enhance the predictive performance of both models. Therefore, the thesis will be structured as follows: in the first chapter, the multinomial logistic model will be presented from both a theoretical and applied perspective, including the implementation of various structural variations and the selection of the model, along with the presentation of key results. In the second chapter, the theme of data enrichment and the techniques used in generating synthetic data for database enrichment will be introduced. Theoretical discussions on the functioning of Bayesian networks, used in estimating conditional distributions of variables, will precede the presentation of the synthetic data generation algorithm. This will involve a detailed walkthrough of the main phases of the process, from estimating joint distributions to sampling synthetic data, and ultimately, the analysis and validation of data quality. In the third chapter, the results of the multinomial logistic model trained with real data will be compared to those obtained with enriched data, using appropriate metrics to evaluate predictive capacity. In the initial phase, the real database was replicated in a general manner, and subsequently, the decision was made to enrich information related to a specific cluster of clients. The results produced in both contexts will be compared, discussing the optimal choice of parameters to be set in the data generation algorithm to ensure the best predictive performance.
Sfogliarini, Bruno
ING - Scuola di Ingegneria Industriale e dell'Informazione
5-ott-2023
2022/2023
Questo lavoro nasce dall'esigenza di una start-up nel settore insurtech di profilare i sempre più numerosi utenti che entrano nel sito aziendale per stipulare una polizza assicurativa. I clienti che non ultimano l'iter fino alla sottoscrizione della polizza vengono ricontattati per concludere il processo, assistiti telefonicamente dal reparto sales o dal call center esterno in collaborazione con l'azienda. L'aumento dei lead fino alla saturazione delle risorse aziendali per la gestione dei possibili nuovi clienti ha portarto alla necessità di classificare gli stessi in tre macrocategorie: la prima prevede di non affiancare alcun consulente agli utenti, nelle altre due invece si procede con un affiancamento del cliente rispettivamente ad un addetto alle vendite interno all'azienda o a un call center esterno. Per classificare in modo adeguato ciascun cliente è necessaria un'analisi delle principali caratteristiche dei clienti stessi che risultino commercialmente più significative, in base alle quali vengono individuati i soggetti commercialmente più appetibili. L'idea quindi è di sviluppare un lead scoring volto a stabilire una priorità tra i nuovi prospect tramite un coefficiente che simboleggi il grado di interesse che l'azienda attribuisce a ciascuno di essi. Sulla base dei dati forniti dagli utenti sul sito online integrati con i dati di sistema associabili a ciascuno di essi, è stato progettato un modello di classificazione multinomiale logistico in cui ogni utente costituisce un'osservazione del dataset, e la variabile risposta è formata da tre classi per indicare la rispettiva modalità di allocazione: \textit{Non gestito}, \textit{Sales Interno} e \textit{Call Center}. Il modello prevede l'assegnazione di una probabilità ad ogni utente di appartenere a ciascuna delle 3 categorie, e la probabilità di appartenere alla categoria \textit{Sales Interno} rappresenta lo scoring del relativo lead. Successivamente il progetto aziendale, che si estende al di fuori dei confini di questa tesi, prevede il passaggio da un modello multinomiale logistico a un modello di machine learning, transizione che rappresenta un importante miglioramento della dinamicità del processo di apprendimento dei nuovi dati, e in generale rispecchia una politica aziendale di automatizzazione dei processi data-driven. Questa versione non parametrica del modello, infatti, permette una maggiore flessibilità e capacità di adattamento ai dati. Inoltre, offre una maggiore flessibilità, peraltro già soddisfacente, nell'utilizzo delle variabili esplicative, migliorando così le performance predittive del modello stesso. Tuttavia il settore insuretech presenta alcune peculiarità che rendono necessario un approccio singolare nella gestione dei dati. In particolare, la natura dei prodotti assicurativi venduti dalla startup Lokky e le esigenze di ciascun cliente implicano che ogni utente sia interessato a un solo prodotto assicurativo, a differenza di altri settori nei quali un cliente può essere interessato a diversi prodotti. In secondo luogo, il flusso di nuovi dati nel database aziendale è spesso limitato dal fatto che lo stesso utente, una volta sottoscritta la polizza, difficilmente sarà interessato ad altri prodotti assicurativi prima della scadenza della polizza stessa, solitamente di durata annuale. Entrambe le dinamiche rendono necessario un approccio di data enrichment al fine di esplorare in modo più completo lo spazio delle variabili utilizzate come regressori nel modello di machine learning. Grazie a questo approccio, sarà possibile acquisire ulteriori informazioni sul comportamento degli utenti e migliorare ulteriormente le performance predittive di entrambi i modelli. Pertanto la tesi sarà strutturata nel modo seguente: nel primo capitolo viene presentato il modello logistico multinomiale sia dal punto di vista teorico che applicato al contesto di lavoro, l'implementazione di diverse varianti struttrali, la scelta del modello con l'esposizione dei principali risultati. Nel secondo capitolo viene introdotto il tema del data enrichment e le tecniche utilizzate nella generazione dei dati sintetici volta all'arricchimento del database. In primo luogo viene trattato teoricamente il funzionamento delle reti bayesiane, utilizzate nella stima delle distribuzioni condizionate delle variabili. Segue la presentazione dell'algoritmo di generazione dei dati sintetici, percorrendo in modo dettagliato le fasi principali del processo, dalla stima della distribuzione congiunta al campionamento dei dati sintetici, fino all'analisi e alla validazione della qualità dei dati generati. Nel terzo capitolo vengono confrontati i risultati del modello multinomiale logistico allenato con i dati reali e con i dati arricchiti, attraverso l'utilizzo di apposite metriche di valutazione della capacità predittiva. In una prima fase il database reale è stato replicato in maniera generale, successivamente si è scelto di arricchire le informazioni relative ad un cluster specifico di clienti. Sono stati confrontati i risultati prodotti in entrambi i contesti, discutendo la scelta ottimale dei parametri da fissare nell'algoritmo di generazione dei dati al fine di garantire le performance predittive migliori.
File allegati
File Dimensione Formato  
Tesi da caricare.pdf

accessibile in internet per tutti

Dimensione 6.05 MB
Formato Adobe PDF
6.05 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/209793