In today’s insurance industry, the ingredients for success are not a secret. With the increase in the digitalization of business processes, swiftly handling policy applications and claims is key in providing excellent customer service. In this complex and fast-paced environment, a deep understanding of the customer is no longer optional. This thesis presents the results of applying Survival Analysis techniques and Machine Learning algorithms to the car insurance sector. First, in order to define a starting point, the trends and structure of the Italian Insurtech sector were investigated to comprehend the environment and the underlying principles governing it. Then, the users' data was analyzed with the data owner's cooperation to discover what elements and which characteristics were relevant to the task at hand, in order to define a work perimeter. The prepared dataset was then used as input for various models. Before implementing the survival model, first we started with a classification model, to understand how a more classical approach would fare, and check if it could have been sufficient. The results analysis process revealed that classification is unable to achieve the set goals, especially as censored data, which are common in this scenario, cannot handled properly by the model. The comparison between the survival baseline and the final model highlighted the need to exploit all features to properly estimate an acceptable survival function, in particular in this sector, where the indicators to be used are many. Lastly, possible points of improvement and considerations regarding future developments of the taken approach are listed at the end of the document.

I fattori che contribuiscono al successo all'interno del settore assicurativo del giorno d'oggi non sono un segreto. Con l'incremento del livello di digitalizzazione dei processi di business, una rapida e accurata gestione dei sinistri è la chiave nel fornire un servizio clienti di qualità. In questo settore così dinamico e complesso, una profonda consapevolezza delle caratteristiche dei propri clienti non rappresenta un fattore ormai ignorabile. Questa tesi espone i risultati ottenuti dall'applicazione di tecniche di Analisi di Sopravvivenza e algoritmi di Machine Learning al settore assicurativo automobilistico. Il lavoro svolto si è basato su un'analisi dei trend e della struttura del settore Insurtech, in particolare italiano, con l'obiettivo di comprenderne le caratteristiche e i principi che ne regolano le dinamiche. Successivamente, i dati condivisi sono stati analizzati scrupolosamente in collaborazione con il data owner, in modo da identificare quali elementi e aspetti fossero rilevanti per il raggiungimento dell'obiettivo prefissato, definendo quindi un perimetro di lavoro ben preciso. Il dataset così definito è stato poi usato come input per diversi modelli. Prima di implementare i modelli di sopravvivenza, è stato testato un modello di classificazione con l'obiettivo di comprendere come un approccio più classico avrebbe performato nel caso in esame, e se fosse stato eventualmente sufficiente. Il processo di analisi dei risultati ha rivelato come un modello di classificazione non sia in grado di raggiungere gli obiettivi prefissati, in particolar modo dovuto alla prevalente presenza di dati censurati, che il modello non riesce ad utilizzare correttamente. Il confronto finale tra i modelli di sopravvivenza, baseline e ultimo modello implementato, ha evidenziato la necessità di sfruttare a pieno tutte le feature per stimare una funzione di sopravvivenza sufficientemente precisa, in particolar modo in questo contesto, dove gli indicatori da utilizzare sono verosimilmente molti. Infine, possibili aspetti migliorabili e considerazioni su sviluppi futuri riguardo al lavoro svolto sono esposti nell'ultima sezione dell'elaborato.

Survival analysis techniques applied to car insurance for claims and frauds risks prediction.

Abdrabou, Omar
2021/2022

Abstract

In today’s insurance industry, the ingredients for success are not a secret. With the increase in the digitalization of business processes, swiftly handling policy applications and claims is key in providing excellent customer service. In this complex and fast-paced environment, a deep understanding of the customer is no longer optional. This thesis presents the results of applying Survival Analysis techniques and Machine Learning algorithms to the car insurance sector. First, in order to define a starting point, the trends and structure of the Italian Insurtech sector were investigated to comprehend the environment and the underlying principles governing it. Then, the users' data was analyzed with the data owner's cooperation to discover what elements and which characteristics were relevant to the task at hand, in order to define a work perimeter. The prepared dataset was then used as input for various models. Before implementing the survival model, first we started with a classification model, to understand how a more classical approach would fare, and check if it could have been sufficient. The results analysis process revealed that classification is unable to achieve the set goals, especially as censored data, which are common in this scenario, cannot handled properly by the model. The comparison between the survival baseline and the final model highlighted the need to exploit all features to properly estimate an acceptable survival function, in particular in this sector, where the indicators to be used are many. Lastly, possible points of improvement and considerations regarding future developments of the taken approach are listed at the end of the document.
ING - Scuola di Ingegneria Industriale e dell'Informazione
20-dic-2022
2021/2022
I fattori che contribuiscono al successo all'interno del settore assicurativo del giorno d'oggi non sono un segreto. Con l'incremento del livello di digitalizzazione dei processi di business, una rapida e accurata gestione dei sinistri è la chiave nel fornire un servizio clienti di qualità. In questo settore così dinamico e complesso, una profonda consapevolezza delle caratteristiche dei propri clienti non rappresenta un fattore ormai ignorabile. Questa tesi espone i risultati ottenuti dall'applicazione di tecniche di Analisi di Sopravvivenza e algoritmi di Machine Learning al settore assicurativo automobilistico. Il lavoro svolto si è basato su un'analisi dei trend e della struttura del settore Insurtech, in particolare italiano, con l'obiettivo di comprenderne le caratteristiche e i principi che ne regolano le dinamiche. Successivamente, i dati condivisi sono stati analizzati scrupolosamente in collaborazione con il data owner, in modo da identificare quali elementi e aspetti fossero rilevanti per il raggiungimento dell'obiettivo prefissato, definendo quindi un perimetro di lavoro ben preciso. Il dataset così definito è stato poi usato come input per diversi modelli. Prima di implementare i modelli di sopravvivenza, è stato testato un modello di classificazione con l'obiettivo di comprendere come un approccio più classico avrebbe performato nel caso in esame, e se fosse stato eventualmente sufficiente. Il processo di analisi dei risultati ha rivelato come un modello di classificazione non sia in grado di raggiungere gli obiettivi prefissati, in particolar modo dovuto alla prevalente presenza di dati censurati, che il modello non riesce ad utilizzare correttamente. Il confronto finale tra i modelli di sopravvivenza, baseline e ultimo modello implementato, ha evidenziato la necessità di sfruttare a pieno tutte le feature per stimare una funzione di sopravvivenza sufficientemente precisa, in particolar modo in questo contesto, dove gli indicatori da utilizzare sono verosimilmente molti. Infine, possibili aspetti migliorabili e considerazioni su sviluppi futuri riguardo al lavoro svolto sono esposti nell'ultima sezione dell'elaborato.
File allegati
File Dimensione Formato  
TESI_Polimi_Omar_Abdrabou.pdf

accessibile in internet per tutti

Dimensione 1.94 MB
Formato Adobe PDF
1.94 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/197389