This master thesis was born while working as an intern in an insurance company. I joined a team of data scientists for a period of six months and my main activity was exploiting multivariate statistics to build predictive models. Generalized Linear Models (GLMs) are the state-of-the-art techniques commonly used in the insurance world. They are employed to solve different kind of problems such as the definition of the technical premium of different warranties or the estimation of the probability of retention and conversion of an insurance policy. As with the classic Linear Models, also in Generalized Linear Models there is a response variable and some predictor variables. The difference is that using GLMs, we model a function of the mean of the response variable (not its mean) as a linear combination of the features. With GLMs, the response variable comes from an exponential family distribution such as Normal, Exponential, Binomial or Poisson. The main drawback of using GLMs is that sometimes this hypothesis may not hold resulting in poor models’ performances. A problem that has recently gained interest in the insurance world is the estimation of the Lapse Rate. It represents the probability that, for some reasons, a customer will drop the contract with the insurance company. We want to understand whether GLMs are still the most suitable models for this problem. In this thesis, the results obtained with Generalized Linear Models for the estimation of the Lapse Rate are compared with the ones given by the eXtreme Gradient Boosting (XGBoost) algorithm, one of the most recent Machine Learning techniques. We conclude that the Machine Learning-based approach is able to perform better than Generalized Linear Models on the available test set. The thesis is organized as follows: In Chapter 1, we describe the main characteristics of the directive that nowadays regulates solvency requirements for insurance companies: Solvency II directive. In Chapter 2, the structure and the characteristics of Generalized Linear Models are presented in details. In Chapter 3, we focus on the first example of a Machine Learning technique: Classification and Regression Trees. In Chapter 4, we consider the development of CARTs to Ensemble Methods. We illustrate different instances of ensemble methods concluding with the eXtreme Gradient Boosting algorithm (XGBoost) since it is the one used in our specific case. In Chapter 5, we consider some evaluation metrics useful to asses the performance of a model and to compare results achieved with different methods. Chapter 6 represents the core of the thesis: here the case study is reported along with the definition of the considered problem. We also give a brief description of the data set used for our purpose. In Chapter 7, we compare the results obtained with Generalized Linear Models against the ones coming from eXtreme Gradient Boosting algorithm. To do this, we exploit the metrics introduced in Chapter 5. Finally, in Chapter 8, we report the conclusions and possible future works that can be done.

Questa tesi magistrale è nata durante un periodo di stage che ho svolto presso una compagnia assicurativa. Ho preso parte ad un gruppo di data scientists per un periodo di circa sei mesi e la mia principale attività consisteva nell’utilizzo di statistica multivariata per costruire modelli predittivi. I Modelli Lineari Generalizzati rappresentano lo stato dell’arte per quanto riguarda il mondo assicurativo. Sono impiegati per risolvere varie tipologie di problemi come il calcolo del premio tecnico in differenti tipi di polizza o la stima della probabilità di mantenere un cliente o acquisirne uno nuovo. Come accade nei modelli lineari classici, anche nei Modelli Lineari Generalizzati c’è una variabile risposta e alcune variabili con funzione di regressori. La differenza fra i due approcci è che, usando i Modelli Lineari Generalizzati, il modello costruito come combinazione lineare dei regressori va a modelllizzare una funzione della media della variabile risposta, non la sua media. Inoltre con i Modelli Lineari Generalizzati, la variabile risposta ha una distribuzione che fa parte della Famiglia Esponenziale come ad esempio le distribuzioni Normale, Esponenziale, Binomiale o Poisson. Il principale svantaggio derivante dall’utilizzo dei Modelli Lineari Generalizzati è che l’ipotesi sulla distribuzione non è sempre verificata e si ottengono quindi modelli con scarsa performance. Un problema che ha recentemente guadagnato interesse nel mondo assicurativo è la stima del tasso di abbandono. Quest’ultimo rappresenta la probabilità che, per qualche ragione, un cliente abbandoni la polizza sottoscritta con la compagnia assicurativa. Lo scopo di questa tesi è capire se i Modelli Lineari Generalizzati rimangono il metodo più adatto anche per questo problema. I risultati ottenuti con i Modelli Lineari Generalizzati per la stima del tasso di abbandono vengono quindi confrontati con quelli ricavati tramite una delle più recenti tecniche di Machine Learning, vale a dire l’algoritmo eXtreme Gradient Boosting (XGBoost). Il paragone ci permette di concludere che l’approccio basato sul Machine Learning raggiunge una perfomance migliore del Modello Lineare Generalizzato sull’insieme test considerato. La tesi è organizzata come segue: Nel Capitolo 1, vengono descritti i principali tratti della normativa che attualmente regola i requisiti di solvibilità delle compagnie di assicurazione: la direttiva Solvency II. Nel Capitolo 2, sono invece presentate in dettaglio la struttura e le caratteristiche dei Modelli Lineari Generalizzati. Il Capitolo 3 contiene un primo esempio di tecnica di Machine Learning: gli alberi di classificazione e regressione (CARTs). Nel Capitolo 4, consideriamo il passaggio dai CARTs all’apprendimento ensemble, illustrando vari esempi di quest’ultimo tra cui l’algoritmo eXtreme Gradient Boosting (XGBoost) in quanto verrà poi utilizzato nel nostro specifico caso. Nel Capitolo 5, consideriamo alcune metriche utili per valutare la performance di un modello e confrontare i risultati raggiunti con modelli diversi. Il Capitolo 6 rappresenta il nucleo di questa tesi: viene qui presentato il caso di studio definendo nel dettaglio il problema considerato. Inoltre viene descritto il data set utilizzato per l’analisi. Nel Capitolo 7, l’output generato da un Modello Lineare Generalizzato per la stima del tasso d’abbandono viene confrontato con il risultato ottenuto dall’utilizzo dell’algoritmo eXtreme Gradient Boosting. Per il paragone, vengono sfruttate le metriche introdotte nel Capitolo 5. Infine, il Capitolo 8, presenta le conclusioni del lavoro svolto e suggerimenti per possibili lavori futuri.

Generalized linear models and machine learning for lapse rate estimation : a comparison

POLLINI, SARA
2019/2020

Abstract

This master thesis was born while working as an intern in an insurance company. I joined a team of data scientists for a period of six months and my main activity was exploiting multivariate statistics to build predictive models. Generalized Linear Models (GLMs) are the state-of-the-art techniques commonly used in the insurance world. They are employed to solve different kind of problems such as the definition of the technical premium of different warranties or the estimation of the probability of retention and conversion of an insurance policy. As with the classic Linear Models, also in Generalized Linear Models there is a response variable and some predictor variables. The difference is that using GLMs, we model a function of the mean of the response variable (not its mean) as a linear combination of the features. With GLMs, the response variable comes from an exponential family distribution such as Normal, Exponential, Binomial or Poisson. The main drawback of using GLMs is that sometimes this hypothesis may not hold resulting in poor models’ performances. A problem that has recently gained interest in the insurance world is the estimation of the Lapse Rate. It represents the probability that, for some reasons, a customer will drop the contract with the insurance company. We want to understand whether GLMs are still the most suitable models for this problem. In this thesis, the results obtained with Generalized Linear Models for the estimation of the Lapse Rate are compared with the ones given by the eXtreme Gradient Boosting (XGBoost) algorithm, one of the most recent Machine Learning techniques. We conclude that the Machine Learning-based approach is able to perform better than Generalized Linear Models on the available test set. The thesis is organized as follows: In Chapter 1, we describe the main characteristics of the directive that nowadays regulates solvency requirements for insurance companies: Solvency II directive. In Chapter 2, the structure and the characteristics of Generalized Linear Models are presented in details. In Chapter 3, we focus on the first example of a Machine Learning technique: Classification and Regression Trees. In Chapter 4, we consider the development of CARTs to Ensemble Methods. We illustrate different instances of ensemble methods concluding with the eXtreme Gradient Boosting algorithm (XGBoost) since it is the one used in our specific case. In Chapter 5, we consider some evaluation metrics useful to asses the performance of a model and to compare results achieved with different methods. Chapter 6 represents the core of the thesis: here the case study is reported along with the definition of the considered problem. We also give a brief description of the data set used for our purpose. In Chapter 7, we compare the results obtained with Generalized Linear Models against the ones coming from eXtreme Gradient Boosting algorithm. To do this, we exploit the metrics introduced in Chapter 5. Finally, in Chapter 8, we report the conclusions and possible future works that can be done.
RROJI, EDIT
ING - Scuola di Ingegneria Industriale e dell'Informazione
29-apr-2020
2019/2020
Questa tesi magistrale è nata durante un periodo di stage che ho svolto presso una compagnia assicurativa. Ho preso parte ad un gruppo di data scientists per un periodo di circa sei mesi e la mia principale attività consisteva nell’utilizzo di statistica multivariata per costruire modelli predittivi. I Modelli Lineari Generalizzati rappresentano lo stato dell’arte per quanto riguarda il mondo assicurativo. Sono impiegati per risolvere varie tipologie di problemi come il calcolo del premio tecnico in differenti tipi di polizza o la stima della probabilità di mantenere un cliente o acquisirne uno nuovo. Come accade nei modelli lineari classici, anche nei Modelli Lineari Generalizzati c’è una variabile risposta e alcune variabili con funzione di regressori. La differenza fra i due approcci è che, usando i Modelli Lineari Generalizzati, il modello costruito come combinazione lineare dei regressori va a modelllizzare una funzione della media della variabile risposta, non la sua media. Inoltre con i Modelli Lineari Generalizzati, la variabile risposta ha una distribuzione che fa parte della Famiglia Esponenziale come ad esempio le distribuzioni Normale, Esponenziale, Binomiale o Poisson. Il principale svantaggio derivante dall’utilizzo dei Modelli Lineari Generalizzati è che l’ipotesi sulla distribuzione non è sempre verificata e si ottengono quindi modelli con scarsa performance. Un problema che ha recentemente guadagnato interesse nel mondo assicurativo è la stima del tasso di abbandono. Quest’ultimo rappresenta la probabilità che, per qualche ragione, un cliente abbandoni la polizza sottoscritta con la compagnia assicurativa. Lo scopo di questa tesi è capire se i Modelli Lineari Generalizzati rimangono il metodo più adatto anche per questo problema. I risultati ottenuti con i Modelli Lineari Generalizzati per la stima del tasso di abbandono vengono quindi confrontati con quelli ricavati tramite una delle più recenti tecniche di Machine Learning, vale a dire l’algoritmo eXtreme Gradient Boosting (XGBoost). Il paragone ci permette di concludere che l’approccio basato sul Machine Learning raggiunge una perfomance migliore del Modello Lineare Generalizzato sull’insieme test considerato. La tesi è organizzata come segue: Nel Capitolo 1, vengono descritti i principali tratti della normativa che attualmente regola i requisiti di solvibilità delle compagnie di assicurazione: la direttiva Solvency II. Nel Capitolo 2, sono invece presentate in dettaglio la struttura e le caratteristiche dei Modelli Lineari Generalizzati. Il Capitolo 3 contiene un primo esempio di tecnica di Machine Learning: gli alberi di classificazione e regressione (CARTs). Nel Capitolo 4, consideriamo il passaggio dai CARTs all’apprendimento ensemble, illustrando vari esempi di quest’ultimo tra cui l’algoritmo eXtreme Gradient Boosting (XGBoost) in quanto verrà poi utilizzato nel nostro specifico caso. Nel Capitolo 5, consideriamo alcune metriche utili per valutare la performance di un modello e confrontare i risultati raggiunti con modelli diversi. Il Capitolo 6 rappresenta il nucleo di questa tesi: viene qui presentato il caso di studio definendo nel dettaglio il problema considerato. Inoltre viene descritto il data set utilizzato per l’analisi. Nel Capitolo 7, l’output generato da un Modello Lineare Generalizzato per la stima del tasso d’abbandono viene confrontato con il risultato ottenuto dall’utilizzo dell’algoritmo eXtreme Gradient Boosting. Per il paragone, vengono sfruttate le metriche introdotte nel Capitolo 5. Infine, il Capitolo 8, presenta le conclusioni del lavoro svolto e suggerimenti per possibili lavori futuri.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
TESI_pollini_sara.pdf

non accessibile

Descrizione: Testo della Tesi
Dimensione 2.07 MB
Formato Adobe PDF
2.07 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/152935