The Usage-Based Insurance (UBI) paradigm, which is receiving a lot of attention in recent years, envisages the computation of the car policy premium based on the accident risk probability, evaluated observing the past driving pattern. However, Usage-Based Insurance strategies mainly rely on quite naive methods, exploiting simple decision rules on primary driving information. The development of complex, intelligent systems able to perform smart risk predictions from the raw driving behaviour, without the knowledge of other insurance or socio-demographic data, is therefore still an open challenge. This work aims at exploring a comprehensive Data Analysis and Machine Learning approach solely based on the driving-related data of vehicles. The starting dataset comes from the collaboration with the insurance company UnipolSai, and contains data related to the trips of almost 100,000 vehicles uniformly spread on the Italian territory, continuously recorded every 2 km by on-board telematics devices (e-boxes), from February 2018 to February 2020. oindent Along extracting classical overall features from the raw dataset, an innovative and not yet explored feature engineering process based on time series was proposed, with the aim of uncovering novel features which can represent complex aspects of the driving behaviour, both in time and frequency domain. Recent and powerful Machine Learning techniques were explored to develop advanced predictive models, able to provide a reliable accident probability for each vehicle and to automatically manage the intrinsic data imbalance through some modifications of the employed traditional algorithms. The proposed algorithms were also applied to perform a sensitivity analysis, exploiting data collected over temporal windows shorter than two years in order to understand which is the minimum driving observation period needed to obtain satisfactory prediction results. This new type of analysis provides important insights for the actual deployment of the UBI solution. Moreover, the problem of real time monitoring of vehicles was addressed through the development of a realistic causal context simulation, in which the accident probability is provided before the observation of effective crashes, so emulating the way insurers would monitor their clients in real time.

Il modello di Usage-Based Insurance (UBI), che riceve sempre più attenzioni negli ultimi anni, prevede il calcolo del premio assicurativo basato sulla probabilità di rischio di sinistro, valutata tramite l'osservazione del modello di guida passato. Tuttavia, le strategie di Usage-Based Insurance consistono nell'impiego di metodi semplici, basati su regole decisionali sulle informazioni principali di guida. Lo sviluppo di sistemi complessi, in grado di compiere previsioni di rischio intelligenti a partire dallo stile di guida, senza la conoscenza di dati assicurativi o socio-demgrafici aggiuntivi, è ancora una sfida aperta. Questo lavoro mira all'esplorazione di un esauriente approccio di Data Analysis e Machine Learning basato esclusivamente sui dati relativi relativi alla guida dei veicoli. Il dataset di partenza proviene dalla collaborazione con la compagnia assicurativa UnipolSai, e comprende dati relativi ai viaggi di quasi 100,000 veicoli distribuiti in modo omogeneo sul territorio italiano, registrati continuamente ogni 2 km, da Febbraio 2018 a Febbraio 2020. In aggiunta a un metodo classico di estrazione di informazione significativa dai dati grezzi, viene proposto un metodo di feature engineering innovativo e non ancora esplorato, basato sulle serie temporali, con l'obiettivo di scoprire variabili innovative in grado di rappresentare aspetti complessi del comportamento alla guida, nel dominio del tempo e della frequenza. Vengono esplorate tecniche di Machine Learning recenti ed efficaci per lo sviluppo di modelli avanzati, in grado di fornire, per ogni veicolo, un'affidabile probabilità di sinistro e che riescono automaticamente a gestire l'intrinseco sbilanciamento dei dati tramite alcune modifiche ai tradizionali algoritmi utilizzati. I metodi proposti vengono anche impiegati per un'analisi di sensitività, sfruttando dati raccolti su finestre temporali più brevi di due anni, per capire quale sia il periodo di osservazione di guida minimo per ottenere risultati soddisfacenti. Questo nuovo tipo di analisi porta a considerazioni importanti per la distribuzione vera e propria di soluzioni UBI. Inoltre, il problema del monitoraggio in tempo reale dei veicoli è stato affrontato attraverso lo sviluppo di un realistico contesto causale, nel quale la probabilità di sinistro è fornita prima dell'effettiva osservazione di incidenti, emulando il modo in cui gli assicuratori monitorerebbero i loro clienti in tempo reale.

Leveraging trips data from e-boxes and machine learning to assess the accident probability in usage-based insurance

COSTANTINI, EMANUELE
2020/2021

Abstract

The Usage-Based Insurance (UBI) paradigm, which is receiving a lot of attention in recent years, envisages the computation of the car policy premium based on the accident risk probability, evaluated observing the past driving pattern. However, Usage-Based Insurance strategies mainly rely on quite naive methods, exploiting simple decision rules on primary driving information. The development of complex, intelligent systems able to perform smart risk predictions from the raw driving behaviour, without the knowledge of other insurance or socio-demographic data, is therefore still an open challenge. This work aims at exploring a comprehensive Data Analysis and Machine Learning approach solely based on the driving-related data of vehicles. The starting dataset comes from the collaboration with the insurance company UnipolSai, and contains data related to the trips of almost 100,000 vehicles uniformly spread on the Italian territory, continuously recorded every 2 km by on-board telematics devices (e-boxes), from February 2018 to February 2020. oindent Along extracting classical overall features from the raw dataset, an innovative and not yet explored feature engineering process based on time series was proposed, with the aim of uncovering novel features which can represent complex aspects of the driving behaviour, both in time and frequency domain. Recent and powerful Machine Learning techniques were explored to develop advanced predictive models, able to provide a reliable accident probability for each vehicle and to automatically manage the intrinsic data imbalance through some modifications of the employed traditional algorithms. The proposed algorithms were also applied to perform a sensitivity analysis, exploiting data collected over temporal windows shorter than two years in order to understand which is the minimum driving observation period needed to obtain satisfactory prediction results. This new type of analysis provides important insights for the actual deployment of the UBI solution. Moreover, the problem of real time monitoring of vehicles was addressed through the development of a realistic causal context simulation, in which the accident probability is provided before the observation of effective crashes, so emulating the way insurers would monitor their clients in real time.
FORMENTIN, SIMONE
PENATI, DAVIDE
STRADA, SILVIA CARLA
ING - Scuola di Ingegneria Industriale e dell'Informazione
23-lug-2021
2020/2021
Il modello di Usage-Based Insurance (UBI), che riceve sempre più attenzioni negli ultimi anni, prevede il calcolo del premio assicurativo basato sulla probabilità di rischio di sinistro, valutata tramite l'osservazione del modello di guida passato. Tuttavia, le strategie di Usage-Based Insurance consistono nell'impiego di metodi semplici, basati su regole decisionali sulle informazioni principali di guida. Lo sviluppo di sistemi complessi, in grado di compiere previsioni di rischio intelligenti a partire dallo stile di guida, senza la conoscenza di dati assicurativi o socio-demgrafici aggiuntivi, è ancora una sfida aperta. Questo lavoro mira all'esplorazione di un esauriente approccio di Data Analysis e Machine Learning basato esclusivamente sui dati relativi relativi alla guida dei veicoli. Il dataset di partenza proviene dalla collaborazione con la compagnia assicurativa UnipolSai, e comprende dati relativi ai viaggi di quasi 100,000 veicoli distribuiti in modo omogeneo sul territorio italiano, registrati continuamente ogni 2 km, da Febbraio 2018 a Febbraio 2020. In aggiunta a un metodo classico di estrazione di informazione significativa dai dati grezzi, viene proposto un metodo di feature engineering innovativo e non ancora esplorato, basato sulle serie temporali, con l'obiettivo di scoprire variabili innovative in grado di rappresentare aspetti complessi del comportamento alla guida, nel dominio del tempo e della frequenza. Vengono esplorate tecniche di Machine Learning recenti ed efficaci per lo sviluppo di modelli avanzati, in grado di fornire, per ogni veicolo, un'affidabile probabilità di sinistro e che riescono automaticamente a gestire l'intrinseco sbilanciamento dei dati tramite alcune modifiche ai tradizionali algoritmi utilizzati. I metodi proposti vengono anche impiegati per un'analisi di sensitività, sfruttando dati raccolti su finestre temporali più brevi di due anni, per capire quale sia il periodo di osservazione di guida minimo per ottenere risultati soddisfacenti. Questo nuovo tipo di analisi porta a considerazioni importanti per la distribuzione vera e propria di soluzioni UBI. Inoltre, il problema del monitoraggio in tempo reale dei veicoli è stato affrontato attraverso lo sviluppo di un realistico contesto causale, nel quale la probabilità di sinistro è fornita prima dell'effettiva osservazione di incidenti, emulando il modo in cui gli assicuratori monitorerebbero i loro clienti in tempo reale.
File allegati
File Dimensione Formato  
2021_07_Costantini.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: testo della tesi
Dimensione 9.92 MB
Formato Adobe PDF
9.92 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/178029