According to the World Health Organization (WHO), every year, the lives of approximately 1.35 million people are cut short due to a road traffic crash. Between 20 and 50 million more people suffer non-fatal injuries, with many incurring a disability resulting from their injury. One way of reducing road crashes is understanding the crash's influential factors such as driver behavior, environmental factors, etc. It is crucial to acquire the focused area's crash data to understand the road crashes and their practical terms. Also, selecting the best modeling tool for extraction of the relation between the crash factors and their outcome is another essential task. Different types of modelings are available to apply to the crash data. Artificial neural networks, Generalized linear mixed-effects, Nonlinear regression, and Multinomial regression are the modeling tools that have been used in this thesis to analyze the crash data of Milan city for the years 2014 – 2017. The dataset contains 35182 observations that each include different factors such as the information about the drivers, metrological condition, infrastructure type, etc. Among all those factors, 14 potential factors have been selected as input variables for the modeling, and crash effects and crash types variables have been selected as response variables. The modeling results revealed that unbalanced and incomplete datasets affect the outcomes. However, using the data treatment methods such as oversampling the less counted categories of output variables can overcome the issue in some cases. Concerning the modeling results, the driver information such as gender and age are the most influential variables for crash effects and crash types outputs. Artificial neural networks can find the complicated relationship between the variables that make the model accurate in predicting the correct results compared with other regression tools. However, it does not let out much information about those relationships. On the other hand, since the regression modeling tools such as the Generalized linear mixed-effects model and Nonlinear regression model need analytical formulation, it is possible to determine the model's inserted input variables real effect. Notably, regression modeling tools strongly depend on the combination of the variables in their analytical formulation since it is possible to find different formulations with the same performance. Nevertheless, the Multinomial regression model does not require an analytical formulation, but it has quite the same performance in terms of accuracy with other regression tools.

Secondo il World Health Organization (WHO), ogni anno la vita di circa 1,35 milioni di persone viene interrotta a causa di un incidente stradale. Tra i 20 e i 50 milioni di persone subiscono lesioni non mortali, e molte di loro incorrono in disabilità permanenti. Un modo per ridurre gli incidenti stradali è comprenderne i fattori determinanti come il comportamento del guidatore, i fattori ambientali, ecc. È fondamentale acquisire i dati sugli incidenti dell'area interessata per comprenderne le dinamiche, le cause specifiche e le connessioni con il sistema delle attività di quel territorio. Inoltre, la scelta del più appropriato strumento di modellazione per studiare la relazione tra i fattori di impatto e i dati di incidente è un altro compito essenziale. Sono disponibili diversi tipi di modelli matematici da applicare ai dati di incidente. Reti neurali artificiali, modelli lineari generalizzati con effetti misti, regressioni non lineare e regressioni multinomiali sono gli strumenti di modellazione utilizzati in questa tesi per analizzare i dati sugli incidenti della città di Milano per gli anni 2014-2017. Il set di dati contiene 35182 osservazioni che includono ciascuna diversi fattori come le informazioni sui guidatori, le condizioni meteorologiche, il tipo di infrastruttura stradale, ecc. Tra tutti questi fattori, ne sono stati selezionati 14 come variabili di input per la modellazione e le conseguenze degli incidenti e le loro tipologie sono state selezionate come variabili di output. I risultati della modellazione hanno mostrato come dovere elaborare dati non omogenei e talvolta incompleti sia un compito impegnativo. Tuttavia, l'utilizzo di metodi di trattamento dei dati come il sovracampionamento delle categorie di variabili di output meno rappresentate può aiutare a superare il problema in alcuni casi. Per quanto riguarda i risultati della modellazione, le informazioni del conducente come il sesso e l'età sono le variabili più influenti per predire sia gli effetti sia i tipi di incidente. Le reti neurali artificiali dimostrano, confermando le loro note potenzialità, di essere in grado di approssimare le complicate relazioni presenti nei dati. I modelli risultano i più accurati nel prevedere i risultati corretti rispetto a tutti gli altri strumenti di regressione utilizzati. Tuttavia, le reti neurali artificiali non consentono di conoscere in modo esplicito la funzione approssimata. D'altra parte, poiché gli strumenti di modellazione della regressione, come per esempio il modello lineare generalizzato a effetti misti o il modello di regressione non lineare, necessitano di una formulazione analitica, è possibile determinare l'effetto reale delle variabili di input inserite nel modello. In particolare, gli strumenti di modellazione della regressione dipendono fortemente dalla combinazione delle variabili inserite nel modello. A causa di ciò, è possibile trovare formulazioni diverse con prestazioni simili. Altri modelli, come la regressione multinomiale, usano una propria una formulazione analitica, esibendo peraltro prestazioni paragonabili in termini di accuratezza a quelle di altri strumenti di regressione utilizzati per questa tesi.

Analysis of road crash data of Milan by using artificial neural network and regression models

Alizadeh Meinagh, Mohammadamin
2019/2020

Abstract

According to the World Health Organization (WHO), every year, the lives of approximately 1.35 million people are cut short due to a road traffic crash. Between 20 and 50 million more people suffer non-fatal injuries, with many incurring a disability resulting from their injury. One way of reducing road crashes is understanding the crash's influential factors such as driver behavior, environmental factors, etc. It is crucial to acquire the focused area's crash data to understand the road crashes and their practical terms. Also, selecting the best modeling tool for extraction of the relation between the crash factors and their outcome is another essential task. Different types of modelings are available to apply to the crash data. Artificial neural networks, Generalized linear mixed-effects, Nonlinear regression, and Multinomial regression are the modeling tools that have been used in this thesis to analyze the crash data of Milan city for the years 2014 – 2017. The dataset contains 35182 observations that each include different factors such as the information about the drivers, metrological condition, infrastructure type, etc. Among all those factors, 14 potential factors have been selected as input variables for the modeling, and crash effects and crash types variables have been selected as response variables. The modeling results revealed that unbalanced and incomplete datasets affect the outcomes. However, using the data treatment methods such as oversampling the less counted categories of output variables can overcome the issue in some cases. Concerning the modeling results, the driver information such as gender and age are the most influential variables for crash effects and crash types outputs. Artificial neural networks can find the complicated relationship between the variables that make the model accurate in predicting the correct results compared with other regression tools. However, it does not let out much information about those relationships. On the other hand, since the regression modeling tools such as the Generalized linear mixed-effects model and Nonlinear regression model need analytical formulation, it is possible to determine the model's inserted input variables real effect. Notably, regression modeling tools strongly depend on the combination of the variables in their analytical formulation since it is possible to find different formulations with the same performance. Nevertheless, the Multinomial regression model does not require an analytical formulation, but it has quite the same performance in terms of accuracy with other regression tools.
ING I - Scuola di Ingegneria Civile, Ambientale e Territoriale
27-apr-2021
2019/2020
Secondo il World Health Organization (WHO), ogni anno la vita di circa 1,35 milioni di persone viene interrotta a causa di un incidente stradale. Tra i 20 e i 50 milioni di persone subiscono lesioni non mortali, e molte di loro incorrono in disabilità permanenti. Un modo per ridurre gli incidenti stradali è comprenderne i fattori determinanti come il comportamento del guidatore, i fattori ambientali, ecc. È fondamentale acquisire i dati sugli incidenti dell'area interessata per comprenderne le dinamiche, le cause specifiche e le connessioni con il sistema delle attività di quel territorio. Inoltre, la scelta del più appropriato strumento di modellazione per studiare la relazione tra i fattori di impatto e i dati di incidente è un altro compito essenziale. Sono disponibili diversi tipi di modelli matematici da applicare ai dati di incidente. Reti neurali artificiali, modelli lineari generalizzati con effetti misti, regressioni non lineare e regressioni multinomiali sono gli strumenti di modellazione utilizzati in questa tesi per analizzare i dati sugli incidenti della città di Milano per gli anni 2014-2017. Il set di dati contiene 35182 osservazioni che includono ciascuna diversi fattori come le informazioni sui guidatori, le condizioni meteorologiche, il tipo di infrastruttura stradale, ecc. Tra tutti questi fattori, ne sono stati selezionati 14 come variabili di input per la modellazione e le conseguenze degli incidenti e le loro tipologie sono state selezionate come variabili di output. I risultati della modellazione hanno mostrato come dovere elaborare dati non omogenei e talvolta incompleti sia un compito impegnativo. Tuttavia, l'utilizzo di metodi di trattamento dei dati come il sovracampionamento delle categorie di variabili di output meno rappresentate può aiutare a superare il problema in alcuni casi. Per quanto riguarda i risultati della modellazione, le informazioni del conducente come il sesso e l'età sono le variabili più influenti per predire sia gli effetti sia i tipi di incidente. Le reti neurali artificiali dimostrano, confermando le loro note potenzialità, di essere in grado di approssimare le complicate relazioni presenti nei dati. I modelli risultano i più accurati nel prevedere i risultati corretti rispetto a tutti gli altri strumenti di regressione utilizzati. Tuttavia, le reti neurali artificiali non consentono di conoscere in modo esplicito la funzione approssimata. D'altra parte, poiché gli strumenti di modellazione della regressione, come per esempio il modello lineare generalizzato a effetti misti o il modello di regressione non lineare, necessitano di una formulazione analitica, è possibile determinare l'effetto reale delle variabili di input inserite nel modello. In particolare, gli strumenti di modellazione della regressione dipendono fortemente dalla combinazione delle variabili inserite nel modello. A causa di ciò, è possibile trovare formulazioni diverse con prestazioni simili. Altri modelli, come la regressione multinomiale, usano una propria una formulazione analitica, esibendo peraltro prestazioni paragonabili in termini di accuratezza a quelle di altri strumenti di regressione utilizzati per questa tesi.
File allegati
File Dimensione Formato  
2021_4_ALIZADEH MEINAGH.pdf

solo utenti autorizzati dal 31/03/2022

Descrizione: Thesis
Dimensione 2.79 MB
Formato Adobe PDF
2.79 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/173696