With an increase in the occurrence of natural disasters, the management and mitigation of the adverse consequences such as the casualties due to these phenomena are considered as a priority for decision-makers. Floods are one of the most common hazards affecting the lives of millions of people worldwide; thus, studying the dynamics of these events and the most significant conditions leading to fatalities is deemed crucial in the management of flood risk, both in emergency conditions and in time of peace. However, the modeling capabilities in this field are currently limited, and the creation of such tools is believed to be essential. In such a context, the current study aims at the creation of an empirical flood mortality model for the Italian context, with the use of the Random Forest (RF) algorithm, based on an initial dataset of flood mortalities in the Po river district in 1970-2019 developed and managed by the Italian National Council of Research (CNR-IRPI) of Perugia. By considering the information available in the literature, the main explanatory variables related to the occurrence of flood mortality have been identified. Next, for each fatality record in the dataset, the information describing these variables has been extracted using the available data on the locations of the mortalities as well as data available in national and regional geodatabases. Moreover, the investigation of the hydrological and hydraulic data relating to the corresponding flood events, made possible their characterization in terms of hazard intensity. This process resulted in the creation of a dataset of 127 mortality records, each characterized by ten explanatory variables. In addition, in order to allow the RF algorithm to identify the role and the importance of the different explanatory variables, a synthetic dataset consisting of records of the individuals who were involved in the event but did not lose their lives was created, using the frequency distributions of the explanatory variables in the flooded areas. The resulted dataset consists of 1270 records of non-fatalities. These two datasets together are used to create the RF model. After training the model, the validation of the RF algorithm on two different datasets (data that was not used for the creation of the model) led to the choice of the final model setup, with a classification accuracy of 89%, characterized by the parameters of “Age”, “Place” of the accident, “Morphological Zone”, “Distance from the river”, “Density of the buildings in the municipality”, “Corine land cover code”, “Hazard scenario code”, “Solid transport” carried by the flood, and the “Return Period” of the flood event and excluding the parameter “Gender” which is identified by the model as the least significant in the final outcome. This study resulted in the identification of the most important explanatory flood mortality parameters, which can be used as an information base for the identification of strategies addressed to mitigate and manage the risk of loss of life due to floods.

Con l’aumento del verificarsi di disastri di origine naturale, la gestione e la mitigazione delle conseguenze negative di questi fenomeni, in primis la perdita di vita umana, è considerata una priorità a livello politico. Le alluvioni sono uno dei pericoli di origine naturale più frequente, che influisce sulla vita di milioni di persone in tutto il mondo; la conoscenza dei meccanismi e delle condizioni che portano alla perdita di vita umana in caso di alluvione è ritenuta quindi cruciale nella gestione del rischio alluvionale, sia in condizioni di emergenza che in tempo di pace. Le attuali capacità di modellazione in questo ambito risultano tuttavia limitate. Questo lavoro presenta un primo modello della mortalità legata a fenomeni alluvionali, per il contesto italiano, sviluppato utilizzando l’algoritmo Random Forest (RF). I dati alla base del modello derivano dal database sulla mortalita per alluvione, sviluppato e gestito dal Consiglio Nazionale delle Ricerche (CNR-Irpi) di Perugia, e relativi ai decessi occorsi a causa di fenomeni di natura alluvionale, nel bacino del Po, nel periodo 1965-2019. A partire dalle evidenze disponibili in letteratura sono state identificate le principali variabili esplicative correlate al verificarsi di casi di morte dovuti a fenomeni di origine alluvionale. Successivamente, per ogni record di mortalità nel set di dati, le informazioni relative a queste variabili sono state ricavate, utilizzando i dati relativi alla loro localizzazione nonché i dati disponibili nei geodatabase nazionali e regionali. Inoltre, lo studio dei dati idrologici e idraulici relativi ai corrispondenti eventi alluvionali ne ha reso possibile la caratterizzazione in termini di intensità. L’operazione ha portato alla definizione di un database di 127 record di eventi di morte ognuno corredato dal valore di 10 variabili esplicative. Al fine di permettere all’algoritmo Random Forest di valutare il ruolo e l’importanza di ogni variabile nel descrivere l’occorrenza di un decesso, è stato quindi creato un database sintetico di non-decessi, a partire dalla distribuzione in frequenza delle variabili esplicative nelle aree colpite dagli eventi alluvionali inclusi nel database di partenza. Quest’ultimo è stato quindi completato con 1270 record di non-decessi per ognuno dei quali è stato valutato il valore delle 10 variabili esplicative. La calibrazione e successiva validazione dell’algoritmo Random Forest su due set di dati differenti (dati non utilizzati per la creazione del modello) ha portato alla scelta della configurazione finale del modello, con una precisione di classificazione dell'89%. Il modello considera tra le variabili in input i parametri "Età", "Luogo" dell'incidente, "Zona morfologica", "Distanza dal fiume", "Densità degli edifici nel comune", "Uso del suolo", "Fascia di pericolosità", presenza di "Trasporto solido" e "Periodo di ritorno" della precipitazione correlata all’evento. La modellazione ha permesso quindi di individuare i più importanti parametri esplicativi della mortalità per alluvione, che possono essere utilizzati come base informativa per l'individuazione di strategie volte a mitigare e gestire il rischio di perdite di vite umane dovute alle alluvioni.

An empirical flood mortality model using random forest algorithm

Yazdani, Mina
2020/2021

Abstract

With an increase in the occurrence of natural disasters, the management and mitigation of the adverse consequences such as the casualties due to these phenomena are considered as a priority for decision-makers. Floods are one of the most common hazards affecting the lives of millions of people worldwide; thus, studying the dynamics of these events and the most significant conditions leading to fatalities is deemed crucial in the management of flood risk, both in emergency conditions and in time of peace. However, the modeling capabilities in this field are currently limited, and the creation of such tools is believed to be essential. In such a context, the current study aims at the creation of an empirical flood mortality model for the Italian context, with the use of the Random Forest (RF) algorithm, based on an initial dataset of flood mortalities in the Po river district in 1970-2019 developed and managed by the Italian National Council of Research (CNR-IRPI) of Perugia. By considering the information available in the literature, the main explanatory variables related to the occurrence of flood mortality have been identified. Next, for each fatality record in the dataset, the information describing these variables has been extracted using the available data on the locations of the mortalities as well as data available in national and regional geodatabases. Moreover, the investigation of the hydrological and hydraulic data relating to the corresponding flood events, made possible their characterization in terms of hazard intensity. This process resulted in the creation of a dataset of 127 mortality records, each characterized by ten explanatory variables. In addition, in order to allow the RF algorithm to identify the role and the importance of the different explanatory variables, a synthetic dataset consisting of records of the individuals who were involved in the event but did not lose their lives was created, using the frequency distributions of the explanatory variables in the flooded areas. The resulted dataset consists of 1270 records of non-fatalities. These two datasets together are used to create the RF model. After training the model, the validation of the RF algorithm on two different datasets (data that was not used for the creation of the model) led to the choice of the final model setup, with a classification accuracy of 89%, characterized by the parameters of “Age”, “Place” of the accident, “Morphological Zone”, “Distance from the river”, “Density of the buildings in the municipality”, “Corine land cover code”, “Hazard scenario code”, “Solid transport” carried by the flood, and the “Return Period” of the flood event and excluding the parameter “Gender” which is identified by the model as the least significant in the final outcome. This study resulted in the identification of the most important explanatory flood mortality parameters, which can be used as an information base for the identification of strategies addressed to mitigate and manage the risk of loss of life due to floods.
GENCARELLI, CHRISTIAN NATALE
ING I - Scuola di Ingegneria Civile, Ambientale e Territoriale
22-dic-2021
2020/2021
Con l’aumento del verificarsi di disastri di origine naturale, la gestione e la mitigazione delle conseguenze negative di questi fenomeni, in primis la perdita di vita umana, è considerata una priorità a livello politico. Le alluvioni sono uno dei pericoli di origine naturale più frequente, che influisce sulla vita di milioni di persone in tutto il mondo; la conoscenza dei meccanismi e delle condizioni che portano alla perdita di vita umana in caso di alluvione è ritenuta quindi cruciale nella gestione del rischio alluvionale, sia in condizioni di emergenza che in tempo di pace. Le attuali capacità di modellazione in questo ambito risultano tuttavia limitate. Questo lavoro presenta un primo modello della mortalità legata a fenomeni alluvionali, per il contesto italiano, sviluppato utilizzando l’algoritmo Random Forest (RF). I dati alla base del modello derivano dal database sulla mortalita per alluvione, sviluppato e gestito dal Consiglio Nazionale delle Ricerche (CNR-Irpi) di Perugia, e relativi ai decessi occorsi a causa di fenomeni di natura alluvionale, nel bacino del Po, nel periodo 1965-2019. A partire dalle evidenze disponibili in letteratura sono state identificate le principali variabili esplicative correlate al verificarsi di casi di morte dovuti a fenomeni di origine alluvionale. Successivamente, per ogni record di mortalità nel set di dati, le informazioni relative a queste variabili sono state ricavate, utilizzando i dati relativi alla loro localizzazione nonché i dati disponibili nei geodatabase nazionali e regionali. Inoltre, lo studio dei dati idrologici e idraulici relativi ai corrispondenti eventi alluvionali ne ha reso possibile la caratterizzazione in termini di intensità. L’operazione ha portato alla definizione di un database di 127 record di eventi di morte ognuno corredato dal valore di 10 variabili esplicative. Al fine di permettere all’algoritmo Random Forest di valutare il ruolo e l’importanza di ogni variabile nel descrivere l’occorrenza di un decesso, è stato quindi creato un database sintetico di non-decessi, a partire dalla distribuzione in frequenza delle variabili esplicative nelle aree colpite dagli eventi alluvionali inclusi nel database di partenza. Quest’ultimo è stato quindi completato con 1270 record di non-decessi per ognuno dei quali è stato valutato il valore delle 10 variabili esplicative. La calibrazione e successiva validazione dell’algoritmo Random Forest su due set di dati differenti (dati non utilizzati per la creazione del modello) ha portato alla scelta della configurazione finale del modello, con una precisione di classificazione dell'89%. Il modello considera tra le variabili in input i parametri "Età", "Luogo" dell'incidente, "Zona morfologica", "Distanza dal fiume", "Densità degli edifici nel comune", "Uso del suolo", "Fascia di pericolosità", presenza di "Trasporto solido" e "Periodo di ritorno" della precipitazione correlata all’evento. La modellazione ha permesso quindi di individuare i più importanti parametri esplicativi della mortalità per alluvione, che possono essere utilizzati come base informativa per l'individuazione di strategie volte a mitigare e gestire il rischio di perdite di vite umane dovute alle alluvioni.
File allegati
File Dimensione Formato  
2021_12_Yazdani.pdf

accessibile in internet per tutti

Descrizione: Master's Thesis project
Dimensione 2.86 MB
Formato Adobe PDF
2.86 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/182955