The objective of this research is to detect non-epidemiological regional factors that predict the covid-19 cases density during the first two waves of the pandemic over the European Union. In particular, we compare two approaches to do so: a pipeline of low complexity that provides intuitive results such as association rules, and a geostatistical approach that provides richer insights. First, we propose a general pipeline that uses dichotomic data in order to evaluate different factors and their interactions to find association rules of a general risk level. We find that the significant rules found contain factors recognized by literature, while also discovering group effects. The relevant features are related to demography (population density and life expectancy), healthcare (available hospital beds and health personnel in the first wave, and long-term care beds in the second wave), economy (amount of hours worked in the first wave, and growth rate of regional GVA in the second wave), and mobility (stock of vehicles in the second wave). Second, we perform a geostatistical analysis that considers the spatial factor of neighboring regions, by using variogram modelling and performing LISA clustering. We find that life expectancy, along with economical factors, such as growth rate of regional GVA and unemployment rate (the latter in the second wave only), and educational factors, such as participation in education, NEET rate and early leavers from education, can be associated with the development of COVID-19 spread. The model however explains regions with lower densities better than the most critical ones, and spatial dependency is not as evident as expected, possibly due to the amount and distribution of the observations. We conclude that, in an application such as COVID-19 spread over a continent, a simple approach provides an easier understanding regarding interacting factors, but we need to consider the geographical factor, hence the two approaches studied are best used together in order to gain interpretable but also rich insights.

Questa ricerca ha l'obiettivo di trovare fattori regionali non epidemiologici che possano predire la densità di casi di COVID-19 nelle prime due ondate della pandemia nell'Unione Europea. Questo viene effettuato tramite due approcci: uno che mina regole di associazione, e uno che impiega strumenti di geostatistica. Anzitutto, si generalizza una pipeline che usa dati dicotomici per valutare diversi fattori e le loro interazioni, per trovare regole di associazione di rischio. Le regole più significative comprendono fattori validati nella letteratura, mentre emergono anche interazioni di gruppo. I fattori significativi includono variabili demografiche (la densità di popolazione e la speranza di vita media), la robustezza del sistema sanitario (la quantità di letti disponibili e l’ammontare di lavoro del personale competente per la prima ondata, nonchè i letti di cura a lungo termine per la seconda), l'economia (la quantità di ore lavorate per la prima ondata, e la tassa di crescita del VAL regionale per la seconda), e mobilità. Successivamente, viene compiuta un'analisi geostatistica che considera il fattore spaziale delle regioni vicine, usando modellazione di variogrammi e LISA clustering. Ne risulta che la speranza di vita media, fattori economici (il tasso di crescita del VAL e il tasso di disoccupazione nella seconda ondata) e fattori educazionali (partecipazione all’educazione, percentuale di NEET e quantità di giovani che abbandonano prematuramente istruzione e formazione) possono essere associati con lo sviluppo della diffusione del COVID-19. Il modello risultante spiega in modo migliore la risposta delle regioni con meno densità di casi rispetto alle regioni più critiche. Inoltre, la dipendenza spaziale è meno evidente di quanto atteso, possibilmente a causa della quantità e distribuzione spaziale delle osservazioni. In conclusione, un approccio semplice offre maggiore comprensione sui fattori che intervengono. Tuttavia, non si può escludere la considerazione del fattore geografico. Si dimostra più conveniente adottare i due approcci studiati in combinazione, con l’obiettivo di trovare risultati tanto interpretabili quanto significativi.

Covid-19 spread over Europe : a statistical study to detect regional contextual factors

ANFOSSY ARANEDA, FRANCESCA PAOLA JOSEFINA
2021/2022

Abstract

The objective of this research is to detect non-epidemiological regional factors that predict the covid-19 cases density during the first two waves of the pandemic over the European Union. In particular, we compare two approaches to do so: a pipeline of low complexity that provides intuitive results such as association rules, and a geostatistical approach that provides richer insights. First, we propose a general pipeline that uses dichotomic data in order to evaluate different factors and their interactions to find association rules of a general risk level. We find that the significant rules found contain factors recognized by literature, while also discovering group effects. The relevant features are related to demography (population density and life expectancy), healthcare (available hospital beds and health personnel in the first wave, and long-term care beds in the second wave), economy (amount of hours worked in the first wave, and growth rate of regional GVA in the second wave), and mobility (stock of vehicles in the second wave). Second, we perform a geostatistical analysis that considers the spatial factor of neighboring regions, by using variogram modelling and performing LISA clustering. We find that life expectancy, along with economical factors, such as growth rate of regional GVA and unemployment rate (the latter in the second wave only), and educational factors, such as participation in education, NEET rate and early leavers from education, can be associated with the development of COVID-19 spread. The model however explains regions with lower densities better than the most critical ones, and spatial dependency is not as evident as expected, possibly due to the amount and distribution of the observations. We conclude that, in an application such as COVID-19 spread over a continent, a simple approach provides an easier understanding regarding interacting factors, but we need to consider the geographical factor, hence the two approaches studied are best used together in order to gain interpretable but also rich insights.
PINOLI, PIETRO
SAVARE', LAURA
ING - Scuola di Ingegneria Industriale e dell'Informazione
22-lug-2022
2021/2022
Questa ricerca ha l'obiettivo di trovare fattori regionali non epidemiologici che possano predire la densità di casi di COVID-19 nelle prime due ondate della pandemia nell'Unione Europea. Questo viene effettuato tramite due approcci: uno che mina regole di associazione, e uno che impiega strumenti di geostatistica. Anzitutto, si generalizza una pipeline che usa dati dicotomici per valutare diversi fattori e le loro interazioni, per trovare regole di associazione di rischio. Le regole più significative comprendono fattori validati nella letteratura, mentre emergono anche interazioni di gruppo. I fattori significativi includono variabili demografiche (la densità di popolazione e la speranza di vita media), la robustezza del sistema sanitario (la quantità di letti disponibili e l’ammontare di lavoro del personale competente per la prima ondata, nonchè i letti di cura a lungo termine per la seconda), l'economia (la quantità di ore lavorate per la prima ondata, e la tassa di crescita del VAL regionale per la seconda), e mobilità. Successivamente, viene compiuta un'analisi geostatistica che considera il fattore spaziale delle regioni vicine, usando modellazione di variogrammi e LISA clustering. Ne risulta che la speranza di vita media, fattori economici (il tasso di crescita del VAL e il tasso di disoccupazione nella seconda ondata) e fattori educazionali (partecipazione all’educazione, percentuale di NEET e quantità di giovani che abbandonano prematuramente istruzione e formazione) possono essere associati con lo sviluppo della diffusione del COVID-19. Il modello risultante spiega in modo migliore la risposta delle regioni con meno densità di casi rispetto alle regioni più critiche. Inoltre, la dipendenza spaziale è meno evidente di quanto atteso, possibilmente a causa della quantità e distribuzione spaziale delle osservazioni. In conclusione, un approccio semplice offre maggiore comprensione sui fattori che intervengono. Tuttavia, non si può escludere la considerazione del fattore geografico. Si dimostra più conveniente adottare i due approcci studiati in combinazione, con l’obiettivo di trovare risultati tanto interpretabili quanto significativi.
File allegati
File Dimensione Formato  
Thesis_Anfossy.pdf

accessibile in internet per tutti

Descrizione: Thesis Report
Dimensione 3.96 MB
Formato Adobe PDF
3.96 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/190438