This thesis explores one of the main problems of air pollution: understanding the spatial distribution of particulate matter concentration. The dataset comprises pointwise measurements collected from various monitoring stations located across Lombardy region, and areal data derived from numerical models provided by the Regional Associations for Environmental Protection (ARPA). We present a fully model-based strategy to combine numerical model outputs with point-level measurements. Our approach employs a spatial model, formulated within the Bayesian framework, which leverages spatially-varying coefficients within a linear regression structure. These coefficients are modeled as correlated spatial Gaussian processes using the coregionalization method. This method effectively addresses the spatial misalignment between these two data sources, bridging the gap between predictive modeling and ground-level measurements, and enhancing exposure predictions. Morever, it offers valuable insights for improving environmental data analysis and decision-making across various applications. However, the Bayesian approach is computationally intensive due to a significant number of large matrix inversions. Specifically, the standard matrix inversion algorithm, has a cubic time order of complexity. For this reason, one of the main achievements of this thesis involves the computational optimization of the MCMC algorithm code developed in R. In particular, we implement the entire algorithm in C++, since it offers greater control over memory management and execution speed. By integrating C++ code into R via Rcpp, we achieve significant performance gains, especially in computational efficiency, resulting in substantial time reduction.
In questa tesi si esplora uno dei principali problemi legati all'inquinamento atmosferico: analizzare la distribuzione spaziale della concentrazione di particolato. Il dataset comprende misurazioni puntuali raccolte da varie stazioni di monitoraggio situate in tutta la regione della Lombardia, e dati areali derivati da modelli numerici forniti dalle Associazioni Regionali per la Protezione dell'Ambiente (ARPA). Presentiamo una strategia fondata completamente su un modello per conglobare le stime dei modelli numerici con le misurazioni puntuali. Il nostro approccio utilizza un modello spaziale, formulato nel framework bayesiano, che sfrutta coefficienti che variano nello spazio all'interno di una struttura di regressione lineare. Questi coefficienti sono modellati come processi gaussiani spazialmente correlati tramite il metodo della coregionalizzazione. Questo approccio risolve efficacemente il disallineamento spaziale tra queste due fonti di dati, colmando il divario tra la modellazione predittiva e le misurazioni georeferenziate, e migliorando le previsioni di esposizione. Inoltre, offre preziosi spunti per migliorare l'analisi dei dati ambientali e i processi decisionali in diverse applicazioni. Tuttavia, l'approccio bayesiano è computazionalmente pesante a causa di un numero significativo di inversioni di matrici di grandi dimensioni. In particolare, l'algoritmo standard di inversione di matrici ha una complessità temporale cubica. Per questo motivo, uno dei principali obiettivi di questa tesi riguarda l'ottimizzazione computazionale dell'algoritmo MCMC sviluppato in R. In particolare, implementiamo l'intero algoritmo in C++, poiché offre un maggiore controllo sulla gestione della memoria e sulla velocità di esecuzione. Integrando il codice C++ in R tramite Rcpp, otteniamo miglioramenti significativi delle prestazioni, specialmente in termini di efficienza computazionale, con una riduzione del tempo di esecuzione.
A Bayesian cointegration model for spatial alignment of particulate matter data sources
Cosi, Michele
2022/2023
Abstract
This thesis explores one of the main problems of air pollution: understanding the spatial distribution of particulate matter concentration. The dataset comprises pointwise measurements collected from various monitoring stations located across Lombardy region, and areal data derived from numerical models provided by the Regional Associations for Environmental Protection (ARPA). We present a fully model-based strategy to combine numerical model outputs with point-level measurements. Our approach employs a spatial model, formulated within the Bayesian framework, which leverages spatially-varying coefficients within a linear regression structure. These coefficients are modeled as correlated spatial Gaussian processes using the coregionalization method. This method effectively addresses the spatial misalignment between these two data sources, bridging the gap between predictive modeling and ground-level measurements, and enhancing exposure predictions. Morever, it offers valuable insights for improving environmental data analysis and decision-making across various applications. However, the Bayesian approach is computationally intensive due to a significant number of large matrix inversions. Specifically, the standard matrix inversion algorithm, has a cubic time order of complexity. For this reason, one of the main achievements of this thesis involves the computational optimization of the MCMC algorithm code developed in R. In particular, we implement the entire algorithm in C++, since it offers greater control over memory management and execution speed. By integrating C++ code into R via Rcpp, we achieve significant performance gains, especially in computational efficiency, resulting in substantial time reduction.File | Dimensione | Formato | |
---|---|---|---|
2024_04_Cosi.pdf
solo utenti autorizzati dal 20/03/2025
Descrizione: Testo della tesi
Dimensione
12.57 MB
Formato
Adobe PDF
|
12.57 MB | Adobe PDF | Visualizza/Apri |
I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/10589/218944