One of the biggest global environmental and public health issues is air pollution, and Black Carbon (BC) is a significant pollutant because of its effects on human health and climate change. However, the spatial coverage of direct BC measurements is limited due to its reliance on expensive optical instruments. This thesis proposes a data-driven sensor fusion framework for the estimation of BC concentrations using low-cost, readily available environmental and pollutant data. The developed model integrates a classification neural network that distinguishes between high and low pollution regimes with a Finite Impulse Response (FIR)-like double regres- sion structure, ensuring stability and interpretability. To improve computational efficiency and predictive performance, a Bayesian optimisation process is used to automatically se- lect features and adjust hyperparameters. Real-world data from ARPA Lombardia is used to train and validate the framework, with Milano Pascal as the reference station. The results demonstrate a strong performance at the Milano Pascal site (R2 = 0.86, M AE = 0.43μg/m3), confirming the accuracy and stability of the hybrid approach. Fur- thermore, when applied to other stations in Lombardy (Milano Marche, Milano Senato, and Lecco Amendola), the model maintains R2 values between 0.50 and 0.79 despite differences in emission sources and instrumentation, indicating promising transferability. These findings show that data-driven virtual sensing has the potential to be a cost-effective replacement for traditional BC monitoring systems, enabling ongoing, high-resolution assessments of air quality.
L’inquinamento dell’aria è uno dei maggiori problemi ambientali e di salute pubblica, ed il Black Carbon (BC) è un importante inquinante per via dei suoi effetti sulla salute umana e sul clima. La copertura spaziale delle misure dirette di BC è limitata per via della sua dipendenza da strumenti ottici costosi. Questa tesi propone un sistema data-driven di sensori virtuali per la stima delle concentrazioni di BC, utilizzando dati ambientali e di inquinanti facilmente ottenibili a basso costo. Il modello sviluppato combina una rete neurale di classificazione che divide tra regime ad alto e basso inquinamento con una struttura a doppia regressione, Finite Impulse Response (FIR)-like, che garantisce stabilità e interpretabilità. Per migliorare efficienza computazionale e performance predivettive, un processo di ottimizzazione Bayesiana è usato per selezionare le features e sintonizzare gli iperparametri. Il modello è allenato e validato con dati reali di ARPA Lombardia, con la stazione di Milano Pascal come riferimento. I risultati dimostrano buone performance alla stazione di Milano Pascal (R2 = 0.86, M AE = 0.43μg/m3), confermando accuratezza e stabilità dell’approccio ibrido. Inoltre, quando applicato ad altre stazioni in Lombardia (Milano Marche, Milano Senato e Lecco Amendola), il modello mantiene valori di R2 compresi tra 0.50 e 0.79 nonostante la dif- ferenza di fonti di emissioni e strumentazione, indicando trasferibilità promettente. Questi risultati mostrano come i sensori virtuali data-driven rappresentano un’alternativa eco- nomica a sistemi tradizionali di monitoraggio di BC, permettendo un monitoraggio con- tinuo e ad alta risoluzione della qualità dell’aria.
Data-driven black carbon virtual sensor for outdoor air quality monitoring
FIORE, PIETRO
2024/2025
Abstract
One of the biggest global environmental and public health issues is air pollution, and Black Carbon (BC) is a significant pollutant because of its effects on human health and climate change. However, the spatial coverage of direct BC measurements is limited due to its reliance on expensive optical instruments. This thesis proposes a data-driven sensor fusion framework for the estimation of BC concentrations using low-cost, readily available environmental and pollutant data. The developed model integrates a classification neural network that distinguishes between high and low pollution regimes with a Finite Impulse Response (FIR)-like double regres- sion structure, ensuring stability and interpretability. To improve computational efficiency and predictive performance, a Bayesian optimisation process is used to automatically se- lect features and adjust hyperparameters. Real-world data from ARPA Lombardia is used to train and validate the framework, with Milano Pascal as the reference station. The results demonstrate a strong performance at the Milano Pascal site (R2 = 0.86, M AE = 0.43μg/m3), confirming the accuracy and stability of the hybrid approach. Fur- thermore, when applied to other stations in Lombardy (Milano Marche, Milano Senato, and Lecco Amendola), the model maintains R2 values between 0.50 and 0.79 despite differences in emission sources and instrumentation, indicating promising transferability. These findings show that data-driven virtual sensing has the potential to be a cost-effective replacement for traditional BC monitoring systems, enabling ongoing, high-resolution assessments of air quality.| File | Dimensione | Formato | |
|---|---|---|---|
|
2025_12_Fiore_Executive Summary.pdf
non accessibile
Descrizione: testo executive summary
Dimensione
716.8 kB
Formato
Adobe PDF
|
716.8 kB | Adobe PDF | Visualizza/Apri |
|
2025_12_Fiore_Tesi.pdf
non accessibile
Descrizione: testo tesi
Dimensione
6.89 MB
Formato
Adobe PDF
|
6.89 MB | Adobe PDF | Visualizza/Apri |
I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/10589/246414