This thesis presents a novel integration of satellite-based observations and Machine Learning (ML) techniques to estimate ground-level NO2 concentrations, an environmental pollutant with negative health implications. The research comprises three interconnected studies that collectively contribute to the field of Geomatics Engineering. They offer innovative approaches to air quality monitoring, particularly in regions lacking ground sensor networks. This work addresses a critical environmental and health issue and contributes to the United Nations (UN) Sustainable Development Goals (SDGs) related to health, well-being, and clean energy. The first study introduces a method combining ground meteorological measurements with satellite observations from the Sentinel-5P mission to estimate ground-level NO2 concentrations in the Metropolitan City of Milan (MCM). This work uses state-of-the-art ML models, linear regression, and feature selection algorithms. Results demonstrated a significant reduction in Normalised Root Mean Square Error (NRMSE) by 55% compared to models relying solely on satellite data. This breakthrough provides a feasible alternative to traditional ground sensor measurements, especially for Low- and Middle-Income Countries (LMICs) where such infrastructure is scarce. The second phase of this project expands the scope by incorporating a broader set of earth observation data and advanced ML models to refine ground-level NO2 estimation accuracy. This phase critically evaluates the impact of relying solely on satellite data and reanalysis environmental variables from the ERA5 dataset. Additionally, in this phase we estimate ground-level NO2 at point locations, and no longer as an average measurement for the whole MCM. The third phase of this project, shifts the geographical focus to the Metropolitan Area of Mexico City (MAMC), a metropolis known for its air quality challenges. Also, we introduce a comparative analysis with TimeGPT, a cutting-edge generative temporal model. This phase tests the adaptability and scalability of the developed models to different urban contexts and its ability to capture temporal dynamics and dependencies in air pollution data. Throughout the thesis, the logical flow from conceptual framework to empirical application underscores a systematic progression in tackling air quality monitoring's complex challenges. By analysing the results across different contexts and modelling techniques, this work reveals insights into the spatial-temporal variability of NO2 and the potential of ML in environmental sciences. The interconnection of the three phases demonstrates the importance of satellite data and ML for atmospheric pollution monitoring. This approach not only contributes to the progress of Geomatics Engineering but also contributes significantly to global efforts in combating air pollution, a pressing public health and environmental issue. This work concludes with a comprehensive analysis of the results, discussing the implications for future research, policy-making, and the development of global environmental monitoring infrastructures. By integrating satellite technology with advanced ML algorithms, this thesis provides a novel, scalable, and efficient framework for estimating ground-level air pollutants. The findings highlight the potential of this approach to contribute meaningfully to public health, environmental protection, and the achievement of the SDGs, particularly those related to good health, well-being, and clean energy.

Questa tesi presenta una metodologia innovativa di integrazione di osservazioni satellitari e tecniche di Machine Learning (ML) per la stima della concentrazione di Biossido di Azoto (NO$_2$) a livello del suolo, un inquinante ambientale con implicazioni negative per la salute. La ricerca comprende tre studi tra loro interconnessi che contribuiscono al campo dell’Ingegneria Geomatica, offrendo approcci innovativi per il monitoraggio della qualità dell’aria, in particolare nelle regioni prive di reti di sensori a terra. Questo lavoro affronta una questione ambientale e sanitaria critica e contribuisce al raggiungimento degli United Nations (UN) Sustainable Development Goals (SDGs) relativi alla salute, al benessere e all’energia pulita. Il primo studio introduce un metodo innovativo che combina misure di variabili meteorologiche da stazioni in situ con osservazioni satellitari della missione Sentinel-5P per stimare le concentrazioni di NO2 a livello del suolo nella Città Metropolitana di Milano. Utilizzando modelli di ML all’avanguardia, regressione lineare, e algoritmi di Feature Selection. Questo approccio ha dimostrato una riduzione significativa, pari al 55% del Normalised Root Mean Square Error (NRMSE) rispetto ai modelli basati esclusivamente su dati satellitari. Questo metodo fornisce un’alternativa alle misurazioni tradizionali dei sensori a terra, particolarmente rilevante per i paesi in vie di sviluppo, dove tali infrastrutture sono scarse. Il secondo studio mira ad espandere la metodologia sviluppata nella prima analisi, incorporando un insieme più ampio di dati di Osservazione della Terra e tecniche avanzate di ML per migliorare ulteriormente l’accuratezza della stima di NO2. Questa fase valuta criticamente l’impatto dell’integrazione di ulteriori variabili atmosferiche e ambientali dai dataset di rianalysis ERA5, esplorando il loro potenziale per il miglioramento delle prestazioni del modello. La ricerca evidenza l’importanza di un processo completo di Feature Selection nello sviluppo di modelli predittivi più accurati e affidabili per gli inquinanti ambientali. Il terzo articolo sposta il focus geografico sulla Città Metropolitana della Città del Messico, nota per le sue sfide relative alla qualità dell’aria, introducendo un’analisi comparativa con TimeGPT, un modello temporale generativo all’avanguardia. Questo non solo testa l’adattabilità e la scalabilità dei modelli sviluppati in un contesto urbano diverso, ma valuta anche l’efficacia di TimeGPT nell'identificazione delle dinamiche temporali nei dati di inquinamento atmosferico. Il confronto tra i casi di studio permette di identificare l'approccio ottimale per la modellazione delle concentrazioni di \NO2, bilanciando accuratezza del risultato ed efficienza computazionale. Inoltre, i risultati ottenuti forniscono informazioni utili per i decisori politici e per le agenzie ambientali. I risultati ottenuti in contesti geografici diversi e utilizzando modelli diversi mostrano che la metodologia proposta è in grado di fornire utili informazioni sulla variabilità spazio-temporale dell'NO2; inoltre mettono in evidenza il potenziale del ML nelle scienze ambientali. Questo lavoro porta un contributo significativo al campo dell'Ingegneria Geomatica e agli sforzi globali per contrastare l’inquinamento atmosferico, un’importante questione di salute pubblica e ambientale. La tesi si conclude con un’analisi dei risultati, discutendo le implicazioni per la ricerca futura, le politiche e lo sviluppo di infrastrutture globali di monitoraggio ambientale. Integrando la tecnologia satellitare con algoritmi avanzati di ML, questa tesi propone un nuovo framework, scalabile ed efficiente, per stimare gli inquinanti atmosferici a livello del suolo. I risultati evidenziano il potenziale di questo approccio per contribuire alla salute pubblica, alla protezione ambientale e al raggiungimento degli SDGs, in particolare quelli legati alla buona salute, al benessere e all’energia pulita.

A Framework for Urban Ground-Level NO2 Estimation Using Sentinel-5P, Climate Reanalysis Data and Machine Learning

CEDENO JIMENEZ, JESUS RODRIGO
2024/2025

Abstract

This thesis presents a novel integration of satellite-based observations and Machine Learning (ML) techniques to estimate ground-level NO2 concentrations, an environmental pollutant with negative health implications. The research comprises three interconnected studies that collectively contribute to the field of Geomatics Engineering. They offer innovative approaches to air quality monitoring, particularly in regions lacking ground sensor networks. This work addresses a critical environmental and health issue and contributes to the United Nations (UN) Sustainable Development Goals (SDGs) related to health, well-being, and clean energy. The first study introduces a method combining ground meteorological measurements with satellite observations from the Sentinel-5P mission to estimate ground-level NO2 concentrations in the Metropolitan City of Milan (MCM). This work uses state-of-the-art ML models, linear regression, and feature selection algorithms. Results demonstrated a significant reduction in Normalised Root Mean Square Error (NRMSE) by 55% compared to models relying solely on satellite data. This breakthrough provides a feasible alternative to traditional ground sensor measurements, especially for Low- and Middle-Income Countries (LMICs) where such infrastructure is scarce. The second phase of this project expands the scope by incorporating a broader set of earth observation data and advanced ML models to refine ground-level NO2 estimation accuracy. This phase critically evaluates the impact of relying solely on satellite data and reanalysis environmental variables from the ERA5 dataset. Additionally, in this phase we estimate ground-level NO2 at point locations, and no longer as an average measurement for the whole MCM. The third phase of this project, shifts the geographical focus to the Metropolitan Area of Mexico City (MAMC), a metropolis known for its air quality challenges. Also, we introduce a comparative analysis with TimeGPT, a cutting-edge generative temporal model. This phase tests the adaptability and scalability of the developed models to different urban contexts and its ability to capture temporal dynamics and dependencies in air pollution data. Throughout the thesis, the logical flow from conceptual framework to empirical application underscores a systematic progression in tackling air quality monitoring's complex challenges. By analysing the results across different contexts and modelling techniques, this work reveals insights into the spatial-temporal variability of NO2 and the potential of ML in environmental sciences. The interconnection of the three phases demonstrates the importance of satellite data and ML for atmospheric pollution monitoring. This approach not only contributes to the progress of Geomatics Engineering but also contributes significantly to global efforts in combating air pollution, a pressing public health and environmental issue. This work concludes with a comprehensive analysis of the results, discussing the implications for future research, policy-making, and the development of global environmental monitoring infrastructures. By integrating satellite technology with advanced ML algorithms, this thesis provides a novel, scalable, and efficient framework for estimating ground-level air pollutants. The findings highlight the potential of this approach to contribute meaningfully to public health, environmental protection, and the achievement of the SDGs, particularly those related to good health, well-being, and clean energy.
RIVA, MONICA
VENUTI, GIOVANNA
5-nov-2024
Questa tesi presenta una metodologia innovativa di integrazione di osservazioni satellitari e tecniche di Machine Learning (ML) per la stima della concentrazione di Biossido di Azoto (NO$_2$) a livello del suolo, un inquinante ambientale con implicazioni negative per la salute. La ricerca comprende tre studi tra loro interconnessi che contribuiscono al campo dell’Ingegneria Geomatica, offrendo approcci innovativi per il monitoraggio della qualità dell’aria, in particolare nelle regioni prive di reti di sensori a terra. Questo lavoro affronta una questione ambientale e sanitaria critica e contribuisce al raggiungimento degli United Nations (UN) Sustainable Development Goals (SDGs) relativi alla salute, al benessere e all’energia pulita. Il primo studio introduce un metodo innovativo che combina misure di variabili meteorologiche da stazioni in situ con osservazioni satellitari della missione Sentinel-5P per stimare le concentrazioni di NO2 a livello del suolo nella Città Metropolitana di Milano. Utilizzando modelli di ML all’avanguardia, regressione lineare, e algoritmi di Feature Selection. Questo approccio ha dimostrato una riduzione significativa, pari al 55% del Normalised Root Mean Square Error (NRMSE) rispetto ai modelli basati esclusivamente su dati satellitari. Questo metodo fornisce un’alternativa alle misurazioni tradizionali dei sensori a terra, particolarmente rilevante per i paesi in vie di sviluppo, dove tali infrastrutture sono scarse. Il secondo studio mira ad espandere la metodologia sviluppata nella prima analisi, incorporando un insieme più ampio di dati di Osservazione della Terra e tecniche avanzate di ML per migliorare ulteriormente l’accuratezza della stima di NO2. Questa fase valuta criticamente l’impatto dell’integrazione di ulteriori variabili atmosferiche e ambientali dai dataset di rianalysis ERA5, esplorando il loro potenziale per il miglioramento delle prestazioni del modello. La ricerca evidenza l’importanza di un processo completo di Feature Selection nello sviluppo di modelli predittivi più accurati e affidabili per gli inquinanti ambientali. Il terzo articolo sposta il focus geografico sulla Città Metropolitana della Città del Messico, nota per le sue sfide relative alla qualità dell’aria, introducendo un’analisi comparativa con TimeGPT, un modello temporale generativo all’avanguardia. Questo non solo testa l’adattabilità e la scalabilità dei modelli sviluppati in un contesto urbano diverso, ma valuta anche l’efficacia di TimeGPT nell'identificazione delle dinamiche temporali nei dati di inquinamento atmosferico. Il confronto tra i casi di studio permette di identificare l'approccio ottimale per la modellazione delle concentrazioni di \NO2, bilanciando accuratezza del risultato ed efficienza computazionale. Inoltre, i risultati ottenuti forniscono informazioni utili per i decisori politici e per le agenzie ambientali. I risultati ottenuti in contesti geografici diversi e utilizzando modelli diversi mostrano che la metodologia proposta è in grado di fornire utili informazioni sulla variabilità spazio-temporale dell'NO2; inoltre mettono in evidenza il potenziale del ML nelle scienze ambientali. Questo lavoro porta un contributo significativo al campo dell'Ingegneria Geomatica e agli sforzi globali per contrastare l’inquinamento atmosferico, un’importante questione di salute pubblica e ambientale. La tesi si conclude con un’analisi dei risultati, discutendo le implicazioni per la ricerca futura, le politiche e lo sviluppo di infrastrutture globali di monitoraggio ambientale. Integrando la tecnologia satellitare con algoritmi avanzati di ML, questa tesi propone un nuovo framework, scalabile ed efficiente, per stimare gli inquinanti atmosferici a livello del suolo. I risultati evidenziano il potenziale di questo approccio per contribuire alla salute pubblica, alla protezione ambientale e al raggiungimento degli SDGs, in particolare quelli legati alla buona salute, al benessere e all’energia pulita.
File allegati
File Dimensione Formato  
PhD_Thesis_20241029.pdf

accessibile in internet solo dagli utenti autorizzati

Dimensione 31.06 MB
Formato Adobe PDF
31.06 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/229392