Air quality satellite products, such as Sentinel-5P NO2 and SO2, are often hindered by substantial spatio-temporal gaps caused by cloud cover, surface reflectance, and sensorrelated constraints. This thesis investigates the missing value patterns of the NO2 and SO2 data in the Po Valley region in Northern Italy during 2019–2023, and proposes two models to reconstruct data gaps(missingness or missing observations). One model is a LightGBM baseline and the other is a 3D convolutional neural network (3D CNN); both are trained on the same dataset, with model-specific parameters tuned to maximize performance. Statistical analysis reveals a 5-year average missing rate of 45.4% for NO2 and 77.4% for SO2, with pronounced seasonality, particularly in autumn and winter. To reconstruct these gaps, we train two models that learns joint spatial–temporal dependencies. Both models ingest auxiliary variables, including historical NO2/SO2 lags, meteorological drivers (e.g., temperature, wind, pressure), and static factors (e.g., land cover, population density). Training is carried out using synthetically masking pixels to simulate realistic gap scenarios. This aim to enhance the continuity and usability of Sentinel-5P observations, supporting downstream applications in urban air pollution monitoring, environmental modeling, and policy-making in data-sparse conditions. In masked validation on 2023, both models reconstruct large gaps, with the 3D CNN yielding lower errors than LightGBM—while LightGBM is competitive and substantially faster.
I prodotti satellitari per la qualità dell’aria, come NO2 e SO2 di Sentinel-5P, sono spesso ostacolati da notevoli lacune spazio-temporali dovute alla copertura nuvolosa, alla riflettanza della superficie e a vincoli legati al sensore. Questa tesi analizza i pattern di valori mancanti dei dati di NO2 e SO2 nella regione della Pianura Padana, nel Nord Italia, nel periodo 2019–2023, e propone due modelli per ricostruire i gap (missingness o osservazioni mancanti). Un modello è una baseline LightGBM e l’altro è una rete neurale convoluzionale tridimensionale (3D CNN); entrambi sono addestrati sullo stesso dataset, con parametri specifici del modello ottimizzati per massimizzare le prestazioni. L’analisi statistica evidenzia un tasso medio di mancanze su 5 anni pari al 45.4% per NO2 e al 77.4% per SO2, con una stagionalità marcata, in particolare in autunno e inverno. Per ricostruire tali gap, alleniamo due modelli che apprendono dipendenze spazio–temporali congiunte. Entrambi i modelli utilizzano variabili ausiliarie, incluse le serie storiche con ritardi di NO2/SO2, forzanti meteorologiche (ad es., temperatura, vento, pressione) e fattori statici (ad es., copertura del suolo, densità di popolazione). L’addestramento viene effettuato utilizzando pixel di mascheramento sintetico per simulare scenari di gap realistici. L’obiettivo è migliorare la continuità e l’usabilità delle osservazioni di Sentinel-5P, supportando applicazioni a valle nel monitoraggio dell’inquinamento atmosferico urbano, nella modellazione ambientale e nell’elaborazione di politiche in condizioni di dati sparsi. Nella validazione con mascheramento sul 2023, entrambi i modelli ricostruiscono ampie lacune, con la 3D CNN che ottiene errori inferiori rispetto a LightGBM—mentre LightGBM rimane competitivo e sostanzialmente più rapido.
Sentinel 5P spatio-temporal gap filling for NO2 and SO2 data
Wu, Zhanbin
2024/2025
Abstract
Air quality satellite products, such as Sentinel-5P NO2 and SO2, are often hindered by substantial spatio-temporal gaps caused by cloud cover, surface reflectance, and sensorrelated constraints. This thesis investigates the missing value patterns of the NO2 and SO2 data in the Po Valley region in Northern Italy during 2019–2023, and proposes two models to reconstruct data gaps(missingness or missing observations). One model is a LightGBM baseline and the other is a 3D convolutional neural network (3D CNN); both are trained on the same dataset, with model-specific parameters tuned to maximize performance. Statistical analysis reveals a 5-year average missing rate of 45.4% for NO2 and 77.4% for SO2, with pronounced seasonality, particularly in autumn and winter. To reconstruct these gaps, we train two models that learns joint spatial–temporal dependencies. Both models ingest auxiliary variables, including historical NO2/SO2 lags, meteorological drivers (e.g., temperature, wind, pressure), and static factors (e.g., land cover, population density). Training is carried out using synthetically masking pixels to simulate realistic gap scenarios. This aim to enhance the continuity and usability of Sentinel-5P observations, supporting downstream applications in urban air pollution monitoring, environmental modeling, and policy-making in data-sparse conditions. In masked validation on 2023, both models reconstruct large gaps, with the 3D CNN yielding lower errors than LightGBM—while LightGBM is competitive and substantially faster.| File | Dimensione | Formato | |
|---|---|---|---|
|
2025_10_Wu_Thesis.pdf
accessibile in internet per tutti
Dimensione
28.46 MB
Formato
Adobe PDF
|
28.46 MB | Adobe PDF | Visualizza/Apri |
I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/10589/243850