This study presents a spatio-temporal performance evaluation of three deterministic medium-range weather forecasting models: The numerical prediction model ECMWF IFS-HRES, and the two leading machine learning models GraphCast and ECMWF AIFS. Using ERA5 as reference, forecasts from 2024 were evaluated for five near-surface atmospheric variables (2-metre air temperature, specific humidity, mean sea level pressure, and 10-metre zonal, and meridional wind speeds) across multiple climate zones. Results show that both ML models consistently outperform IFS-HRES across all regions and variables, when considering all data points (extremes and non-extremes), being in line with results found in prior literature. ECMWF-AIFS emerges as the best overall performer, combining low bias, high correlation, and accuracy across variables and lead times, while GraphCast outperforms the other two models in predicting specific humidity at 1000 hPa with the highest accuracy, correlation, and lowest bias in all regions. Machine learning models showed more pronounced improvements for temperature than for wind speed, supporting prior findings that training u and v wind components separately can lead to accumulated errors in wind speed forecasts. Furthermore, ML models performed at their best in equatorial regions, reflecting the known latitude-based weighting schemes commonly used during training to minimise errors in the low latitudes at the expense of accuracy in higher latitudes. To support interactive and region-specific exploration of model skill, a web-based dashboard was developed. It visualises forecast errors at high spatial and temporal resolution through interactive spatial error maps, providing a novel tool for both research and decision-making, that enables high-resolution analysis across space and time. The study extends prior work by including the AIFS model in its evaluation, expanding the temporal scope of ML forecast assessment to the year 2024, and offering geospatial insight into model performance.

Questo studio presenta una valutazione delle prestazioni spazio-temporali di tre mod- elli deterministici di previsione meteorologica a medio raggio: Il modello di previsione numerica ECMWF IFS-HRES, e i due principali modelli di apprendimento automatico GraphCast e ECMWF AIFS. Utilizzando ERA5 come riferimento, sono state valutate le previsioni per il 2024 per cinque variabili atmosferiche prossime alla superficie (temper- atura dell’aria a 2 metri, umidità specifica, pressione media al livello del mare e velocità del vento zonale, e meridionale a 10 metri) in diverse zone climatiche. I risultati mostrano che entrambi i modelli ML superano costantemente IFS-HRES in tutte le regioni e variabili, quando si considerano tutti i punti dati (estremi e non estremi), in linea con i risultati trovati nella letteratura precedente. ECMWF-AIFS emerge come il migliore in assoluto, combinando un basso bias, un’alta correlazione e un’accuratezza tra le variabili e i lead time, mentre GraphCast supera gli altri due modelli nella previsione dell’umidità specifica a 1000 hPa con la più alta accuratezza, correlazione e il più basso bias in tutte le regioni. I modelli di apprendimento automatico hanno mostrato miglioramenti più pronunciati per la temperatura che per la velocità del vento, confermando i risultati precedenti che l’addestramento delle componenti u e v del vento separatamente può portare a errori accumulati nelle previsioni della velocità del vento. Inoltre, i modelli ML hanno dato il meglio di sé nelle regioni equatoriali, riflettendo i noti schemi di ponderazione basati sulla latitudine comunemente utilizzati durante l’addestramento per minimizzare gli errori alle basse latitudini a scapito dell’accuratezza alle latitudini più alte. Per supportare l’esplorazione interattiva e specifica per ogni regione dell’abilità del modello, è stato sviluppato un dashboard basato sul web. Questo strumento visualizza gli errori di previsione ad alta risoluzione spaziale e temporale attraverso mappe interattive degli errori spaziali, fornendo un nuovo strumento sia per la ricerca che per il processo decisionale, che consente un’analisi ad alta risoluzione nello spazio e nel tempo. Lo studio estende il lavoro precedente includendo il modello AIFS nella sua valutazione, ampliando la portata temporale della valutazione delle previsioni ML fino all’anno 2024 e offrendo una visione geospaziale delle prestazioni del modello.

Machine learning vs physics-based weather models: a geospatial assessment of AI's potential for more accurate weather forecasting - developing an interactive model evaluation dashboard for performance testing

Dragun, Leonie Hannah Francesca
2024/2025

Abstract

This study presents a spatio-temporal performance evaluation of three deterministic medium-range weather forecasting models: The numerical prediction model ECMWF IFS-HRES, and the two leading machine learning models GraphCast and ECMWF AIFS. Using ERA5 as reference, forecasts from 2024 were evaluated for five near-surface atmospheric variables (2-metre air temperature, specific humidity, mean sea level pressure, and 10-metre zonal, and meridional wind speeds) across multiple climate zones. Results show that both ML models consistently outperform IFS-HRES across all regions and variables, when considering all data points (extremes and non-extremes), being in line with results found in prior literature. ECMWF-AIFS emerges as the best overall performer, combining low bias, high correlation, and accuracy across variables and lead times, while GraphCast outperforms the other two models in predicting specific humidity at 1000 hPa with the highest accuracy, correlation, and lowest bias in all regions. Machine learning models showed more pronounced improvements for temperature than for wind speed, supporting prior findings that training u and v wind components separately can lead to accumulated errors in wind speed forecasts. Furthermore, ML models performed at their best in equatorial regions, reflecting the known latitude-based weighting schemes commonly used during training to minimise errors in the low latitudes at the expense of accuracy in higher latitudes. To support interactive and region-specific exploration of model skill, a web-based dashboard was developed. It visualises forecast errors at high spatial and temporal resolution through interactive spatial error maps, providing a novel tool for both research and decision-making, that enables high-resolution analysis across space and time. The study extends prior work by including the AIFS model in its evaluation, expanding the temporal scope of ML forecast assessment to the year 2024, and offering geospatial insight into model performance.
ASARO, FRANCESCO
ING I - Scuola di Ingegneria Civile, Ambientale e Territoriale
22-lug-2025
2024/2025
Questo studio presenta una valutazione delle prestazioni spazio-temporali di tre mod- elli deterministici di previsione meteorologica a medio raggio: Il modello di previsione numerica ECMWF IFS-HRES, e i due principali modelli di apprendimento automatico GraphCast e ECMWF AIFS. Utilizzando ERA5 come riferimento, sono state valutate le previsioni per il 2024 per cinque variabili atmosferiche prossime alla superficie (temper- atura dell’aria a 2 metri, umidità specifica, pressione media al livello del mare e velocità del vento zonale, e meridionale a 10 metri) in diverse zone climatiche. I risultati mostrano che entrambi i modelli ML superano costantemente IFS-HRES in tutte le regioni e variabili, quando si considerano tutti i punti dati (estremi e non estremi), in linea con i risultati trovati nella letteratura precedente. ECMWF-AIFS emerge come il migliore in assoluto, combinando un basso bias, un’alta correlazione e un’accuratezza tra le variabili e i lead time, mentre GraphCast supera gli altri due modelli nella previsione dell’umidità specifica a 1000 hPa con la più alta accuratezza, correlazione e il più basso bias in tutte le regioni. I modelli di apprendimento automatico hanno mostrato miglioramenti più pronunciati per la temperatura che per la velocità del vento, confermando i risultati precedenti che l’addestramento delle componenti u e v del vento separatamente può portare a errori accumulati nelle previsioni della velocità del vento. Inoltre, i modelli ML hanno dato il meglio di sé nelle regioni equatoriali, riflettendo i noti schemi di ponderazione basati sulla latitudine comunemente utilizzati durante l’addestramento per minimizzare gli errori alle basse latitudini a scapito dell’accuratezza alle latitudini più alte. Per supportare l’esplorazione interattiva e specifica per ogni regione dell’abilità del modello, è stato sviluppato un dashboard basato sul web. Questo strumento visualizza gli errori di previsione ad alta risoluzione spaziale e temporale attraverso mappe interattive degli errori spaziali, fornendo un nuovo strumento sia per la ricerca che per il processo decisionale, che consente un’analisi ad alta risoluzione nello spazio e nel tempo. Lo studio estende il lavoro precedente includendo il modello AIFS nella sua valutazione, ampliando la portata temporale della valutazione delle previsioni ML fino all’anno 2024 e offrendo una visione geospaziale delle prestazioni del modello.
File allegati
File Dimensione Formato  
2025_07_Dragun.pdf

accessibile in internet solo dagli utenti autorizzati

Dimensione 53.82 MB
Formato Adobe PDF
53.82 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/239904