This thesis addresses the challenge of forecasting the performance of PhotoVoltaic (PV) systems using macroscopic, aggregated data, which are often the only information available at scale. By leveraging data-driven techniques, the work develops and compares predictive models capable of estimating monthly production more accurately than the deterministic formula currently in use. After thorough data cleaning and preprocessing, including the handling of outliers and the imputation of missing meteorological data, various statistical and machine learning models were implemented and evaluated. Among them, the XGBoost regressor with feature engineering emerged as the most robust, demonstrating high accuracy, strong generalization to previously unseen plants, and resilience across different forecasting scenarios. The analysis highlights the trade-offs between strategies such as year-ahead versus sequential monthly prediction, and introduces underperformance filtering to enhance model reliability. The results confirm the potential of data-driven models to significantly improve operational forecasting pipelines, while also underscoring the importance of data quality and geographical representativeness for achieving robust predictions.

Questa tesi affronta la sfida di stimare la produzione di sistemi fotovoltaici utilizzando dati macroscopici, spesso gli unici disponibili poiché la raccolta di misure più dettagliate è costosa. Con un approccio data-driven, vengono sviluppati e confrontati modelli predittivi capaci di stimare l’energia mensile attesa di un impianto FV con maggiore accuratezza rispetto alla formula deterministica attualmente in uso, utilizzata in questo lavoro come baseline. Dopo un’accurata pulizia e pre-elaborazione dei dati, comprendente la gestione degli outlier e l’imputazione delle variabili meteorologiche mancanti, sono stati implementati e valutati diversi modelli statistici e di machine learning. Tra questi, il regressore XGBoost, in combinazione con tecniche di feature engineering, ha ottenuto i risultati migliori, mostrando elevata precisione, solida capacità di generalizzazione su impianti mai osservati e resilienza in diversi scenari di stima. L’analisi confronta inoltre strategie di previsione alternative, come stima annuale vs stima mensile sequenziale, e introduce un filtro delle sotto-prestazioni per migliorarne l’affidabilità complessiva. I risultati confermano il potenziale dei modelli data-driven nel migliorare significativamente l’accuratezza rispetto alla formula deterministica, evidenziando al contempo come la qualità dei dati e la rappresentatività geografica dell’insieme di addestramento siano determinanti per ottenere stime robuste.

Data-driven performance forecasting of photovoltaic systems from macroscopic data

COLÁS NAVARRO, MARTINA
2024/2025

Abstract

This thesis addresses the challenge of forecasting the performance of PhotoVoltaic (PV) systems using macroscopic, aggregated data, which are often the only information available at scale. By leveraging data-driven techniques, the work develops and compares predictive models capable of estimating monthly production more accurately than the deterministic formula currently in use. After thorough data cleaning and preprocessing, including the handling of outliers and the imputation of missing meteorological data, various statistical and machine learning models were implemented and evaluated. Among them, the XGBoost regressor with feature engineering emerged as the most robust, demonstrating high accuracy, strong generalization to previously unseen plants, and resilience across different forecasting scenarios. The analysis highlights the trade-offs between strategies such as year-ahead versus sequential monthly prediction, and introduces underperformance filtering to enhance model reliability. The results confirm the potential of data-driven models to significantly improve operational forecasting pipelines, while also underscoring the importance of data quality and geographical representativeness for achieving robust predictions.
ING - Scuola di Ingegneria Industriale e dell'Informazione
23-ott-2025
2024/2025
Questa tesi affronta la sfida di stimare la produzione di sistemi fotovoltaici utilizzando dati macroscopici, spesso gli unici disponibili poiché la raccolta di misure più dettagliate è costosa. Con un approccio data-driven, vengono sviluppati e confrontati modelli predittivi capaci di stimare l’energia mensile attesa di un impianto FV con maggiore accuratezza rispetto alla formula deterministica attualmente in uso, utilizzata in questo lavoro come baseline. Dopo un’accurata pulizia e pre-elaborazione dei dati, comprendente la gestione degli outlier e l’imputazione delle variabili meteorologiche mancanti, sono stati implementati e valutati diversi modelli statistici e di machine learning. Tra questi, il regressore XGBoost, in combinazione con tecniche di feature engineering, ha ottenuto i risultati migliori, mostrando elevata precisione, solida capacità di generalizzazione su impianti mai osservati e resilienza in diversi scenari di stima. L’analisi confronta inoltre strategie di previsione alternative, come stima annuale vs stima mensile sequenziale, e introduce un filtro delle sotto-prestazioni per migliorarne l’affidabilità complessiva. I risultati confermano il potenziale dei modelli data-driven nel migliorare significativamente l’accuratezza rispetto alla formula deterministica, evidenziando al contempo come la qualità dei dati e la rappresentatività geografica dell’insieme di addestramento siano determinanti per ottenere stime robuste.
File allegati
File Dimensione Formato  
2025_10_ColasNavarro_Thesis_01.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: Thesis
Dimensione 37.95 MB
Formato Adobe PDF
37.95 MB Adobe PDF   Visualizza/Apri
2025_10_ColasNavarro_Executive_Summary_02.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: Executive Summary
Dimensione 2.64 MB
Formato Adobe PDF
2.64 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/243289