This thesis addresses the challenge of forecasting the performance of PhotoVoltaic (PV) systems using macroscopic, aggregated data, which are often the only information available at scale. By leveraging data-driven techniques, the work develops and compares predictive models capable of estimating monthly production more accurately than the deterministic formula currently in use. After thorough data cleaning and preprocessing, including the handling of outliers and the imputation of missing meteorological data, various statistical and machine learning models were implemented and evaluated. Among them, the XGBoost regressor with feature engineering emerged as the most robust, demonstrating high accuracy, strong generalization to previously unseen plants, and resilience across different forecasting scenarios. The analysis highlights the trade-offs between strategies such as year-ahead versus sequential monthly prediction, and introduces underperformance filtering to enhance model reliability. The results confirm the potential of data-driven models to significantly improve operational forecasting pipelines, while also underscoring the importance of data quality and geographical representativeness for achieving robust predictions.
Questa tesi affronta la sfida di stimare la produzione di sistemi fotovoltaici utilizzando dati macroscopici, spesso gli unici disponibili poiché la raccolta di misure più dettagliate è costosa. Con un approccio data-driven, vengono sviluppati e confrontati modelli predittivi capaci di stimare l’energia mensile attesa di un impianto FV con maggiore accuratezza rispetto alla formula deterministica attualmente in uso, utilizzata in questo lavoro come baseline. Dopo un’accurata pulizia e pre-elaborazione dei dati, comprendente la gestione degli outlier e l’imputazione delle variabili meteorologiche mancanti, sono stati implementati e valutati diversi modelli statistici e di machine learning. Tra questi, il regressore XGBoost, in combinazione con tecniche di feature engineering, ha ottenuto i risultati migliori, mostrando elevata precisione, solida capacità di generalizzazione su impianti mai osservati e resilienza in diversi scenari di stima. L’analisi confronta inoltre strategie di previsione alternative, come stima annuale vs stima mensile sequenziale, e introduce un filtro delle sotto-prestazioni per migliorarne l’affidabilità complessiva. I risultati confermano il potenziale dei modelli data-driven nel migliorare significativamente l’accuratezza rispetto alla formula deterministica, evidenziando al contempo come la qualità dei dati e la rappresentatività geografica dell’insieme di addestramento siano determinanti per ottenere stime robuste.
Data-driven performance forecasting of photovoltaic systems from macroscopic data
COLÁS NAVARRO, MARTINA
2024/2025
Abstract
This thesis addresses the challenge of forecasting the performance of PhotoVoltaic (PV) systems using macroscopic, aggregated data, which are often the only information available at scale. By leveraging data-driven techniques, the work develops and compares predictive models capable of estimating monthly production more accurately than the deterministic formula currently in use. After thorough data cleaning and preprocessing, including the handling of outliers and the imputation of missing meteorological data, various statistical and machine learning models were implemented and evaluated. Among them, the XGBoost regressor with feature engineering emerged as the most robust, demonstrating high accuracy, strong generalization to previously unseen plants, and resilience across different forecasting scenarios. The analysis highlights the trade-offs between strategies such as year-ahead versus sequential monthly prediction, and introduces underperformance filtering to enhance model reliability. The results confirm the potential of data-driven models to significantly improve operational forecasting pipelines, while also underscoring the importance of data quality and geographical representativeness for achieving robust predictions.| File | Dimensione | Formato | |
|---|---|---|---|
|
2025_10_ColasNavarro_Thesis_01.pdf
accessibile in internet solo dagli utenti autorizzati
Descrizione: Thesis
Dimensione
37.95 MB
Formato
Adobe PDF
|
37.95 MB | Adobe PDF | Visualizza/Apri |
|
2025_10_ColasNavarro_Executive_Summary_02.pdf
accessibile in internet solo dagli utenti autorizzati
Descrizione: Executive Summary
Dimensione
2.64 MB
Formato
Adobe PDF
|
2.64 MB | Adobe PDF | Visualizza/Apri |
I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/10589/243289