A reinforcement learning framework for multi-objective forecast-informed reservoir operation

The operational management of water reservoirs can greatly benefit from increasingly accurate hydrological forecasts. Modern optimization techniques, including machine learning, enable control policies to utilize this predictive information to better address the critical challenges posed by greater hydro-climatic variability and complex, conflicting stakeholder demands. However, for dam operators to successfully adopt these advanced strategies, the resulting methods must demonstrate robustness, select the most valuable forecast information, and provide clear and understandable decisions. This dissertation advances the state-of-the-art in Forecast-Informed Reservoir Operation (FIRO) by developing a comprehensive suite of methodologies designed to create control systems that are simultaneously high-performing, robust, automated, and interpretable. This dissertation organizes the research into three primary contributions, each addressing a distinct and critical gap in modern water systems control. First, this work confronts the dual challenge of effectively utilizing probabilistic forecast information while ensuring policy robustness against overfitting. While ensemble forecasts are the standard for representing uncertainty, their rich informational content is often discarded by reducing them to a single deterministic statistic, such as the mean. To address this, this research introduces the PECAN (Parallel Ensemble foreCAst coNtrol) algorithm, a novel method that enables running parallel simulations of the system's response natively, one for each forecast ensemble member. The results demonstrate that PECAN consistently and substantially outperforms policies based on the conventional deterministic method, capturing a wider range of solutions and achieving more effective trade-offs across the competing operational objectives. To ensure the out-of-sample validity of these data-driven policies, this research implemented a rigorous Blocked K-Fold Cross-Validation framework. This proved essential for preventing overfitting to limited historical forecast records and for identifying policies with superior generalization capabilities, while also enhancing the computational efficiency of the design process. Second, this dissertation addresses two core challenges in the application of artificial intelligence to control problems: automated feature selection and model interpretability. Existing methods for designing control policies typically require a pre-selected set of inputs, a significant limitation when faced with an abundance of potential data sources. This work extends the NEMODPS (Neuro-Evolutionary Multi-Objective Direct Policy Search) algorithm to create an integrated framework for the concurrent optimization of a policy's inputs, internal architecture, and parameters. This novel approach automates the discovery of the most valuable information, yielding policies that match the performance of state-of-the-art methods without requiring prior expert knowledge of which inputs to use. To render the resulting complex "black-box" policies transparent, this work leverages an adapted Time-Varying Sensitivity Analysis (TVSA). This diagnostic tool provides clear visualizations of how, when, and for which objectives the system learns to rely on different information sources. The analysis revealed sophisticated, objective-specific strategies, such as how policies focused on flood control automatically learn to rely on short-range forecasts to manage immediate risks, while policies designed to mitigate agricultural deficits learn to incorporate longer-range seasonal forecasts for strategic planning. Finally, this research examines basin-scale governance conflicts within the heavily regulated Adda River basin in Northern Italy. Using an expanded basin-wide model that incorporates additional upstream hydropower plants, the analysis quantifies the potential benefits of ideal cooperation. Simulating a fully cooperative policy reveals that such coordination could more than halve the agricultural deficit compared to the historical baseline, at a quantifiable cost representing only a small fraction of the total potential revenue for upstream hydropower operators. Building on this benchmark, the core contribution is the design and evaluation of a novel, parametrized restitution rule, proposed as a practical, semi-cooperative instrument suitable for stakeholder negotiation. The analysis demonstrates its capacity to generate "win-win" solutions, substantially improving Lake Como's objectives at a minimal cost to upstream hydropower revenue. This work offers a starting point to guide the forthcoming renegotiation of hydropower concessions and provides a pathway for bridging the gap between advanced technical modeling and effective water governance.

La gestione dei serbatoi idrici può trarre grande beneficio da previsioni idrologiche sempre più precise. Le moderne tecniche di ottimizzazione, incluse le tecniche di machine learning, permettono alle strategie di controllo (policy) di usare queste informazioni per affrontare meglio le sfide poste dalla maggiore variabilità idroclimatica e dalle richieste complesse e spesso contrastanti dei vari settori interessati. Tuttavia, affinché gli operatori delle dighe possano adottare con successo queste strategie, i metodi risultanti devono dimostrare robustezza (affidabilità), selezionare le informazioni previsionali più utili e fornire decisioni chiare e comprensibili. Questa tesi espande lo stato dell'arte nella Gestione dei Serbatoi Informata da Previsioni (Forecast-Informed Reservoir Operation - FIRO), sviluppando una serie completa di metodologie pensate per creare sistemi di controllo che siano allo stesso tempo performanti, robusti, automatizzati e interpretabili. La ricerca è organizzata in tre contributi principali, ciascuno mirato a colmare una lacuna specifica e critica nel controllo dei moderni sistemi idrici. In primo luogo, questo lavoro affronta la doppia sfida di come utilizzare efficacemente le informazioni probabilistiche delle previsioni, garantendo al contempo che le policy siano robuste rispetto all'overfitting (cioè che non siano eccessivamente adattate ai dati storici specifici). Sebbene le previsioni d'insieme siano lo standard per rappresentare l'incertezza, il loro ricco contenuto informativo viene spesso scartato, riducendole a una singola statistica deterministica come la media. Per superare questo limite, questa ricerca introduce l'algoritmo PECAN (Parallel Ensemble foreCAst coNtrol), un metodo innovativo che abilita nativamente l'esecuzione di simulazioni parallele della risposta del sistema, una per ogni membro dell'insieme previsionale. I risultati dimostrano che PECAN supera costantemente e in modo sostanziale le policy basate sul convenzionale metodo deterministico, catturando una gamma più ampia di soluzioni che raggiungono compromessi più efficaci tra i vari obiettivi in conflitto. Per assicurare la validità di queste policy basate sui dati, è stato implementato un rigoroso schema di Validazione Incrociata a Blocchi in K Parti (Blocked K-Fold Cross-Validation). Questo si è rivelato essenziale per prevenire l'overfitting su serie storiche limitate di previsioni e per identificare policy con capacità di generalizzazione superiore, migliorando anche l'efficienza computazionale del processo di progettazione. In secondo luogo, questa tesi affronta due sfide centrali nell'applicazione dell'intelligenza artificiale ai problemi di controllo: la selezione automatica degli input e l'interpretabilità dei modelli. I metodi esistenti per progettare le policy di controllo richiedono tipicamente un set di input preselezionato, una limitazione significativa di fronte all'abbondanza di potenziali fonti di dati. Questo lavoro estende l'algoritmo NEMODPS (Neuro-Evolutionary Multi-Objective Direct Policy Search) per creare un sistema integrato per l'ottimizzazione concorrente degli input di una policy, della sua architettura interna e dei suoi parametri. Questo approccio innovativo automatizza la scoperta delle informazioni più significative, producendo policy che eguagliano le prestazioni dei metodi allo stato dell'arte senza richiedere una conoscenza esperta a priori su quali input utilizzare. Per rendere trasparenti le complesse policy "black-box" risultanti, è stata sviluppata un'Analisi di Sensibilità Variabile nel Tempo (Time-Varying Sensitivity Analysis - TVSA) adattata. Questo strumento diagnostico fornisce visualizzazioni chiare di come, quando e per quali obiettivi il sistema impara a fare affidamento su diverse fonti di informazione. L'analisi ha rivelato strategie sofisticate e specifiche per obiettivo, come ad esempio il modo in cui le policy focalizzate sul controllo delle piene imparano automaticamente a fare affidamento sulle previsioni a breve termine per gestire i rischi immediati, mentre le policy progettate per mitigare i deficit agricoli imparano a incorporare previsioni stagionali a più lungo raggio per una pianificazione strategica. Infine, questa ricerca affronta i conflitti di gestione coordinata su scala di bacino all'interno del sistema idrico fortemente regolato del fiume Adda, in Nord Italia. Utilizzando un modello ampliato su scala di bacino che incorpora ulteriori impianti idroelettrici a monte, l'analisi quantifica i potenziali benefici di una cooperazione ideale. La simulazione di una policy pienamente cooperativa rivela che tale coordinamento potrebbe più che dimezzare il deficit agricolo rispetto alla gestione storica, a un costo quantificabile che rappresenta solo una piccola frazione del ricavo potenziale totale per gli operatori idroelettrici a monte. Basandosi su questo riferimento, il contributo principale è la progettazione e la valutazione di una nuova regola di restituzione parametrizzata, proposta come strumento pratico e semi-cooperativo adatto alla negoziazione tra le parti interessate. L'analisi dimostra la sua capacità di generare soluzioni vantaggiose per tutti, migliorando gli obiettivi relativi al Lago di Como a un costo minimo e giustificabile per i ricavi idroelettrici a monte. Questo lavoro offre un punto di partenza per guidare la prossima rinegoziazione delle concessioni idroelettriche e fornisce un percorso per colmare il divario tra la modellistica tecnica avanzata e una gestione efficace delle risorse idriche.