In this research, we formalize a problem faced by hydropower networks in day-to-day operations. Like many optimization problems, it consists of a trade-off between achieving desired objectives and satisfying operational constraints. In particular, the hydropower network must balance energy production with water retention under natural inflow uncertainty, while simultaneously meeting the prescribed minimum and maximum limits for both water levels and water releases. This research takes the Romaine Complex, located in Quebec, Canada, as a case study and builds upon previous work, which approached the problem as a centralized Markov Decision Process (MDP) and employed Q-Learning to approximate state-action pairs. However, that approach faced limitations due to high dimensionality in discretized finite MDPs and significant time complexity. Our proposed solution is a multi-agent system formulation, in which each reservoir is modeled as an individual MDP. We use Q-Learning as the learning mechanism for each agent, and the Dynamic Programming Optimization Protocol (DPOP) as the communication framework among reservoirs. DPOP, originally introduced as a constraint optimization framework to find optimal value combinations that maximize a utility function, was adapted in our work to handle dynamically changing utility values. Since our problem lacks fixed utility values, we instead use Q-values and execute DPOP at each decision step. This adaptation, which we refer to as Q-DPOP, extends DPOP to handle time-varying constraints. It enables agents to coordinate, compromise, and collectively optimize a global objective function. We evaluated our method over a two-week time horizon during two distinct seasons, spring and fall, and compared it against three baselines: the Expected Value baseline (derived from historical average efficiency), the centralized MDP formulation, and a decentralized random action model used to test whether the system is truly learning. The results demonstrate that Q-DPOP significantly outperforms both the centralized MDP and the random action models. Notably, it also exceeds the Expected Value baseline in both seasons, achieving a 10.8% improvement in spring (equivalent to 213.1 GWh), and a 2.77% improvement in autumn (equivalent to 61.11 GWh).

In questa ricerca, formalizziamo un problema affrontato quotidianamente dalle reti idroelettriche. Come molti problemi di ottimizzazione, esso consiste in un compromesso tra il raggiungimento degli obiettivi desiderati e la soddisfazione dei vincoli operativi. In particolare, la rete idroelettrica deve bilanciare la produzione di energia con la conservazione dell’acqua, in condizioni di incertezza legate all’afflusso naturale, rispettando al contempo i limiti minimi e massimi prescritti sia per i livelli dell’acqua che per le portate di rilascio. Lo studio prende come caso di riferimento il complesso della Romaine, situato in Québec, Canada, e si basa su lavori precedenti che hanno affrontato il problema come un Processo Decisionale di Markov (MDP) centralizzato, utilizzando l’algoritmo Q-Learning per approssimare le coppie stato azione. Tuttavia, questo approccio presenta delle limitazioni legate all’elevata dimensionalità dei MDP finiti e discretizzati, nonché alla complessità computazionale. La nostra soluzione proposta è una formulazione multi-agente, in cui ogni bacino è modellato come un MDP indipendente. Utilizziamo il Q-Learning come meccanismo di apprendimento per ciascun agente il Dynamic Programming Optimization Protocol(DPOP) come struttura di comunicazione tra i diversi bacini. Il DPOP, originariamente introdotto come framework per l’ottimizzazione vincolata, viene qui adattato per gestire valori di utilità dinamici. Poiché il nostro problema non prevede valori di utilità fissi, utilizziamo i Q-values ed eseguiamo il DPOP a ogni fase decisionale. Questa modifica, che chiamiamo Q-DPOP, estende il DPOP per gestire vincoli variabili nel tempo, permettendo agli agenti di coordinarsi, trovare compromessi e ottimizzare collettivamente una funzione obiettivo globale. Abbiamo valutato il nostro metodo su un orizzonte temporale di due settimane in due stagioni distinte, primavera e autunno, confrontandolo con tre baseline: il valore atteso (basato sull’efficienza storica media), la formulazione MDP centralizzata e un modello decentralizzato con azioni casuali, usato per verificare la capacità di apprendimento del sistema. I risultati mostrano che il Q-DPOP supera significativamente sia l’MDP centralizzato che il modello casuale. Inoltre, ottiene prestazioni superiori anche rispetto al valore atteso in entrambe le stagioni, con un miglioramento del 10,8 in primavera (equivalente a 213,1 GWh) e del 2,77% in autunno (pari a 61,11 GWh).

Multi-agent reinforcement learning for optimizing hydropower operation

Harrabi, Ahmed
2024/2025

Abstract

In this research, we formalize a problem faced by hydropower networks in day-to-day operations. Like many optimization problems, it consists of a trade-off between achieving desired objectives and satisfying operational constraints. In particular, the hydropower network must balance energy production with water retention under natural inflow uncertainty, while simultaneously meeting the prescribed minimum and maximum limits for both water levels and water releases. This research takes the Romaine Complex, located in Quebec, Canada, as a case study and builds upon previous work, which approached the problem as a centralized Markov Decision Process (MDP) and employed Q-Learning to approximate state-action pairs. However, that approach faced limitations due to high dimensionality in discretized finite MDPs and significant time complexity. Our proposed solution is a multi-agent system formulation, in which each reservoir is modeled as an individual MDP. We use Q-Learning as the learning mechanism for each agent, and the Dynamic Programming Optimization Protocol (DPOP) as the communication framework among reservoirs. DPOP, originally introduced as a constraint optimization framework to find optimal value combinations that maximize a utility function, was adapted in our work to handle dynamically changing utility values. Since our problem lacks fixed utility values, we instead use Q-values and execute DPOP at each decision step. This adaptation, which we refer to as Q-DPOP, extends DPOP to handle time-varying constraints. It enables agents to coordinate, compromise, and collectively optimize a global objective function. We evaluated our method over a two-week time horizon during two distinct seasons, spring and fall, and compared it against three baselines: the Expected Value baseline (derived from historical average efficiency), the centralized MDP formulation, and a decentralized random action model used to test whether the system is truly learning. The results demonstrate that Q-DPOP significantly outperforms both the centralized MDP and the random action models. Notably, it also exceeds the Expected Value baseline in both seasons, achieving a 10.8% improvement in spring (equivalent to 213.1 GWh), and a 2.77% improvement in autumn (equivalent to 61.11 GWh).
ERRICO, FAUSTO
ING - Scuola di Ingegneria Industriale e dell'Informazione
22-lug-2025
2024/2025
In questa ricerca, formalizziamo un problema affrontato quotidianamente dalle reti idroelettriche. Come molti problemi di ottimizzazione, esso consiste in un compromesso tra il raggiungimento degli obiettivi desiderati e la soddisfazione dei vincoli operativi. In particolare, la rete idroelettrica deve bilanciare la produzione di energia con la conservazione dell’acqua, in condizioni di incertezza legate all’afflusso naturale, rispettando al contempo i limiti minimi e massimi prescritti sia per i livelli dell’acqua che per le portate di rilascio. Lo studio prende come caso di riferimento il complesso della Romaine, situato in Québec, Canada, e si basa su lavori precedenti che hanno affrontato il problema come un Processo Decisionale di Markov (MDP) centralizzato, utilizzando l’algoritmo Q-Learning per approssimare le coppie stato azione. Tuttavia, questo approccio presenta delle limitazioni legate all’elevata dimensionalità dei MDP finiti e discretizzati, nonché alla complessità computazionale. La nostra soluzione proposta è una formulazione multi-agente, in cui ogni bacino è modellato come un MDP indipendente. Utilizziamo il Q-Learning come meccanismo di apprendimento per ciascun agente il Dynamic Programming Optimization Protocol(DPOP) come struttura di comunicazione tra i diversi bacini. Il DPOP, originariamente introdotto come framework per l’ottimizzazione vincolata, viene qui adattato per gestire valori di utilità dinamici. Poiché il nostro problema non prevede valori di utilità fissi, utilizziamo i Q-values ed eseguiamo il DPOP a ogni fase decisionale. Questa modifica, che chiamiamo Q-DPOP, estende il DPOP per gestire vincoli variabili nel tempo, permettendo agli agenti di coordinarsi, trovare compromessi e ottimizzare collettivamente una funzione obiettivo globale. Abbiamo valutato il nostro metodo su un orizzonte temporale di due settimane in due stagioni distinte, primavera e autunno, confrontandolo con tre baseline: il valore atteso (basato sull’efficienza storica media), la formulazione MDP centralizzata e un modello decentralizzato con azioni casuali, usato per verificare la capacità di apprendimento del sistema. I risultati mostrano che il Q-DPOP supera significativamente sia l’MDP centralizzato che il modello casuale. Inoltre, ottiene prestazioni superiori anche rispetto al valore atteso in entrambe le stagioni, con un miglioramento del 10,8 in primavera (equivalente a 213,1 GWh) e del 2,77% in autunno (pari a 61,11 GWh).
File allegati
File Dimensione Formato  
2025_07_Harrabi_Tesi_01.pdf

accessibile in internet per tutti

Dimensione 2.76 MB
Formato Adobe PDF
2.76 MB Adobe PDF Visualizza/Apri
2025_07_Harrabi_Executive_summary_02.pdf

accessibile in internet per tutti

Dimensione 820.74 kB
Formato Adobe PDF
820.74 kB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/239565