The increasing share of renewables in the energy mix and the globalization of the energy market introduce new challenges in the problem of controlling power grids. The recent series of competitions Learning To Run a Power Network have promoted the use of Reinforcement Learning to aid human dispatchers in managing power grids. So far the proposed solutions significantly limit the action space and rely on either a single agent overseeing the entire grid or multiple independent agents operating at the substation level. In this work, we propose a different approach in which we first decompose the problem by means of a domain-agnostic algorithm that estimates correlations between state and action components entirely based on data. Highly correlated state-action pairs are grouped together to create simpler, possibly independent sub-problems. On this decomposition we can run a distributed learning processes in which each agent interacts with its own sub-problem, reaching a partial solution with reduced computational and data requirements. We then compare the performance of the proposed algorithm with the one of a centralized approach.

L’aumento delle rinnovabili nei mix energetici e la globalizzazione del mercato dell’energia rendono più complicato il problema del controllo di reti di distribuzione elettrica. Le recenti competizioni Learning To Run a Power Network hanno stimolato l’utilizzo di Reinforcement Learning come supporto per gli operatori umani nella gestione delle reti. Le soluzioni proposte finora prevedono dei limiti stringenti nello spazio delle azioni e utilizzano agenti in grado di osservare l’intera rete oppure di operare a livello della singola stazione. Nel nostro lavoro, proponiamo un approccio diverso, nel quale dapprima decomponiamo il problema tramite un algoritmo in grado di stimare direttamente dai dati la correlazione tra le componenti di stato e azione in modo indipendente dal dominio di applicazione. Coppie di variabili stato-azione molto correlate tra loro vengono raggruppate in modo da creare sottoproblemi più semplici e indipendenti. Su questa decomposizione definiamo un processo di apprendimento distribuito, nel quale ogni agente interagisce solamente con il suo sottoproblema, raggiungendo una soluzione parziale richiedendo meno tempo e dati. Alla fine, confrontiamo i risultati ottenuti da questo algoritmo con quelli di un approccio centralizzato.

Distributed reinforcement learning for power grid operation

Beretta, Davide
2023/2024

Abstract

The increasing share of renewables in the energy mix and the globalization of the energy market introduce new challenges in the problem of controlling power grids. The recent series of competitions Learning To Run a Power Network have promoted the use of Reinforcement Learning to aid human dispatchers in managing power grids. So far the proposed solutions significantly limit the action space and rely on either a single agent overseeing the entire grid or multiple independent agents operating at the substation level. In this work, we propose a different approach in which we first decompose the problem by means of a domain-agnostic algorithm that estimates correlations between state and action components entirely based on data. Highly correlated state-action pairs are grouped together to create simpler, possibly independent sub-problems. On this decomposition we can run a distributed learning processes in which each agent interacts with its own sub-problem, reaching a partial solution with reduced computational and data requirements. We then compare the performance of the proposed algorithm with the one of a centralized approach.
LOSAPIO, GIANVITO
METELLI, ALBERTO MARIA
MUSSI, MARCO
ING - Scuola di Ingegneria Industriale e dell'Informazione
10-ott-2024
2023/2024
L’aumento delle rinnovabili nei mix energetici e la globalizzazione del mercato dell’energia rendono più complicato il problema del controllo di reti di distribuzione elettrica. Le recenti competizioni Learning To Run a Power Network hanno stimolato l’utilizzo di Reinforcement Learning come supporto per gli operatori umani nella gestione delle reti. Le soluzioni proposte finora prevedono dei limiti stringenti nello spazio delle azioni e utilizzano agenti in grado di osservare l’intera rete oppure di operare a livello della singola stazione. Nel nostro lavoro, proponiamo un approccio diverso, nel quale dapprima decomponiamo il problema tramite un algoritmo in grado di stimare direttamente dai dati la correlazione tra le componenti di stato e azione in modo indipendente dal dominio di applicazione. Coppie di variabili stato-azione molto correlate tra loro vengono raggruppate in modo da creare sottoproblemi più semplici e indipendenti. Su questa decomposizione definiamo un processo di apprendimento distribuito, nel quale ogni agente interagisce solamente con il suo sottoproblema, raggiungendo una soluzione parziale richiedendo meno tempo e dati. Alla fine, confrontiamo i risultati ottenuti da questo algoritmo con quelli di un approccio centralizzato.
File allegati
File Dimensione Formato  
2024_10_Beretta_Tesi.pdf

accessibile in internet per tutti

Descrizione: Tesi
Dimensione 1.67 MB
Formato Adobe PDF
1.67 MB Adobe PDF Visualizza/Apri
2024_10_Beretta_Executive_Summary.pdf

accessibile in internet per tutti

Descrizione: Executive summary
Dimensione 653.13 kB
Formato Adobe PDF
653.13 kB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/226817