Climate change, which urges the rapid decarbonisation of energy-intensive industries, and the emergence of new power-hungry sectors, such as data centers, are significantly transforming traditional power grids. In particular, the necessary integration of renewable energy sources, combined with the expanding scale of power networks, presents significant challenges in controlling modern power grids. Traditional control systems, which are human and optimization-based, struggle to adapt and to scale in such evolving context, motivating the exploration of more dynamic and distributed control strategies. This thesis advances a graph-based multi-agent reinforcement learning (MARL) framework for real-time, scalable grid management. The proposed architecture consists of a network of distributed low-level agents acting on individual powerlines and coordinated by a high-level manager agent. A Graph Neural Network (GNN) is employed to encode network's topological information within the single low-level agent's observation. To accelerate convergence and enhance learning stability, the framework integrates Imitation Learning and potential-based reward shaping. In contrast to conventional decentralized approaches that decompose only the action space while relying on global observations, this method also decomposes the observation space. Each low-level agent acts based on a structured and informative local view of the environment constructed through the Graph Neural Network. Experiments on the Grid2Op simulation environment show that the proposed method outperforms the standard baseline, commonly employed in such contexts. A qualitative analysis of the learned GNN weights reveals the model’s ability to capture structural patterns within power grids' observations, indicating strong generalization capabilities across different topologies. As a minor contribution, a novel learning-based method for decomposing power grids into independent subgrids was implemented, potentially enabling even more scalable multi-layer extensions of the proposed architecture.

Il rapido processo di decarbonizzazione dell'industria energivora imposto dal cambiamento climatico e la nascita di nuovi settori ad alta intensità energetica, come i data centers, stanno profondamente trasformando le reti elettriche tradizionali. Nello specifico, l'introduzione di fonti di energia rinnovabili, unita all'aumento delle dimensioni delle reti elettriche, rende la gestione delle reti moderne, una sfida rilevante. I sistemi di controllo tradizionali, basati sull’intervento umano e su tecniche di ottimizzazione, fanno fatica a scalare in un contesto così mutevole, motivando lo sviluppo di soluzioni che siano dinamiche e distribuite. Questa tesi propone una procedura di controllo a tempo-reale e scalabile, basata sull'Apprendimento per Rinforzo in un contesto Multi Agente (MARL) e sull'apprendimento sui Grafi. L'architettura prevede una rete di agenti distribuiti di basso livello che agiscono sulle singole linee elettriche, coordinati da un agente di alto livello. Per includere le informazioni topologiche della rete all'interno delle osservazioni dei singoli agenti di basso livello, viene impiegata una Rete Neurale per Grafi. Per accelerare la convergenza e migliorare la stabilità, la procedura proposta integra techniche di imitazione dell'esperto e di modellamento del segnale di ricompensa tramite potenziale. A differenza degli approcci distribuiti classici per la gestione di reti elettriche, che si concentrano esclusivamente sulla scomposizione dello spazio delle azioni ma che mantengono un'osservazione globale, la soluzione proposta suddivide anche lo spazio delle osservazioni. Ciascun agente di basso livello prende decisioni basandosi su una visione locale e strutturata dell'ambiente, generata da una rete neurale per grafi. Gli esperimenti effettuati sul simulatore Grid2Op, mostrano come la procedura proposta superi in prestazioni la soluzione di riferimento comunemente adottata nell'ambito del controllo di reti elettriche. Un'analisi qualitativa sui parametri della rete neurale per grafi evidenzia l'abilità del modello di riconoscere il pattern strutturale dell'osservazione che riceve in ingresso, suggerendo buone capacità di generalizzazione. Come contributo aggiuntivo, è stata implementata una nuova procedura basata sull'apprendimento, per la decomposizione di reti elettriche in sottoreti indipendenti, aprendo la strada a possibili estensioni multi-livello della procedura proposta con poteziale aumento della scalabilità.

Graph-based multi-agent reinforcement learning for power grid control

FABRIZIO, CARLO
2024/2025

Abstract

Climate change, which urges the rapid decarbonisation of energy-intensive industries, and the emergence of new power-hungry sectors, such as data centers, are significantly transforming traditional power grids. In particular, the necessary integration of renewable energy sources, combined with the expanding scale of power networks, presents significant challenges in controlling modern power grids. Traditional control systems, which are human and optimization-based, struggle to adapt and to scale in such evolving context, motivating the exploration of more dynamic and distributed control strategies. This thesis advances a graph-based multi-agent reinforcement learning (MARL) framework for real-time, scalable grid management. The proposed architecture consists of a network of distributed low-level agents acting on individual powerlines and coordinated by a high-level manager agent. A Graph Neural Network (GNN) is employed to encode network's topological information within the single low-level agent's observation. To accelerate convergence and enhance learning stability, the framework integrates Imitation Learning and potential-based reward shaping. In contrast to conventional decentralized approaches that decompose only the action space while relying on global observations, this method also decomposes the observation space. Each low-level agent acts based on a structured and informative local view of the environment constructed through the Graph Neural Network. Experiments on the Grid2Op simulation environment show that the proposed method outperforms the standard baseline, commonly employed in such contexts. A qualitative analysis of the learned GNN weights reveals the model’s ability to capture structural patterns within power grids' observations, indicating strong generalization capabilities across different topologies. As a minor contribution, a novel learning-based method for decomposing power grids into independent subgrids was implemented, potentially enabling even more scalable multi-layer extensions of the proposed architecture.
LOSAPIO, GIANVITO
METELLI , ALBERTO MARIA
MUSSI, MARCO
ING - Scuola di Ingegneria Industriale e dell'Informazione
22-lug-2025
2024/2025
Il rapido processo di decarbonizzazione dell'industria energivora imposto dal cambiamento climatico e la nascita di nuovi settori ad alta intensità energetica, come i data centers, stanno profondamente trasformando le reti elettriche tradizionali. Nello specifico, l'introduzione di fonti di energia rinnovabili, unita all'aumento delle dimensioni delle reti elettriche, rende la gestione delle reti moderne, una sfida rilevante. I sistemi di controllo tradizionali, basati sull’intervento umano e su tecniche di ottimizzazione, fanno fatica a scalare in un contesto così mutevole, motivando lo sviluppo di soluzioni che siano dinamiche e distribuite. Questa tesi propone una procedura di controllo a tempo-reale e scalabile, basata sull'Apprendimento per Rinforzo in un contesto Multi Agente (MARL) e sull'apprendimento sui Grafi. L'architettura prevede una rete di agenti distribuiti di basso livello che agiscono sulle singole linee elettriche, coordinati da un agente di alto livello. Per includere le informazioni topologiche della rete all'interno delle osservazioni dei singoli agenti di basso livello, viene impiegata una Rete Neurale per Grafi. Per accelerare la convergenza e migliorare la stabilità, la procedura proposta integra techniche di imitazione dell'esperto e di modellamento del segnale di ricompensa tramite potenziale. A differenza degli approcci distribuiti classici per la gestione di reti elettriche, che si concentrano esclusivamente sulla scomposizione dello spazio delle azioni ma che mantengono un'osservazione globale, la soluzione proposta suddivide anche lo spazio delle osservazioni. Ciascun agente di basso livello prende decisioni basandosi su una visione locale e strutturata dell'ambiente, generata da una rete neurale per grafi. Gli esperimenti effettuati sul simulatore Grid2Op, mostrano come la procedura proposta superi in prestazioni la soluzione di riferimento comunemente adottata nell'ambito del controllo di reti elettriche. Un'analisi qualitativa sui parametri della rete neurale per grafi evidenzia l'abilità del modello di riconoscere il pattern strutturale dell'osservazione che riceve in ingresso, suggerendo buone capacità di generalizzazione. Come contributo aggiuntivo, è stata implementata una nuova procedura basata sull'apprendimento, per la decomposizione di reti elettriche in sottoreti indipendenti, aprendo la strada a possibili estensioni multi-livello della procedura proposta con poteziale aumento della scalabilità.
File allegati
File Dimensione Formato  
2025_07_Fabrizio_Tesi_01.pdf

accessibile in internet per tutti

Descrizione: Testo della tesi
Dimensione 11.44 MB
Formato Adobe PDF
11.44 MB Adobe PDF Visualizza/Apri
2025_07_Fabrizio_Executive_Summary_02.pdf

accessibile in internet per tutti

Descrizione: Executive Summary
Dimensione 1.3 MB
Formato Adobe PDF
1.3 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/240177