RL based EMS for railway stations with high-power EVs and regenerative braking energy

This work studies the application of deep reinforcement learning to the energy optimiza tion of a railway station operating as a microgrid. The case study is Milano Bovisa station, where trains generate variable demand and regenerative braking is an intermittent source. In addition to rail traction, the system integrates a PV field, batteries (ESS), and charging stations for electric vehicles (EVs) with vehicle-to-grid (V2G) capability. The objective is to minimize the cost of electricity purchased from the public grid and reduce power peaks, which are subject to specific pricing. Existing work focuses on railway energy management using conventional optimization methods and, more recently, machine learning techniques. Several studies consider brak ing energy recovery, storage, renewable energies, and EV charging, but none simultane ously combine these four components in a single framework using deep learning. This work proposes to explore this area. A simulator reproduces the operation of a full day, taking into account meteorological data, actual trains schedules, and uncertainties such as train delays or random EV ar rivals and departures. The EMS is formulated as a Markov decision process whose state aggregates the state of charge of the batteries and demand forecasts over several time horizons. At every step of one or several minutes, the agent chooses discrete actions set ting the charging power of the ESS and the participation of EVs in traction support. A Deep Q-Network (DQN) is trained to maximize an economic reward defined as the savings made on electricity purchases and peak power. Then a more complex Soft Actor-Critic (SAC) model is trained with dynamic prices and electrical simulation of train traction. The results show that the Q-learning agent makes simple sensible decisions but in the face of the various uncertainties of the environment. The results of the SAC model show greater potential as it shows more complex decision making capacities.

Questo lavoro studia l’applicazione del Deep Learning all’ottimizzazione energetica di una stazione ferroviaria che opera come micro-rete. Il caso di studio è la stazione di Milano Bovisa, dove i treni generano una domanda variabile e la frenata rigenerativa è una fonte intermittente. Oltre alla trazione ferroviaria, il sistema integra un campo fotovoltaico, batterie (ESS) e stazioni di ricarica per veicoli elettrici (EV) con capacità vehicle-to grid (V2G). L’obiettivo è ridurre al minimo il costo dell’elettricità acquistata dalla rete pubblica e ridurre i picchi di potenza, che sono soggetti a tariffe specifiche. I lavori esistenti si concentrano sulla gestione dell’energia ferroviaria utilizzando metodi di ottimizzazione convenzionali e, più recentemente, tecniche di apprendimento automatico. Diversi studi prendono in considerazione il recupero dell’energia di frenata, lo stoccaggio, le energie rinnovabili e la ricarica dei veicoli elettrici, ma nessuno combina contempo raneamente questi quattro componenti in un unico quadro utilizzando l’apprendimento profondo. Questo lavoro si propone di esplorare questo settore. Un simulatore riproduce il funzionamento di un’intera giornata, tenendo conto dei dati meteorologici, degli orari effettivi dei treni e delle incertezze quali i ritardi dei treni o gli arrivi e le partenze casuali dei veicoli elettrici. L’EMS è formulato come un processo decisionale di Markov il cui stato aggrega lo stato di carica delle batterie e le previsioni della domanda su diversi orizzonti temporali. Ad ogni passo di uno o più minuti, l’agente sceglie azioni discrete impostando la potenza di ricarica dell’ESS e la partecipazione dei veicoli elettrici al supporto alla trazione. Una rete Q profonda (DQN) viene addestrata per massimizzare una ricompensa economica definita come il risparmio realizzato sugli acquisti di elettricità e sulla potenza di picco. Quindi viene addestrato un modello Soft Actor-Critic (SAC) più complesso con prezzi dinamici e simulazione elettrica della trazione dei treni. I risultati mostrano che l’agente Q-learning prende decisioni semplici e sensate, ma di fronte alle varie incertezze dell’ambiente. I risultati del modello SAC mostrano un poten ziale maggiore, poiché evidenziano capacità decisionali più complesse.