In this thesis, the author presents an implementation of an automated trading system for power trading based on deep reinforcement learning. The model focuses on the market closer to the delivery time of the power, which became more important with the widespread introduction of renewable intermittent production. The objective is to learn the optimal trading strategy that maximizes the profit of the agent while reducing the risk exposure. The sequential decision making is formulated as an MDP and solved with advantage actor-critic algorithm (A2C). The best performance configuration outperforms baselines strategies based on the volume-weighted average price. Furthermore, this model could be extended to other commodity or financial markets.
In questa tesi l’autore presenta un’implementazione di un Sistema automatico per il commercio energetico , basato su un algoritmo di deep reinforcement learning. Il modello osserva il mercato nell’ intervallo di tempo immediatamente antecedente al momento di consegna dell’energia, momento sempre più importante dalla diffusione delle fonti di energia rinnovabili, spesso intermittenti. L’obiettivo è imparare la strategia ottimale di scambio che massimizza il profitto dell’agente e minimizza il rischio. Il processo decisionale è basato su una MDP and è risolto tramite l’algoritmo A2C. La configurazione che garantisce la migliore performan.ce è ampiamente superiore alle strategie basate sul Prezzo medio pesato sul volume. Inoltre il modello potrebbe essere facilmente generalizzato ad altri beni o mercati finanziari.
Deep reinforcement learning for intraday power trading
BALLESTEROS CASTILLA, DANIEL
2018/2019
Abstract
In this thesis, the author presents an implementation of an automated trading system for power trading based on deep reinforcement learning. The model focuses on the market closer to the delivery time of the power, which became more important with the widespread introduction of renewable intermittent production. The objective is to learn the optimal trading strategy that maximizes the profit of the agent while reducing the risk exposure. The sequential decision making is formulated as an MDP and solved with advantage actor-critic algorithm (A2C). The best performance configuration outperforms baselines strategies based on the volume-weighted average price. Furthermore, this model could be extended to other commodity or financial markets.File | Dimensione | Formato | |
---|---|---|---|
thesis.pdf
solo utenti autorizzati dal 06/12/2020
Descrizione: Master's thesis - Daniel Ballesteros
Dimensione
1.88 MB
Formato
Adobe PDF
|
1.88 MB | Adobe PDF | Visualizza/Apri |
I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/10589/152216