Uncertainty is an intrinsic aspect of every real-world scenario that can have significant impacts on the learning and decision-making processes of reinforcement learning agents. This thesis explores a new approach for exploiting uncertainty in the Advantage Actor-Critic (A2C) model predictions measured through Monte Carlo Dropout. By measuring the variability of these predictions, our methods aim to enhance the agent's adaptability and robustness, especially in complex and unpredictable environments. We developed a temperature-guided exploration technique to alter the entropy of the actor's predictions based on the decrease or increase of the actor's uncertainty to promote further exploration or exploitation and an advantage scaling method based on the critic's uncertainty to make more cautious policy updates in uncertain situations. The introduced approach improved the agent's performance in 10 out of 14 tested environments, ranging from diverse Atari games to highly challenging tasks in MuJoCo's physical simulations.
L'incertezza è un aspetto intrinseco di ogni scenario del mondo reale che può avere impatti significativi sui processi di apprendimento e decisionali degli agenti di apprendimento per rinforzo. Questa tesi esplora un nuovo approccio per sfruttare l'incertezza nelle previsioni del modello Advantage Actor-Critic (A2C) misurate tramite Monte Carlo Dropout. Misurando la variabilità di queste previsioni, i nostri metodi mirano a migliorare l'adattabilità e la robustezza dell'agente, soprattutto in ambienti complessi e imprevedibili. Abbiamo sviluppato una tecnica di esplorazione guidata dalla temperatura per modificare l'entropia delle previsioni dell'attore in base al decrescere o al crescere della sua incertezza, per promuovere un'ulteriore esplorazione o sfruttamento e un metodo di ridimensionamento del vantaggio basato sull'incertezza del critico per effettuare aggiornamenti delle politiche più cauti in situazioni incerte. Il approccio introdotto ha migliorato le prestazioni dell'agente in 10 dei 14 ambienti testati, spaziando da diversi giochi Atari a complessi task nelle simulazioni fisiche di MuJoCo.
Exploiting uncertainty in the advantage actor-critic reinforcement learning model
SANGUINETI, ANDREA
2023/2024
Abstract
Uncertainty is an intrinsic aspect of every real-world scenario that can have significant impacts on the learning and decision-making processes of reinforcement learning agents. This thesis explores a new approach for exploiting uncertainty in the Advantage Actor-Critic (A2C) model predictions measured through Monte Carlo Dropout. By measuring the variability of these predictions, our methods aim to enhance the agent's adaptability and robustness, especially in complex and unpredictable environments. We developed a temperature-guided exploration technique to alter the entropy of the actor's predictions based on the decrease or increase of the actor's uncertainty to promote further exploration or exploitation and an advantage scaling method based on the critic's uncertainty to make more cautious policy updates in uncertain situations. The introduced approach improved the agent's performance in 10 out of 14 tested environments, ranging from diverse Atari games to highly challenging tasks in MuJoCo's physical simulations.File | Dimensione | Formato | |
---|---|---|---|
2024_10_Sanguineti_Thesis_1.pdf
accessibile in internet solo dagli utenti autorizzati
Descrizione: Thesis
Dimensione
6.28 MB
Formato
Adobe PDF
|
6.28 MB | Adobe PDF | Visualizza/Apri |
2024_10_Sanguineti_Executive Summary_2.pdf
accessibile in internet solo dagli utenti autorizzati
Descrizione: Executive Summary
Dimensione
477.84 kB
Formato
Adobe PDF
|
477.84 kB | Adobe PDF | Visualizza/Apri |
I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/10589/227013