Exploiting uncertainty in the advantage actor-critic reinforcement learning model

Biblioteche e Archivi
POLITesi - Archivio digitale delle tesi di laurea e di dottorato

Uncertainty is an intrinsic aspect of every real-world scenario that can have significant impacts on the learning and decision-making processes of reinforcement learning agents. This thesis explores a new approach for exploiting uncertainty in the Advantage Actor-Critic (A2C) model predictions measured through Monte Carlo Dropout. By measuring the variability of these predictions, our methods aim to enhance the agent's adaptability and robustness, especially in complex and unpredictable environments. We developed a temperature-guided exploration technique to alter the entropy of the actor's predictions based on the decrease or increase of the actor's uncertainty to promote further exploration or exploitation and an advantage scaling method based on the critic's uncertainty to make more cautious policy updates in uncertain situations. The introduced approach improved the agent's performance in 10 out of 14 tested environments, ranging from diverse Atari games to highly challenging tasks in MuJoCo's physical simulations.

L'incertezza è un aspetto intrinseco di ogni scenario del mondo reale che può avere impatti significativi sui processi di apprendimento e decisionali degli agenti di apprendimento per rinforzo. Questa tesi esplora un nuovo approccio per sfruttare l'incertezza nelle previsioni del modello Advantage Actor-Critic (A2C) misurate tramite Monte Carlo Dropout. Misurando la variabilità di queste previsioni, i nostri metodi mirano a migliorare l'adattabilità e la robustezza dell'agente, soprattutto in ambienti complessi e imprevedibili. Abbiamo sviluppato una tecnica di esplorazione guidata dalla temperatura per modificare l'entropia delle previsioni dell'attore in base al decrescere o al crescere della sua incertezza, per promuovere un'ulteriore esplorazione o sfruttamento e un metodo di ridimensionamento del vantaggio basato sull'incertezza del critico per effettuare aggiornamenti delle politiche più cauti in situazioni incerte. Il approccio introdotto ha migliorato le prestazioni dell'agente in 10 dei 14 ambienti testati, spaziando da diversi giochi Atari a complessi task nelle simulazioni fisiche di MuJoCo.

Exploiting uncertainty in the advantage actor-critic reinforcement learning model

SANGUINETI, ANDREA

2023/2024

Abstract

Uncertainty is an intrinsic aspect of every real-world scenario that can have significant impacts on the learning and decision-making processes of reinforcement learning agents. This thesis explores a new approach for exploiting uncertainty in the Advantage Actor-Critic (A2C) model predictions measured through Monte Carlo Dropout. By measuring the variability of these predictions, our methods aim to enhance the agent's adaptability and robustness, especially in complex and unpredictable environments. We developed a temperature-guided exploration technique to alter the entropy of the actor's predictions based on the decrease or increase of the actor's uncertainty to promote further exploration or exploitation and an advantage scaling method based on the critic's uncertainty to make more cautious policy updates in uncertain situations. The introduced approach improved the agent's performance in 10 out of 14 tested environments, ranging from diverse Atari games to highly challenging tasks in MuJoCo's physical simulations.

Scheda breve

Scheda completa

	Relatore
	
				BONARINI, ANDREA
			
	Correlatore/i
	
				RAMICIC, MIRZA
			
	Scuola / Dip.
	
				ING  - Scuola di Ingegneria Industriale e dell'Informazione
			
	Data
	
				10-ott-2024
			
	Anno accademico
	
				2023/2024
			
	Abstract in italiano
	
				L'incertezza è un aspetto intrinseco di ogni scenario del mondo reale che può avere impatti significativi sui processi di apprendimento e decisionali degli agenti di apprendimento per rinforzo. Questa tesi esplora un nuovo approccio per sfruttare l'incertezza nelle previsioni del modello Advantage Actor-Critic (A2C) misurate tramite Monte Carlo Dropout. Misurando la variabilità di queste previsioni, i nostri metodi mirano a migliorare l'adattabilità e la robustezza dell'agente, soprattutto in ambienti complessi e imprevedibili. Abbiamo sviluppato una tecnica di esplorazione guidata dalla temperatura per modificare l'entropia delle previsioni dell'attore in base al decrescere o al crescere della sua incertezza, per promuovere un'ulteriore esplorazione o sfruttamento e un metodo di ridimensionamento del vantaggio basato sull'incertezza del critico per effettuare aggiornamenti delle politiche più cauti in situazioni incerte. 

Il approccio introdotto ha migliorato le prestazioni dell'agente in 10 dei 14 ambienti testati, spaziando da diversi giochi Atari a complessi task 
nelle simulazioni fisiche di MuJoCo.
			
	Appare nelle tipologie:
	
				Tesi di laurea Magistrale

File allegati

File	Dimensione	Formato
2024_10_Sanguineti_Thesis_1.pdf accessibile in internet solo dagli utenti autorizzati Descrizione: Thesis Dimensione 6.28 MB Formato Adobe PDF Visualizza/Apri	6.28 MB	Adobe PDF	Visualizza/Apri
2024_10_Sanguineti_Executive Summary_2.pdf accessibile in internet solo dagli utenti autorizzati Descrizione: Executive Summary Dimensione 477.84 kB Formato Adobe PDF Visualizza/Apri	477.84 kB	Adobe PDF	Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/227013