Artificial Intelligence aims to solve many of today's problems, some of these can be modeled as decision-making problems. One of the approaches to solve this kind of problems is Reinforcement Learning (RL) which addresses them through a trial and error way. One of the famous still open issues of RL is the exploration-exploitation dilemma, which is even more problematic in the context of continuous action spaces where deep architectures are needed. This Thesis proposes an RL algorithm called Wasserstein Actor-Critic (WAC) which improves on the state-of-the-art on continuous control environments where exploration is particularly important. WAC uses approximate Q-posteriors to represent the epistemic uncertainty of the states and Wasserstein barycenters to propagate it across the state-action space. WAC enforces exploration in a principled way by guiding the policy learning process with the optimization of an upper bound of the Q-value estimates. Furthermore, we study some peculiar issues that arise when using function approximation, coupled with the uncertainty estimation, and propose a regularized loss for the uncertainty estimation. Finally, we evaluate our algorithm on a suite of continuous actions domains, where exploration is crucial, in comparison with state-of-the-art baselines.

L'intelligenza artificiale mira a risolvere molti dei problemi odierni, alcuni dei quali possono essere modellati come problemi decisionali. Uno degli approcci per risolvere questo tipo di problemi è il Reinforcement Learning (RL), che li affronta attraverso un metodo per tentativi ed errori. Uno dei famosi problemi ancora aperti dell'RL è il dilemma esplorazione-sfruttamento, ancora più problematico nel contesto di spazi di azioni continue in cui sono necessarie reti neurali a più livelli. Questa tesi propone un algoritmo di RL chiamato Wasserstein Actor Critic (WAC) che migliora lo stato dell'arte negli ambienti di controllo continuo, dove l'esplorazione è particolarmente importante. WAC utilizza dei Q-posteriors approssimati per rappresentare l'incertezza epistemica degli stati e i baricentri di Wasserstein per propagarla nello spazio stato-azione. WAC impone l'esplorazione con una metodologia dai saldi principi, guidando il processo di apprendimento delle politiche tramite l'ottimizzazione di un estremo superiore delle stime dei valori Q. Inoltre, studiamo alcune questioni peculiari che sorgono quando si utilizza l'approssimazione delle funzioni, accoppiata alla stima dell'incertezza, e proponiamo una loss regolarizzata per la stima dell'incertezza. Infine, valutiamo il nostro algoritmo su una serie di domini di azioni continue, in cui l'esplorazione è cruciale, in confronto con lo stato dell'arte.

Directed exploration in continuous-action Reinforcement Learning via uncertainty-aware agents

SACCO, MATTEO
2021/2022

Abstract

Artificial Intelligence aims to solve many of today's problems, some of these can be modeled as decision-making problems. One of the approaches to solve this kind of problems is Reinforcement Learning (RL) which addresses them through a trial and error way. One of the famous still open issues of RL is the exploration-exploitation dilemma, which is even more problematic in the context of continuous action spaces where deep architectures are needed. This Thesis proposes an RL algorithm called Wasserstein Actor-Critic (WAC) which improves on the state-of-the-art on continuous control environments where exploration is particularly important. WAC uses approximate Q-posteriors to represent the epistemic uncertainty of the states and Wasserstein barycenters to propagate it across the state-action space. WAC enforces exploration in a principled way by guiding the policy learning process with the optimization of an upper bound of the Q-value estimates. Furthermore, we study some peculiar issues that arise when using function approximation, coupled with the uncertainty estimation, and propose a regularized loss for the uncertainty estimation. Finally, we evaluate our algorithm on a suite of continuous actions domains, where exploration is crucial, in comparison with state-of-the-art baselines.
LIKMETA, AMARILDO
METELLI, ALBERTO MARIA
ING - Scuola di Ingegneria Industriale e dell'Informazione
22-lug-2022
2021/2022
L'intelligenza artificiale mira a risolvere molti dei problemi odierni, alcuni dei quali possono essere modellati come problemi decisionali. Uno degli approcci per risolvere questo tipo di problemi è il Reinforcement Learning (RL), che li affronta attraverso un metodo per tentativi ed errori. Uno dei famosi problemi ancora aperti dell'RL è il dilemma esplorazione-sfruttamento, ancora più problematico nel contesto di spazi di azioni continue in cui sono necessarie reti neurali a più livelli. Questa tesi propone un algoritmo di RL chiamato Wasserstein Actor Critic (WAC) che migliora lo stato dell'arte negli ambienti di controllo continuo, dove l'esplorazione è particolarmente importante. WAC utilizza dei Q-posteriors approssimati per rappresentare l'incertezza epistemica degli stati e i baricentri di Wasserstein per propagarla nello spazio stato-azione. WAC impone l'esplorazione con una metodologia dai saldi principi, guidando il processo di apprendimento delle politiche tramite l'ottimizzazione di un estremo superiore delle stime dei valori Q. Inoltre, studiamo alcune questioni peculiari che sorgono quando si utilizza l'approssimazione delle funzioni, accoppiata alla stima dell'incertezza, e proponiamo una loss regolarizzata per la stima dell'incertezza. Infine, valutiamo il nostro algoritmo su una serie di domini di azioni continue, in cui l'esplorazione è cruciale, in confronto con lo stato dell'arte.
File allegati
File Dimensione Formato  
executive_summary.pdf

Open Access dal 05/07/2023

Descrizione: Executive Summary
Dimensione 4.13 MB
Formato Adobe PDF
4.13 MB Adobe PDF Visualizza/Apri
Thesis.pdf

Open Access dal 05/07/2023

Descrizione: Thesis
Dimensione 5.47 MB
Formato Adobe PDF
5.47 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/190004