Reinforcement learning is a very active area of research that studies how to learn intelligent agents that can solve sequential decision-making problems via simple interactions within an environment while being guided by a feedback signal, called reward. In recent years, it has shared the growth of interest with the other fields of artificial intelligence thanks to the rise of deep learning techniques. However, the area is far from being considered completely solved, as many technical and theoretical challenges still need to be addressed. Among these, we can find the ability to learn without external feedback, meaning that the agent should be able, as humans, to learn by interacting with the surrounding environment without being guided by explicit signals, but only because of intrinsic motivation. Another crucial point of interest is represented by the ability of the agent to generalize its behavior among different environments. The purpose of this thesis is to deal with both these aspects, combining them in a single setting. We address the problem of learning to explore a class of multiple reward-free environments with a unique general strategy, which aims to provide a universal initialization to subsequent reinforcement learning problems specified over the same class. Notably, the problem is inherently multi-objective as we can trade off the exploration performance between environments in many ways. In this work, we foster an exploration strategy that is sensitive to the most adverse cases within the class. Hence, we cast the exploration problem as the maximization of the mean of a critical percentile of the state visitation entropy induced by the exploration strategy over the class of environments. Then, we present a policy gradient algorithm, MEMENTO, to optimize the introduced objective through mediated interactions with the class. Finally, we empirically demonstrate the ability of the algorithm in learning to explore challenging classes of continuous environments and we show that reinforcement learning greatly benefits from the pre-trained exploration strategy when compared to learning from scratch.

L'apprendimento per rinforzo è un'area di ricerca molto attiva, avente come proposito quello di realizzare agenti intelligenti che possano autonomamente scegliere azioni da compiere per il raggiungimento di un obiettivo tramite interazione con l'ambiente in cui sono immersi, e mentre sono guidati da una funzione di utilità, la quale ricompensa o penalizza l'agente in base alla decisione da esso presa. Negli ultimi anni, l'apprendimento per rinforzo ha condiviso con altri campi dell'intelligenza artificiale un generale aumento di interesse, grazie all'avvento e alla diffusione delle tecniche di deep learning. Tuttavia, l'area è lontana dall'essere considerata completamente risolta, in quanto molte sfide, sia tecniche sia teoriche, sono in attesa di essere affrontate. Tra queste si può annoverare l'abilità, da parte dell'agente, di apprendere dalle interazioni con l'ambiente senza ricevere ricompensa o penalità alcuna, ma potremmo dire per una semplice motivazione intrinseca, così come sono in grado di fare gli esseri umani. Un altro punto di notevole interesse è rappresentato dall'abilità, da parte dell'agente, di sviluppare un comportamento che sia generale rispetto ad un insieme di ambienti differenti. L'obiettivo di questa tesi è di prendere in esame entrambi gli aspetti menzionati, combinandoli in un'unica cornice. Affrontiamo il problema di esplorare una classe di molteplici ambienti senza segnali di rinforzo e con un'unica e comune strategia, la quale si pone come obiettivo quello di essere un'inizializzazione universale per qualunque compito futuro venga specificato all'interno della classe stessa. Il problema è intrinsecamente multi-obiettivo, siccome la prestazione, descritta in termini di esplorazione, può essere mediata tra i vari ambienti in molti modi. In questo lavoro supportiamo una strategia di esplorazione che sia attenta al caso peggiore all'interno della classe. Di conseguenza, formuliamo il problema di esplorazione come la massimizzazione della media di un percentile critico dell'entropia sulla visita degli stati indotta dalla strategia di esplorazione sulla classe di ambienti. Successivamente, presentiamo un algoritmo, MEMENTO, per ottimizzare l'obiettivo introdotto mediante interazione con la classe. Infine, dimostriamo sperimentalmente l'abilità dell'algoritmo di imparare ad esplorare classi impegnative di ambienti continui e mostriamo che l'apprendimento per rinforzo beneficia notevolmente dalla risultante strategia di esplorazione se comparato con un apprendimento da zero.

Learning to explore multiple environments via reward-free reinforcement learning

MANCASSOLA, MATTIA
2019/2020

Abstract

Reinforcement learning is a very active area of research that studies how to learn intelligent agents that can solve sequential decision-making problems via simple interactions within an environment while being guided by a feedback signal, called reward. In recent years, it has shared the growth of interest with the other fields of artificial intelligence thanks to the rise of deep learning techniques. However, the area is far from being considered completely solved, as many technical and theoretical challenges still need to be addressed. Among these, we can find the ability to learn without external feedback, meaning that the agent should be able, as humans, to learn by interacting with the surrounding environment without being guided by explicit signals, but only because of intrinsic motivation. Another crucial point of interest is represented by the ability of the agent to generalize its behavior among different environments. The purpose of this thesis is to deal with both these aspects, combining them in a single setting. We address the problem of learning to explore a class of multiple reward-free environments with a unique general strategy, which aims to provide a universal initialization to subsequent reinforcement learning problems specified over the same class. Notably, the problem is inherently multi-objective as we can trade off the exploration performance between environments in many ways. In this work, we foster an exploration strategy that is sensitive to the most adverse cases within the class. Hence, we cast the exploration problem as the maximization of the mean of a critical percentile of the state visitation entropy induced by the exploration strategy over the class of environments. Then, we present a policy gradient algorithm, MEMENTO, to optimize the introduced objective through mediated interactions with the class. Finally, we empirically demonstrate the ability of the algorithm in learning to explore challenging classes of continuous environments and we show that reinforcement learning greatly benefits from the pre-trained exploration strategy when compared to learning from scratch.
MUTTI, MIRCO
ING - Scuola di Ingegneria Industriale e dell'Informazione
28-apr-2021
2019/2020
L'apprendimento per rinforzo è un'area di ricerca molto attiva, avente come proposito quello di realizzare agenti intelligenti che possano autonomamente scegliere azioni da compiere per il raggiungimento di un obiettivo tramite interazione con l'ambiente in cui sono immersi, e mentre sono guidati da una funzione di utilità, la quale ricompensa o penalizza l'agente in base alla decisione da esso presa. Negli ultimi anni, l'apprendimento per rinforzo ha condiviso con altri campi dell'intelligenza artificiale un generale aumento di interesse, grazie all'avvento e alla diffusione delle tecniche di deep learning. Tuttavia, l'area è lontana dall'essere considerata completamente risolta, in quanto molte sfide, sia tecniche sia teoriche, sono in attesa di essere affrontate. Tra queste si può annoverare l'abilità, da parte dell'agente, di apprendere dalle interazioni con l'ambiente senza ricevere ricompensa o penalità alcuna, ma potremmo dire per una semplice motivazione intrinseca, così come sono in grado di fare gli esseri umani. Un altro punto di notevole interesse è rappresentato dall'abilità, da parte dell'agente, di sviluppare un comportamento che sia generale rispetto ad un insieme di ambienti differenti. L'obiettivo di questa tesi è di prendere in esame entrambi gli aspetti menzionati, combinandoli in un'unica cornice. Affrontiamo il problema di esplorare una classe di molteplici ambienti senza segnali di rinforzo e con un'unica e comune strategia, la quale si pone come obiettivo quello di essere un'inizializzazione universale per qualunque compito futuro venga specificato all'interno della classe stessa. Il problema è intrinsecamente multi-obiettivo, siccome la prestazione, descritta in termini di esplorazione, può essere mediata tra i vari ambienti in molti modi. In questo lavoro supportiamo una strategia di esplorazione che sia attenta al caso peggiore all'interno della classe. Di conseguenza, formuliamo il problema di esplorazione come la massimizzazione della media di un percentile critico dell'entropia sulla visita degli stati indotta dalla strategia di esplorazione sulla classe di ambienti. Successivamente, presentiamo un algoritmo, MEMENTO, per ottimizzare l'obiettivo introdotto mediante interazione con la classe. Infine, dimostriamo sperimentalmente l'abilità dell'algoritmo di imparare ad esplorare classi impegnative di ambienti continui e mostriamo che l'apprendimento per rinforzo beneficia notevolmente dalla risultante strategia di esplorazione se comparato con un apprendimento da zero.
File allegati
File Dimensione Formato  
2021_04_Mancassola.pdf

accessibile in internet per tutti

Descrizione: Testo della tesi
Dimensione 2.41 MB
Formato Adobe PDF
2.41 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/173765