Reinforcement learning has proven to be effective in building intelligent artificial agents, even at a super-human level. An intelligent agent learns how to solve a task in an environment, by simple interactions within it, without being explicitly programmed to do so. The paradigm is based on a human-designed feedback signal, called the reward, which encodes the specific target task, that guides the agent learning. One of the open challenges in this field is to shape intelligent agents even in a reward-free setting, where no form of human-supervision is present. This is critical to obtain human-like intelligence, which is far less dependent on exogenous guidance: for example we, as humans, spontaneously engage in a variety of activities, to learn a variety of skills, which will be useful in the future, by thoroughly exploring the environment surrounding us. In this perspective, in a reward-free context, what is a suitable exploration objective for an agent to pursue so that it can learn an optimal task-agnostic exploration policy? In this thesis, we argue that the entropy of the state distribution induced by limited-horizon trajectories is a sensible target. Especially, we present a novel and practical policy-search algorithm, Maximum Entropy POLicy optimization (MEPOL), to learn a policy that maximizes a non-parametric, k-nearest neighbor estimate of the state distribution entropy. In contrast to known methods, MEPOL is completely model-free as it requires neither to estimate the state distribution of any policy nor to model transition dynamics. We empirically show that MEPOL allows learning a maximum-entropy exploratory policy in high-dimensional, continuous-control domains, and how this policy facilitates the learning of a variety of meaningful reward-based tasks downstream.

L'apprendimento per rinforzo ha dimostrato di essere efficace nella costruzione di agenti artificiali intelligenti, anche a livello superumano. Un agente intelligente impara come risolvere un determinato compito in un ambiente, mediante semplici interazioni al suo interno, senza essere esplicitamente programmato per farlo. Il paradigma si basa su un segnale di feedback progettato dall'uomo, chiamato rinforzo, che codifica il compito obiettivo e guida l'apprendimento dell'agente. Una delle sfide in questo campo è quella di costruire agenti intelligenti anche in un contesto privo di rinforzi, dove non è presente alcuna forma di supervisione umana. Questo è fondamentale per ottenere un'intelligenza simile a quella dell’uomo, che è molto meno dipendente da una guida esogena: per esempio noi, come esseri umani, intraprendiamo spontaneamente una varietà di attività, per apprendere una serie di abilità che ci saranno utili in futuro, esplorando a fondo l’ambiente che ci circonda. In questa prospettiva, in un contesto privo di rinforzi, qual è l'obiettivo di esplorazione che un agente dovrebbe perseguire in modo che possa imparare una politica di esplorazione, agnostica rispetto al compito, ottimale? In questa tesi, sosteniamo che l'entropia della distribuzione di stato indotta da traiettorie ad orizzonte finito è un obiettivo ragionevole. In particolare, presentiamo un nuovo e pratico algoritmo di ricerca della politica, MEPOL, per apprendere una politica che massimizza una stima non parametrica dell'entropia della distribuzione di stato. Contrariamente ai metodi noti, MEPOL non richiede né di stimare la distribuzione di stato della politica né di modellare le dinamiche di transizione. Mostriamo empiricamente che MEPOL consente di apprendere una politica esplorativa a massima entropia in domini continui ad alta dimensionalità e come questa politica faciliti l'apprendimento di una moltitudine di compiti significativi futuri.

Task-agnostic exploration via maximum state entropy policy optimization

Pratissoli, Lorenzo
2019/2020

Abstract

Reinforcement learning has proven to be effective in building intelligent artificial agents, even at a super-human level. An intelligent agent learns how to solve a task in an environment, by simple interactions within it, without being explicitly programmed to do so. The paradigm is based on a human-designed feedback signal, called the reward, which encodes the specific target task, that guides the agent learning. One of the open challenges in this field is to shape intelligent agents even in a reward-free setting, where no form of human-supervision is present. This is critical to obtain human-like intelligence, which is far less dependent on exogenous guidance: for example we, as humans, spontaneously engage in a variety of activities, to learn a variety of skills, which will be useful in the future, by thoroughly exploring the environment surrounding us. In this perspective, in a reward-free context, what is a suitable exploration objective for an agent to pursue so that it can learn an optimal task-agnostic exploration policy? In this thesis, we argue that the entropy of the state distribution induced by limited-horizon trajectories is a sensible target. Especially, we present a novel and practical policy-search algorithm, Maximum Entropy POLicy optimization (MEPOL), to learn a policy that maximizes a non-parametric, k-nearest neighbor estimate of the state distribution entropy. In contrast to known methods, MEPOL is completely model-free as it requires neither to estimate the state distribution of any policy nor to model transition dynamics. We empirically show that MEPOL allows learning a maximum-entropy exploratory policy in high-dimensional, continuous-control domains, and how this policy facilitates the learning of a variety of meaningful reward-based tasks downstream.
MUTTI, MIRCO
ING - Scuola di Ingegneria Industriale e dell'Informazione
24-lug-2020
2019/2020
L'apprendimento per rinforzo ha dimostrato di essere efficace nella costruzione di agenti artificiali intelligenti, anche a livello superumano. Un agente intelligente impara come risolvere un determinato compito in un ambiente, mediante semplici interazioni al suo interno, senza essere esplicitamente programmato per farlo. Il paradigma si basa su un segnale di feedback progettato dall'uomo, chiamato rinforzo, che codifica il compito obiettivo e guida l'apprendimento dell'agente. Una delle sfide in questo campo è quella di costruire agenti intelligenti anche in un contesto privo di rinforzi, dove non è presente alcuna forma di supervisione umana. Questo è fondamentale per ottenere un'intelligenza simile a quella dell’uomo, che è molto meno dipendente da una guida esogena: per esempio noi, come esseri umani, intraprendiamo spontaneamente una varietà di attività, per apprendere una serie di abilità che ci saranno utili in futuro, esplorando a fondo l’ambiente che ci circonda. In questa prospettiva, in un contesto privo di rinforzi, qual è l'obiettivo di esplorazione che un agente dovrebbe perseguire in modo che possa imparare una politica di esplorazione, agnostica rispetto al compito, ottimale? In questa tesi, sosteniamo che l'entropia della distribuzione di stato indotta da traiettorie ad orizzonte finito è un obiettivo ragionevole. In particolare, presentiamo un nuovo e pratico algoritmo di ricerca della politica, MEPOL, per apprendere una politica che massimizza una stima non parametrica dell'entropia della distribuzione di stato. Contrariamente ai metodi noti, MEPOL non richiede né di stimare la distribuzione di stato della politica né di modellare le dinamiche di transizione. Mostriamo empiricamente che MEPOL consente di apprendere una politica esplorativa a massima entropia in domini continui ad alta dimensionalità e come questa politica faciliti l'apprendimento di una moltitudine di compiti significativi futuri.
File allegati
File Dimensione Formato  
2020_7_Pratissoli.pdf

accessibile in internet per tutti

Descrizione: Testo della tesi
Dimensione 2.35 MB
Formato Adobe PDF
2.35 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/167057