Building structured hierarchical agents

There is an increasing interest in Reinforcement Learning to solve new and more challenging problems. We are now able to solve moderately complex environments thanks to the advances in Policy Search methods and Deep Reinforcement Learning, even when using low-level data representations as images or raw sensor inputs. These advances have widened the set of application contexts in which machine learning techniques can be applied, bringing in the near future the application of these techniques in other emerging fields of research, such as robotics and unmanned autonomous vehicles. In these applications, autonomous agents are required to solve very complex tasks, using information taken from low-level sensors, in uncontrolled, dangerous, and unknown scenarios. However, many of these new methods suffer from major drawbacks: lack of theoretical results, even when based on sound theoretical frameworks, lack of interpretability of the learned behavior, instability of the learning process, domain knowledge not exploited systematically, extremely data hungry algorithms. The objective of this thesis is to address some of these problems and provide a set of tools to simplify the design of Reinforcement Learning agents, particularly when it comes to robotic systems that share some common characteristics. Most of these systems use continuous state and action variables that may need a fine-grained precision, making a good variety of deep learning approaches ineffective. They may exhibit different dynamics between different parts of the system, leading to a natural division based on different time scales, variable magnitudes, and abstraction levels. Finally, some of them are even difficult to formalize as a Reinforcement Learning task, making it difficult to define a reward function, while some human (or non-human) experts may be able to provide behavioral demonstrations. Based on these assumptions, we propose two approaches to improve the applicability of Reinforcement Learning techniques in these scenarios: hierarchical approaches to Reinforcement Learning, to exploit the structure of the problem, and Inverse Reinforcement Learning, which are a set of techniques able to extract the reward function i.e., the representation of the objective pursued by the agent, and the desired behavior from a set of experts' demonstrations. From these ideas follow the two major contributions of this work: a new Hierarchical Reinforcement Learning framework based on the Control Theory framework, which is particularly well-suited for robotic systems, and a family of Inverse Reinforcement Learning algorithms that are able to learn a suitable reward function for tasks (or subtasks) difficult to formalize as a reward function, particularly when demonstrations come from a set of different suboptimal experts. Our proposals make it possible to easily design a complex hierarchical control structure and learn the policy either by interacting directly with the environment or providing demonstrations for some subtasks or for the whole system.

C'è un crescente interesse nel settore dell'Apprendimento per Rinforzo per la risoluzione di problemi nuovi e impegnativi. Siamo ora in grado di risolvere problemi moderatamente complessi, grazie ai nuovi progressi nei metodi di ricerca nello spazio delle politiche e di Apprendimento per Rinforzo Profondo, anche quando vengono utilizzati dati di basso livello, quali immagini o letture dirette dai sensori. Questi progressi hanno ampliato l'insieme dei contesti applicativi nei quali è possibile applicare le tecniche di apprendimento automatico, portando nel prossimo futuro all'applicazione di queste tecniche in altri contesti emergenti, quali la robotica e i veicoli autonomi senza conducente. In queste applicazioni, è richiesto che gli agenti autonomi risolvano problemi molto complessi, usando le informazioni di basso livello provenienti dai sensori, in contesti non controllati, sconosciuti e pericolosi. Tuttavia, la maggior parte di questi metodi hanno alcuni lati negativi: mancano di proprietà teoriche, anche quando basati su basi teoretiche solide, mancano di interpretabilità del comportamento appreso, hanno un apprendimento instabile, non viene sfruttata sistematicamente la conoscenza di dominio, richiedono una mole considerevole di dati. L'obbiettivo di questa tesi è affrontare alcuni di questi problemi e fornire un insieme di strumenti per rendere semplice la progettazione di agenti per l'Apprendimento per Rinforzo in particolare quando si ha a che fare con sistemi robotici, che hanno alcune caratteristiche comuni. La maggior parte di questi sistemi usano spazi di stato e azione continui che potrebbero aver bisogno di una precisione fine, rendendo inefficaci una buona parte degli approcci basati sull'Apprendimento per Rinforzo Profondo. Generalmente, esibiscono dinamiche differenti tra diverse parti del sistema, portando a una naturale suddivisione basata su scale temporali, ampiezze dei segnali e astrazioni differenti. Infine, alcuni di questi problemi sono difficili da formalizzare come problemi di Apprendimento per Rinforzo, poiché è difficile definire la funzione di rinforzo, mentre alcuni esperti (umani o non) potrebbero fornire dimostrazioni sub-ottime. Basandoci su queste assunzioni, proponiamo due approcci per rendere maggiormente applicabili le tecniche di Apprendimento per Rinforzo in questi scenari: approcci gerarchici all'Apprendimento per Rinforzo, per sfruttare la struttura del problema, e l'Apprendimento per Rinforzo Inverso, che è un insieme di tecniche per estrarre la funzione di rinforzo, che è la rappresentazione dell'obbiettivo che l'agente sta perseguendo, e il comportamento desiderato dalle dimostrazioni degli esperti. Da queste idee nascono i due maggiori contributi di questo lavoro: un nuovo framework per l'Apprendimento per Rinforzo gerarchico basato sulla teoria del controllo, che è particolarmente adatto ai sistemi robotici, e una famiglia di algoritmi di Apprendimento per Rinforzo Inverso che sono in grado di imparare una funzione di rinforzo adeguata per obbiettivi (o sotto-obbiettivi) che sono difficili da formalizzare in termini di funzione di rinforzo, soprattutto nel caso in cui le dimostrazioni provengano da un gruppo di esperti sub-ottimi. Le nostre proposte rendono possibile progettare facilmente un sistema di controllo gerarchico complesso e imparare la politica di controllo sia interagendo direttamente con l'ambiente, sia fornendo dimostrazioni per alcuni sotto obbiettivi o per l'intero sistema.

Building structured hierarchical agents

TATEO, DAVIDE

Abstract

There is an increasing interest in Reinforcement Learning to solve new and more challenging problems. We are now able to solve moderately complex environments thanks to the advances in Policy Search methods and Deep Reinforcement Learning, even when using low-level data representations as images or raw sensor inputs. These advances have widened the set of application contexts in which machine learning techniques can be applied, bringing in the near future the application of these techniques in other emerging fields of research, such as robotics and unmanned autonomous vehicles. In these applications, autonomous agents are required to solve very complex tasks, using information taken from low-level sensors, in uncontrolled, dangerous, and unknown scenarios. However, many of these new methods suffer from major drawbacks: lack of theoretical results, even when based on sound theoretical frameworks, lack of interpretability of the learned behavior, instability of the learning process, domain knowledge not exploited systematically, extremely data hungry algorithms. The objective of this thesis is to address some of these problems and provide a set of tools to simplify the design of Reinforcement Learning agents, particularly when it comes to robotic systems that share some common characteristics. Most of these systems use continuous state and action variables that may need a fine-grained precision, making a good variety of deep learning approaches ineffective. They may exhibit different dynamics between different parts of the system, leading to a natural division based on different time scales, variable magnitudes, and abstraction levels. Finally, some of them are even difficult to formalize as a Reinforcement Learning task, making it difficult to define a reward function, while some human (or non-human) experts may be able to provide behavioral demonstrations. Based on these assumptions, we propose two approaches to improve the applicability of Reinforcement Learning techniques in these scenarios: hierarchical approaches to Reinforcement Learning, to exploit the structure of the problem, and Inverse Reinforcement Learning, which are a set of techniques able to extract the reward function i.e., the representation of the objective pursued by the agent, and the desired behavior from a set of experts' demonstrations. From these ideas follow the two major contributions of this work: a new Hierarchical Reinforcement Learning framework based on the Control Theory framework, which is particularly well-suited for robotic systems, and a family of Inverse Reinforcement Learning algorithms that are able to learn a suitable reward function for tasks (or subtasks) difficult to formalize as a reward function, particularly when demonstrations come from a set of different suboptimal experts. Our proposals make it possible to easily design a complex hierarchical control structure and learn the policy either by interacting directly with the environment or providing demonstrations for some subtasks or for the whole system.

Scheda breve

Scheda completa

	Relatore
	
				BONARINI, ANDREA
			
	Coordinatore
	
				PERNICI, BARBARA
			
	Tutor
	
				AMIGONI, FRANCESCO
			
	Correlatore/i
	
				RESTELLI, MARCELLO
			
	Data
	
				18-feb-2019
			
	Abstract in italiano
	
				C'è un crescente interesse nel settore dell'Apprendimento per Rinforzo per la risoluzione di problemi nuovi e impegnativi.
Siamo ora in grado di risolvere problemi moderatamente complessi, grazie ai nuovi progressi nei metodi di ricerca nello spazio delle politiche e di Apprendimento per Rinforzo Profondo, anche quando vengono utilizzati dati di basso livello, quali immagini o letture dirette dai sensori.
Questi progressi hanno ampliato l'insieme dei contesti applicativi nei quali è possibile applicare le tecniche di apprendimento automatico, portando nel prossimo futuro all'applicazione di queste tecniche in altri contesti emergenti, quali la robotica e i veicoli autonomi senza conducente.
In queste applicazioni, è richiesto che gli agenti autonomi risolvano problemi molto complessi, usando le informazioni di basso livello provenienti dai sensori, in contesti non controllati, sconosciuti e pericolosi.

Tuttavia, la maggior parte di questi metodi hanno alcuni lati negativi: mancano di proprietà teoriche, anche quando basati su basi teoretiche solide, mancano di interpretabilità del comportamento appreso, hanno un apprendimento instabile, non viene sfruttata sistematicamente la conoscenza di dominio, richiedono una mole considerevole di dati.

L'obbiettivo di questa tesi è affrontare alcuni di questi problemi e fornire un insieme di strumenti per rendere semplice la progettazione di agenti per l'Apprendimento per Rinforzo in particolare quando si ha a che fare con sistemi robotici, che hanno alcune caratteristiche comuni. La maggior parte di questi sistemi usano spazi di stato e azione continui che potrebbero aver bisogno di una precisione fine, rendendo inefficaci una buona parte degli approcci basati sull'Apprendimento per Rinforzo Profondo.
Generalmente, esibiscono dinamiche differenti tra diverse parti del sistema, portando a una naturale suddivisione basata su scale temporali, ampiezze dei segnali e astrazioni differenti. Infine, alcuni di questi problemi sono difficili da formalizzare come problemi di Apprendimento per Rinforzo, poiché è difficile  definire la funzione di rinforzo, mentre alcuni esperti (umani o non) potrebbero fornire dimostrazioni sub-ottime.

Basandoci su queste assunzioni, proponiamo due approcci per rendere maggiormente applicabili le tecniche di Apprendimento per Rinforzo  in questi scenari: approcci gerarchici all'Apprendimento per Rinforzo, per sfruttare la struttura del problema, e l'Apprendimento per Rinforzo Inverso, che è un insieme di tecniche per estrarre la funzione di rinforzo, che è la rappresentazione dell'obbiettivo che l'agente sta perseguendo, e il comportamento desiderato dalle dimostrazioni degli esperti.

Da queste idee nascono i due maggiori contributi di questo lavoro: un nuovo framework per l'Apprendimento per Rinforzo gerarchico basato sulla teoria del controllo, che è particolarmente adatto ai sistemi robotici, e una famiglia di algoritmi di Apprendimento per Rinforzo Inverso che sono in grado di imparare una funzione di rinforzo adeguata per obbiettivi (o sotto-obbiettivi) che sono difficili da formalizzare in termini di funzione di rinforzo, soprattutto nel caso in cui le dimostrazioni provengano da un gruppo di esperti sub-ottimi. 

Le nostre proposte rendono possibile progettare facilmente un sistema di controllo gerarchico complesso e imparare la politica di controllo sia interagendo direttamente con l'ambiente, sia fornendo dimostrazioni per alcuni sotto obbiettivi o per l'intero sistema.
			
	Tipo di documento
	
				Tesi di dottorato
			
	Appare nelle tipologie:
	
				Tesi di Dottorato

File allegati

File	Dimensione	Formato
2019_02_PhD_Tateo.pdf accessibile in internet per tutti Descrizione: Testo della tesi Dimensione 1.49 MB Formato Adobe PDF Visualizza/Apri	1.49 MB	Adobe PDF	Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/144847