A control theory framework for hierarchical reinforcement learning

Biblioteche e Archivi
POLITesi - Archivio digitale delle tesi di laurea e di dottorato

Hierarchical reinforcement learning (HRL) algorithms are gaining attention as a method to enhance learning performance in terms of speed and scalability. A key idea to introduce hierarchy in reinforcement learning is to use temporal abstractions. The use of hierarchical schemes in reinforcement learning simplifies the task of designing a policy and adding prior knowledge. In addition, well-designed temporally extended actions can speed up the learning process by constraining the exploration. Furthermore, policies learned are often simpler to interpret and with fewer parameters, without losing representation power. These advantages make HRL suitable for complex robotics tasks with continuous action-spaces and high state-action dimensionality. The aim of this thesis is to adapt the approach of control theory to hierarchical schemes in the field of hierarchical reinforcement learning. We designed a novel framework to fill the gap between control theory and machine learning.

Gli algoritmi di apprendimento per rinforzo gerarchico (Hierarchical reinforcement learning, HRL) stanno guadagnando attenzione come metodo per migliorare le prestazioni di apprendimento in termini di velocità e scalabilità. Un'idea chiave per introdurre la gerarchia nell'apprendimento per rinforzo è usare le astrazioni temporali. L'uso di schemi gerarchici nell'apprendimento per rinforzo semplifica il compito di progettare una politica e sfruttare la conoscenza di dominio. Le azioni estese temporalmente, se ben progettate, possono accelerare il processo di apprendimento, limitando l'esplorazione. Inoltre, le politiche apprese sono spesso più semplici da interpretare e con meno parametri, senza perdere potere espressivo. Questi vantaggi rendono HRL adatto a compiti di robotica complessi con spazi di azione continui e alta dimensionalità dello spazio di stato e di azione. Lo scopo di questa tesi è di adattare l'approccio agli schemi gerarchici della della teoria del controllo, nel campo dell'apprendimento per rinforzo gerarchico. Abbiamo progettato un formalismo per colmare il divario tra teoria del controllo e apprendimento automatico.

A control theory framework for hierarchical reinforcement learning

ERDENLIG, IDIL SU

2017/2018

Abstract

Hierarchical reinforcement learning (HRL) algorithms are gaining attention as a method to enhance learning performance in terms of speed and scalability. A key idea to introduce hierarchy in reinforcement learning is to use temporal abstractions. The use of hierarchical schemes in reinforcement learning simplifies the task of designing a policy and adding prior knowledge. In addition, well-designed temporally extended actions can speed up the learning process by constraining the exploration. Furthermore, policies learned are often simpler to interpret and with fewer parameters, without losing representation power. These advantages make HRL suitable for complex robotics tasks with continuous action-spaces and high state-action dimensionality. The aim of this thesis is to adapt the approach of control theory to hierarchical schemes in the field of hierarchical reinforcement learning. We designed a novel framework to fill the gap between control theory and machine learning.

Scheda breve

Scheda completa

	Relatore
	
				BONARINI, ANDREA
			
	Correlatore/i
	
				TATEO, DAVIDE
			
	Scuola / Dip.
	
				ING  - Scuola di Ingegneria Industriale e dell'Informazione
			
	Data
	
				19-apr-2018
			
	Anno accademico
	
				2017/2018
			
	Abstract in italiano
	
				Gli algoritmi di apprendimento per rinforzo gerarchico (Hierarchical reinforcement learning, HRL) stanno guadagnando attenzione come metodo per migliorare le prestazioni di apprendimento in termini di velocità e scalabilità. Un'idea chiave per introdurre la gerarchia nell'apprendimento per rinforzo è usare le astrazioni temporali. L'uso di schemi gerarchici nell'apprendimento per rinforzo semplifica il compito di progettare una politica e sfruttare la conoscenza di dominio. Le azioni estese temporalmente, se ben progettate, possono accelerare il processo di apprendimento, limitando l'esplorazione. Inoltre, le politiche apprese sono spesso più semplici da interpretare e con meno parametri, senza perdere potere espressivo. Questi vantaggi rendono HRL adatto a compiti di robotica complessi con spazi di azione continui e alta dimensionalità dello spazio di stato e di azione. Lo scopo di questa tesi è di adattare l'approccio agli schemi gerarchici della della teoria del controllo, nel campo dell'apprendimento per rinforzo gerarchico. Abbiamo progettato un formalismo per colmare il divario tra teoria del controllo e apprendimento automatico.
			
	Tipo di documento
	
				Tesi di laurea Magistrale
			
	Appare nelle tipologie:
	
				Tesi di laurea Magistrale

File allegati

File	Dimensione	Formato
tesi.pdf accessibile in internet per tutti Descrizione: Thesis text Dimensione 835.5 kB Formato Adobe PDF Visualizza/Apri	835.5 kB	Adobe PDF	Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/140040