A framework for learning deep predictive policies from real robot executions

Biblioteche e Archivi
POLITesi - Archivio digitale delle tesi di laurea e di dottorato

This thesis extends a framework deigned to allow a robot to learn a skilled behavior in a data efficient manner through the use of a reinforcement learning method for policy search. We aim at training a policy for pushing stones on a flat surface in order to reach a target that is outside of the working space of the robot. The action that the robot has to execute is encoded in a low dimensional manifold, so that the policy search can be performed on real world experience with a reduced number of samples. Learning the skilled behavior is made possible by training a predictive policy that generates a mapping between the state of the environment and the manifold that describes the action space. Once the policy chooses the proper action from the action manifold, its low dimensional representation is decoded into a complete trajectory that the robot executes.

Questa tesi estende un framework progettato per permettere ad un robot di imparare un comportamento complesso con un utilizzo efficiente dei dati tramite l’apprendimento di una politica adatta. L’obiettivo è quello di generare una politica in grado di lanciare diversi oggetti verso un bersaglio posto su di una superficie piana al di fuori della zona raggiungibile direttamente dal robot. L’azione che il robot esegue è codificata in uno spazio con un ridotto numero di dimensioni, così da rendere possibile la ricerca della politica adatta utilizzando i dati raccolti dalle azioni compiute dal robot nel mondo reale. La politica così generata corrisponde ad una mappatura tra lo stato dell’ambiente e lo spazio che definisce le azioni del robot. Una volta che la politica seleziona l’azione appropriata dallo spazio a bassa dimensionalità, essa viene decodificata in una traiettoria completa che il robot esegue.

A framework for learning deep predictive policies from real robot executions

CASTAGNA, TOMMASO

2019/2020

Abstract

This thesis extends a framework deigned to allow a robot to learn a skilled behavior in a data efficient manner through the use of a reinforcement learning method for policy search. We aim at training a policy for pushing stones on a flat surface in order to reach a target that is outside of the working space of the robot. The action that the robot has to execute is encoded in a low dimensional manifold, so that the policy search can be performed on real world experience with a reduced number of samples. Learning the skilled behavior is made possible by training a predictive policy that generates a mapping between the state of the environment and the manifold that describes the action space. Once the policy chooses the proper action from the action manifold, its low dimensional representation is decoded into a complete trajectory that the robot executes.

Scheda breve

Scheda completa

	Relatore
	
			AMIGONI, FRANCESCO
		
	Correlatore/i
	
			STORK, JOHANNES A.
		
	Scuola / Dip.
	
			ING  - Scuola di Ingegneria Industriale e dell'Informazione
		
	Data
	
			9-giu-2021
		
	Anno accademico
	
			2019/2020
		
	Abstract in italiano
	
			Questa tesi estende un framework progettato per permettere ad un robot di imparare un comportamento complesso con un utilizzo efficiente dei dati tramite l’apprendimento di una politica adatta. L’obiettivo è quello di generare una politica in grado di lanciare diversi oggetti verso un bersaglio posto su di una superficie piana al di fuori della zona raggiungibile direttamente dal robot. L’azione che il robot esegue è codificata in uno spazio con un ridotto numero di dimensioni, così
da rendere possibile la ricerca della politica adatta utilizzando i dati raccolti dalle azioni compiute dal robot nel mondo reale. La politica così generata corrisponde ad una mappatura tra lo stato dell’ambiente e lo spazio che definisce le azioni del robot. Una volta che la politica seleziona l’azione appropriata dallo spazio a bassa dimensionalità, essa viene decodificata in una traiettoria completa che il robot esegue.
		
	Appare nelle tipologie:
	
			Tesi di laurea Magistrale

File allegati

File	Dimensione	Formato
thesis.pdf accessibile in internet solo dagli utenti autorizzati Descrizione: Thesis Dimensione 20.03 MB Formato Adobe PDF Visualizza/Apri	20.03 MB	Adobe PDF	Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/176262