This thesis extends a framework deigned to allow a robot to learn a skilled behavior in a data efficient manner through the use of a reinforcement learning method for policy search. We aim at training a policy for pushing stones on a flat surface in order to reach a target that is outside of the working space of the robot. The action that the robot has to execute is encoded in a low dimensional manifold, so that the policy search can be performed on real world experience with a reduced number of samples. Learning the skilled behavior is made possible by training a predictive policy that generates a mapping between the state of the environment and the manifold that describes the action space. Once the policy chooses the proper action from the action manifold, its low dimensional representation is decoded into a complete trajectory that the robot executes.

Questa tesi estende un framework progettato per permettere ad un robot di imparare un comportamento complesso con un utilizzo efficiente dei dati tramite l’apprendimento di una politica adatta. L’obiettivo è quello di generare una politica in grado di lanciare diversi oggetti verso un bersaglio posto su di una superficie piana al di fuori della zona raggiungibile direttamente dal robot. L’azione che il robot esegue è codificata in uno spazio con un ridotto numero di dimensioni, così da rendere possibile la ricerca della politica adatta utilizzando i dati raccolti dalle azioni compiute dal robot nel mondo reale. La politica così generata corrisponde ad una mappatura tra lo stato dell’ambiente e lo spazio che definisce le azioni del robot. Una volta che la politica seleziona l’azione appropriata dallo spazio a bassa dimensionalità, essa viene decodificata in una traiettoria completa che il robot esegue.

A framework for learning deep predictive policies from real robot executions

CASTAGNA, TOMMASO
2019/2020

Abstract

This thesis extends a framework deigned to allow a robot to learn a skilled behavior in a data efficient manner through the use of a reinforcement learning method for policy search. We aim at training a policy for pushing stones on a flat surface in order to reach a target that is outside of the working space of the robot. The action that the robot has to execute is encoded in a low dimensional manifold, so that the policy search can be performed on real world experience with a reduced number of samples. Learning the skilled behavior is made possible by training a predictive policy that generates a mapping between the state of the environment and the manifold that describes the action space. Once the policy chooses the proper action from the action manifold, its low dimensional representation is decoded into a complete trajectory that the robot executes.
STORK, JOHANNES A.
ING - Scuola di Ingegneria Industriale e dell'Informazione
9-giu-2021
2019/2020
Questa tesi estende un framework progettato per permettere ad un robot di imparare un comportamento complesso con un utilizzo efficiente dei dati tramite l’apprendimento di una politica adatta. L’obiettivo è quello di generare una politica in grado di lanciare diversi oggetti verso un bersaglio posto su di una superficie piana al di fuori della zona raggiungibile direttamente dal robot. L’azione che il robot esegue è codificata in uno spazio con un ridotto numero di dimensioni, così da rendere possibile la ricerca della politica adatta utilizzando i dati raccolti dalle azioni compiute dal robot nel mondo reale. La politica così generata corrisponde ad una mappatura tra lo stato dell’ambiente e lo spazio che definisce le azioni del robot. Una volta che la politica seleziona l’azione appropriata dallo spazio a bassa dimensionalità, essa viene decodificata in una traiettoria completa che il robot esegue.
File allegati
File Dimensione Formato  
thesis.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: Thesis
Dimensione 20.03 MB
Formato Adobe PDF
20.03 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/176262