In robotics, non-prehensile manipulation has been extensively studied and tested in many fields. In non-prehensile manipulation, the robot manipulates an object without grasping it. The robot can push the object, slide against it or make it pivoting around a point. However, the presence of unknown obstacles inside the work area has never been properly analyzed. This aspect can be of paramount importance since the configurations of an environment of this type can change and be difficult to predict. This work intends to use reinforcement learning to find a solution to the problem. Therefore, this thesis aims to provide a non-prehensile strategy, in particular through pushing operations, to bring an object from a generic initial pose to a desired position in an environment with an arbitrary configuration of obstacles. Furthermore, the proposed solution represents a portable robotic skill, since no joint variable is learned by the reinforcement learning algorithm. As a result, the strategy can be applied to several type of robots. The learning of the policy takes place entirely in a simulation environment created with a 3D physics engine. The problem is modeled as a Markov decision-making process by defining state and action spaces. In this phase, the selected algorithm, a Trust Region Policy Optimization (TRPO), tries to find the best sequence of actions to avoid or slide on the obstacle placed inside the path and reach the final position. The simulation results are subsequently validated by applying them to an experimental case where a robotic arm moves to properly push the object overcoming the encountered obstacles. The experimental setup also involves the use of a vision system that detects the initial and final position of the object and a force sensor on the robot used to detect the collision with the obstacle. The validation tests present good results that highlight the flexibility and robustness of the strategy learned in simulation.

Nella robotica, la manipolazione non prensile è stata ampiamente studiata e testata in molti campi. Nella manipolazione non prensile, il robot manipola un oggetto senza afferrarlo. Il robot può spingere l’oggetto, scivolare contro di esso o farlo ruotare attorno ad un punto. Tuttavia, la presenza di ostacoli sconosciuti all’interno dell’area di lavoro non è mai stata adeguatamente analizzata. Questo aspetto può essere di fondamentale importanza poiché le configurazioni di un ambiente di questo tipo possono cambiare ed essere difficili da prevedere. Questo lavoro intende utilizzare il reinforcement learning per trovare una soluzione a questo tipo di problema. Pertanto, questa tesi si propone di fornire una strategia di manipolazione non prensile, in particolare attraverso operazioni di spinta, per portare un oggetto da una generica posa iniziale ad una posizione desiderata in un ambiente che presenta diverse configurazioni di ostacoli. Inoltre, la soluzione proposta rappresenta una skill robotica scalabile, poiché nessuna variabile di giunto viene appresa dall’algoritmo di reinforcement learning. Di conseguenza, la strategia può essere applicata a diversi tipi di robot. L’apprendimento della policy avviene interamente in un ambiente di simulazione realizzato con un motore fisico 3D. Il problema è modellato come un processo decisionale di Markov attraverso la definizione di spazi di stato e di azione. In questa fase, l’algoritmo scelto, un Trust Region Policy Optimization (TRPO), cerca di trovare la migliore sequenza di azioni per evitare o scivolare sull’ostacolo posto all’interno del percorso e raggiungere la posizione finale. I risultati della simulazione sono stati successivamente validati applicandoli ad un caso sperimentale in cui un braccio robotico si muove per spingere opportunamente l’oggetto superando gli ostacoli incontrati. L’impostazione sperimentale prevede anche l’utilizzo di un sistema di visione che rileva la posizione iniziale e finale dell’oggetto e di un sensore di forza sul robot utilizzato per rilevare la collisione con l’ostacolo. I test di validazione presentano buoni risultati che evidenziano la flessibilità e la robustezza della strategia appresa nella simulazione.

Reinforcement learning strategy for robotic non-prehensile manipulation in presence of unknown obstacles

Gobbi, Federico
2021/2022

Abstract

In robotics, non-prehensile manipulation has been extensively studied and tested in many fields. In non-prehensile manipulation, the robot manipulates an object without grasping it. The robot can push the object, slide against it or make it pivoting around a point. However, the presence of unknown obstacles inside the work area has never been properly analyzed. This aspect can be of paramount importance since the configurations of an environment of this type can change and be difficult to predict. This work intends to use reinforcement learning to find a solution to the problem. Therefore, this thesis aims to provide a non-prehensile strategy, in particular through pushing operations, to bring an object from a generic initial pose to a desired position in an environment with an arbitrary configuration of obstacles. Furthermore, the proposed solution represents a portable robotic skill, since no joint variable is learned by the reinforcement learning algorithm. As a result, the strategy can be applied to several type of robots. The learning of the policy takes place entirely in a simulation environment created with a 3D physics engine. The problem is modeled as a Markov decision-making process by defining state and action spaces. In this phase, the selected algorithm, a Trust Region Policy Optimization (TRPO), tries to find the best sequence of actions to avoid or slide on the obstacle placed inside the path and reach the final position. The simulation results are subsequently validated by applying them to an experimental case where a robotic arm moves to properly push the object overcoming the encountered obstacles. The experimental setup also involves the use of a vision system that detects the initial and final position of the object and a force sensor on the robot used to detect the collision with the obstacle. The validation tests present good results that highlight the flexibility and robustness of the strategy learned in simulation.
MONGUZZI, ANDREA
ROCCO, PAOLO
ING - Scuola di Ingegneria Industriale e dell'Informazione
20-dic-2022
2021/2022
Nella robotica, la manipolazione non prensile è stata ampiamente studiata e testata in molti campi. Nella manipolazione non prensile, il robot manipola un oggetto senza afferrarlo. Il robot può spingere l’oggetto, scivolare contro di esso o farlo ruotare attorno ad un punto. Tuttavia, la presenza di ostacoli sconosciuti all’interno dell’area di lavoro non è mai stata adeguatamente analizzata. Questo aspetto può essere di fondamentale importanza poiché le configurazioni di un ambiente di questo tipo possono cambiare ed essere difficili da prevedere. Questo lavoro intende utilizzare il reinforcement learning per trovare una soluzione a questo tipo di problema. Pertanto, questa tesi si propone di fornire una strategia di manipolazione non prensile, in particolare attraverso operazioni di spinta, per portare un oggetto da una generica posa iniziale ad una posizione desiderata in un ambiente che presenta diverse configurazioni di ostacoli. Inoltre, la soluzione proposta rappresenta una skill robotica scalabile, poiché nessuna variabile di giunto viene appresa dall’algoritmo di reinforcement learning. Di conseguenza, la strategia può essere applicata a diversi tipi di robot. L’apprendimento della policy avviene interamente in un ambiente di simulazione realizzato con un motore fisico 3D. Il problema è modellato come un processo decisionale di Markov attraverso la definizione di spazi di stato e di azione. In questa fase, l’algoritmo scelto, un Trust Region Policy Optimization (TRPO), cerca di trovare la migliore sequenza di azioni per evitare o scivolare sull’ostacolo posto all’interno del percorso e raggiungere la posizione finale. I risultati della simulazione sono stati successivamente validati applicandoli ad un caso sperimentale in cui un braccio robotico si muove per spingere opportunamente l’oggetto superando gli ostacoli incontrati. L’impostazione sperimentale prevede anche l’utilizzo di un sistema di visione che rileva la posizione iniziale e finale dell’oggetto e di un sensore di forza sul robot utilizzato per rilevare la collisione con l’ostacolo. I test di validazione presentano buoni risultati che evidenziano la flessibilità e la robustezza della strategia appresa nella simulazione.
File allegati
File Dimensione Formato  
MasterThesis_Gobbi.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: Thesis
Dimensione 28.08 MB
Formato Adobe PDF
28.08 MB Adobe PDF   Visualizza/Apri
ExecutiveSummary_Gobbi.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: Executive Summary
Dimensione 7.92 MB
Formato Adobe PDF
7.92 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/201425