The landscape of Deep Learning has experienced a transformative shift with the pervasive adoption of Transformer-based architectures, particularly influencing Natural Language Processing (NLP). Novel avenues for physical applications like resolution of Partial Differ- ential Equations and Image Vision have been recently explored. However, in challenging domains such as robotics, where the high non-linearity of the systems poses significant challenges, Transformer-based applications are missing or little implemented. Transform- ers have been successfully used to provide robots with knowledge about high-level tasks, but very few efforts have been made to learn dynamics or do system identification. This thesis proposes a novel methodology to learn a meta-dynamics model of a high- dimensional physical system such as the Franka robotic arm, relying on a Transformer- based architecture and without prior knowledge about the system’s physical parameters. The objective is to predict the quantities of interest (End-Effector pose and joint posi- tions) given as input the torque signals for each joint. This type of prediction can be useful as a potential component for Deep Model Predictive Control frameworks, increas- ingly used in robotics. The meta-model is given an initial context, that establishes the correlation between torques and positions and predicts the output for the complete tra- jectory. Contributing to ongoing paradigms of meta-learning and transfer-learning, this work demonstrates the generation of diverse datasets in a physics simulation environment (Isaac Gym) and shows the capabilities of a learned meta-model across different control action typologies. This thesis in addition covers the working principle of the multi-attention mechanism, explores the proposed encoder-decoder architecture and its parameters. In the end, an evaluation approach has been proposed to assess predicting accuracies. This work pro- vides empirical evidence of the efficacy of the proposed methodology, hinting at future improvements in learning the dynamics of robotic systems without relying on explicit knowledge of physical parameters.

Il panorama del Deep Learning ha subito una trasformazione significativa con l’ampia adozione delle architetture basate sui Transformers, influenzando in particolar modo il Natural Language Processing. Di recente sono state esplorate nuove applicazioni fisiche come la risoluzione di equazioni differenziali parziali e Image Vision. Tuttavia, in ambiti come la robotica, dove l’alta non linearità dei sistemi pone di per sè notevoli sfide, le ap- plicazioni basate sui Transformers sono assenti o poco esplorate. I Transformers sono stati infatti utilizzati con successo per fornire ai robot istruzioni ad alto livello, ma pochi sforzi sono stati fatti per quanto riguarda la modellizzazione matematica o l’identificazione dei parametri del sistema. Questa tesi propone una metodologia innovativa per apprendere un modello meta-dinamico di un sistema fisico ad alta dimensionalità, nello specifico, il test a cui sarà applicata questa metodologia consiste nel braccio robotico Franka Robotics Panda. L’architettura è basata interamente sui Transformers e non vi è alcuna conoscenza cinematica o dinamica del sistema. L’obiettivo è predirre determinate quantità di inter- esse (posizione dell’End-Effector e posizioni dei giunti) fornendo come input le coppie dei singoli giunti. Questo tipo di previsione può essere utile utilizzata come componente di un Deep Learning Model Predictive Control, sempre più utilizzato in robotica. Il meta- modello riceve un contesto iniziale, che stabilisce la correlazione tra coppie e posizioni e predice l’output per l’intera traiettoria conoscendo le coppie in input desiderate. Con- tribuendo a paradigmi conosciuti come meta-learning e transfer-learning, questo lavoro mostra la generazione di dataset diversificati in un ambiente di simulazione fisica (Isaac Gym) ed espone le capacità predittive di un meta-modello utilizzando diverse tipologie di azioni di controllo. Inoltre, questa tesi tratta il principio di funzionamento del meccanismo di multi-attenzione, analizza l’architettura encoder-decoder proposta e i suoi parametri. Infine, è stato proposto un’approccio per valutare le accuratezze delle previsioni. Questo lavoro fornisce evidenze empiriche dell’efficacia della metodologia proposta, suggerendo miglioramenti futuri nell’apprendimento della dinamica dei sistemi robotici senza fare affidamento su conoscenze esplicite dei parametri fisici.

RoboMorph: in-context meta-learning for robot dynamics modeling

Bianchi Bazzi, Manuel
2022/2023

Abstract

The landscape of Deep Learning has experienced a transformative shift with the pervasive adoption of Transformer-based architectures, particularly influencing Natural Language Processing (NLP). Novel avenues for physical applications like resolution of Partial Differ- ential Equations and Image Vision have been recently explored. However, in challenging domains such as robotics, where the high non-linearity of the systems poses significant challenges, Transformer-based applications are missing or little implemented. Transform- ers have been successfully used to provide robots with knowledge about high-level tasks, but very few efforts have been made to learn dynamics or do system identification. This thesis proposes a novel methodology to learn a meta-dynamics model of a high- dimensional physical system such as the Franka robotic arm, relying on a Transformer- based architecture and without prior knowledge about the system’s physical parameters. The objective is to predict the quantities of interest (End-Effector pose and joint posi- tions) given as input the torque signals for each joint. This type of prediction can be useful as a potential component for Deep Model Predictive Control frameworks, increas- ingly used in robotics. The meta-model is given an initial context, that establishes the correlation between torques and positions and predicts the output for the complete tra- jectory. Contributing to ongoing paradigms of meta-learning and transfer-learning, this work demonstrates the generation of diverse datasets in a physics simulation environment (Isaac Gym) and shows the capabilities of a learned meta-model across different control action typologies. This thesis in addition covers the working principle of the multi-attention mechanism, explores the proposed encoder-decoder architecture and its parameters. In the end, an evaluation approach has been proposed to assess predicting accuracies. This work pro- vides empirical evidence of the efficacy of the proposed methodology, hinting at future improvements in learning the dynamics of robotic systems without relying on explicit knowledge of physical parameters.
ROVEDA, LORIS
Shahid, Asad Ali
ING - Scuola di Ingegneria Industriale e dell'Informazione
9-apr-2024
2022/2023
Il panorama del Deep Learning ha subito una trasformazione significativa con l’ampia adozione delle architetture basate sui Transformers, influenzando in particolar modo il Natural Language Processing. Di recente sono state esplorate nuove applicazioni fisiche come la risoluzione di equazioni differenziali parziali e Image Vision. Tuttavia, in ambiti come la robotica, dove l’alta non linearità dei sistemi pone di per sè notevoli sfide, le ap- plicazioni basate sui Transformers sono assenti o poco esplorate. I Transformers sono stati infatti utilizzati con successo per fornire ai robot istruzioni ad alto livello, ma pochi sforzi sono stati fatti per quanto riguarda la modellizzazione matematica o l’identificazione dei parametri del sistema. Questa tesi propone una metodologia innovativa per apprendere un modello meta-dinamico di un sistema fisico ad alta dimensionalità, nello specifico, il test a cui sarà applicata questa metodologia consiste nel braccio robotico Franka Robotics Panda. L’architettura è basata interamente sui Transformers e non vi è alcuna conoscenza cinematica o dinamica del sistema. L’obiettivo è predirre determinate quantità di inter- esse (posizione dell’End-Effector e posizioni dei giunti) fornendo come input le coppie dei singoli giunti. Questo tipo di previsione può essere utile utilizzata come componente di un Deep Learning Model Predictive Control, sempre più utilizzato in robotica. Il meta- modello riceve un contesto iniziale, che stabilisce la correlazione tra coppie e posizioni e predice l’output per l’intera traiettoria conoscendo le coppie in input desiderate. Con- tribuendo a paradigmi conosciuti come meta-learning e transfer-learning, questo lavoro mostra la generazione di dataset diversificati in un ambiente di simulazione fisica (Isaac Gym) ed espone le capacità predittive di un meta-modello utilizzando diverse tipologie di azioni di controllo. Inoltre, questa tesi tratta il principio di funzionamento del meccanismo di multi-attenzione, analizza l’architettura encoder-decoder proposta e i suoi parametri. Infine, è stato proposto un’approccio per valutare le accuratezze delle previsioni. Questo lavoro fornisce evidenze empiriche dell’efficacia della metodologia proposta, suggerendo miglioramenti futuri nell’apprendimento della dinamica dei sistemi robotici senza fare affidamento su conoscenze esplicite dei parametri fisici.
File allegati
File Dimensione Formato  
2024_04_BianchiBazzi_Executive_Summary_02.pdf

non accessibile

Descrizione: Executive Summary
Dimensione 5.09 MB
Formato Adobe PDF
5.09 MB Adobe PDF   Visualizza/Apri
2024_04_BianchiBazzi_Tesi_01.pdf

non accessibile

Descrizione: Tesi
Dimensione 18.75 MB
Formato Adobe PDF
18.75 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/219425