In-context learning has emerged as a key capability of modern neural architectures. While its impact has been significant in domains such as natural language processing, computer vision, and policy generation, its potential for system identification remains underexplored in robotics. Building upon prior work on meta-learnable dynamical modeling with Trans- formers, we propose a methodology for predicting end-effector poses and joint positions from torque signals for each robotic joint — without requiring prior knowledge of the system’s physical parameters — using diffusion models. In the first part of this work, we enhance the RoboMorph framework by improving dataset generation through large-scale simulation with NVIDIA Isaac Gym, which we also adopt as a baseline for compari- son. We then train and compare two complementary in-context learning architectures: a Transformer-based model and a Diffuser-based model, applied to the dynamic behavior of the Franka Emika Panda and KUKA Allegro robotic platforms. To explore different con- figurations of the system identification problem using Diffusers, we frame it from multiple perspectives, leveraging classifier guidance, trajectory inpainting, and receding horizon approaches for improved trajectory estimation. Our aim is to investigate the implica- tions of this approach for online control. We demonstrate that our meta-learned models can perform fast online inference, making them suitable for real-time applications. Fur- thermore, we exploit the inherent flexibility of diffusion models to condition on external signals at inference time — such as controller parameters — enabling enhanced in-context system identification. We conduct extensive benchmarking across a variety of Cartesian and joint space tasks generated in Isaac Gym. Code and datasets will be released to foster reproducibility and further research.

L’in-context learning si è affermato come una capacità chiave delle moderne architetture neurali. Sebbene il suo impatto sia stato significativo in ambiti quali l’elaborazione del linguaggio naturale, la visione artificiale e la generazione di politiche, il suo potenziale nell’identificazione di sistemi in ambito robotico rimane ancora poco esplorato. A partire da lavori precedenti sulla modellazione dinamica meta-apprendibile tramite Transformers, proponiamo una metodologia per la previsione delle pose dell’end-effector e delle posizioni articolari a partire dai segnali di coppia di ciascuna giunzione robotica — senza necessità di conoscere a priori i parametri fisici del sistema — utilizzando modelli di diffusione. Nella prima parte di questo lavoro, potenziamo il framework RoboMorph migliorando la generazione del dataset tramite simulazione su larga scala con NVIDIA Isaac Gym, adottato anche come riferimento per i confronti sperimentali. Successivamente, addestri- amo e confrontiamo due architetture complementari di in-context learning: un modello basato su Transformer e un modello basato su Diffuser, applicati al comportamento di- namico delle piattaforme robotiche Franka Emika Panda e KUKA Allegro. Per esplorare diverse configurazioni del problema di identificazione del sistema utilizzando Diffusers, lo inquadriamo da prospettive multiple, sfruttando tecniche quali la guida tramite classifi- catori, l’inpainting di traiettorie e approcci a orizzonte mobile per una stima più accurata delle traiettorie. L’obiettivo è analizzare le implicazioni di questo approccio per il con- trollo online. Dimostriamo che i nostri modelli meta-appresi sono in grado di eseguire inferenze rapide online, rendendoli adatti ad applicazioni in tempo reale. Inoltre, sfrut- tiamo la flessibilità intrinseca dei modelli di diffusione per condizionare l’inferenza su segnali esterni — come i parametri del controllore — abilitando un’identificazione del sistema in-context più avanzata. Conduciamo un ampio benchmarking su una varietà di task nello spazio cartesiano e nello spazio articolare generati in Isaac Gym. Codice e dataset saranno resi pubblici per promuovere la riproducibilità e ulteriori ricerche.

In-context meta-learning for dynamical modeling: a comparison between different neural architectures

AYDIN, GUNES CAGIN
2024/2025

Abstract

In-context learning has emerged as a key capability of modern neural architectures. While its impact has been significant in domains such as natural language processing, computer vision, and policy generation, its potential for system identification remains underexplored in robotics. Building upon prior work on meta-learnable dynamical modeling with Trans- formers, we propose a methodology for predicting end-effector poses and joint positions from torque signals for each robotic joint — without requiring prior knowledge of the system’s physical parameters — using diffusion models. In the first part of this work, we enhance the RoboMorph framework by improving dataset generation through large-scale simulation with NVIDIA Isaac Gym, which we also adopt as a baseline for compari- son. We then train and compare two complementary in-context learning architectures: a Transformer-based model and a Diffuser-based model, applied to the dynamic behavior of the Franka Emika Panda and KUKA Allegro robotic platforms. To explore different con- figurations of the system identification problem using Diffusers, we frame it from multiple perspectives, leveraging classifier guidance, trajectory inpainting, and receding horizon approaches for improved trajectory estimation. Our aim is to investigate the implica- tions of this approach for online control. We demonstrate that our meta-learned models can perform fast online inference, making them suitable for real-time applications. Fur- thermore, we exploit the inherent flexibility of diffusion models to condition on external signals at inference time — such as controller parameters — enabling enhanced in-context system identification. We conduct extensive benchmarking across a variety of Cartesian and joint space tasks generated in Isaac Gym. Code and datasets will be released to foster reproducibility and further research.
MORENCELLI, ANGELO
ROVEDA, LORIS
SHADID, ASAD ALI
ING - Scuola di Ingegneria Industriale e dell'Informazione
22-lug-2025
2024/2025
L’in-context learning si è affermato come una capacità chiave delle moderne architetture neurali. Sebbene il suo impatto sia stato significativo in ambiti quali l’elaborazione del linguaggio naturale, la visione artificiale e la generazione di politiche, il suo potenziale nell’identificazione di sistemi in ambito robotico rimane ancora poco esplorato. A partire da lavori precedenti sulla modellazione dinamica meta-apprendibile tramite Transformers, proponiamo una metodologia per la previsione delle pose dell’end-effector e delle posizioni articolari a partire dai segnali di coppia di ciascuna giunzione robotica — senza necessità di conoscere a priori i parametri fisici del sistema — utilizzando modelli di diffusione. Nella prima parte di questo lavoro, potenziamo il framework RoboMorph migliorando la generazione del dataset tramite simulazione su larga scala con NVIDIA Isaac Gym, adottato anche come riferimento per i confronti sperimentali. Successivamente, addestri- amo e confrontiamo due architetture complementari di in-context learning: un modello basato su Transformer e un modello basato su Diffuser, applicati al comportamento di- namico delle piattaforme robotiche Franka Emika Panda e KUKA Allegro. Per esplorare diverse configurazioni del problema di identificazione del sistema utilizzando Diffusers, lo inquadriamo da prospettive multiple, sfruttando tecniche quali la guida tramite classifi- catori, l’inpainting di traiettorie e approcci a orizzonte mobile per una stima più accurata delle traiettorie. L’obiettivo è analizzare le implicazioni di questo approccio per il con- trollo online. Dimostriamo che i nostri modelli meta-appresi sono in grado di eseguire inferenze rapide online, rendendoli adatti ad applicazioni in tempo reale. Inoltre, sfrut- tiamo la flessibilità intrinseca dei modelli di diffusione per condizionare l’inferenza su segnali esterni — come i parametri del controllore — abilitando un’identificazione del sistema in-context più avanzata. Conduciamo un ampio benchmarking su una varietà di task nello spazio cartesiano e nello spazio articolare generati in Isaac Gym. Codice e dataset saranno resi pubblici per promuovere la riproducibilità e ulteriori ricerche.
File allegati
File Dimensione Formato  
2025_07_Aydin_ExecutiveSummary.pdf

non accessibile

Descrizione: executive summary
Dimensione 1.89 MB
Formato Adobe PDF
1.89 MB Adobe PDF   Visualizza/Apri
2025_07_Aydin_Thesis.pdf

non accessibile

Descrizione: thesis
Dimensione 16.23 MB
Formato Adobe PDF
16.23 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/240400