Gaze-enabled manipulation enhanced by user-centric object prediction

This thesis investigates the benefits and limitations of using unconventional data to train generative artificial intelligence (AI) models for robotic applications. Specifically, the project focuses on the integration of gaze information to improve and enhance the execution of activities in human-robot cooperative settings. In this context, the work presents a novel dataset containing hundreds of human-demonstrated pick-and-place tasks involving multimodal data such as images, hand trajectories, and eye-tracking information. The ultimate goal is to contribute to the development of generalist models capable of adapting to different scenarios, by training them on large, diverse robotic mixtures. Therefore, the dataset aligns with recent advancements in the field, with the key innovation being the incorporation of human-related parameters, such as gaze data. Leveraging eye-focus information, a user-centric object prediction framework is implemented to identify the target object in real time at each stage of the execution. Trained on experimental data, the model emulates the gaze-predictor approaches in the literature, utilizing classification algorithms to make forecasts based on implicit textual instruction and qualitative, task-dependent features. Additionally, further analyses are conducted to explore the potential of gaze-enabled manipulation. In this regard, a pre-existing architecture relying on a large language model (LLM) for trajectory generation and a vision module for perception (YOLO) is exploited. The original textual prompt is replaced with gaze data from the eye-tracking device, enabling dynamic modifications of the task request during execution and allowing the evaluation of the system response. Finally, the proposed methods are tested and validated on a real Franka EMIKA Panda robot.

La tesi indaga i vantaggi e le limitazioni dell’utilizzo di dati non convenzionali nell’addestramento di modelli di intelligenza artificial (IA) generativa per manipolazione robotica. In particolare, lo studio si concentra sull’integrazione di informazioni derivate dallo sguardo dell’operatore con l’intento di migliorare e facilitare l’esecuzione delle mansioni in un contesto cooperativo. A questo scopo, il progetto presenta un nuovo dataset contenente centinaia di dimostrazioni umane di "pick-and-place", sintetizzate in dati multimodali quali immagini della scena, traiettorie della mano e tracciamento oculare. L’obiettivo finale è quello di rendere accessibile il dataset, contribuendo così alla realizzazione di modelli generalisti in grado di adattarsi a diversi scenari, grazie all’addestramento su grandi quantità di dati robotici. Pertanto, il dataset si allinea agli standard dei maggiori esempi della più recente letteratura, con la novità di incorporare parametri aggiuntivi strettamente legati al punto di vista umano, come quelli ricavabili dallo sguardo dell’operatore. Grazie ai dati visivi, è stato concepito un modello di classificazione in grado di predire il focus dello sguardo a partire da un’istruzione testuale implicita e da attributi qualitativi relativi all’azione. Il modello, ispirato ai “gaze-predictor” presenti in letteratura e basato unicamente su dati sperimentali, consente di identificare in tempo reale l’oggetto target in ogni fase dell’esecuzione. Inoltre, ulteriori verifiche sono state condotte per investigare le potenzialità della manipolazione guidata dallo sguardo. A tal fine, è stata impiegata un’architettura preesistente basata su un large language model (LLM) per la generazione delle traiettorie e su un modulo di visione (YOLO) per la percezione. L’istruzione testuale originariamente utilizzata è stata sostituita dall’input visivo proveniente dal dispositivo di tracciamento oculare, permettendo di modificare la richiesta dinamicamente durante lo svolgimento dell’azione. I metodi proposti sono infine stati testati e validati grazie a specifici esperimenti su un robot Franka EMIKA Panda.