Generative AI models for robotic manipulation: a comparative evaluation in virtual environment

The rapid evolution of robotic manipulation is increasingly driven by generative Artificial Intelligence, transitioning from classical control to data-driven Imitation Learning via Foundation Models and Diffusion Policies. However, the dispersed nature of recent breakthroughs complicates fair performance comparisons. This thesis presents a rigorous comparative evaluation of four State-Of-The-Art architectures: Diffusion Policy, SmolVLA, Pi0, and RDT-1B, to assess their capabilities, efficiency, and resource requirements within constrained computing environments. Utilizing the ManiSkill simulation framework, a unified demonstration dataset is created to train and evaluate the models across four fundamental table-top tasks: Push Cube, Pick Cube, Stack Cube, and Peg Insertion. The methodological approach prioritized reproducibility, evaluating not only success rates but also architectural trade-offs, data sensitivity, and generalization limits. Results indicate that while Diffusion Policy excels in multi-modal action precision and resource efficiency, it lacks semantic reasoning and generalization capabilities. Conversely, Vision-Language-Action (VLA) models like Pi0 and SmolVLA demonstrate generalization, instruction-following and contextual understanding but struggle with high-precision tasks like peg insertion. Pi0 exhibited superior task comprehension and re-planning abilities compared to SmolVLA, at the cost of higher training time and hardware requirements. RDT-1B proved to be too resource-intensive for the constrained experimental setup, resulting in failed task executions. Ultimately, this work highlights that while Generative AI models offer unprecedented adaptability for robotic control, they still lack genuine problem-solving reasoning. By systematically analyzing these architectures, this thesis provides a valuable guide for deploying advanced robotic policies, creating a training dataset in simulation environment and reproducing the obtained results.

La rapida evoluzione della manipolazione robotica è sempre più influenzata dall'Intelligenza Artificiale generativa, segnando il passaggio dal controllo classico all'Imitation Learning basato su grandi quantità dati tramite Foundation Models. Tuttavia, la natura frammentata delle recenti scoperte complica un confronto equo delle prestazioni. Questa tesi presenta una rigorosa valutazione comparativa di quattro architetture allo stato dell'arte: Diffusion Policy, SmolVLA, Pi0 e RDT-1B, al fine di valutarne le capacità, l'efficienza e i requisiti in termini di risorse all'interno di ambienti computazionali con risorse limitate. Utilizzando il framework di simulazione ManiSkill, è stato creato un dataset unificato di dimostrazioni robotiche per addestrare e valutare i modelli su quattro compiti di manipolazione: Push Cube, Pick Cube, Stack Cube e Peg Insertion. L'approccio metodologico ha dato priorità alla riproducibilità, valutando non solo le percentuali di successo, ma anche i compromessi architetturali, la sensibilità ai dati e i limiti di generalizzazione. I risultati indicano che, mentre la Diffusion Policy eccelle nella precisione delle azioni multi-modali e nell'efficienza delle risorse, scarseggia nel ragionamento semantico e nelle capacità di generalizzazione. Al contrario, i modelli VLA come Pi0 e SmolVLA dimostrano capacità di generalizzazione, di comprensione delle istruzioni testuali e del contesto, ma faticano in compiti ad alta precisione come Peg Insertion. Pi0 ha mostrato una comprensione del suo obiettivo e capacità di ripianificazione superiori rispetto a SmolVLA, a fronte però di maggiori tempi di addestramento e requisiti hardware. RDT-1B si è rivelato troppo oneroso in termini di risorse per il setup sperimentale vincolato, portando al fallimento nell'esecuzione dei task. In definitiva, questo lavoro evidenzia che, sebbene i modelli di IA generativa offrano un'adattabilità senza precedenti per il controllo robotico, mancano ancora di un vero e proprio ragionamento orientato al problem-solving. Analizzando sistematicamente queste architetture, questa tesi fornisce una guida dettagliata per l'implementazione di policy robotiche avanzate, per la creazione di un dataset di addestramento in ambiente di simulazione e per la riproducibilità dei risultati ottenuti.