Development of a computer vision system fo the robot-assisted disassembly of electric vehicle batteries

This thesis addresses the problem of 6D pose estimation for robotic grasping of battery modules in the context of disassembly and second life use. The main objective of this work is the design and validation of a complete pose estimation pipeline aimed at maximizing performance under realistic conditions. To this end, several state of the art open source methods are analyzed and compared, evaluated both in zero shot configuration and through different supervised adaptation techniques. A central contribution of the thesis concerns the generation of synthetic data for training artificial intelligence models. A synthetic data generation pipeline was developed as a modular and parametric system, easily adaptable to new application contexts, with particular attention to camera modeling, including intrinsic and extrinsic parameters, optical distortions, and sensor configuration, as well as to the definition of lighting, materials, and scene construction. To reduce the domain gap between synthetic and real data, domain randomization strategies and a curriculum learning approach based on different levels of realism have been introduced. To make the training process compatible with industrial time and resource constraints, Parameter Efficient Fine Tuning (PEFT) techniques, including LoRA and DoRA, have been investigated, with the goal of reducing the number of updated parameters while maintaining high performance. Finally, the models trained on synthetic data have been validated on real world datasets to assess their generalization capability and quantify the effective reduction of the domain gap. The proposed synthetic data pipeline, combined with Parameter Efficient Fine Tuning strategies, led to a significant improvement in translational accuracy and a substantial reduction in rotational instability compared to the zero shot baseline. In particular, PEFT approaches enabled achieving millimeter level translation errors while updating only a fraction of the model parameters, demonstrating that efficient adaptation is sufficient to reach the level of accuracy required for reliable robotic grasping and automated battery disassembly.

Questa tesi affronta il problema della stima della posa 6D finalizzata al robotic grasping di moduli batteria per disassemblaggio e second life use. L’obiettivo principale del lavoro è la progettazione e la validazione di una pipeline completa di pose estimation in grado di massimizzare le prestazioni in condizioni realistiche. A tal fine, vengono analizzati e confrontati diversi metodi open source di stato dell’arte, valutati sia in configurazione zero shot sia attraverso diverse tecniche di adattamento supervisionato. Un contributo centrale della tesi riguarda la generazione di dati sintetici per l’addestramento dei modelli di intelligenza artificiale. È stata sviluppata una pipeline di synthetic data generation progettata come sistema modulare e parametrico, facilmente adattabile a nuovi contesti applicativi, con particolare attenzione alla modellazione della camera, includendo parametri intrinseci ed estrinseci, distorsioni ottiche e configurazione del sensore, nonché alla definizione dell’illuminazione, dei materiali e della costruzione della scena. Per ridurre il domain gap tra dati sintetici e reali, sono state introdotte strategie di domain randomization e un approccio di curriculum learning basato su diversi livelli di realismo. Per rendere l’addestramento compatibile con vincoli industriali di tempo e risorse, sono state investigate tecniche di Parameter Efficient Fine Tuning (PEFT), tra cui LoRA e DoRA, con l’obiettivo di ridurre il numero di parametri aggiornati mantenendo elevate prestazioni. Infine, i modelli addestrati su dati sintetici sono stati validati su dataset reali al fine di valutare la loro capacità di generalizzazione e quantificare l’effettiva riduzione del domain gap. La pipeline proposta per la generazione di dati sintetici, combinata con strategie di Parameter Efficient Fine Tuning, ha portato a un miglioramento significativo dell’accuratezza traslazionale e a una sostanziale riduzione dell’instabilità rotazionale rispetto alla configurazione zero shot. In particolare, gli approcci PEFT hanno permesso di raggiungere errori di traslazione a livello millimetrico aggiornando solo una frazione dei parametri del modello, dimostrando che un’adattamento efficiente è sufficiente per ottenere un livello di accuratezza adeguato al grasping robotico affidabile e alla automazione del processo di disassemblaggio delle batterie.