Self-supervised robotic grasp transfer based on grasp-efficient regions across similar objects

The use of grasping tools can be traced back to prehistoric times, when humans crafted instruments to assist in manipulating and holding objects. Over time, as technology has advanced, early grasping tools laid the foundation for one of the main challenges in modern robotics: enabling machines to grasp and manipulate objects with both precision and adaptability — a field known as robotic grasping. In warehouse logistics and packaging, robotic systems are now increasingly integrated into everyday operations. This integration aims to support human operators by reducing the physical and repetitive workload, streamlining order preparation processes, and ultimately improving speed, and overall system performance. To address the limitations of traditional grasping approaches in highly variable environments, we propose a self-supervised learning framework that enables a robotic agent to autonomously collect task-relevant data. Specifically, the robot explores and interacts with a diverse set of objects to build a dataset of 3D local surface regions that have proven to be effective for grasping. These surface regions, which we refer to as grasping molds, represent geometrically favorable configurations for successful grasps. Once collected, this dataset is used to train a neural network to recognize similar graspable regions on novel objects. Our method focuses on identifying locally similar surface structures that have previously been associated with successful grasps. During inference, the trained network is used to detect these familiar grasping molds on unseen objects. The system then transfers the grasp strategy by extracting a matching local surface and assigning a grasp pose learned from prior interactions. This approach allows the robot to generalize grasping strategies exploiting similarities across a wide range of objects with varying shapes and sizes, addressing the challenge of object variability without requiring extensive manual labeling or rule engineering.

L’uso di strumenti per afferrare oggetti risale ai tempi preistorici, quando gli esseri umani realizzavano utensili per facilitarne la manipolazione e presa. Con il progresso della tecnologia, questi strumenti hanno posto le basi per una delle sfide fondamentali della robotica moderna: permettere alle macchine di afferrare e manipolare oggetti con precisione e adattabilità — un ambito noto come robotic grasping. Nel contesto della logistica di magazzino e dell’imballaggio, i sistemi robotici vengono sempre più integrati nei flussi operativi. Questa integrazione ha l’obiettivo di supportare gli operatori umani, semplificare i processi di preparazione degli ordini e, in definitiva, migliorare la velocità e le prestazioni complessive del sistema. Per affrontare i limiti degli approcci tradizionali alla presa in ambienti caratterizzati da un’elevata variabilità degli oggetti, questa tesi propone un’architettura di apprendimento auto-supervisionato (self-supervised learning) che consente a un agente robotico di raccogliere autonomamente dati rilevanti per imparare un determinato compito. In particolare, il robot esplora e interagisce in simulazione con un insieme diversificato di oggetti per costruire un dataset di regioni superficiali locali 3D efficaci per la presa. Queste regioni, che definiamo grasping molds, rappresentano configurazioni geometriche favorevoli per la presa. Una volta raccolto, questo dataset viene utilizzato per addestrare una rete neurale in grado di riconoscere regioni simili su oggetti nuovi. Il nostro metodo si concentra sull’identificazione di strutture superficiali localmente simili a quelle che nella fase di acquisizione del dataset sono state associate a prese di successo. In fase di inferenza, la rete addestrata rileva queste forme 3D su oggetti mai visti prima. Il sistema elabora quindi la strategia di presa calcolando una posa di presa appresa dalle interazioni precedenti. Questo approccio consente al robot di generalizzare le strategie di presa sfruttando le somiglianze tra un’ampia gamma di oggetti con forme e dimensioni diverse, affrontando la sfida della variabilità senza la necessità di un’estesa etichettatura manuale o di regole ingegnerizzate.