6Dof object pose estimation from vision for robotic grasping

Six Degrees of Freedom object pose estimation is of crucial importance for a robot that needs to interact with objects in the surroundings. It involves identifying the translation and rotation of the object with respect to a reference system of coordinates. This problem is commonly tackled by positioning one or more cameras on the robot and by designing a system able to derive the object’s pose only from the data captured by these devices. In recent years, several methods have been proposed to estimate object’s pose from camera frames. Among these, approaches that rely on deep learning algorithms proved to achieve higher performances. With the development and increasing availability of depth-sensing cameras, distance information has been included in the input to the estimation process and higher accuracy has been reached. We propose a flexible deep learning-based model that can derive object pose from a single color image enriched with depth information. Our solution estimates object’s translation and rotation independently, giving the opportunity to the user to apply only part of the full model if the rest is not needed. We also introduce a novel approach to deal with the multiplicity of equivalent orientations that characterize symmetric objects. Moreover, we present a tool to automatically generate synthetic data that can partially replace real images, reducing the cost of generating the set of images for training the model. Finally, we apply and test our proposed solution on “Robee”, a humanoid robot developed by Oversonic Robotics. Furthermore, we confront our solution with other state-of-the-art models in pose estimation on a common dataset.

Stimare la posa di un oggetto coinvolge l’identificazione della sua posizione e del suo orien- tamento rispetto a un sistema di riferimento fissato. Quest’ultima è di cruciale importanza per un robot che ha come scopo l’interazione con oggetti nell’ambiente circostante. Tale problema è solitamente affrontato posizionando una o più camere sul robot e realizzando un sistema capace di derivare la posa dell’oggetto sfruttando i soli dati derivanti da esse. Negli ultimi anni, diversi metodi sono stati proposti per stimare la posa di oggetti a partire dalle immagini di una camera. Tra questi, sistemi basati su algoritmi di deep learning hanno mostrato prestazioni migliori. Con lo sviluppo e la maggiore fruibilità di camere in grado di percepire la profondità, si sono sviluppati modelli che includevano il dato riguardante la distanza nel processo di stima e in questo modo hanno ottenuto un’accuratezza maggiore. Noi proponiamo un modello flessibile, basato sul deep-learning in grado di stimare la posa di oggetti a partire da una singola immagine a colori con l’aggiunta dei dati di profondità. La nostra soluzione stima separatamente la posizione e l’orientamento dell’oggetto, dando così la possibilità di impiegare solo una parte del modello in caso la restante non sia neces- saria. Inoltre, introduciamo un nuovo approccio per gestire la molteplicità di orientamenti equivalenti che caratterizzano gli oggetti simmetrici. Infine, presentiamo uno strumento per la generazione automatica di dati che possono parzialmente sostituire la immagini raccolte in modo da ridurre il costo della generazione del dataset per l’allenamento del modello. Infine, la soluzione che abbiamo proposto è stata applicata e testata su “Robee”, un robot umanoide sviluppato da Oversonic Robotics. Inoltre, confrontiamo la nostra soluzione con alcuni modelli che rappresentano lo stato dell’arte nella stima della posa.