The thesis discusses the robotic bin picking, a complex task difficult to fully automate. The objective is to grasp individual objects in a cluttered and unpredictable environment, relying on a camera as the primary source of information. Neural Networks, particularly Convolutional Neural Networks (CNNs), play a crucial role in this domain, expecially to solve object detection and pose estimation tasks. One of the critical challenges introduced by these algorithms is the demand for vast labeled datasets, a labor-intensive and time-consuming task. To overcome this challenge, the approach consisted in generating a fully synthetic dataset for training the network. However, this strategy introduces the concept of the 'reality gap', leading to the model's incapacity to generalize effectively to real-world scenarios. To mitigate this concern, the research proposes an innovative approach dividing the overall task into two distinct components: object detection and pose estimation. These components are addressed separately, employing two distinct neural networks. The object detection network is trained on a limited dataset of real images, while the pose estimation network is trained on a completely synthetic dataset. To bridge the "reality gap," an integration strategy is introduced where the 2D mask derived from the object detection network is used to enhance the performance of the pose estimation network. The overall solution is tested in different real-world scenarios, performing a pick-and-place task in different conditions.

Questa tesi discute il problema del bin picking, un problema complesso, molto difficile da rendere completamente automatizzato. L'obiettivo è quello di afferrare un oggetto in un ambiente disordinato e non prevedibile, usando una camera come principale fonte di informazioni. Le reti neurali, in particolare le reti neurali convoluzionali (CNN), svolgono un ruolo cruciale in questo contesto, specialmente per risolvere compiti di rilevamento degli oggetti e stima della loro posa. Una delle sfide introdotte da questi algoritmi è la richiesta di un grande numero di dati etichettati, compito che richiede molto tempo per essere effettuato. Per superare questa sfida, l'approccio presentato propone di generare un set di dati completamente sintetico per addestrare la rete neurale. Tuttavia, questa strategia introduce il concetto di 'reality gap', cioè l'incapacità del modello di adattarsi al mondo reale. Per attenuare questo problema, il compito viene suddiviso in due parti distinte: il rilevamento degli oggetti e la stima della posa, che vengono risolte separatamente, utilizzando due reti neurali distinte. La rete di rilevamento degli oggetti viene addestrata su un ridotto set di dati di immagini reali, mentre la rete di stima della posa viene addestrata su un set di dati completamente sintetico. Per colmare il 'reality gap', le due reti neurali vengono integrate tra loro. In particolare, la maschera 2D derivata dalla rete di rilevamento degli oggetti viene utilizzata per migliorare le prestazioni della rete di stima della posa. Il modello complessivo viene testato in diversi scenari reali, eseguendo un compito di 'pick-and-place' in diverse situazioni.

Object Detection and Pose Estimation for Bin Picking

Brivio, Riccardo
2022/2023

Abstract

The thesis discusses the robotic bin picking, a complex task difficult to fully automate. The objective is to grasp individual objects in a cluttered and unpredictable environment, relying on a camera as the primary source of information. Neural Networks, particularly Convolutional Neural Networks (CNNs), play a crucial role in this domain, expecially to solve object detection and pose estimation tasks. One of the critical challenges introduced by these algorithms is the demand for vast labeled datasets, a labor-intensive and time-consuming task. To overcome this challenge, the approach consisted in generating a fully synthetic dataset for training the network. However, this strategy introduces the concept of the 'reality gap', leading to the model's incapacity to generalize effectively to real-world scenarios. To mitigate this concern, the research proposes an innovative approach dividing the overall task into two distinct components: object detection and pose estimation. These components are addressed separately, employing two distinct neural networks. The object detection network is trained on a limited dataset of real images, while the pose estimation network is trained on a completely synthetic dataset. To bridge the "reality gap," an integration strategy is introduced where the 2D mask derived from the object detection network is used to enhance the performance of the pose estimation network. The overall solution is tested in different real-world scenarios, performing a pick-and-place task in different conditions.
COLOMBO, MATTEO
ROCCO, PAOLO
ING - Scuola di Ingegneria Industriale e dell'Informazione
19-dic-2023
2022/2023
Questa tesi discute il problema del bin picking, un problema complesso, molto difficile da rendere completamente automatizzato. L'obiettivo è quello di afferrare un oggetto in un ambiente disordinato e non prevedibile, usando una camera come principale fonte di informazioni. Le reti neurali, in particolare le reti neurali convoluzionali (CNN), svolgono un ruolo cruciale in questo contesto, specialmente per risolvere compiti di rilevamento degli oggetti e stima della loro posa. Una delle sfide introdotte da questi algoritmi è la richiesta di un grande numero di dati etichettati, compito che richiede molto tempo per essere effettuato. Per superare questa sfida, l'approccio presentato propone di generare un set di dati completamente sintetico per addestrare la rete neurale. Tuttavia, questa strategia introduce il concetto di 'reality gap', cioè l'incapacità del modello di adattarsi al mondo reale. Per attenuare questo problema, il compito viene suddiviso in due parti distinte: il rilevamento degli oggetti e la stima della posa, che vengono risolte separatamente, utilizzando due reti neurali distinte. La rete di rilevamento degli oggetti viene addestrata su un ridotto set di dati di immagini reali, mentre la rete di stima della posa viene addestrata su un set di dati completamente sintetico. Per colmare il 'reality gap', le due reti neurali vengono integrate tra loro. In particolare, la maschera 2D derivata dalla rete di rilevamento degli oggetti viene utilizzata per migliorare le prestazioni della rete di stima della posa. Il modello complessivo viene testato in diversi scenari reali, eseguendo un compito di 'pick-and-place' in diverse situazioni.
File allegati
File Dimensione Formato  
2023_12_Brivio_Executive_Summary_02.pdf

Open Access dal 30/11/2024

Descrizione: Sommario esteso
Dimensione 15.63 MB
Formato Adobe PDF
15.63 MB Adobe PDF Visualizza/Apri
2023_12_Brivio_01.pdf

Open Access dal 30/11/2024

Descrizione: Testo della tesi
Dimensione 45.91 MB
Formato Adobe PDF
45.91 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/215572