This work investigates the metrological performances of a Deep Learning-based 3D Object Pose Estimation (3DOPE) architecture, named DenseFusion, which was jointly created in 2018 by researchers at Stanford University and at Shanghai Jiao Tong University. In order to perform the metrological assessment of the retrieved estimations, we considered the benchmark YaleCarnegieBerkeley(YCB)-Video Dataset; we employed the Average Defined Distance - Symmetric (ADD-S) parameter for the quantitative data analysis. In addition, we evaluated the relative translational and rotational offsets with respect to the ground-truth poses. ADD-S values lower than 10 [mm] were achieved on ten objects among the twenty-one comprised in the collection by the Yale-Carnegie-Berkeley Universities. Aiming at ensuring the possibility to process any arbitrarily chosen item, we enhanced the project through the implementation of a novel 3DOPE dataset creation procedure. Its development was carried out by harnessing a 3D scanning device engineered by ISS s.r.l., the Intel® RealSense™ D415 Depth Camera and the Stäubli TX60 Robot. Outcomes highlight the effectiveness of the DenseFusion framework on the in-house gathered data, leading to an ADD-S value of 1.9 [mm] on the processed object. This enabled the deployment of the newly trained Neural Networks in their pure-inference modality. This research testifies the possibility to achieve the object identification, spatial localization and robotic picking processes via Deep Learning.

Questo lavoro indaga le prestazioni metrologiche di un’architettura di 3D Object Pose Estimation (3DOPE) composta da algoritmi di Deep Learning, denominata DenseFusion e creata congiuntamente nel 2018 dai ricercatori della Stanford University e della Shanghai Jiao Tong University. Al fine di effettuare la valutazione metrologica delle stime risultanti, si è considerato lo YaleCarnegieBerkeley(YCB)-Video Dataset; il parametro Average Defined Distance - Symmetric (ADD-S) è stato utilizzato per l’analisi quantitativa dei dati. Inoltre, si sono valutati i relativi offset traslazionali e rotazionali rispetto alle pose groung-truth. Valori di ADDS inferiori a 10 [mm] sono stati ottenuti su dieci oggetti tra i ventuno compresi nella collezione delle Università Yale-Carnegie-Berkeley. Con l’obiettivo di garantire la possibilità di elaborare qualsiasi oggetto scelto arbitrariamente, si è arricchito il progetto attraverso l’implementazione di una nuova procedura di creazione di dataset per 3DOPE. Il suo sviluppo è stato realizzato impiegando un dispositivo di scansione 3D progettato da ISS s.r.l., la Depth Camera Intel® RealSense™ D415 e il Robot Stäubli TX60. I risultati testimoniano l’efficacia del modello DenseFusion sui dati raccolti, portando ad un valore ADD-S di 1.9 [mm] sull’oggetto elaborato. Questo ha permesso l’applicazione delle Reti Neurali di nuova formazione nella loro modalità di pura inferenza. Il lavoro di ricerca ha evidenziato la possibilità di ottenere l’identificazione dell’oggetto, la localizzazione spaziale ed il processo di picking robotico tramite Deep Learning.

Deep learning for 3D object pose estimation

FABRIS, DAVIDE MARIA
2018/2019

Abstract

This work investigates the metrological performances of a Deep Learning-based 3D Object Pose Estimation (3DOPE) architecture, named DenseFusion, which was jointly created in 2018 by researchers at Stanford University and at Shanghai Jiao Tong University. In order to perform the metrological assessment of the retrieved estimations, we considered the benchmark YaleCarnegieBerkeley(YCB)-Video Dataset; we employed the Average Defined Distance - Symmetric (ADD-S) parameter for the quantitative data analysis. In addition, we evaluated the relative translational and rotational offsets with respect to the ground-truth poses. ADD-S values lower than 10 [mm] were achieved on ten objects among the twenty-one comprised in the collection by the Yale-Carnegie-Berkeley Universities. Aiming at ensuring the possibility to process any arbitrarily chosen item, we enhanced the project through the implementation of a novel 3DOPE dataset creation procedure. Its development was carried out by harnessing a 3D scanning device engineered by ISS s.r.l., the Intel® RealSense™ D415 Depth Camera and the Stäubli TX60 Robot. Outcomes highlight the effectiveness of the DenseFusion framework on the in-house gathered data, leading to an ADD-S value of 1.9 [mm] on the processed object. This enabled the deployment of the newly trained Neural Networks in their pure-inference modality. This research testifies the possibility to achieve the object identification, spatial localization and robotic picking processes via Deep Learning.
PEREGO, ALESSANDRO
SALA, REMO
ING - Scuola di Ingegneria Industriale e dell'Informazione
18-dic-2019
2018/2019
Questo lavoro indaga le prestazioni metrologiche di un’architettura di 3D Object Pose Estimation (3DOPE) composta da algoritmi di Deep Learning, denominata DenseFusion e creata congiuntamente nel 2018 dai ricercatori della Stanford University e della Shanghai Jiao Tong University. Al fine di effettuare la valutazione metrologica delle stime risultanti, si è considerato lo YaleCarnegieBerkeley(YCB)-Video Dataset; il parametro Average Defined Distance - Symmetric (ADD-S) è stato utilizzato per l’analisi quantitativa dei dati. Inoltre, si sono valutati i relativi offset traslazionali e rotazionali rispetto alle pose groung-truth. Valori di ADDS inferiori a 10 [mm] sono stati ottenuti su dieci oggetti tra i ventuno compresi nella collezione delle Università Yale-Carnegie-Berkeley. Con l’obiettivo di garantire la possibilità di elaborare qualsiasi oggetto scelto arbitrariamente, si è arricchito il progetto attraverso l’implementazione di una nuova procedura di creazione di dataset per 3DOPE. Il suo sviluppo è stato realizzato impiegando un dispositivo di scansione 3D progettato da ISS s.r.l., la Depth Camera Intel® RealSense™ D415 e il Robot Stäubli TX60. I risultati testimoniano l’efficacia del modello DenseFusion sui dati raccolti, portando ad un valore ADD-S di 1.9 [mm] sull’oggetto elaborato. Questo ha permesso l’applicazione delle Reti Neurali di nuova formazione nella loro modalità di pura inferenza. Il lavoro di ricerca ha evidenziato la possibilità di ottenere l’identificazione dell’oggetto, la localizzazione spaziale ed il processo di picking robotico tramite Deep Learning.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
2019_12_Fabris.pdf

non accessibile

Descrizione: Testo della tesi
Dimensione 29.39 MB
Formato Adobe PDF
29.39 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/151577