Computer Vision techniques have shown impressive improvements in the recent years and are rapidly changing many aspects of our lives. In this Master Project, we tackle the problem of detecting and tracking the 3D pose of objects in videos, i.e. determining the location of an object in the scene, and estimating its 3D pose in each of the video frames. This is a crucial task in a wide range of applications, ranging from Augmented Reality to robotic autonomous navigation. We propose to use a highly efficient Deep Network that both detects the parts of a target object and, at the same time, estimates their poses, which we combine later to retrieve the 3D pose of the target object. The proposed method is based on a state-of-the- art part based 3D pose estimator, and the YOLO network. The proposed method, YOLO3D, is tested on multiple datasets, and shows on-par results with the state- of-the-art in terms of tracking error, while being four times faster than the state- of-the-art, achieving real-time.

Le tecniche di Computer Vision hanno mostrato incredibili miglioramenti negli ultimi hanni e stanno rapidamente cambiando diversi aspetti delle nostre vite. In questo Master Project affrontiamo il problema del rilevamento e del tracciamento della posa in 3D di oggetti in un video, i.e. determinare la posizione di un oggetto e stimare la sua posa in 3D in ciascun frame del video. Questo è un problema di importanza cruciale in molte applicazioni, come la realtà aumentata e la navigazione autonoma. Proponiamo di utilizzare una Deep Network estremamente efficiente che allo stesso tempo rileva le parti di un oggetto e stima le rispettive pose. Combinandole è possibile ottenere la posa dell'intero oggetto. Il metodo proposto è basato su un metodo all'attuale stato dell'arte nell'ambito del rilevamento e del tracciamento della posa 3D di oggetti, e su YOLO, un recente metodo per il rilevamento di oggetti in 2D. Il metodo proposto, YOLO3D, è testato su diversi dataset e mostra performance comparabili allo stato dell'arte in termini di errore di tracciamento, essendo allo stesso tempo quattro volte più veloce dello stato dell'arte. È in grado di fornire la posa 3D di un oggetto in real-time.

Deep 3D pose estimation for augmented reality

SAVARE', STEFANO
2016/2017

Abstract

Computer Vision techniques have shown impressive improvements in the recent years and are rapidly changing many aspects of our lives. In this Master Project, we tackle the problem of detecting and tracking the 3D pose of objects in videos, i.e. determining the location of an object in the scene, and estimating its 3D pose in each of the video frames. This is a crucial task in a wide range of applications, ranging from Augmented Reality to robotic autonomous navigation. We propose to use a highly efficient Deep Network that both detects the parts of a target object and, at the same time, estimates their poses, which we combine later to retrieve the 3D pose of the target object. The proposed method is based on a state-of-the- art part based 3D pose estimator, and the YOLO network. The proposed method, YOLO3D, is tested on multiple datasets, and shows on-par results with the state- of-the-art in terms of tracking error, while being four times faster than the state- of-the-art, achieving real-time.
CRIVELLARO, ALBERTO
FUA, PASCAL
YI, KWANG MOO
ING - Scuola di Ingegneria Industriale e dell'Informazione
27-lug-2017
2016/2017
Le tecniche di Computer Vision hanno mostrato incredibili miglioramenti negli ultimi hanni e stanno rapidamente cambiando diversi aspetti delle nostre vite. In questo Master Project affrontiamo il problema del rilevamento e del tracciamento della posa in 3D di oggetti in un video, i.e. determinare la posizione di un oggetto e stimare la sua posa in 3D in ciascun frame del video. Questo è un problema di importanza cruciale in molte applicazioni, come la realtà aumentata e la navigazione autonoma. Proponiamo di utilizzare una Deep Network estremamente efficiente che allo stesso tempo rileva le parti di un oggetto e stima le rispettive pose. Combinandole è possibile ottenere la posa dell'intero oggetto. Il metodo proposto è basato su un metodo all'attuale stato dell'arte nell'ambito del rilevamento e del tracciamento della posa 3D di oggetti, e su YOLO, un recente metodo per il rilevamento di oggetti in 2D. Il metodo proposto, YOLO3D, è testato su diversi dataset e mostra performance comparabili allo stato dell'arte in termini di errore di tracciamento, essendo allo stesso tempo quattro volte più veloce dello stato dell'arte. È in grado di fornire la posa 3D di un oggetto in real-time.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
master_project_stefano_savare.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: Thesis text
Dimensione 13.19 MB
Formato Adobe PDF
13.19 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/135622