We present a system that estimates the motion of a single moving RGB-D camera based on video input. The system operates in real-time with low delay and the motion estimates are used for 3D reconstruction purposes. The front end of the system is an energy-based dense tracker. The tracker minimizes an energy function which aims at finding the best rigid body motion to map one RGB-D image into another one under the assumption of a static scene filmed by the moving camera. Energy is defined as a linear combination of depthmap and RGB information. We then propose a linearization of the energy function which leads to a 6 x 6 normal equation for the twist coordinates representing the rigid body motion. To allow for larger motions, we solve this equation in a coarse-to-fine scheme. By varying the coefficients of the linear combination of the two energy components, we can dynamically shift focus from structure features in the depthmap to texture features in the RGB image. The estimated pose, together with the associated depth frame, is then used as input in a simple 3D reconstruction system which produces a dense model of the observed volume. The pose estimation method has been applied successfully to video recorded with handheld platforms and synthetically generated ones. Quantitative analysis shows that the solution is more robust to large camera motions than commonly adopted RGB-D approaches, allowing to perform visual odometry with a lower number of keyframes.

In questa tesi presentiamo un sistema che stima il movimento di una singola telecamera RGB-D sfruttando il solo input video. Il sistema adopera la stima della posizione della telecamera per ricostruire tridimensionalmente la scena osservata, operando in real-time con un minimo ritardo. La parte principale del sistema è un "energy-based dense tracker". Il tracker minimizza una funzione obiettivo tentando di individuare la migliore trasformazione rigida che mappa un'immagine RGB-D su un'altra, sotto l'ipotesi di una scena statica osservata da una telecamera in movimento. La funzione obiettivo è definita come la combinazione lineare di una componente depthmap e una componente RGB. Noi proponiamo inoltre in questo elaborato una linearizzazione della funzione obiettivo che porta alla definizione di un sistema di equazioni in 6 incognite per le variabili rappresentanti il movimento della telecamera. Per permettere al sistema di tracciare movimenti ampi, risolviamo il sistema di equazioni in uno schema "coarse-to-fine". Variando i coefficienti della combinazione lineare delle due componenti della funzione obiettivo, possiamo spostare dinamicamente la priorità dalle caratteristiche strutturali nella depthmap alle caratteristiche di texture nell'immagine RGB. La posa stimata e la depthmap ad essa associata sono poi usate come input per un semplice sistema di ricostruzione tridimensionale che produce un modello denso del volume osservato. Il metodo di stima della posa della telecamera è stato applicato con successo a video catturati da telecamere portatili e generati sinteticamente. L'analisi quantitativa mostra che la nostra soluzione è più robusta a larghi movimenti della telecamera rispetto agli approcci RGB-D comunemente adottati, permettendo di effettuare odometria visuale con un minore numero di keyframes.

Towards dense RGB-D visual odometry

GAROLLA, FILIPPO
2014/2015

Abstract

We present a system that estimates the motion of a single moving RGB-D camera based on video input. The system operates in real-time with low delay and the motion estimates are used for 3D reconstruction purposes. The front end of the system is an energy-based dense tracker. The tracker minimizes an energy function which aims at finding the best rigid body motion to map one RGB-D image into another one under the assumption of a static scene filmed by the moving camera. Energy is defined as a linear combination of depthmap and RGB information. We then propose a linearization of the energy function which leads to a 6 x 6 normal equation for the twist coordinates representing the rigid body motion. To allow for larger motions, we solve this equation in a coarse-to-fine scheme. By varying the coefficients of the linear combination of the two energy components, we can dynamically shift focus from structure features in the depthmap to texture features in the RGB image. The estimated pose, together with the associated depth frame, is then used as input in a simple 3D reconstruction system which produces a dense model of the observed volume. The pose estimation method has been applied successfully to video recorded with handheld platforms and synthetically generated ones. Quantitative analysis shows that the solution is more robust to large camera motions than commonly adopted RGB-D approaches, allowing to perform visual odometry with a lower number of keyframes.
POCK, THOMAS
BONA, BASILIO
ING - Scuola di Ingegneria Industriale e dell'Informazione
27-apr-2016
2014/2015
In questa tesi presentiamo un sistema che stima il movimento di una singola telecamera RGB-D sfruttando il solo input video. Il sistema adopera la stima della posizione della telecamera per ricostruire tridimensionalmente la scena osservata, operando in real-time con un minimo ritardo. La parte principale del sistema è un "energy-based dense tracker". Il tracker minimizza una funzione obiettivo tentando di individuare la migliore trasformazione rigida che mappa un'immagine RGB-D su un'altra, sotto l'ipotesi di una scena statica osservata da una telecamera in movimento. La funzione obiettivo è definita come la combinazione lineare di una componente depthmap e una componente RGB. Noi proponiamo inoltre in questo elaborato una linearizzazione della funzione obiettivo che porta alla definizione di un sistema di equazioni in 6 incognite per le variabili rappresentanti il movimento della telecamera. Per permettere al sistema di tracciare movimenti ampi, risolviamo il sistema di equazioni in uno schema "coarse-to-fine". Variando i coefficienti della combinazione lineare delle due componenti della funzione obiettivo, possiamo spostare dinamicamente la priorità dalle caratteristiche strutturali nella depthmap alle caratteristiche di texture nell'immagine RGB. La posa stimata e la depthmap ad essa associata sono poi usate come input per un semplice sistema di ricostruzione tridimensionale che produce un modello denso del volume osservato. Il metodo di stima della posa della telecamera è stato applicato con successo a video catturati da telecamere portatili e generati sinteticamente. L'analisi quantitativa mostra che la nostra soluzione è più robusta a larghi movimenti della telecamera rispetto agli approcci RGB-D comunemente adottati, permettendo di effettuare odometria visuale con un minore numero di keyframes.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
2016_04_Garolla.pdf

accessibile in internet per tutti

Descrizione: Testo della tesi
Dimensione 15.15 MB
Formato Adobe PDF
15.15 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/120729