In the last decade, the growing interest about autonomous driving brought many computer vision and robotics researchers to focus on the vehicles understanding of the surrounding environment through a map of it. A map is needed to plan a path to reach a specific destination, or to locate the position of an agent. In robotics, a suitable mapping, or reconstruction, algorithm needs to be scalable, incremental and to provide a dense map. Scalability is needed especially in large-scale environments; an incremental algorithm allows map update as new data are acquired; density enables a consistent and coherent navigability. Researchers, in computer vision, focused their reconstruction algorithms on accurate and dense results, disregarding any incremental processing, and only few works show large-scale capabilities. Instead, in robotics the focus is mainly on incremental algorithms but the output maps are usually point clouds; only a very limited amount of works estimate dense and continuous surfaces, but they are limited to small scale scenes. In this thesis, we improve and link the findings of both communities and we propose a novel incremental, automatic and scalable reconstruction pipeline to estimate continuous dense manifold meshes; we especially focused on keeping the manifold property valid, to enable a coherent mesh refinement based on image appearance. Our contribution first improves the accuracy of the state-of-the-art incremental reconstruction algorithms both in case of video sequences of urban landscape, and in case of unordered set of images. Then, to embed and refine automatically and incrementally new part of the scene in a reference model, we proposed a novel mesh merging algorithm that preserves the manifold property. Finally, we extended our work to jointly deal with laser range finders and images, exploiting the accuracy of the laser range measurement and the appearance provided by the images. We tested our proposals against publicly available KITTI, Middlebury and EPFL datasets, which provide different scenarios in order to stress the flexibility of our approach.

L'interesse verso la guida autonoma sta crescendo considerevolmente negli ultimi dieci anni; questo ha portato diversi ricercatori provenienti dalle comunità di visione artificiale e robotica a porre grande attenzione allo sviluppo di metodi avanzati per la percezione dell'ambiente circostante e la creazione di una mappa dello stesso. La disponibilità di una mappa dell'ambiente, permette infatti di pianificare un percorso o di localizzare il veicolo al suo interno. Per essere usufruibile per la guida autonoma, la mappa ricostruita deve essere scalabile, densa e deve essere stimata in modo incrementale. La scalabilità è necessaria per rappresentare ambienti grandi come possono esserlo le strade di una città, deve essere densa per poter essere navigata in modo coerente e consistente, infine la stima deve essere incrementale per poter processare i dati appena sono disponibili. Mentre la computer vision si focalizza sulla stima di una mappa accurate, la robotica, invece, si preoccupa più dell'aspetto incrementale a discapito dell'accuratezza e densità della mappa. In questa tesi viene proposto un metodo per creare un ponte tra le due discipline, con lo scopo di mantenere gli aspetti positivi di entrambe. Viene presentata una innovativa pipeline capace di stimare incrementalmente da una sequenza di immagini una mesh densa e accurata che rappresenta il modello 3D della scena. Il punto chiave consiste nel mantenere la proprietà manifold valida lungo tutti i processi della pipeline; a questo scopo, in questa tesi viene migliorato il sistema stato dell'arte di ricostruzione 3D incrementale di mesh manifold a bassa risoluzione che viene opportunamente raffinata in accordo con le informazioni dense contenute nelle immagini. Inoltre, nonostante il sistema proposto sia stato creato per gestire sequenze di immagini, viene mostrato come sia flessibile per gestire anche dati provenienti dal scansioni laser. La valutazione sperimentale è stata condotta su dataset urbani e non (KITTI, EPFL e Middelbury), in modo da illustrare l'efficacia e la flessibilità dell'approccio proposto.

Incremental large-scale visual 3D mesh reconstruction

ROMANONI, ANDREA

Abstract

In the last decade, the growing interest about autonomous driving brought many computer vision and robotics researchers to focus on the vehicles understanding of the surrounding environment through a map of it. A map is needed to plan a path to reach a specific destination, or to locate the position of an agent. In robotics, a suitable mapping, or reconstruction, algorithm needs to be scalable, incremental and to provide a dense map. Scalability is needed especially in large-scale environments; an incremental algorithm allows map update as new data are acquired; density enables a consistent and coherent navigability. Researchers, in computer vision, focused their reconstruction algorithms on accurate and dense results, disregarding any incremental processing, and only few works show large-scale capabilities. Instead, in robotics the focus is mainly on incremental algorithms but the output maps are usually point clouds; only a very limited amount of works estimate dense and continuous surfaces, but they are limited to small scale scenes. In this thesis, we improve and link the findings of both communities and we propose a novel incremental, automatic and scalable reconstruction pipeline to estimate continuous dense manifold meshes; we especially focused on keeping the manifold property valid, to enable a coherent mesh refinement based on image appearance. Our contribution first improves the accuracy of the state-of-the-art incremental reconstruction algorithms both in case of video sequences of urban landscape, and in case of unordered set of images. Then, to embed and refine automatically and incrementally new part of the scene in a reference model, we proposed a novel mesh merging algorithm that preserves the manifold property. Finally, we extended our work to jointly deal with laser range finders and images, exploiting the accuracy of the laser range measurement and the appearance provided by the images. We tested our proposals against publicly available KITTI, Middlebury and EPFL datasets, which provide different scenarios in order to stress the flexibility of our approach.
BONARINI, ANDREA
BONARINI, ANDREA
22-feb-2017
L'interesse verso la guida autonoma sta crescendo considerevolmente negli ultimi dieci anni; questo ha portato diversi ricercatori provenienti dalle comunità di visione artificiale e robotica a porre grande attenzione allo sviluppo di metodi avanzati per la percezione dell'ambiente circostante e la creazione di una mappa dello stesso. La disponibilità di una mappa dell'ambiente, permette infatti di pianificare un percorso o di localizzare il veicolo al suo interno. Per essere usufruibile per la guida autonoma, la mappa ricostruita deve essere scalabile, densa e deve essere stimata in modo incrementale. La scalabilità è necessaria per rappresentare ambienti grandi come possono esserlo le strade di una città, deve essere densa per poter essere navigata in modo coerente e consistente, infine la stima deve essere incrementale per poter processare i dati appena sono disponibili. Mentre la computer vision si focalizza sulla stima di una mappa accurate, la robotica, invece, si preoccupa più dell'aspetto incrementale a discapito dell'accuratezza e densità della mappa. In questa tesi viene proposto un metodo per creare un ponte tra le due discipline, con lo scopo di mantenere gli aspetti positivi di entrambe. Viene presentata una innovativa pipeline capace di stimare incrementalmente da una sequenza di immagini una mesh densa e accurata che rappresenta il modello 3D della scena. Il punto chiave consiste nel mantenere la proprietà manifold valida lungo tutti i processi della pipeline; a questo scopo, in questa tesi viene migliorato il sistema stato dell'arte di ricostruzione 3D incrementale di mesh manifold a bassa risoluzione che viene opportunamente raffinata in accordo con le informazioni dense contenute nelle immagini. Inoltre, nonostante il sistema proposto sia stato creato per gestire sequenze di immagini, viene mostrato come sia flessibile per gestire anche dati provenienti dal scansioni laser. La valutazione sperimentale è stata condotta su dataset urbani e non (KITTI, EPFL e Middelbury), in modo da illustrare l'efficacia e la flessibilità dell'approccio proposto.
Tesi di dottorato
File allegati
File Dimensione Formato  
2017_02_PhD_Romanoni.pdf

accessibile in internet per tutti

Descrizione: Thesis text
Dimensione 60.6 MB
Formato Adobe PDF
60.6 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/132143