More and more real-world tasks are taking advantage of the possibilities offered by deep learning. Nowadays, neural networks are able to process massive amounts of data, learn relevant features from them and make predictions on new data. In this work, we aim to leverage neural networks for the 3D reconstruction of urban scenes. LiDARs are able to collect data from the surroundings in the form of point clouds, which can be used by autonomous robots and vehicles to have a better understanding of the environment and navigate it. Our goal is to increase the expressiveness of this data by replacing the point clouds representing objects (e.g., a car) with meshes, which are considered as a standard for real-world applications nowadays. A urban scene reconstructed with meshes can have multiple applications, including videogame design, VR, AR, SLAM mapping, and autonomous driving. In this work we employ a systemic approach to study existing works on single tasks and develop a novel pipeline, the first of its kind, to achieve our goal. The aforementioned tasks include point cloud semantic segmentation (i.e., the classification of points into classes) and 3D reconstruction starting from RGB images of the considered object. Other intermediate steps are introduced to make the point clouds representing objects ready to be rendered before performing 3D reconstruction. In this thesis, we detail the state-of-the-art approaches to semantic segmentation and 3D reconstruction, while also explaining which existing networks have been used for this work and our reasoning behind it. Moreover, we test our pipeline on real-world data and detail a quantitative and qualitative analysis of our results, which prove to be promising for future works on this topic.

Sempre più attività nel mondo reale sfruttano le possibilità offerte dall’apprendimento profondo. Al giorno d’oggi, le reti neurali sono in grado di elaborare enormi quantità di dati, apprenderne caratteristiche rilevanti e fare previsioni su nuovi dati. In questo lavoro, miriamo a sfruttare le reti neurali per la ricostruzione 3D di scene urbane. I LiDARs sono in grado di raccogliere dati dai dintorni sotto forma di nuvole di punti, che possono essere utilizzate da robot e veicoli autonomi per comprendere meglio l’ambiente circostante e interagirci. Il nostro obiettivo è aumentare l’espressività di questi dati sostituendo le nuvole di punti che rappresentano oggetti (e.g., un’automobile) con le mesh poligonali, che al giorno d’oggi sono considerate uno standard per le applicazioni del mondo reale. Una scena urbana ricostruita tramite mesh può avere molteplici applicazioni, tra cui la progettazione di videogiochi, realtà virtuale, realtà aumentata, mappatura SLAM, e guida autonoma. In questo lavoro utilizziamo un approccio sistemico per studiare i lavori esistenti su singoli task e sviluppiamo una nuova pipeline, la prima del suo genere, per raggiungere il nostro obiettivo. I sopracitati task includono la segmentazione semantica di nuvole di punti (i.e., la classificazione dei punti in classi) e la ricostruzione 3D a partire dalle immagini RGB dell’oggetto considerato. Nella pipeline vengono introdotti altri passaggi intermedi per rendere le nuvole di punti che rappresentano oggetti pronte per essere renderizzate prima di eseguire la ricostruzione 3D. In questa tesi, descriviamo in dettaglio gli approcci allo stato dell’arte alla segmentazione semantica e alla ricostruzione 3D, spiegando anche quali reti esistenti sono state utilizzate per questo lavoro e il nostro ragionamento alla base. Inoltre, testiamo la nostra pipeline su dati del mondo reale e dettagliamo un’analisi quantitativa e qualitativa dei nostri risultati, i quali dimostrano di essere promettenti per futuri lavori su questo argomento.

Deep Neural Networks for 3D Urban Scene Reconstruction

Amoruso, Marco
2021/2022

Abstract

More and more real-world tasks are taking advantage of the possibilities offered by deep learning. Nowadays, neural networks are able to process massive amounts of data, learn relevant features from them and make predictions on new data. In this work, we aim to leverage neural networks for the 3D reconstruction of urban scenes. LiDARs are able to collect data from the surroundings in the form of point clouds, which can be used by autonomous robots and vehicles to have a better understanding of the environment and navigate it. Our goal is to increase the expressiveness of this data by replacing the point clouds representing objects (e.g., a car) with meshes, which are considered as a standard for real-world applications nowadays. A urban scene reconstructed with meshes can have multiple applications, including videogame design, VR, AR, SLAM mapping, and autonomous driving. In this work we employ a systemic approach to study existing works on single tasks and develop a novel pipeline, the first of its kind, to achieve our goal. The aforementioned tasks include point cloud semantic segmentation (i.e., the classification of points into classes) and 3D reconstruction starting from RGB images of the considered object. Other intermediate steps are introduced to make the point clouds representing objects ready to be rendered before performing 3D reconstruction. In this thesis, we detail the state-of-the-art approaches to semantic segmentation and 3D reconstruction, while also explaining which existing networks have been used for this work and our reasoning behind it. Moreover, we test our pipeline on real-world data and detail a quantitative and qualitative analysis of our results, which prove to be promising for future works on this topic.
BELLUSCI, MATTEO
FROSI, MATTEO
ING - Scuola di Ingegneria Industriale e dell'Informazione
20-dic-2022
2021/2022
Sempre più attività nel mondo reale sfruttano le possibilità offerte dall’apprendimento profondo. Al giorno d’oggi, le reti neurali sono in grado di elaborare enormi quantità di dati, apprenderne caratteristiche rilevanti e fare previsioni su nuovi dati. In questo lavoro, miriamo a sfruttare le reti neurali per la ricostruzione 3D di scene urbane. I LiDARs sono in grado di raccogliere dati dai dintorni sotto forma di nuvole di punti, che possono essere utilizzate da robot e veicoli autonomi per comprendere meglio l’ambiente circostante e interagirci. Il nostro obiettivo è aumentare l’espressività di questi dati sostituendo le nuvole di punti che rappresentano oggetti (e.g., un’automobile) con le mesh poligonali, che al giorno d’oggi sono considerate uno standard per le applicazioni del mondo reale. Una scena urbana ricostruita tramite mesh può avere molteplici applicazioni, tra cui la progettazione di videogiochi, realtà virtuale, realtà aumentata, mappatura SLAM, e guida autonoma. In questo lavoro utilizziamo un approccio sistemico per studiare i lavori esistenti su singoli task e sviluppiamo una nuova pipeline, la prima del suo genere, per raggiungere il nostro obiettivo. I sopracitati task includono la segmentazione semantica di nuvole di punti (i.e., la classificazione dei punti in classi) e la ricostruzione 3D a partire dalle immagini RGB dell’oggetto considerato. Nella pipeline vengono introdotti altri passaggi intermedi per rendere le nuvole di punti che rappresentano oggetti pronte per essere renderizzate prima di eseguire la ricostruzione 3D. In questa tesi, descriviamo in dettaglio gli approcci allo stato dell’arte alla segmentazione semantica e alla ricostruzione 3D, spiegando anche quali reti esistenti sono state utilizzate per questo lavoro e il nostro ragionamento alla base. Inoltre, testiamo la nostra pipeline su dati del mondo reale e dettagliamo un’analisi quantitativa e qualitativa dei nostri risultati, i quali dimostrano di essere promettenti per futuri lavori su questo argomento.
File allegati
File Dimensione Formato  
Thesis.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: Thesis
Dimensione 30.21 MB
Formato Adobe PDF
30.21 MB Adobe PDF   Visualizza/Apri
Executive_Summary.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: Executive Summary
Dimensione 10.12 MB
Formato Adobe PDF
10.12 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/198194