Reconstructing a 3D scene given a set of images is an important problem for many activities such as robotics and photogrammetry. In this field, the most common representations are 3D point clouds and meshes, both of which explicitly model the geometry of a given scene. In the last few years, implicit neural representations called Neural Radiance Fields have attracted much attention due to their high degree of fidelity. These techniques leverage the learning capabilities of neural networks to train models that can accurately predict color and density for any point within a bounding box that encloses the scene. These models, however, need to be retrained from scratch for every scene and take anywhere from a dozen hours to a few days depending on the dataset. Moreover, they need very accurate pose estimates for their training images to converge to the correct representation. In this thesis, we first formalize the problem and present the relevant literature. We then address both the issue of training speed and the requirement of perfect poses by developing a variant of NeRF that is able to converge from imperfect poses in a short amount of time. Furthermore, we explore the addition of geometric supervision from the more mature field of Structure from Motion to better constrain the problem. We tackle the need for this addition to be differentiable to fit within the NeRF framework, and ensure the flow of gradient from the final loss to the camera poses. We test many different approaches to the application of this supervision, on many scenes from different datasets, present the data and examine their performance. Finally, we discuss possible future directions for the introduction of geometric constraints on neural implicit 3D representations.

Ricostruire una scena 3D a partire da un insieme di immagini è un problema importante per diverse attività tra cui la robotica e la fotogrammetria. In questi campi, le rappresentazioni più comuni per una scena 3D sono point cloud e mesh, entrambe le quali rappresentano esplicitamente la geometria 3D della scena stessa. Negli ultimi anni, rappresentazioni implicite neurali note come Neural Radiance Fields hanno attirato molta attenzione grazie al loro alto grado di verosimiglianza. Queste tecniche sfruttano la capacità di apprendimento delle reti neurali per allenare modelli che riescono a predire accuratamente il colore e la densità di ogni punto all'interno di un bounding box che racchiude una scena. Questi modelli, però, necessitano di essere riallenati da zero per ogni scena, e richiedono un tempo di allenamento compreso tra una dozzina di ore e molteplici giorni in base al dataset. Inoltre, richiedono delle stime molto accurate sulle pose delle immagini sulle quali vengono allenati. In questa tesi, in primo luogo formalizziamo il problema e ne presentiamo la letteratura rilevante. Successivamente, gestiamo sia il problema della durata dell'allenamento che della necessità di pose perfette sviluppando una variante di NeRF in grado di convergere a partire da pose imperfette in tempi brevi. Inoltre, esploriamo l'aggiunta di supervisione geometrica dal più maturo campo della Structure from Motion per meglio vincolare il problema. Affrontiamo la necessità che questa aggiunta sia differenziable per poter essere integrata nella struttura di NeRF, e garantiamo il flusso di gradiente dalla loss finale alle pose delle camere. Testiamo molti approcci differenti per l'applicazione di questa supervisione, su scene prese da diversi dataset, presentiamo i relativi dati e un'analisi della performance dei diversi approcci. Infine, discutiamo possibili future direzioni di ricerca per l'introduzione di vincoli geometrici su rappresentazioni 3D neurali implicite come i Neural Radiance Fields.

Geometric Supervision for Efficient Reconstruction and Pose Refinement in Neural Radiance Fields

RIOS, FEDERICO
2022/2023

Abstract

Reconstructing a 3D scene given a set of images is an important problem for many activities such as robotics and photogrammetry. In this field, the most common representations are 3D point clouds and meshes, both of which explicitly model the geometry of a given scene. In the last few years, implicit neural representations called Neural Radiance Fields have attracted much attention due to their high degree of fidelity. These techniques leverage the learning capabilities of neural networks to train models that can accurately predict color and density for any point within a bounding box that encloses the scene. These models, however, need to be retrained from scratch for every scene and take anywhere from a dozen hours to a few days depending on the dataset. Moreover, they need very accurate pose estimates for their training images to converge to the correct representation. In this thesis, we first formalize the problem and present the relevant literature. We then address both the issue of training speed and the requirement of perfect poses by developing a variant of NeRF that is able to converge from imperfect poses in a short amount of time. Furthermore, we explore the addition of geometric supervision from the more mature field of Structure from Motion to better constrain the problem. We tackle the need for this addition to be differentiable to fit within the NeRF framework, and ensure the flow of gradient from the final loss to the camera poses. We test many different approaches to the application of this supervision, on many scenes from different datasets, present the data and examine their performance. Finally, we discuss possible future directions for the introduction of geometric constraints on neural implicit 3D representations.
MAGRI, LUCA
PORFIRI DAL CIN, ANDREA
ING - Scuola di Ingegneria Industriale e dell'Informazione
5-ott-2023
2022/2023
Ricostruire una scena 3D a partire da un insieme di immagini è un problema importante per diverse attività tra cui la robotica e la fotogrammetria. In questi campi, le rappresentazioni più comuni per una scena 3D sono point cloud e mesh, entrambe le quali rappresentano esplicitamente la geometria 3D della scena stessa. Negli ultimi anni, rappresentazioni implicite neurali note come Neural Radiance Fields hanno attirato molta attenzione grazie al loro alto grado di verosimiglianza. Queste tecniche sfruttano la capacità di apprendimento delle reti neurali per allenare modelli che riescono a predire accuratamente il colore e la densità di ogni punto all'interno di un bounding box che racchiude una scena. Questi modelli, però, necessitano di essere riallenati da zero per ogni scena, e richiedono un tempo di allenamento compreso tra una dozzina di ore e molteplici giorni in base al dataset. Inoltre, richiedono delle stime molto accurate sulle pose delle immagini sulle quali vengono allenati. In questa tesi, in primo luogo formalizziamo il problema e ne presentiamo la letteratura rilevante. Successivamente, gestiamo sia il problema della durata dell'allenamento che della necessità di pose perfette sviluppando una variante di NeRF in grado di convergere a partire da pose imperfette in tempi brevi. Inoltre, esploriamo l'aggiunta di supervisione geometrica dal più maturo campo della Structure from Motion per meglio vincolare il problema. Affrontiamo la necessità che questa aggiunta sia differenziable per poter essere integrata nella struttura di NeRF, e garantiamo il flusso di gradiente dalla loss finale alle pose delle camere. Testiamo molti approcci differenti per l'applicazione di questa supervisione, su scene prese da diversi dataset, presentiamo i relativi dati e un'analisi della performance dei diversi approcci. Infine, discutiamo possibili future direzioni di ricerca per l'introduzione di vincoli geometrici su rappresentazioni 3D neurali implicite come i Neural Radiance Fields.
File allegati
File Dimensione Formato  
nerf_thesis_19_09.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: tesi alla consegna
Dimensione 12.58 MB
Formato Adobe PDF
12.58 MB Adobe PDF   Visualizza/Apri
nerf_executive_summary_19_09.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: executive summary alla consegna
Dimensione 661.66 kB
Formato Adobe PDF
661.66 kB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/211192