Single-view 3D reconstruction is an important task in Computer Vision, enabling the recovery of metrically accurate scene geometry from a single image. It underpins applications such as augmented reality, robotics, and industrial inspection, where spatial reasoning is required but multi-view capture or active depth sensing may not be feasible. Unlike stereo or multi-view reconstruction, the monocular setting is intrinsically ill-posed, as infinitely many 3D configurations may correspond to the same image. Existing solutions either rely on learning-based methods, which often suffer from scale ambiguity and the need for large datasets, or on geometric approaches, which typically require strong assumptions and controlled acquisition settings. In this thesis, we propose a geometry-based solution to this problem, which exploits planar templates with known geometry as metric anchors. Our contribution is two-fold. \emph{(i)} We introduce a reconstruction pipeline that detects multiple templates in a single image and adapts Zhang’s calibration method to recover camera intrinsics without requiring multiple views. \emph{(ii)} We design a robust pose recovery procedure, which resolves the inherent ambiguities of single-view reconstruction and provides metrically consistent poses for all detected templates within a common camera-centered frame. We perform experiments to evaluate the proposed method. On synthetic data, we analyze the effects of noise and viewing conditions, showing stable focal length recovery and accurate template pose estimation. On real-world data, we validate against COLMAP reconstructions and compare with established deep learning baselines such as DepthPro. The results demonstrate that our approach achieves competitive focal length estimation while delivering significantly more accurate and consistent pose recovery. We provide a practical alternative to learning-based single-view depth prediction and multi-view reconstruction, offering an efficient geometry-driven solution for constrained single-image scenarios where planar templates are available and metric accuracy is critical.

La ricostruzione 3D da una singola vista è un problema importante nella Computer Vision, che consente di recuperare la geometria della scena a partire da una sola immagine. È utile in applicazioni come realtà aumentata, robotica e ispezione industriale, in cui è necessario un ragionamento spaziale ma non è possibile usare più punti di vista o sensori di profondità. È un problema intrinsecamente mal posto, poiché infinite configurazioni 3D possono corrispondere alla stessa immagine. Le soluzioni esistenti si basano su approcci basati sull'apprendimento, spesso affetti da ambiguità di scala e necessità di grandi dataset, oppure su metodi geometrici, che richiedono forti assunzioni. In questa tesi proponiamo una soluzione geometrica al problema, che sfrutta la presenza di template planari con geometria nota. Il nostro contributo è duplice. \emph{(i)} Introduciamo una pipeline di ricostruzione che rileva più template in un’unica immagine e adatta il metodo di calibrazione di Zhang per recuperare i parametri intrinseci della camera senza la necessità di più viste. \emph{(ii)} Progettiamo una procedura robusta di stima della posa, capace di risolvere le ambiguità tipiche della ricostruzione monoculare e di fornire pose metricamente consistenti per tutti i template rilevati. Conduciamo esperimenti per valutare il metodo proposto. Su dati sintetici analizziamo gli effetti del rumore, dimostrando una stima stabile della lunghezza focale e una corretta ricostruzione delle pose dei template. Su dati reali, validiamo i risultati rispetto alle ricostruzioni di COLMAP e li confrontiamo con baseline di deep learning come DepthPro. I risultati dimostrano che il nostro approccio ottiene una stima competitiva della lunghezza focale e fornisce pose significativamente più accurate e consistenti. In sintesi, questo lavoro offre un’alternativa pratica alla predizione della profondità da singola immagine tramite learning e alla ricostruzione con viste multiple, proponendo una soluzione geometrica efficiente per scenari vincolati a singola immagine, in cui i template planari sono disponibili e la precisione metrica è fondamentale.

Single-view 3D reconstruction from planar templates

Arcaro, Stefano
2024/2025

Abstract

Single-view 3D reconstruction is an important task in Computer Vision, enabling the recovery of metrically accurate scene geometry from a single image. It underpins applications such as augmented reality, robotics, and industrial inspection, where spatial reasoning is required but multi-view capture or active depth sensing may not be feasible. Unlike stereo or multi-view reconstruction, the monocular setting is intrinsically ill-posed, as infinitely many 3D configurations may correspond to the same image. Existing solutions either rely on learning-based methods, which often suffer from scale ambiguity and the need for large datasets, or on geometric approaches, which typically require strong assumptions and controlled acquisition settings. In this thesis, we propose a geometry-based solution to this problem, which exploits planar templates with known geometry as metric anchors. Our contribution is two-fold. \emph{(i)} We introduce a reconstruction pipeline that detects multiple templates in a single image and adapts Zhang’s calibration method to recover camera intrinsics without requiring multiple views. \emph{(ii)} We design a robust pose recovery procedure, which resolves the inherent ambiguities of single-view reconstruction and provides metrically consistent poses for all detected templates within a common camera-centered frame. We perform experiments to evaluate the proposed method. On synthetic data, we analyze the effects of noise and viewing conditions, showing stable focal length recovery and accurate template pose estimation. On real-world data, we validate against COLMAP reconstructions and compare with established deep learning baselines such as DepthPro. The results demonstrate that our approach achieves competitive focal length estimation while delivering significantly more accurate and consistent pose recovery. We provide a practical alternative to learning-based single-view depth prediction and multi-view reconstruction, offering an efficient geometry-driven solution for constrained single-image scenarios where planar templates are available and metric accuracy is critical.
BORACCHI, GIACOMO
ING - Scuola di Ingegneria Industriale e dell'Informazione
23-ott-2025
2024/2025
La ricostruzione 3D da una singola vista è un problema importante nella Computer Vision, che consente di recuperare la geometria della scena a partire da una sola immagine. È utile in applicazioni come realtà aumentata, robotica e ispezione industriale, in cui è necessario un ragionamento spaziale ma non è possibile usare più punti di vista o sensori di profondità. È un problema intrinsecamente mal posto, poiché infinite configurazioni 3D possono corrispondere alla stessa immagine. Le soluzioni esistenti si basano su approcci basati sull'apprendimento, spesso affetti da ambiguità di scala e necessità di grandi dataset, oppure su metodi geometrici, che richiedono forti assunzioni. In questa tesi proponiamo una soluzione geometrica al problema, che sfrutta la presenza di template planari con geometria nota. Il nostro contributo è duplice. \emph{(i)} Introduciamo una pipeline di ricostruzione che rileva più template in un’unica immagine e adatta il metodo di calibrazione di Zhang per recuperare i parametri intrinseci della camera senza la necessità di più viste. \emph{(ii)} Progettiamo una procedura robusta di stima della posa, capace di risolvere le ambiguità tipiche della ricostruzione monoculare e di fornire pose metricamente consistenti per tutti i template rilevati. Conduciamo esperimenti per valutare il metodo proposto. Su dati sintetici analizziamo gli effetti del rumore, dimostrando una stima stabile della lunghezza focale e una corretta ricostruzione delle pose dei template. Su dati reali, validiamo i risultati rispetto alle ricostruzioni di COLMAP e li confrontiamo con baseline di deep learning come DepthPro. I risultati dimostrano che il nostro approccio ottiene una stima competitiva della lunghezza focale e fornisce pose significativamente più accurate e consistenti. In sintesi, questo lavoro offre un’alternativa pratica alla predizione della profondità da singola immagine tramite learning e alla ricostruzione con viste multiple, proponendo una soluzione geometrica efficiente per scenari vincolati a singola immagine, in cui i template planari sono disponibili e la precisione metrica è fondamentale.
File allegati
File Dimensione Formato  
2025_10_Arcaro_Executive_Summary_02.pdf

accessibile in internet per tutti

Descrizione: Executive summary
Dimensione 2.03 MB
Formato Adobe PDF
2.03 MB Adobe PDF Visualizza/Apri
2025_10_Arcaro_Tesi_01.pdf

accessibile in internet per tutti

Descrizione: Testo della tesi
Dimensione 8.61 MB
Formato Adobe PDF
8.61 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/243792