Visual localization is the problem of estimating the pose of a camera from a query image, comparing it to a 3D reconstruction of the scene. When the scene was obtained in very different visual conditions from the query, e.g. seasonal changes, we talk about long-term localization. Applications of this problem are already part of our lives, from autonomous driving to augmented reality. Visual localization usually involves matching points of the query to those in the 3D structure, and using these matches to infer a pose through geometric reasoning. In the long-term setting, matching is challenged by the mutated appearance of keypoints, causing match scarcity. The subsequent pose estimation produces lower quality, or even completely wrong, pose estimates. In this thesis, we propose solutions to the problem of localizing with match scarcity, through fine-grained segmentations robust to long-term visual variations. Our contribution is two-fold: (i) we devise a novel matching strategy - Semantic Matching - which combines local appearance information to global semantic cues to provide higher quality matches, (ii) we modify the random sampling and consensus pose estimation algorithm to account for models with few inliers with high semantic consistency, as it happens with match scarcity. The resulting method, Biased Consensus, selects the sampled model with largest overall semantic consistency. We experimentally verify that Semantic Matching improves the quality of matches and increases their quantity. Moreover, it shows excellent performances in the task of pose estimation, outperforming state-of-the-art methods on sequences with match scarcity on all accuracy levels. The combination of Semantic Matching and Biased Consensus exhibits more than doubled correct localizations on the best performing method from literature.

La localizzazione visiva consiste nello stimare la posa di una fotocamera da un'immagine query, comparandola a una ricostruzione 3D della scena. Se la scena osservata nella ricostruzione è radicalmente diversa dalla query, ad esempio in presenza di variazioni stagionali, si parla di localizzazione a lungo termine. Applicazioni di questo problema sono già parte della quotidianità, dalla guida autonoma alla realtà aumentata. La localizzazione visiva solitamente segue due fasi: in primo luogo, punti della query vengono accoppiati a punti della ricostruzione 3D. Quindi le corrispondenze vengono usate per ricavare una posa tramite ragionamenti geometrici. Nello scenario di lungo termine, la creazione di corrispondenze è messa alla prova dai cambiamenti di aspetto dei punti descritti, e la conseguente scarsità di corrispondenze. In questa tesi, proponiamo una soluzione al problema di localizzazione con scarsità di corrispondenze attraverso segmentazioni fini delle immagini. Il nostro contributo si articola in due strumenti: (i) una nuova strategia per la creazione di corrispondenze - Semantic Matching - che combini informazione locale sull'aspetto di porzioni di immagine con segnali semantici globali, per fornire corrispondenze di alta qualità, (ii) una nuova versione dell'algoritmo di stima robusta della posa così da tenere conto di modelli con pochi inliers, ma complessivamente fortemente consistenti dal punto di vista semantico. Il metodo risultante, Biased Consensus, seleziona la posa con consistenza semantica maggiore. Verifichiamo sperimentalmente che Semantic Matching migliora sia la qualità, sia la quantità di corrispondenze trovate. Inoltre, i risultati della stima della posa sono eccellenti, e in contesti con scarsità di match superano per ogni soglia di accuratezza algoritmi allo stato dell'arte. Infine, la combinazione di Semantic Matching e Biased Consensus permette di raggiungere oltre il doppio di immagini correttamente localizzate rispetto al miglior metodo dello stato dell'arte.

Visual localization in presence of match scarcity

Sgarbossa, Valentina
2021/2022

Abstract

Visual localization is the problem of estimating the pose of a camera from a query image, comparing it to a 3D reconstruction of the scene. When the scene was obtained in very different visual conditions from the query, e.g. seasonal changes, we talk about long-term localization. Applications of this problem are already part of our lives, from autonomous driving to augmented reality. Visual localization usually involves matching points of the query to those in the 3D structure, and using these matches to infer a pose through geometric reasoning. In the long-term setting, matching is challenged by the mutated appearance of keypoints, causing match scarcity. The subsequent pose estimation produces lower quality, or even completely wrong, pose estimates. In this thesis, we propose solutions to the problem of localizing with match scarcity, through fine-grained segmentations robust to long-term visual variations. Our contribution is two-fold: (i) we devise a novel matching strategy - Semantic Matching - which combines local appearance information to global semantic cues to provide higher quality matches, (ii) we modify the random sampling and consensus pose estimation algorithm to account for models with few inliers with high semantic consistency, as it happens with match scarcity. The resulting method, Biased Consensus, selects the sampled model with largest overall semantic consistency. We experimentally verify that Semantic Matching improves the quality of matches and increases their quantity. Moreover, it shows excellent performances in the task of pose estimation, outperforming state-of-the-art methods on sequences with match scarcity on all accuracy levels. The combination of Semantic Matching and Biased Consensus exhibits more than doubled correct localizations on the best performing method from literature.
BORACCHI, GIACOMO
RIZZO, ANTONINO MARIA
ING - Scuola di Ingegneria Industriale e dell'Informazione
6-ott-2022
2021/2022
La localizzazione visiva consiste nello stimare la posa di una fotocamera da un'immagine query, comparandola a una ricostruzione 3D della scena. Se la scena osservata nella ricostruzione è radicalmente diversa dalla query, ad esempio in presenza di variazioni stagionali, si parla di localizzazione a lungo termine. Applicazioni di questo problema sono già parte della quotidianità, dalla guida autonoma alla realtà aumentata. La localizzazione visiva solitamente segue due fasi: in primo luogo, punti della query vengono accoppiati a punti della ricostruzione 3D. Quindi le corrispondenze vengono usate per ricavare una posa tramite ragionamenti geometrici. Nello scenario di lungo termine, la creazione di corrispondenze è messa alla prova dai cambiamenti di aspetto dei punti descritti, e la conseguente scarsità di corrispondenze. In questa tesi, proponiamo una soluzione al problema di localizzazione con scarsità di corrispondenze attraverso segmentazioni fini delle immagini. Il nostro contributo si articola in due strumenti: (i) una nuova strategia per la creazione di corrispondenze - Semantic Matching - che combini informazione locale sull'aspetto di porzioni di immagine con segnali semantici globali, per fornire corrispondenze di alta qualità, (ii) una nuova versione dell'algoritmo di stima robusta della posa così da tenere conto di modelli con pochi inliers, ma complessivamente fortemente consistenti dal punto di vista semantico. Il metodo risultante, Biased Consensus, seleziona la posa con consistenza semantica maggiore. Verifichiamo sperimentalmente che Semantic Matching migliora sia la qualità, sia la quantità di corrispondenze trovate. Inoltre, i risultati della stima della posa sono eccellenti, e in contesti con scarsità di match superano per ogni soglia di accuratezza algoritmi allo stato dell'arte. Infine, la combinazione di Semantic Matching e Biased Consensus permette di raggiungere oltre il doppio di immagini correttamente localizzate rispetto al miglior metodo dello stato dell'arte.
File allegati
File Dimensione Formato  
Visual_localization_in_presence_of_match_scarcity_def.pdf

accessibile in internet per tutti

Dimensione 13.3 MB
Formato Adobe PDF
13.3 MB Adobe PDF Visualizza/Apri
Executive_summary_Visual_Localization_def.pdf

accessibile in internet per tutti

Dimensione 1.42 MB
Formato Adobe PDF
1.42 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/191937