Combining data from multiple sensors, such as cameras and LiDAR, is vital for enhancing the perception of autonomous agents during interactions with the external world. Both 2D images and 3D point clouds serve as representations of our complex world. Images excel at capturing semantic details but lack depth information essential for understanding three-dimensional aspects. Conversely, 3D point clouds offer detailed geometry representation but are challenging to process due to the absence of local geometry information and higher computational costs. In this thesis, our goal is to design a method leveraging the strengths of both domains, essential for various Computer Vision tasks, including augmented reality, visual localization, and autonomous driving, by addressing the challenge of cross-domain feature matching which refers to the task of establishing correspondences between different domains. Matches typically connect feature descriptors, representing small image regions or 3D point regions, using a distance function. We propose a novel data-driven architecture to extract feature descriptors directly from images and point clouds. Our key contribution proposing to exploit lies mutual influence between embedded representations before the matching task thus improving the performance. In addition, we identified the need to reinforce the clustering of data in the latent space. To achieve this, we realized the importance of concurrently adjusting multiple vectors at each iteration. Our research demonstrates that our method significantly increases the precision of the task by at most 40% compared to the state-of-the-art methods.
La combinazione di dati provenienti da più sensori, come telecamere e LiDAR, è fondamentale per migliorare la percezione degli agenti durante le interazioni con il mondo esterno. Il nostro mondo può essere rappresentato sia da immagini 2D che da nuvole di punti 3D. Le immagini eccellono nell'acquisione di dati semantici ma mancano di informazioni sulla profondità essenziali per comprendere gli aspetti tridimensionali. Al contrario, le nuvole di punti 3D offrono una rappresentazione dettagliata della geometria, ma sono difficili da elaborare a causa dell'assenza di informazioni sulla geometria locale e di costi computazionali più elevati. In questa tesi, il nostro obiettivo è progettare un metodo che sfrutti i punti di forza di entrambi i domini, essenziali per varie attività di Computer Vision, tra cui la realtà aumentata, la localizzazione visiva e la guida autonoma, risolvendo il problema di cross-domain matching che si riferisce al compito di stabilire corrispondenze tra diversi domini. Le corrispondenze tipicamente collegano i descrittori, che rappresentano piccole regioni di immagine o regioni di punti 3D, utilizzando una funzione di distanza. Proponiamo una nuova architettura data-driven per estrarre descrittori direttamente da immagini e nuvole di punti. Il nostro contributo chiave è sfruttare l'influenza reciproca tra rappresentazioni incorporate prima del compito di corrispondenza, migliorando così le prestazioni. Inoltre, abbiamo identificato la necessità di rafforzare il raggruppamento dei dati nello spazio latente. Per raggiungere questo obiettivo, ci siamo resi conto dell'importanza di regolare contemporaneamente più vettori ad ogni iterazione. Il modello proposto supera le più recenti metodologie individuate nella letteratura esistente, aumentando la precisione fino a quasi il 40%.
2D-3D Feature Matching via Cross-Domain Embeddings
MARINO, SILVIA
2022/2023
Abstract
Combining data from multiple sensors, such as cameras and LiDAR, is vital for enhancing the perception of autonomous agents during interactions with the external world. Both 2D images and 3D point clouds serve as representations of our complex world. Images excel at capturing semantic details but lack depth information essential for understanding three-dimensional aspects. Conversely, 3D point clouds offer detailed geometry representation but are challenging to process due to the absence of local geometry information and higher computational costs. In this thesis, our goal is to design a method leveraging the strengths of both domains, essential for various Computer Vision tasks, including augmented reality, visual localization, and autonomous driving, by addressing the challenge of cross-domain feature matching which refers to the task of establishing correspondences between different domains. Matches typically connect feature descriptors, representing small image regions or 3D point regions, using a distance function. We propose a novel data-driven architecture to extract feature descriptors directly from images and point clouds. Our key contribution proposing to exploit lies mutual influence between embedded representations before the matching task thus improving the performance. In addition, we identified the need to reinforce the clustering of data in the latent space. To achieve this, we realized the importance of concurrently adjusting multiple vectors at each iteration. Our research demonstrates that our method significantly increases the precision of the task by at most 40% compared to the state-of-the-art methods.File | Dimensione | Formato | |
---|---|---|---|
2024_04_Marino_Tesi_01.pdf
accessibile in internet solo dagli utenti autorizzati
Descrizione: Tesi
Dimensione
3.68 MB
Formato
Adobe PDF
|
3.68 MB | Adobe PDF | Visualizza/Apri |
2024_04_Marino_ExecutiveSummary_02.pdf
accessibile in internet solo dagli utenti autorizzati
Descrizione: Executive Summary
Dimensione
1.15 MB
Formato
Adobe PDF
|
1.15 MB | Adobe PDF | Visualizza/Apri |
I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/10589/218504