This thesis presents the development of a vision-based localization system for a head- mounted display (HMD) designed for use inside a moving vehicle, where accurate and stable pose estimation is essential to ensure that augmented reality content remains cor- rectly anchored in the driver’s field of view. The work contributes to a larger system that integrates inertial measurements with visual data to compute a reliable and precise estimate of the HMD’s position and orientation in real time. Within this architecture, the focus of this thesis is specifically on the visual localization component, with the goal of moving beyond traditional marker-based methods that are often impractical or un- reliable in dynamic automotive environments. To achieve this, two different mapping approaches are developed: one based on a representation of the cockpit with a discrete set of keyframes, and another using a full keypoint map constructed from all tracked visual features. Localization is then performed by matching the real-time frame either against the most relevant keyframe or against the correct subset of the full map. To improve the consistency and accuracy of the data used in both mapping strategies, this work first introduces a pipeline based on global optimisation using the GTSAM factor- graph framework. In this setup, the poses of frames used for mapping are jointly refined by integrating constraints from multiple sources. By combining this optimised mapping with flexible localization strategies, the system achieves accurate, marker-free tracking that remains stable in real driving scenarios.

Questa tesi presenta lo sviluppo di un sistema di vision-based localization per un head- mounted display (HMD) destinato all’uso all’interno di un veicolo in movimento, dove una stima della posa accurata e stabile è essenziale per garantire che i contenuti in re- altà aumentata rimangano correttamente ancorati nel campo visivo del conducente. Il lavoro contribuisce a un sistema più ampio che integra misure inerziali con dati visivi per calcolare in tempo reale una stima affidabile e precisa della posizione e dell’orientamento dell’HMD. All’interno di questa architettura, l’obiettivo di questa tesi riguarda specifi- camente la componente di localizzazione visiva, con l’intento di andare oltre i metodi tradizionali marker-based, spesso impraticabili o poco affidabili in sistemi di riferimento non inerziali (e.g. veicoli in movimento). A tal fine vengono sviluppati due diversi ap- procci di mapping: uno basato sulla rappresentazione dell’abitacolo tramite un insieme discreto di keyframes, e un altro che utilizza una keypoint map completa costruita da tutte le visual features tracciate. La localizzazione viene quindi eseguita confrontando il frame in tempo reale con il keyframe più rilevante oppure con il sottoinsieme corretto della keypoint map. Per migliorare la coerenza e la precisione dei dati utilizzati in entrambe le strategie di mapping, questo lavoro introduce innanzitutto una pipeline basata su ot- timizzazione globale mediante il GTSAM factor-graph framework. In questo contesto, le pose dei frame utilizzati per il mapping vengono affinate congiuntamente integrando vincoli provenienti da più fonti. Combinando questo mapping ottimizzato con strategie di localizzazione flessibili, il sistema ottiene un tracking accurato che rimane stabile in scenari di guida reali senza l’utilizzo di marker.

Development of visual localisation and mapping methods for head-mounted displays in moving vehicles

DIEGOLI, TOMMASO
2024/2025

Abstract

This thesis presents the development of a vision-based localization system for a head- mounted display (HMD) designed for use inside a moving vehicle, where accurate and stable pose estimation is essential to ensure that augmented reality content remains cor- rectly anchored in the driver’s field of view. The work contributes to a larger system that integrates inertial measurements with visual data to compute a reliable and precise estimate of the HMD’s position and orientation in real time. Within this architecture, the focus of this thesis is specifically on the visual localization component, with the goal of moving beyond traditional marker-based methods that are often impractical or un- reliable in dynamic automotive environments. To achieve this, two different mapping approaches are developed: one based on a representation of the cockpit with a discrete set of keyframes, and another using a full keypoint map constructed from all tracked visual features. Localization is then performed by matching the real-time frame either against the most relevant keyframe or against the correct subset of the full map. To improve the consistency and accuracy of the data used in both mapping strategies, this work first introduces a pipeline based on global optimisation using the GTSAM factor- graph framework. In this setup, the poses of frames used for mapping are jointly refined by integrating constraints from multiple sources. By combining this optimised mapping with flexible localization strategies, the system achieves accurate, marker-free tracking that remains stable in real driving scenarios.
CENTURIONI, MARCO
FRANCESCHETTI, LUCA
GABRIELLI, SIMONE
GAMBAROTTO, LUCA
SAVARESI, SERGIO MATTEO
ING - Scuola di Ingegneria Industriale e dell'Informazione
22-lug-2025
2024/2025
Questa tesi presenta lo sviluppo di un sistema di vision-based localization per un head- mounted display (HMD) destinato all’uso all’interno di un veicolo in movimento, dove una stima della posa accurata e stabile è essenziale per garantire che i contenuti in re- altà aumentata rimangano correttamente ancorati nel campo visivo del conducente. Il lavoro contribuisce a un sistema più ampio che integra misure inerziali con dati visivi per calcolare in tempo reale una stima affidabile e precisa della posizione e dell’orientamento dell’HMD. All’interno di questa architettura, l’obiettivo di questa tesi riguarda specifi- camente la componente di localizzazione visiva, con l’intento di andare oltre i metodi tradizionali marker-based, spesso impraticabili o poco affidabili in sistemi di riferimento non inerziali (e.g. veicoli in movimento). A tal fine vengono sviluppati due diversi ap- procci di mapping: uno basato sulla rappresentazione dell’abitacolo tramite un insieme discreto di keyframes, e un altro che utilizza una keypoint map completa costruita da tutte le visual features tracciate. La localizzazione viene quindi eseguita confrontando il frame in tempo reale con il keyframe più rilevante oppure con il sottoinsieme corretto della keypoint map. Per migliorare la coerenza e la precisione dei dati utilizzati in entrambe le strategie di mapping, questo lavoro introduce innanzitutto una pipeline basata su ot- timizzazione globale mediante il GTSAM factor-graph framework. In questo contesto, le pose dei frame utilizzati per il mapping vengono affinate congiuntamente integrando vincoli provenienti da più fonti. Combinando questo mapping ottimizzato con strategie di localizzazione flessibili, il sistema ottiene un tracking accurato che rimane stabile in scenari di guida reali senza l’utilizzo di marker.
File allegati
File Dimensione Formato  
2025_07_Diegoli_ExecutiveSummary_02.pdf

non accessibile

Descrizione: executive summary
Dimensione 3.9 MB
Formato Adobe PDF
3.9 MB Adobe PDF   Visualizza/Apri
2025_07_Diegoli_Tesi_01.pdf

non accessibile

Descrizione: tesi
Dimensione 38.11 MB
Formato Adobe PDF
38.11 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/240182