Development of a map-based camera localization algorithm for high-performance autonomous racing vehicles

The interest in autonomous driving technologies is growing rapidly in recent years. Within this evolution, autonomous racing has emerged as a safe platform designed to stimulate research and tests beyond the limits of urban scenarios. This high-performance context combines the challenges of fast-speed motion and limited reaction time. For these reasons, the ability to accurately determine the position and orientation of the vehicle at all time is fundamental for ensuring the performance and safety of the control algorithms. While traditional localization systems, which mainly rely on satellite-based positioning sensors and laser-based distance sensors, provide high accuracy under optimal working conditions, they may suffer from signal degradation or failure in challenging environments. To overcome these limitations, a camera-based approach can offer a valuable alternative for state estimation, thanks to the rich visual information that images can provide. To this end, this thesis presents the development of a map-based localization algorithm that makes exclusive use of monocular camera data combined with coarse inertial measurements. The proposed framework is organized into two stages: a mapping phase, for map generation, and a localization phase, for real-time pose estimation. By detecting and matching visual features between live camera images and a pre-built map, the final solution estimates the vehicle pose with respect to the pre-mapped environment. A relevant aspect of this work is that the system operates entirely in the 2D image domain, avoiding explicit 3D scene reconstruction and external sensor fusion. This design choice represents an innovative step beyond the state of the art, as it keeps the system fully two-dimensional while still addressing the scale ambiguity inherent to monocular vision. Experimental results from tests on different on-board cameras confirm the feasibility of the proposed method, achieving reliable pose estimation under various on-track conditions. Overall, this work establishes a solid foundation for the integration of a camera-based localization module within the software stack and for future real-time applications.

Negli ultimi anni, l'interesse per tecnologie di guida autonoma è in rapida crescita. In questo scenario, le competizioni di guida autonoma sono emerse per stimolare ricerca e sviluppo oltre i limiti urbani. Questo contesto ad alte prestazioni unisce le sfide di alte velocità, tempi di reazione ridotti e percezione ambientale estremamente dinamica. Per queste ragioni, determinare con precisione la posizione e l'orientamento del veicolo è fondamentale per garantire prestazioni e sicurezza degli algoritmi di controllo. Sebbene i sistemi di localizzazione tradizionali, basati su posizionamento satellitare e sensori laser, offrano buona accuratezza in condizioni ottimali, essi possono subire degradamento del segnale o guasti in scenari complessi. Per affrontare tali limitazioni, un approccio basato sulle telecamere può offrire una valida alternativa per la stima dello stato, grazie alle ricche informazioni visive contenute nelle immagini. A questo scopo, questa tesi presenta lo sviluppo di un algoritmo di localizzazione basato su una mappa pre-costruita, che utilizza unicamente immagini da una telecamera monoculare e misure inerziali approssimative. La struttura proposta si divide in una fase di mapping, per la generazione della mappa, e una fase di localization, per la stima della posa in tempo reale. Confrontando elementi distintivi tra immagini acquisite in tempo reale e la mappa pre-costruita, la soluzione stima lo stato del veicolo all'interno dell'ambiente mappato. Un aspetto rilevante di questo lavoro è che l'algoritmo opera interamente nel dominio 2D dell'immagine, evitando la ricostruzione 3D e la fusione con sensori esterni. Questa scelta progettuale rappresenta un passo innovativo rispetto allo stato dell'arte, poiché, pur restando in 2D, affronta il problema del fattore di scala tipico della visione monoculare. I risultati sperimentali ottenuti da test su diverse telecamere di bordo confermano la fattibilità del metodo proposto, fornendo stime affidabili in differenti condizioni di utilizzo. Nel complesso, questo lavoro offre un solido contributo per l'integrazione di un modulo di localizzazione basato su telecamere e per future applicazioni in pista.