Robust localization is a fundamental requirement for Autonomous Vehicles (AVs), which depend on accurate and consistent perception of their surroundings. Among emerging sensing technologies, 4D imaging radar has recently gained attention as a promising core component for odometry and mapping tasks. By generating point clouds enriched with per-point elevation and Doppler velocity, it provides unique geometric and motion-related information that complements data from conventional sensors such as cameras and LiDAR. However, its potential in complex localization systems is still largely unexplored, and a complete deep learning-based Simultaneous Localization and Mapping (SLAM) framework fusing 4D radar, camera, and IMU data is still missing. This thesis introduces a novel, real-time hybrid SLAM architecture that combines a deep learning-based front-end for odometry estimation with a geometric pose-graph optimization back-end for global map consistency. The front-end features a dual-branch design: a Mamba-based encoder captures high-frequency motion dynamics from IMU data, while a Graph Attention Network (GAT) processes a semantically enriched point cloud obtained by fusing 4D radar and camera data through the PointPainting technique. An adaptive fusion module then integrates these heterogeneous features to produce robust odometry estimates, which the back-end refines via pose-graph optimization with multi-modal loop closure constraints. The proposed system is evaluated on the challenging MSC-RAD4R dataset, achieving competitive accuracy and robustness compared to state-of-the-art methods. Ablation studies further confirm the crucial contribution of tri-modal fusion. To the best of our knowledge, this work presents the first complete deep learning-based SLAM pipeline jointly exploiting 4D radar, camera, and IMU data, establishing a new robust baseline for autonomous navigation.

La localizzazione robusta rappresenta un requisito fondamentale per i veicoli autonomi, i quali dipendono da una percezione accurata e coerente dell’ambiente circostante. Tra le tecnologie di sensing emergenti, il radar 4D ha recentemente attirato crescente attenzione come componente chiave per i compiti di odometria e mappatura. Generando nuvole di punti arricchite con informazioni di elevazione e velocità Doppler per ciascun punto, esso fornisce dati geometrici e dinamici unici che si integrano efficacemente con quelli provenienti da sensori convenzionali come telecamere e LiDAR. Tuttavia, il suo potenziale nei sistemi di localizzazione complessi rimane in gran parte inesplorato, e nella letteratura manca ancora un framework completo di Simultaneous Localization and Mapping (SLAM) basato su deep learning che fonda radar 4D, camera e IMU. Questa tesi propone una nuova architettura ibrida di SLAM in tempo reale, che combina un modulo di stima dell’odometria basato su deep learning con un’ottimizzazione geometrica di tipo pose-graph per garantire la consistenza globale della mappa. Il modulo di odometria adotta una struttura a doppio ramo: il primo impiega un encoder basato su Mamba per catturare in modo efficiente le dinamiche di movimento ad alta frequenza dai dati IMU, mentre il secondo utilizza una Graph Attention Network (GAT) per elaborare una nuvola di punti semanticamente arricchita, ottenuta fondendo i dati del radar 4D con quelli visivi della camera mediante la tecnica PointPainting. Un modulo di fusione adattiva integra quindi queste informazioni eterogenee per produrre stime di odometria robuste, successivamente affinate dal back-end attraverso ottimizzazione pose-graph con vincoli di chiusura di loop multi-modali. Il sistema proposto è stato valutato sul complesso dataset MSC-RAD4R, mostrando accuratezza e robustezza competitive rispetto ai metodi allo stato dell’arte. Gli studi di ablation confermano inoltre il contributo fondamentale della fusione tri-modale. Questo lavoro presenta, a nostra conoscenza, la prima pipeline SLAM deep learning per la triade radar 4D-camera-IMU, stabilendo un nuovo baseline robusto per la navigazione autonoma.

A real-time graph-Mamba-painting pipeline for robust 4D radar multi-modal SLAM: GMaP-SLAM

Frasson, Riccardo
2024/2025

Abstract

Robust localization is a fundamental requirement for Autonomous Vehicles (AVs), which depend on accurate and consistent perception of their surroundings. Among emerging sensing technologies, 4D imaging radar has recently gained attention as a promising core component for odometry and mapping tasks. By generating point clouds enriched with per-point elevation and Doppler velocity, it provides unique geometric and motion-related information that complements data from conventional sensors such as cameras and LiDAR. However, its potential in complex localization systems is still largely unexplored, and a complete deep learning-based Simultaneous Localization and Mapping (SLAM) framework fusing 4D radar, camera, and IMU data is still missing. This thesis introduces a novel, real-time hybrid SLAM architecture that combines a deep learning-based front-end for odometry estimation with a geometric pose-graph optimization back-end for global map consistency. The front-end features a dual-branch design: a Mamba-based encoder captures high-frequency motion dynamics from IMU data, while a Graph Attention Network (GAT) processes a semantically enriched point cloud obtained by fusing 4D radar and camera data through the PointPainting technique. An adaptive fusion module then integrates these heterogeneous features to produce robust odometry estimates, which the back-end refines via pose-graph optimization with multi-modal loop closure constraints. The proposed system is evaluated on the challenging MSC-RAD4R dataset, achieving competitive accuracy and robustness compared to state-of-the-art methods. Ablation studies further confirm the crucial contribution of tri-modal fusion. To the best of our knowledge, this work presents the first complete deep learning-based SLAM pipeline jointly exploiting 4D radar, camera, and IMU data, establishing a new robust baseline for autonomous navigation.
ARRIGONI , STEFANO
POSSENTI, DAVIDE
ING - Scuola di Ingegneria Industriale e dell'Informazione
10-dic-2025
2024/2025
La localizzazione robusta rappresenta un requisito fondamentale per i veicoli autonomi, i quali dipendono da una percezione accurata e coerente dell’ambiente circostante. Tra le tecnologie di sensing emergenti, il radar 4D ha recentemente attirato crescente attenzione come componente chiave per i compiti di odometria e mappatura. Generando nuvole di punti arricchite con informazioni di elevazione e velocità Doppler per ciascun punto, esso fornisce dati geometrici e dinamici unici che si integrano efficacemente con quelli provenienti da sensori convenzionali come telecamere e LiDAR. Tuttavia, il suo potenziale nei sistemi di localizzazione complessi rimane in gran parte inesplorato, e nella letteratura manca ancora un framework completo di Simultaneous Localization and Mapping (SLAM) basato su deep learning che fonda radar 4D, camera e IMU. Questa tesi propone una nuova architettura ibrida di SLAM in tempo reale, che combina un modulo di stima dell’odometria basato su deep learning con un’ottimizzazione geometrica di tipo pose-graph per garantire la consistenza globale della mappa. Il modulo di odometria adotta una struttura a doppio ramo: il primo impiega un encoder basato su Mamba per catturare in modo efficiente le dinamiche di movimento ad alta frequenza dai dati IMU, mentre il secondo utilizza una Graph Attention Network (GAT) per elaborare una nuvola di punti semanticamente arricchita, ottenuta fondendo i dati del radar 4D con quelli visivi della camera mediante la tecnica PointPainting. Un modulo di fusione adattiva integra quindi queste informazioni eterogenee per produrre stime di odometria robuste, successivamente affinate dal back-end attraverso ottimizzazione pose-graph con vincoli di chiusura di loop multi-modali. Il sistema proposto è stato valutato sul complesso dataset MSC-RAD4R, mostrando accuratezza e robustezza competitive rispetto ai metodi allo stato dell’arte. Gli studi di ablation confermano inoltre il contributo fondamentale della fusione tri-modale. Questo lavoro presenta, a nostra conoscenza, la prima pipeline SLAM deep learning per la triade radar 4D-camera-IMU, stabilendo un nuovo baseline robusto per la navigazione autonoma.
File allegati
File Dimensione Formato  
2025_12_Frasson_Tesi.pdf

non accessibile

Descrizione: Testo della tesi
Dimensione 7.33 MB
Formato Adobe PDF
7.33 MB Adobe PDF   Visualizza/Apri
2025_12_Frasson_Executive Summary.pdf

non accessibile

Descrizione: Executive summary della tesi
Dimensione 902.67 kB
Formato Adobe PDF
902.67 kB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/246562