Autonomous driving represents one of the most promising technologies that can revolutionize the field of transportation. One of the crucial components that enables autonomous operations is the perception module. Through the sensors mounted on the vehicle, it collects data from the surrounding environment and processes it to obtain an interpretable understanding of the external world. The perception module is responsible for several tasks, including 3D Multi-Object Tracking (MOT), which is the focus of this thesis. The AIDA project (Artificial Intelligence Driving Autonomous) has the goal of developing autonomous driving technology in urban scenarios. This thesis work arises from the need to analyze the performance of the tracking algorithm currently implemented in AIDA's software stack. In fact, the difference in sensor setup between AIDA and standardized benchmarks poses issues that do not allow for an objective evaluation of AIDA's algorithm, as it majorly underperforms with respect to its behavior in real-world scenarios. Moreover, the manual, accurate annotation of a large-scale and high-quality dataset is not feasible for an academic research group. To address these issues, this thesis proposes the development of a method to automatically annotate a dataset for 3D MOT, employing solely sensor data acquired by AIDA's systems. The proposed pipeline leverages several AI models: in particular, for the feature association between obstacles of subsequent frames, it employs the neural networks SuperPoint, for the extraction of image key points, and SuperGlue, for their pairing. Moreover, we developed a data-driven, LSTM-based (Long Short-Term Memory) motion model that, through the learning of the objects' displacements in the previously generated sequences, can predict the future position. This motion model is then employed as a filtering criterion to discard wrong associations, improving the robustness of the generated tracks. This thesis also presents a data-driven analysis that optimizes the system's parameters, generating sequences with high precision. Finally, we validate the entire pipeline on real-world data, demonstrating its efficacy in generating long, coherent tracks and adaptability in different scenarios.

La guida autonoma rappresenta una delle innovazioni più promettenti per rivoluzionare il settore della mobilità e dei trasporti. Un componente fondamentale che ne consente il funzionamento è il modulo di percezione, che, attraverso i sensori, raccoglie dati dall'ambiente circostante per poi elaborarli e ottenere una rappresentazione dell'ambiente esterno al veicolo. Tra i vari componenti del sistema percettivo, questa tesi si focalizza sul tracciamento degli ostacoli in contesti urbani, noto come 3D MOT. La tesi nasce nell'ambito del progetto AIDA (Artificial Intelligence Driving Autonomous), che ha l'obiettivo di sviluppare la guida autonoma su strade urbane. La necessità di valutare le prestazioni dell'algoritmo di tracciamento implementato sui veicoli AIDA ha rivelato una problematica fondamentale: la differenza tra la sensoristica di AIDA e quella dei benchmark standardizzati non consente una valutazione oggettiva, poiché i risultati sul benchmark sono peggiori rispetto al comportamento reale dell'algoritmo. Inoltre, l'annotazione manuale di un dataset contenente un'enorme quantità di dati non rappresenta una soluzione realizzabile per un gruppo di ricerca accademico. A partire da queste problematiche, la tesi propone lo sviluppo di un metodo che possa generare automaticamente un dataset proprietario, basato esclusivamente sui dati AIDA. Questo metodo integra diversi modelli di intelligenza artificiale: in particolare, per l'associazione degli ostacoli tra frame consecutivi, utilizza le reti neurali SuperPoint, per l'estrazione di punti caratteristici dalle immagini, e SuperGlue, per la loro associazione. Inoltre, viene sviluppato un modello di moto basato su un'architettura LSTM (Long Short-Term Memory), che, attraverso l'apprendimento degli spostamenti degli oggetti nelle sequenze generate precedentemente, è in grado di prevederne la posizione futura. Questo modello di moto è poi usato come criterio per scartare associazioni incoerenti con la dinamica del veicolo tracciato, migliorando così la robustezza della generazione delle tracce. I parametri del sistema sono stati ottimizzati attraverso un'analisi sperimentale, generando sequenze con alta precisione. La validazione sperimentale del metodo proposto dimostra la sua efficacia e adattabilità in contesti diversi.

Development of an automatic multimodal pipeline for 3D multi-object tracking dataset generation

Stasi, Michelangelo
2025/2026

Abstract

Autonomous driving represents one of the most promising technologies that can revolutionize the field of transportation. One of the crucial components that enables autonomous operations is the perception module. Through the sensors mounted on the vehicle, it collects data from the surrounding environment and processes it to obtain an interpretable understanding of the external world. The perception module is responsible for several tasks, including 3D Multi-Object Tracking (MOT), which is the focus of this thesis. The AIDA project (Artificial Intelligence Driving Autonomous) has the goal of developing autonomous driving technology in urban scenarios. This thesis work arises from the need to analyze the performance of the tracking algorithm currently implemented in AIDA's software stack. In fact, the difference in sensor setup between AIDA and standardized benchmarks poses issues that do not allow for an objective evaluation of AIDA's algorithm, as it majorly underperforms with respect to its behavior in real-world scenarios. Moreover, the manual, accurate annotation of a large-scale and high-quality dataset is not feasible for an academic research group. To address these issues, this thesis proposes the development of a method to automatically annotate a dataset for 3D MOT, employing solely sensor data acquired by AIDA's systems. The proposed pipeline leverages several AI models: in particular, for the feature association between obstacles of subsequent frames, it employs the neural networks SuperPoint, for the extraction of image key points, and SuperGlue, for their pairing. Moreover, we developed a data-driven, LSTM-based (Long Short-Term Memory) motion model that, through the learning of the objects' displacements in the previously generated sequences, can predict the future position. This motion model is then employed as a filtering criterion to discard wrong associations, improving the robustness of the generated tracks. This thesis also presents a data-driven analysis that optimizes the system's parameters, generating sequences with high precision. Finally, we validate the entire pipeline on real-world data, demonstrating its efficacy in generating long, coherent tracks and adaptability in different scenarios.
BELOTTI, OTTAVIA
PANZANI, GIULIO
PIERONI, RICCARDO
SAVARESI, SERGIO
ING - Scuola di Ingegneria Industriale e dell'Informazione
10-dic-2025
2025/2026
La guida autonoma rappresenta una delle innovazioni più promettenti per rivoluzionare il settore della mobilità e dei trasporti. Un componente fondamentale che ne consente il funzionamento è il modulo di percezione, che, attraverso i sensori, raccoglie dati dall'ambiente circostante per poi elaborarli e ottenere una rappresentazione dell'ambiente esterno al veicolo. Tra i vari componenti del sistema percettivo, questa tesi si focalizza sul tracciamento degli ostacoli in contesti urbani, noto come 3D MOT. La tesi nasce nell'ambito del progetto AIDA (Artificial Intelligence Driving Autonomous), che ha l'obiettivo di sviluppare la guida autonoma su strade urbane. La necessità di valutare le prestazioni dell'algoritmo di tracciamento implementato sui veicoli AIDA ha rivelato una problematica fondamentale: la differenza tra la sensoristica di AIDA e quella dei benchmark standardizzati non consente una valutazione oggettiva, poiché i risultati sul benchmark sono peggiori rispetto al comportamento reale dell'algoritmo. Inoltre, l'annotazione manuale di un dataset contenente un'enorme quantità di dati non rappresenta una soluzione realizzabile per un gruppo di ricerca accademico. A partire da queste problematiche, la tesi propone lo sviluppo di un metodo che possa generare automaticamente un dataset proprietario, basato esclusivamente sui dati AIDA. Questo metodo integra diversi modelli di intelligenza artificiale: in particolare, per l'associazione degli ostacoli tra frame consecutivi, utilizza le reti neurali SuperPoint, per l'estrazione di punti caratteristici dalle immagini, e SuperGlue, per la loro associazione. Inoltre, viene sviluppato un modello di moto basato su un'architettura LSTM (Long Short-Term Memory), che, attraverso l'apprendimento degli spostamenti degli oggetti nelle sequenze generate precedentemente, è in grado di prevederne la posizione futura. Questo modello di moto è poi usato come criterio per scartare associazioni incoerenti con la dinamica del veicolo tracciato, migliorando così la robustezza della generazione delle tracce. I parametri del sistema sono stati ottimizzati attraverso un'analisi sperimentale, generando sequenze con alta precisione. La validazione sperimentale del metodo proposto dimostra la sua efficacia e adattabilità in contesti diversi.
File allegati
File Dimensione Formato  
2025_12_Stasi_Executive_Summary.pdf

non accessibile

Descrizione: Testo del sommario della tesi
Dimensione 869.17 kB
Formato Adobe PDF
869.17 kB Adobe PDF   Visualizza/Apri
2025_12_Stasi_Tesi.pdf

non accessibile

Descrizione: Testo della tesi
Dimensione 26.4 MB
Formato Adobe PDF
26.4 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/246878