This thesis explores the use of transformer neural networks for semantic segmentation of mobile LiDAR 3D point clouds, focusing on road markings as a critical element for autonomous vehicle navigation. Utilizing the Toronto-3D dataset, the study addresses challenges like class imbalance and complex road scenarios, emphasizing precise detection of road markings. A comparative analysis of transformer-based models, including Point Clouds Transformer (PCT), 3DGTN, Point Transformer and 3DLSTN, against traditional baselines models, evaluates their performance in terms of segmentation accuracy and class specific metrics. Through ablation studies, key architectural elements like self-attention mechanisms are assessed to quantify their impact on model performance. Results demonstrate that transformer models excel in capturing global and local features, significantly improving IoU scores for road markings. By providing precise road marking detection and improved mIoU scores, this research contributes to advancements in HD map generation, essential for enhancing autonomous vehicle safety and navigation.

Questa tesi esplora l'uso delle reti neurali a trasformatori per la segmentazione semantica delle nuvole di punti 3D LiDAR mobili, con un focus specifico sulla rilevazione della segnaletica stradale, elemento cruciale per la navigazione dei veicoli autonomi. Utilizzando il dataset Toronto-3D, lo studio affronta sfide come lo squilibrio delle classi e scenari stradali complessi, enfatizzando la rilevazione precisa della segnaletica stradale. Un'analisi comparativa dei modelli basati su trasformatori, inclusi Point Clouds Transformer (PCT), 3DGTN, Point Transformer e 3DLSTN, rispetto ai modelli di riferimento tradizionali, valuta le loro prestazioni in termini di accuratezza della segmentazione e metriche specifiche per classe. Tramite studi di ablation, vengono analizzati elementi architetturali chiave, come i meccanismi di self-attention, per quantificarne l'impatto sulle prestazioni del modello. I risultati dimostrano che i modelli a trasformatori eccellono nella cattura di caratteristiche globali e locali, migliorando significativamente gli score di IoU per la segnaletica stradale. Fornendo una rilevazione precisa della segnaletica stradale e migliorati punteggi di mIoU, questa ricerca contribuisce ai progressi nella generazione di mappe HD, essenziali per migliorare la sicurezza e la navigazione dei veicoli autonomi.

Integration AI and LiDAR: a comparative study of transformer approaches for road markings detection in a large scale urban point cloud scene

Gilanizadehdizaj, Seyyedehdonya
2024/2025

Abstract

This thesis explores the use of transformer neural networks for semantic segmentation of mobile LiDAR 3D point clouds, focusing on road markings as a critical element for autonomous vehicle navigation. Utilizing the Toronto-3D dataset, the study addresses challenges like class imbalance and complex road scenarios, emphasizing precise detection of road markings. A comparative analysis of transformer-based models, including Point Clouds Transformer (PCT), 3DGTN, Point Transformer and 3DLSTN, against traditional baselines models, evaluates their performance in terms of segmentation accuracy and class specific metrics. Through ablation studies, key architectural elements like self-attention mechanisms are assessed to quantify their impact on model performance. Results demonstrate that transformer models excel in capturing global and local features, significantly improving IoU scores for road markings. By providing precise road marking detection and improved mIoU scores, this research contributes to advancements in HD map generation, essential for enhancing autonomous vehicle safety and navigation.
LI, JONATHAN
ING I - Scuola di Ingegneria Civile, Ambientale e Territoriale
3-apr-2025
2024/2025
Questa tesi esplora l'uso delle reti neurali a trasformatori per la segmentazione semantica delle nuvole di punti 3D LiDAR mobili, con un focus specifico sulla rilevazione della segnaletica stradale, elemento cruciale per la navigazione dei veicoli autonomi. Utilizzando il dataset Toronto-3D, lo studio affronta sfide come lo squilibrio delle classi e scenari stradali complessi, enfatizzando la rilevazione precisa della segnaletica stradale. Un'analisi comparativa dei modelli basati su trasformatori, inclusi Point Clouds Transformer (PCT), 3DGTN, Point Transformer e 3DLSTN, rispetto ai modelli di riferimento tradizionali, valuta le loro prestazioni in termini di accuratezza della segmentazione e metriche specifiche per classe. Tramite studi di ablation, vengono analizzati elementi architetturali chiave, come i meccanismi di self-attention, per quantificarne l'impatto sulle prestazioni del modello. I risultati dimostrano che i modelli a trasformatori eccellono nella cattura di caratteristiche globali e locali, migliorando significativamente gli score di IoU per la segnaletica stradale. Fornendo una rilevazione precisa della segnaletica stradale e migliorati punteggi di mIoU, questa ricerca contribuisce ai progressi nella generazione di mappe HD, essenziali per migliorare la sicurezza e la navigazione dei veicoli autonomi.
File allegati
File Dimensione Formato  
2025_04_Gilanizadehdizaj.pdf

accessibile in internet solo dagli utenti autorizzati

Dimensione 5.54 MB
Formato Adobe PDF
5.54 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/234034