The frontier of autonomous mobility systems relies heavily on accurate and efficient perception capabilities. This thesis presents a complete pipeline for object detection using real-world LiDAR data, specifically designed for Unmanned Ground Vehicles (UGVs) in both indoor and outdoor environments. The goal is to contribute to the development of cooperative perception frameworks by enhancing the UGV’s ability to interpret real time scenarios. A custom dataset was collected using a high-resolution LiDAR sensor mounted on a mobile robotic platform, capturing point clouds under varying environmental conditions. To enable object detection, the 3D point clouds were transformed into 2D Bird’s Eye View (BEV) images, reducing computational complexity while preserving spatial structure. A YOLO-based neural network was then trained to detect human figures within these images, prioritizing both accuracy and inference speed. The model was evaluated in multiple scenarios and demonstrated reliable performance, with detection confidence levels over 60\% in dynamic scenes. This work represents a step toward intelligent UGV systems capable of participating in connected vehicular networks, where the exchange of local perception data can help anticipate risks and improve road safety. The methodology developed here lays the groundwork for future research involving multi-class detection, real-time communication, and full integration with Cooperative Intelligent Transport Systems (C-ITS).

L’evoluzione dei sistemi di mobilità autonoma si basa in modo critico su capacità di percezione accurate ed efficienti. Questa tesi presenta una pipeline completa per il riconoscimento di oggetti basata su dati reali acquisiti tramite LiDAR, appositamente sviluppata per Veicoli Terrestri Autonomi (UGV) operanti in ambienti sia indoor che outdoor. L’obiettivo è contribuire allo sviluppo di framework di percezione cooperativa, migliorando la capacità dell’UGV di interpretare scenari in tempo reale con maggiore consapevolezza e affidabilità. Un dataset personalizzato è stato acquisito utilizzando un sensore LiDAR ad alta risoluzione montato su una piattaforma robotica mobile, registrando nuvole di punti in condizioni ambientali variabili. Per abilitare un riconoscimento efficiente, le nuvole di punti 3D sono state trasformate in immagini 2D in vista dall’alto (Bird’s Eye View, BEV), riducendo significativamente il carico computazionale pur mantenendo la struttura spaziale. Una rete neurale basata su YOLO è stata quindi addestrata per rilevare figure umane all’interno di queste immagini, con particolare attenzione all’equilibrio tra accuratezza e velocità di inferenza. Il modello è stato testato in diversi scenari dinamici, dimostrando prestazioni consistenti e rilevamenti con livello di confidenza superiore al 60\% in tempo reale. Questo lavoro rappresenta un passo verso la realizzazione di sistemi UGV intelligenti, in grado di integrarsi in reti di veicoli connessi, dove lo scambio di dati percettivi locali può anticipare potenziali pericoli e migliorare la sicurezza stradale. La metodologia sviluppata pone le basi per futuri sviluppi che includano il riconoscimento multi-classe, la comunicazione a bassa latenza e l’integrazione completa nei Sistemi di Trasporto Intelligenti Cooperativi (C-ITS).

Perception pipeline for UGVs: Yolo-based object detection on LiDAR dataset

CAROLI, GIOVANNI
2024/2025

Abstract

The frontier of autonomous mobility systems relies heavily on accurate and efficient perception capabilities. This thesis presents a complete pipeline for object detection using real-world LiDAR data, specifically designed for Unmanned Ground Vehicles (UGVs) in both indoor and outdoor environments. The goal is to contribute to the development of cooperative perception frameworks by enhancing the UGV’s ability to interpret real time scenarios. A custom dataset was collected using a high-resolution LiDAR sensor mounted on a mobile robotic platform, capturing point clouds under varying environmental conditions. To enable object detection, the 3D point clouds were transformed into 2D Bird’s Eye View (BEV) images, reducing computational complexity while preserving spatial structure. A YOLO-based neural network was then trained to detect human figures within these images, prioritizing both accuracy and inference speed. The model was evaluated in multiple scenarios and demonstrated reliable performance, with detection confidence levels over 60\% in dynamic scenes. This work represents a step toward intelligent UGV systems capable of participating in connected vehicular networks, where the exchange of local perception data can help anticipate risks and improve road safety. The methodology developed here lays the groundwork for future research involving multi-class detection, real-time communication, and full integration with Cooperative Intelligent Transport Systems (C-ITS).
ING - Scuola di Ingegneria Industriale e dell'Informazione
22-lug-2025
2024/2025
L’evoluzione dei sistemi di mobilità autonoma si basa in modo critico su capacità di percezione accurate ed efficienti. Questa tesi presenta una pipeline completa per il riconoscimento di oggetti basata su dati reali acquisiti tramite LiDAR, appositamente sviluppata per Veicoli Terrestri Autonomi (UGV) operanti in ambienti sia indoor che outdoor. L’obiettivo è contribuire allo sviluppo di framework di percezione cooperativa, migliorando la capacità dell’UGV di interpretare scenari in tempo reale con maggiore consapevolezza e affidabilità. Un dataset personalizzato è stato acquisito utilizzando un sensore LiDAR ad alta risoluzione montato su una piattaforma robotica mobile, registrando nuvole di punti in condizioni ambientali variabili. Per abilitare un riconoscimento efficiente, le nuvole di punti 3D sono state trasformate in immagini 2D in vista dall’alto (Bird’s Eye View, BEV), riducendo significativamente il carico computazionale pur mantenendo la struttura spaziale. Una rete neurale basata su YOLO è stata quindi addestrata per rilevare figure umane all’interno di queste immagini, con particolare attenzione all’equilibrio tra accuratezza e velocità di inferenza. Il modello è stato testato in diversi scenari dinamici, dimostrando prestazioni consistenti e rilevamenti con livello di confidenza superiore al 60\% in tempo reale. Questo lavoro rappresenta un passo verso la realizzazione di sistemi UGV intelligenti, in grado di integrarsi in reti di veicoli connessi, dove lo scambio di dati percettivi locali può anticipare potenziali pericoli e migliorare la sicurezza stradale. La metodologia sviluppata pone le basi per futuri sviluppi che includano il riconoscimento multi-classe, la comunicazione a bassa latenza e l’integrazione completa nei Sistemi di Trasporto Intelligenti Cooperativi (C-ITS).
File allegati
File Dimensione Formato  
2025_07_Caroli.pdf

accessibile in internet per tutti

Dimensione 9.58 MB
Formato Adobe PDF
9.58 MB Adobe PDF Visualizza/Apri
2025_07_Caroli_02.pdf

accessibile in internet per tutti

Dimensione 9.67 MB
Formato Adobe PDF
9.67 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/240271