Real-time multimodal road users detection for smart infrastructures via optimized point cloud filtering

Achieving high performance in 3D Object Detection for Autonomous Driving typically requires considerable computational resources, making many State-of-The-Art Multimodal (Camera + LiDAR) approaches impracticable for Real-Time deployment on low power edge devices. A common solution to reduce the computational load is to adopt LiDAR-only models but, however, this often comes at the cost of a decreased detection accuracy, particularly for small or distant objects. This work explored whether multimodal 3DOD can remain both accurate and efficient when developed on Infrastructure-side edge hardware, specifically the NVIDIA Jetson AGX Orin. With the objective of addressing this challenge, we used two complementary point cloud size reduction techniques: (1) the removal of points belonging to static objects (e.g buildings, trees, etc...) via an image-based, prompt-guided zero-shot segmentation of the point cloud and (2) the ground-plane removal while preserving points near objects in the scene. Experiments on the V2X-Real dataset shown that the combined application of these methods effectively reduced the point cloud size by over the 70%, with only a 7% drop in mAP in the worst case. Simultaneously, the inference speed improved by the 26% for multimodal detectors and up to 89% for LiDAR-only models. In addition, to also demonstrate the simplicity and generality of such techniques, a custom dataset was collected and annotated, and similar improvements in both efficiency and accuracy were observed. Overall, this work shown that multimodal 3D object detection can be made significantly more lightweight and real-time capable on edge devices, without significantly sacrificing the detection performance.

L’ottenimento di elevate prestazioni in 3D Object Detection per la guida autonoma richiede tipicamente ingenti risorse computazionali e, come diretta conseguenza di ciò, molti dei più avanzati approcci multimodali basati sulla fusione di immagini e dati LiDAR risultano difficilmente applicabili in scenari real-time su dispositivi edge a ridotta potenza di calcolo. Una strategia comune adottata per ridurre il carico computazionale consiste nell’uso di modelli LiDAR-only, soluzione che tuttavia comporta spesso un degrado delle performance, in particolare nel rilevamento di oggetti piccoli o a lunga distanza. Questa tesi esplora la possibilità di mantenere simultaneamente accuratezza ed efficienza in modelli multimodali implementati su hardware edge nel contesto di infrastrutture smart, con particolare attenzione alla scheda NVIDIA Jetson AGX Orin. A tale scopo vengono usate due strategie complementari di riduzione della dimensione della point cloud: (1) la rimozione dei punti associati a elementi statici della scena (e.g. edifici, alberi, ecc...) tramite una segmentazione zero-shot guidata da prompt ottenuta dalle immagini e (2) la rimozione del piano stradale, preservando tuttavia i punti rilevanti nelle immediate vicinanze degli oggetti. Gli esperimenti condotti sul dataset V2X-Real mostrano che la combinazione di queste tecniche permette una riduzione nelle dimensioni della point cloud superiore al 70%, con un impatto limitato sulle prestazioni, pari a una perdita massima del 7% in mAP. Parallelamente, la velocità di inferenza aumenta del 26% nei modelli multimodali e fino all’89% nei modelli LiDAR-only. Inoltre, al fine di verificare la semplicità con cui tali metodi possono essere implementati in una nuova infrastruttura, è stato generato e annotato un dataset personalizzato, sul quale si osservano miglioramenti analoghi sia in termini di efficienza che di performance. Nel complesso, i risultati dimostrano che la pipeline richiesta per applicare un approccio di 3D Object Detection multimodale può essere ottimizzata e resa idonea ad un impiego real-time su dispositivi edge, senza compromettere in modo sostanziale la qualità del rilevamento.