LiDAR-Camera Multi-Modal 3D Object Detection applied to Autonomous Vehicles

This thesis explores the development and implementation of a multi-modal neural network for 3D object detection in autonomous driving applications. The proposed approach, ConcatFusion, prioritizes the balance between real-time deployability and performance. It integrates information from LiDAR and camera sensors to enhance object detection capabilities as LiDARs convey 3D geometry while cameras are able to capture semantic information. ConcatFusion is designed to fuse single-modality features together into multi-modal ones. To extract LiDAR features, ConcatFusion leverages the PFN from PointPillars. Camera features, on the other hand, are extracted from a pre-trained ResNet-18 architecture fine-tuned for semantic segmentation of road users (i.e., cars, pedestrians, cyclists). To achieve coherent fusion, our model employs a finer voxelization scheme compared to the original pillarization used in the LiDAR branch. Additionally, the camera-LiDAR calibration matrix is used to transform image features into the 3D LiDAR reference frame, enabling their space alignment. These 3D location-aware image features are then concatenated with the pillar features in a shared BEV grid, enriching them with semantic content. This process generates multi-modal features that are subsequently refined by the RPN of SECOND and processed by an anchor-based decoder to ultimately extract the final predictions in the form of 3D bounding boxes, their respective class and direction. ConcatFusion's performance was evaluated on KITTI dataset against single-modality and multi-modality baselines using two key metrics: inference speed and average precision (AP) across three object classes (car, pedestrian, cyclist). The testing yielded highly promising results in terms of speed, achieving a x3 speed-up against other state-of-the-art multi-modal approaches, suggesting ConcatFusion's potential for real-world deployment on autonomous vehicles. Regarding AP, the evaluation confirmed the positive impact of incorporating semantic information from camera images. ConcatFusion consistently achieved higher AP metrics compared to single-modality approaches. The comparison also revealed that the proposed fusion strategy currently falls short of achieving state-of-the-art performance when benchmarked against more sophisticated multi-modal networks.

Questa tesi riguarda lo sviluppo e l'implementazione di una rete neurale multi-modale, denominata ConcatFusion, progettata per eseguire il rilevamento 3D di ostacoli, con particolare attenzione alla guida autonoma in contesti urbani. L'approccio adottato da ConcatFusion cerca di bilanciare la velocità d'inferenza, per garantirne l'applicabilità pratica a bordo veicolo, con la precisione delle sue previsioni. Integra dati provenienti sia da sensori LiDAR che da telecamere, migliorando così le capacità di identificazione degli ostacoli. I sensori LiDAR forniscono dati altamente geometrici, mentre le telecamere catturano informazioni semantiche dalle scene. ConcatFusion è progettata per fondere features unimodali in features multimodali. Per estrarre le features LiDAR, viene sfruttata la PFN di PointPillars. Le features della telecamera vengono invece estratte da un'architettura ResNet-18 pre-addestrata e successivamente fine-tuned per la segmentazione semantica degli utenti della strada (auto, pedoni, ciclisti). Per ottenere una fusione coerente, il nostro modello impiega uno schema di voxellizzazione più fine rispetto alla pillarizzazione originale utilizzata per il LiDAR. Inoltre, la matrice di calibrazione camera-LiDAR viene utilizzata per trasformare le features dell'immagine nel frame di riferimento LiDAR 3D, consentendone l'allineamento spaziale. Queste features dell'immagine, localizzate nello spazio 3D, vengono poi concatenate alle features dei pillars in una griglia BEV condivisa, arricchendole così con informazioni semantiche, e costituendo pertanto features multimodali. Queste utilme vengono successivamente affinate dalla RPN di SECOND e processate da un decoder per estrarre le predizioni finali di bounding boxes 3D, classe e direzione. Le prestazioni di ConcatFusion sono state confrontate con quelle di architetture di riferimento sia multimodali che basate su un singolo sensore. Le metriche utilizzate includono la velocità di inferenza e la precisione media (AP), valutata su tre classi: automobili, pedoni e ciclisti. I test condotti hanno dimostrato la sua capacità di raggiungere alte velocità di inferenza, raggiungendo una velocità di 3 volte maggiore rispetto a quella di altri metodi multimodali più avanzati, sottolineando il suo potenziale per l'implementazione su veicoli autonomi. Per quanto riguarda le prestazioni in termini di AP, la valutazione ha evidenziato l'impatto positivo dell'incorporazione delle informazioni semantiche sul rilevamento degli oggetti, con ConcatFusion che ottiene costantemente valori di AP superiori rispetto all'approccio di riferimento basato su un singolo sensore. Tuttavia, il confronto ha anche messo in luce che la nostra strategia di fusione, pur semplice, non è sufficiente a eguagliare le prestazioni delle architetture multimodali più avanzate.