A motion based automatic calibration tool for LiDAR-camera systems using a human target

Autonomous vehicles aim to improve road safety, reduce traffic, and enhance mobility. To achieve a correct perception of the surrounding environment, it is crucial to perform sensor fusion, the process of combining data from multiple sensors such as cameras and LiDARs. A fundamental requirement for effective sensor fusion is to know the reciprocal position and orientation of the sensors precisely. The process of determining these parameters is known as extrinsic calibration. This thesis presents a motion-based camera-LiDAR calibration method that exploits a walking pedestrian as a dynamic target. The camera pipeline applies a deep-learning segmentation model to extract the pedestrian's position to build a trajectory, while the LiDAR pipeline processes point clouds to detect moving objects and recover their trajectories. The pedestrian trajectory is then selected using geometric and motion constraints. From the trajectories in both sensor frames, the method computes an initial estimate of the extrinsic parameters by solving a PnP problem, followed by a refinement that aligns the pedestrian silhouette in the camera image with LiDAR points reprojected into the image. Two refinement strategies are implemented: an exhaustive method that, for each LiDAR point, computes its minimum distance to the silhouette; and a more efficient method that pre-estimates correspondences between LiDAR points and the silhouette to accelerate optimization. Experimental results show accuracy comparable to state-of-the-art static-target methods, with the advantage of dispensing with any special calibration target and relying only on a walking pedestrian.

I veicoli a guida autonoma mirano a migliorare la sicurezza stradale, ridurre il traffico e migliorare la mobilità. Per riconoscere correttamente l'ambiente circostante, questi veicoli processano dati provenienti da più sensori, come telecamere e LiDAR, combinandoli tra loro. Un fattore essenziale per una corretta integrazione dei sensori è la conoscenza precisa della posizione e dell'orientamento reciproco dei sensori, nota come calibrazione estrinseca. Questa tesi presenta un metodo di calibrazione camera-LiDAR che utilizza come target dinamico un pedone che cammina. La pipeline responsabile delle immagini provenienti dalla camera genera traiettorie del pedone tramite segmentazione delle immagini con un modello di deep learning, mentre il LiDAR elabora le point cloud per rilevare oggetti in movimento e generare le loro traiettorie. La traiettoria del pedone viene successivamente selezionata utilizzando vincoli geometrici e di movimento. Dalle traiettorie in entrambi i frame dei sensori, si calcola una stima iniziale dei parametri estrinseci risolvendo un problema di PnP, seguito da una messa a punto che allinea la sagoma del pedone nell'immagine con i punti LiDAR riproiettati nell'immagine stessa. Sono state implementate due strategie: un metodo esaustivo che, per ogni punto LiDAR, calcola in maniera completa la distanza minima alla sagoma; e un metodo più efficiente che pre-stima le corrispondenze tra i punti LiDAR e la sagoma per velocizzare l'ottimizzazione. I risultati sperimentali dimostrano un'accuratezza comparabile ai metodi in uso basati su target statici, con il vantaggio di non richiedere oggetti di calibrazione speciali, ma semplicemente un pedone che cammina.