SLAMoCaDO: Simultaneous Location and Mapping of Camera and Dynamic Objects

In the field of computer vision, Simultaneous Localization and Mapping (SLAM) involves determining a camera's trajectory while simultaneously constructing a 3D map of the environment. Traditional SLAM systems typically assume a static environment, which means that the presence of dynamic elements can negatively impact the accuracy of both mapping and trajectory estimation. This work introduces enhancements to the ORB-SLAM3 framework by integrating object detection methods and advanced feature tracking algorithms to handle dynamic elements effectively. While other research efforts in dynamic SLAM typically depend on additional sensors, such as depth sensors or IMUs, this work aims at developing a more streamlined system that relies solely on monocular visual information. SLAM systems employ either descriptor-based or pixel-based approaches. Descriptor-based methods, while robust under various conditions, are less effective in dynamic environments because of their reliance on static descriptors. Pixel-based methods offer improved dynamic feature handling but at a higher computational cost. To overcome these limitations, this thesis proposes a hybrid approach that combines the sparse feature-based methods intrinsic to ORB-SLAM3 with a dense pixel-based method using Lucas-Kanade optical flow. By computing the optical flow only on the sparse features locations, which are inherently the most descriptive points and the easiest to track, we are able to build an effective tracking system with a reduced computational cost. Our system integrates the YOLO object detection algorithm to provide prior information about the locations of all objects in each frame. It then uses a custom object tracking algorithm to uniquely identify and track the object locations across frames. We then analyze the object transformations in time, by computing point matching with a novel hybrid approach. Finally, a thorough analysis of the object transformation is performed using epipolar geometry. If an object is determined to be dynamic, its points are excluded from the camera pose estimation and 3D mapping process, enhancing the accuracy.

Nel campo della visione artificiale, la Localizzazione e Mappatura Simultanea (SLAM) implica la determinazione della traiettoria di una telecamera mentre si costruisce contemporaneamente una mappa 3D dell'ambiente. I sistemi SLAM tradizionali assumono tipicamente un ambiente statico, quindi la presenza di elementi dinamici può influire negativamente sull'accuratezza sia della mappatura che della stima della traiettoria. Questo tesi introduce miglioramenti a ORB-SLAM3 integrando metodi di rilevamento degli oggetti e algoritmi avanzati di tracciamento delle caratteristiche per gestire efficacemente gli elementi dinamici. Mentre altri studi sullo SLAM dinamico dipendono tipicamente da sensori aggiuntivi, come sensori di profondità o inerzia, questo lavoro mira a sviluppare un sistema più snello che si basi esclusivamente sulle informazioni visive monoculari. I sistemi SLAM vengono tipicamente classificati in due. I metodi basati su descrittori, sebbene robusti in varie condizioni, sono meno efficaci in ambienti dinamici a causa della loro dipendenza da descrittori statici. I metodi basati su pixel offrono una migliore gestione delle caratteristiche dinamiche ma a un costo computazionale più elevato. Questa tesi propone un approccio ibrido che combina i metodi basati su caratteristiche sparse intrinseci all'ORB-SLAM3 con un metodo denso basato su pixel utilizzando il flusso ottico di Lucas-Kanade. Calcolando il flusso ottico solo sulle posizioni delle caratteristiche sparse, che sono intrinsecamente i punti più descrittivi e facili da tracciare, siamo in grado di costruire un sistema di tracciamento efficace con un costo computazionale ridotto. Il nostro sistema integra il rilevamento degli oggetti YOLO per fornire informazioni preliminari sulle posizioni di tutti gli oggetti in ogni fotogramma. Successivamente, un algoritmo di tracciamento personalizzato identifica e traccia in modo univoco le posizioni degli oggetti tra i vari fotogrammi. Analizziamo poi le trasformazioni degli oggetti nel tempo, calcolando la corrispondenza dei punti con l'approccio ibrido. Infine, viene eseguita un'analisi approfondita della trasformazione degli oggetti utilizzando la geometria epipolare. Gli oggetti contrassegnati come dinamici verranno esclusi dalla stima della posizione della telecamera e dal processo di mappatura 3D, migliorandone così l'accuratezza.