Monocular depth estimation in a simulated driving environment

Autonomous driving stands at the forefront of the technological innovations in the automotive sector. A combination of sensors and advanced algorithms allows autonomous vehicles to navigate, detect obstacles, and take decisions without the need of the human intervention. In this scenario, ADAS (Advanced Driver Assistance Systems) are an important juncture of the automation process and constitute one of the main scopes of research nowadays. This thesis deals with one of the most relevant aspects involved in the ADAS development and testing: the perception phase. In particular, it investigates the possibility to utilize RGB cameras to detect and estimate the position of moving obstacles in the unique context of the driving simulator. In this environment, the camera no longer captures real-world scenes; instead, it observes a visual projection on a curved and inclined screen. This introduces distortions and complexities that require the development of non-standard computer vision approaches to get the desired information. The motivation behind this research is to improve the training, testing, and validation of driver assistance systems in a risk-free simulated environment and to improve the understanding of computer vision in non-standard contexts. The dissertation begins with an introduction whose purpose is to give to the reader an overview about the ADAS world, highlighting the importance that driving simulators have in their testing phase and presenting the main features of DriSMi - Driving Simulator Politecnico di Milano. After that, some computer vision aspects, considered useful for the understanding of the core of this work, are handled. More specifically, some considerations about the sensor type exploited for the project are done and the camera models that can properly describe it are presented, followed by a brief review of the most common depth estimation strategies adopted nowadays. Subsequently, the Thesis goes into the details of the developed methodology, facing all its phases, starting from the intuition of considering reverse engineering as a solution to the problem, going through the creation of a RoadRunner scene able to provide an initial sparse depth information, moving to the explanation of the MATLAB® script written to densify it, and ending with the exposition of the validation architecture and the discussion of the corresponding results. By the conclusion, the hope is to have highlighted the challenges and opportunities of this new way of interpreting and applying computer vision within the world of simulated driving scenarios, ultimately contributing to the ongoing evolution of transportation technology and safety. The communication between the simulator and the user is orchestrated by means of different software, depending on the task to be performed. To carry out this work VI-WorldSim Studio was of primarily need, together with RoadRunner. For the coding part instead, MATLAB® Simulink and Python, in cooperation with ROS (Robot Operating System), are used.

La guida autonoma è in prima linea tra le innovazioni tecnologiche nel settore automobilistico. Una combinazione di sensori e algoritmi avanzati consente ai veicoli autonomi di navigare, rilevare ostacoli e prendere decisioni senza la necessità dell'intervento umano. In questo scenario, gli ADAS (Advanced Driver Assistance Systems) rappresentano uno snodo importante del processo di automazione e costituiscono, ad oggi, uno dei principali ambiti di ricerca. Questa tesi tratta uno degli aspetti più rilevanti coinvolti nello sviluppo degli ADAS: la percezione. In particolare, indaga la possibilità di utilizzare una singola fotocamera digitale RGB per rilevare e stimare la posizione di ostacoli in movimento, nel contesto unico del simulatore di guida. In questo ambiente, la fotocamera non cattura scene del mondo reale; osserva, invece, una proiezione visiva su uno schermo curvo ed inclinato. Ciò introduce distorsioni e complessità che richiedono lo sviluppo di approcci di visione artificiale non standard al fine di ottenere le informazioni desiderate. La motivazione alla base di questa ricerca è il miglioramento della formazione, delle fasi di test e della validazione dei sistemi di assistenza alla guida in un ambiente simulativo privo di rischi, e della comprensione della visione artificiale in contesti non standard. La tesi inizia con un'introduzione il cui scopo è quello di fornire al lettore una panoramica sul mondo ADAS, evidenziando l'importanza che i simulatori di guida hanno in fase di sperimentazione e presentando le principali caratteristiche di DriSMi - Driving Simulator Politecnico di Milano. Successivamente vengono trattati alcuni aspetti della visione artificiale ritenuti utili per la comprensione del nucleo centrale di questo lavoro. Più specificamente, vengono fatte alcune considerazioni sul tipo di sensore utilizzato per il progetto e presentati i modelli matematici di fotocamera che possono descriverlo adeguatamente, seguiti da una breve rassegna delle più comuni strategie di stima della profondità adottate oggigiorno. Successivamente, il documento entra nel dettaglio della metodologia sviluppata, affrontandone tutte le fasi, a partire dall'intuizione di considerare il “reverse engineering” come soluzione al problema, passando per la creazione di una scena con RoadRunner in grado di fornire una prima informazione sparsa di profondità, passando alla spiegazione dello script MATLAB® scritto per densificarla, e concludendo con la descrizione dell'architettura di validazione e la discussione dei risultati della stessa. Con la conclusione, l’auspicio è quello di aver evidenziato le sfide e le opportunità di questo nuovo modo di interpretare, e applicare, la visione artificiale nel mondo degli scenari di guida simulati, contribuendo in definitiva alla continua evoluzione della tecnologia e della sicurezza dei trasporti. La comunicazione tra il simulatore e l'utente è orchestrata mediante diversi software, a seconda del compito da svolgere. Per realizzare questo lavoro sono stati utilizzati VI-WorldSim Studio, insieme a RoadRunner. Per la parte di coding, invece, vengono adoperati MATLAB® Simulink e Python, in concomitanza con ROS (Robot Operating System).