Camera-based lanes segmentation and monocular depth estimation for autonomous driving

In the context of autonomous driving (AD), the development of camera-only models has become increasingly important, driven by the advantages of lower costs, higher resolution and operational flexibility over traditional sensors. This thesis introduces and details two camera-exclusive models addressing crucial AD tasks: a segmentation network for lanes and roadlines identification and a monocular depth estimation model that estimates a dense point cloud starting from a single image, ultimately helping to transform the 2D segmentation outputs into a 3D spatial representation. This camera-only approach bypasses two common limitations associated with LiDAR, such as sparse point clouds and constrained vertical resolution - an issue deriving from LiDAR's dense beam orientation, which limits point capture at certain heights. The segmentation network achieves reliable roadline and lane recognition in real-time, a critical requirement for the downstream modules of AIDA's AD system. Our focus on robustness has optimized the model for consistent performance under varied driving conditions, adapting it to handle different camera setups, change of lighting and even the motion blur effect. Furthermore, the integration of the depth estimation model effectively complements the segmentation output by using the same input image to create a 3D plane that provides spatial awareness to the AD system, thereby eliminating the need for LiDAR in the reconstruction. To support these advancements, we also created three proprietary datasets specifically tailored to the AIDA project: two for the optimization of the roadline-lane segmentation model and one to facilitate the adaptation of the real-time monocular depth estimation network. These datasets enable models-specific adaptations, providing the basis for a scalable, resilient and customizable solution that meets the strict constraints of autonomous driving. Together, these contributions represent a forward step towards affordable, high-performance, camera-based AD systems, with significant potential for the ambitious AIDA project and beyond.

Nel campo della guida autonoma (AD), l'adozione di modelli basati esclusivamente su telecamere sta acquisendo sempre maggiore rilevanza, grazie ai vantaggi in termini di costi contenuti, alta risoluzione e flessibilità rispetto ai sensori tradizionali. Questa tesi propone due modelli progettati per rispondere a esigenze fondamentali dell’AD, puntando esclusivamente sull’uso di telecamere: una rete neurale di segmentazione che identifica in tempo reale linee stradali e corsie e una rete di stima della profondità che consente di convertire l'output di segmentazione 2D nella corrispondente rappresentazione 3D. Il fatto che questo approccio sia basato esclusivamente su telecamere permette anche di superare due delle limitazioni principali del LiDAR: la bassa densità delle pointclouds generate e la risoluzione verticale limitata, dovuta a un orientamento della fascia densa del LiDAR che riduce la capacità di acquisire punti a determinate altezze. La rete di segmentazione garantisce un riconoscimento affidabile di linee stradali e corsie operando a una frequenza pari a quella di acquisizione immagini da parte delle telecamere, un requisito cruciale per i successivi moduli del sistema AD di AIDA. L’attenzione posta sulla robustezza e affidabilità ha permesso di ottimizzare il modello per prestazioni consistenti in condizioni di guida variabili, rendendolo capace di gestire diverse configurazioni di telecamere, variazioni di illuminazione e persino effetti di motion blur. Inoltre, questa tesi presenta l'integrazione di un modello di stima della profondità, necessario per complementare gli output di segmentazione; esso genera una predizione tridimensionale dell'ambiente circostante il veicolo a partire da una singola immagine, eliminando così la necessità del LiDAR per la ricostruzione 3D. Per supportare questi progressi, la tesi introduce tre dataset proprietari: due dedicati all’ottimizzazione del modello di segmentazione di corsie e linee stradali e uno per il miglioramento della rete di stima della profondità. Questi dataset permettono di compiere l'ultimo passo verso una soluzione scalabile, precisa e robusta. Nel loro insieme, questi contributi rappresentano un passo avanti verso la creazione di sistemi di guida autonoma accessibili e ad alte prestazioni, con un potenziale significativo non solo all'interno del progetto AIDA, ma anche per applicazioni future.