The rapid improvement of machine learning and computer vision systems has fueled the development of self-driving vehicles. These systems rely on their underlying hardware, such as automotive image sensors, which are being developed with great intensity to effectively tackle the challenges imposed by real-world scenarios. In this context, bio-inspired silicon retinas or event-based cameras offer a wide range of characteristics that allow them to be a valid candidate for artificial vision: very high temporal resolution and low latency (both in the order of microseconds), very high dynamic range (140 dB vs. 60 dB of standard cameras), and low power consumption. Unlike traditional cameras, which generate frames at a constant rate, event-based cameras respond to brightness changes in the scene asynchronously and independently for each pixel on the silicon retina, generating a variable data-rate stream of events. However, because event cameras work in a fundamentally different way from standard cameras, novel methods are required to process their output and unlock their potential. In this thesis, we explore and develop deep learning architectures capable of successfully processing streams of events generated by neuromorphic image sensors for image classification and semantic segmentation tasks in automotive contexts. The main goal of our work was to exploit the sparse asynchronous nature of event-driven data without resorting to costly frame reconstruction techniques. To achieve this feature, we based our efforts on PointNet and PoinetNet++, which are state-of-the-art architectures for point clouds, an important type of geometric data structure that shares all characteristics with the data generated by event cameras. Our architectures are trained and validated on different event-based automotive datasets. The results are then compared to state-of-the-art models.

Il rapido miglioramento dei sistemi di machine learning e computer vision ha alimentato lo sviluppo dei veicoli a guida autonoma. Questi sistemi si basano sul loro hardware sottostante, come i sensori d'immagine automobilistici, che vengono sviluppati con grande intensità per affrontare efficacemente le sfide imposte dagli scenari del mondo reale. In questo contesto, le retine al silicio bio-ispirate o le telecamere basate sugli eventi offrono una vasta gamma di caratteristiche che permettono loro di essere un valido candidato per la visione artificiale: risoluzione temporale molto alta e bassa latenza (entrambe nell'ordine dei microsecondi), gamma dinamica molto alta (140 dB contro 60 dB delle telecamere standard), e basso consumo energetico. A differenza delle telecamere tradizionali, che generano fotogrammi a una velocità costante, le telecamere basate su eventi rispondono ai cambiamenti di luminosità nella scena in modo asincrono e indipendente per ogni pixel sulla retina di silicio, generando un flusso di eventi a velocità variabile. Tuttavia, poiché le telecamere a eventi funzionano in un modo fondamentalmente diverso dalle telecamere standard, sono necessari nuovi metodi per elaborare il loro output e sbloccare il loro potenziale. In questa tesi, esploriamo e sviluppiamo architetture di deep learning in grado di elaborare con successo flussi di eventi generati da sensori di immagine neuromorfici per la classificazione delle immagini e compiti di segmentazione semantica in contesti automotive. L'obiettivo principale del nostro lavoro è stato quello di sfruttare la natura sparsa asincrona dei dati event-driven senza ricorrere a costose tecniche di ricostruzione dei frame. Per ottenere questa caratteristica, abbiamo basato i nostri sforzi su PointNet e PoinetNet++, che sono architetture all'avanguardia per le nuvole di punti, un importante tipo di struttura di dati geometrici che condivide tutte le caratteristiche con i dati generati dalle telecamere a eventi. Le nostre architetture sono state addestrate e validate su diversi set di dati automobilistici basati su eventi. I risultati sono poi confrontati con i modelli allo stato dell'arte.

A PointNet-based approach for neuromorphic vision in autonomous driving. Un approccio basato su PointNet per la visione neuromorfica nella guida autonoma

Giovanakis, Yannick
2019/2020

Abstract

The rapid improvement of machine learning and computer vision systems has fueled the development of self-driving vehicles. These systems rely on their underlying hardware, such as automotive image sensors, which are being developed with great intensity to effectively tackle the challenges imposed by real-world scenarios. In this context, bio-inspired silicon retinas or event-based cameras offer a wide range of characteristics that allow them to be a valid candidate for artificial vision: very high temporal resolution and low latency (both in the order of microseconds), very high dynamic range (140 dB vs. 60 dB of standard cameras), and low power consumption. Unlike traditional cameras, which generate frames at a constant rate, event-based cameras respond to brightness changes in the scene asynchronously and independently for each pixel on the silicon retina, generating a variable data-rate stream of events. However, because event cameras work in a fundamentally different way from standard cameras, novel methods are required to process their output and unlock their potential. In this thesis, we explore and develop deep learning architectures capable of successfully processing streams of events generated by neuromorphic image sensors for image classification and semantic segmentation tasks in automotive contexts. The main goal of our work was to exploit the sparse asynchronous nature of event-driven data without resorting to costly frame reconstruction techniques. To achieve this feature, we based our efforts on PointNet and PoinetNet++, which are state-of-the-art architectures for point clouds, an important type of geometric data structure that shares all characteristics with the data generated by event cameras. Our architectures are trained and validated on different event-based automotive datasets. The results are then compared to state-of-the-art models.
MATTEUCCI, MATTEO
CANNICI, MARCO
ING - Scuola di Ingegneria Industriale e dell'Informazione
28-apr-2021
2019/2020
Il rapido miglioramento dei sistemi di machine learning e computer vision ha alimentato lo sviluppo dei veicoli a guida autonoma. Questi sistemi si basano sul loro hardware sottostante, come i sensori d'immagine automobilistici, che vengono sviluppati con grande intensità per affrontare efficacemente le sfide imposte dagli scenari del mondo reale. In questo contesto, le retine al silicio bio-ispirate o le telecamere basate sugli eventi offrono una vasta gamma di caratteristiche che permettono loro di essere un valido candidato per la visione artificiale: risoluzione temporale molto alta e bassa latenza (entrambe nell'ordine dei microsecondi), gamma dinamica molto alta (140 dB contro 60 dB delle telecamere standard), e basso consumo energetico. A differenza delle telecamere tradizionali, che generano fotogrammi a una velocità costante, le telecamere basate su eventi rispondono ai cambiamenti di luminosità nella scena in modo asincrono e indipendente per ogni pixel sulla retina di silicio, generando un flusso di eventi a velocità variabile. Tuttavia, poiché le telecamere a eventi funzionano in un modo fondamentalmente diverso dalle telecamere standard, sono necessari nuovi metodi per elaborare il loro output e sbloccare il loro potenziale. In questa tesi, esploriamo e sviluppiamo architetture di deep learning in grado di elaborare con successo flussi di eventi generati da sensori di immagine neuromorfici per la classificazione delle immagini e compiti di segmentazione semantica in contesti automotive. L'obiettivo principale del nostro lavoro è stato quello di sfruttare la natura sparsa asincrona dei dati event-driven senza ricorrere a costose tecniche di ricostruzione dei frame. Per ottenere questa caratteristica, abbiamo basato i nostri sforzi su PointNet e PoinetNet++, che sono architetture all'avanguardia per le nuvole di punti, un importante tipo di struttura di dati geometrici che condivide tutte le caratteristiche con i dati generati dalle telecamere a eventi. Le nostre architetture sono state addestrate e validate su diversi set di dati automobilistici basati su eventi. I risultati sono poi confrontati con i modelli allo stato dell'arte.
File allegati
File Dimensione Formato  
thesis-giovanakis.pdf

Open Access dal 01/04/2022

Descrizione: A PointNet-based approach to neuromorphic vision in autonomous driving
Dimensione 13.23 MB
Formato Adobe PDF
13.23 MB Adobe PDF Visualizza/Apri
thesis-giovanakis-v2.pdf

Open Access dal 07/04/2022

Descrizione: A PointNet-based approach for neuromorphic vision in autonomous driving - v2
Dimensione 13.23 MB
Formato Adobe PDF
13.23 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/173173