Event-based cameras are bio-inspired vision sensors that emulate the functioning of biological retinas and provide a new approach to Computer Vision. Unlike conventional cameras, which generate frames at a constant rate, these sensors output sequences of asynchronous events that efficiently encode pixel-level brightness changes caused by objects moving inside the scene. Due to the different nature of visual information, however, conventional vision approaches cannot be directly applied. Hence the need to rephrase standard computer vision techniques and to develop new algorithms able to exploit the event-based nature of the sensor. In this thesis we investigate the possibility of using recurrent neural networks and deep learning techniques to process the stream of events produced by these sensors with the goal of designing effective architectures for object recognition and detection which still preserve the event-based nature of the computation. We designed two recognition networks for neuromorphic cameras based on the Phased LSTM model [100]. One makes use of a patch extraction mechanism we developed whereas the other uses a trainable procedure inspired by the DRAW attention mechanism [101]. Next, we experimented with the problem of multi-object detection extending YOLO [125] and obtaining an architecture able to detect and classify multiple objects in the scene. Finally we modified the convolution and max-pooling operations of the previous architecture to exploit the sparse information contained in the stream of events obtaining a fully-convolutional model able to reuse the results produced in previous computations. We validated these models on several neuromorphic datasets obtaining results comparable with state-of-the-art solutions. In addition, we used a simulator of neuromorphic cameras [38] to obtain our own synthetic dataset which we used to test the performances of our object detection network in realistic conditions.

Le fotocamere basate su eventi sono sensori per la visione di ispirazione biologica che emulano il funzionamento della retina e propongono un approccio nuovo alla visione artificiale. A differenza delle telecamere convenzionali che generano fotogrammi a una frequenza costante, questi sensori emettono sequenze di eventi asincroni che codificano in modo efficiente i cambiamenti di luminosità causati dal movimento degli oggetti nella scena. Tuttavia, a causa della diversa natura delle informazioni visive, gli approcci convenzionali alla visione artificiale non possono essere applicati direttamente. Da qui la necessità di riformulare le tecniche standard e di sviluppare nuovi algoritmi capaci di sfruttare la natura ad eventi del sensore. In questa tesi abbiamo studiato la possibilità di utilizzare reti neurali ricorrenti e tecniche di deep learning per elaborare il flusso di eventi prodotto da questi sensori con l'obiettivo di progettare architetture efficaci per il riconoscimento e il rilevamento degli oggetti. Abbiamo progettato due reti di riconoscimento per camere neuromorfiche basate sul modello Phased LSTM [100]. La prima fa uso di un meccanismo ad hoc per l'estrazione di patch mentre la seconda utilizza una procedura addestrabile ispirata al meccanismo di attenzione DRAW [101]. Successivamente, abbiamo studiato il problema del rilevamento degli oggetti estendendo YOLO [125] e ottenendo un'architettura in grado di localizzare e classificare più oggetti nella scena. Infine, abbiamo modificato le operazioni di convoluzione e max-pooling dell'architettura precedente per sfruttare la natura rada delle informazioni contenute nel flusso di eventi ottenendo una rete composta da soli livelli convoluzionali in grado di riutilizzare il risultato di computazioni precedenti. Abbiamo validato questi modelli su diversi dataset neuromorfici ottenendo risultati paragonabili allo stato dell'arte. Inoltre, abbiamo anche utilizzato un simulatore di fotocamere neuromorfiche [38] per ottenere un nostro set di dati sintetici che abbiamo utilizzato per verificare le prestazioni della nostra rete di rilevamento in condizioni realistiche.

Deep neural models for event-based vision

CANNICI, MARCO
2016/2017

Abstract

Event-based cameras are bio-inspired vision sensors that emulate the functioning of biological retinas and provide a new approach to Computer Vision. Unlike conventional cameras, which generate frames at a constant rate, these sensors output sequences of asynchronous events that efficiently encode pixel-level brightness changes caused by objects moving inside the scene. Due to the different nature of visual information, however, conventional vision approaches cannot be directly applied. Hence the need to rephrase standard computer vision techniques and to develop new algorithms able to exploit the event-based nature of the sensor. In this thesis we investigate the possibility of using recurrent neural networks and deep learning techniques to process the stream of events produced by these sensors with the goal of designing effective architectures for object recognition and detection which still preserve the event-based nature of the computation. We designed two recognition networks for neuromorphic cameras based on the Phased LSTM model [100]. One makes use of a patch extraction mechanism we developed whereas the other uses a trainable procedure inspired by the DRAW attention mechanism [101]. Next, we experimented with the problem of multi-object detection extending YOLO [125] and obtaining an architecture able to detect and classify multiple objects in the scene. Finally we modified the convolution and max-pooling operations of the previous architecture to exploit the sparse information contained in the stream of events obtaining a fully-convolutional model able to reuse the results produced in previous computations. We validated these models on several neuromorphic datasets obtaining results comparable with state-of-the-art solutions. In addition, we used a simulator of neuromorphic cameras [38] to obtain our own synthetic dataset which we used to test the performances of our object detection network in realistic conditions.
CICCONE, MARCO
ING - Scuola di Ingegneria Industriale e dell'Informazione
19-apr-2018
2016/2017
Le fotocamere basate su eventi sono sensori per la visione di ispirazione biologica che emulano il funzionamento della retina e propongono un approccio nuovo alla visione artificiale. A differenza delle telecamere convenzionali che generano fotogrammi a una frequenza costante, questi sensori emettono sequenze di eventi asincroni che codificano in modo efficiente i cambiamenti di luminosità causati dal movimento degli oggetti nella scena. Tuttavia, a causa della diversa natura delle informazioni visive, gli approcci convenzionali alla visione artificiale non possono essere applicati direttamente. Da qui la necessità di riformulare le tecniche standard e di sviluppare nuovi algoritmi capaci di sfruttare la natura ad eventi del sensore. In questa tesi abbiamo studiato la possibilità di utilizzare reti neurali ricorrenti e tecniche di deep learning per elaborare il flusso di eventi prodotto da questi sensori con l'obiettivo di progettare architetture efficaci per il riconoscimento e il rilevamento degli oggetti. Abbiamo progettato due reti di riconoscimento per camere neuromorfiche basate sul modello Phased LSTM [100]. La prima fa uso di un meccanismo ad hoc per l'estrazione di patch mentre la seconda utilizza una procedura addestrabile ispirata al meccanismo di attenzione DRAW [101]. Successivamente, abbiamo studiato il problema del rilevamento degli oggetti estendendo YOLO [125] e ottenendo un'architettura in grado di localizzare e classificare più oggetti nella scena. Infine, abbiamo modificato le operazioni di convoluzione e max-pooling dell'architettura precedente per sfruttare la natura rada delle informazioni contenute nel flusso di eventi ottenendo una rete composta da soli livelli convoluzionali in grado di riutilizzare il risultato di computazioni precedenti. Abbiamo validato questi modelli su diversi dataset neuromorfici ottenendo risultati paragonabili allo stato dell'arte. Inoltre, abbiamo anche utilizzato un simulatore di fotocamere neuromorfiche [38] per ottenere un nostro set di dati sintetici che abbiamo utilizzato per verificare le prestazioni della nostra rete di rilevamento in condizioni realistiche.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
2018_04_Cannici.pdf

solo utenti autorizzati dal 01/04/2019

Descrizione: Testo della tesi
Dimensione 12.67 MB
Formato Adobe PDF
12.67 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/140186