Event-based cameras are bio-inspired sensors that emulate the functioning of biological retinas. Unlike traditional cameras, which generate dense frames at a constant and predefined rate, these sensors, similarly to the photoreceptors in the retina, output data only when a change in brightness is detected. The result is a sensor able to sparsely and incrementally encode visual changes with microseconds resolution, high dynamic range, and minimum requirements for power consumption and bandwidth. Nevertheless, due to their fundamentally novel way of recording appearance, these sensors cannot be directly used with typical computer vision systems, which must be redesigned to work with events. That is the case with deep neural networks for vision, which express their full potential when hierarchical representations can be computed from input data, such as when dealing with images. However, learning to achieve this level of abstraction efficiently and effectively from events is far more difficult than doing the same with images. In fact, while rich visual data is directly accessible from a single frame, reconstructing appearance from events requires additional computation and temporal reasoning. Visual information is indeed spread temporally through incremental and sparse updates, making learning effective network representations harder. This thesis addresses this challenge by focusing on three aspects of designing deep neural networks for event-based vision. First, we look at how to efficiently compute hidden neural representations by preserving event-based cameras' properties during computation. We accomplish this by designing a framework for converting deep neural networks into systems with identical expressiveness but capable of performing asynchronous and incremental processing, thus retaining the event camera's asynchronous and data-driven nature. Then, we focus on performance and study how to learn effective input representations for a given task. We propose a recurrent mechanism that automatically learns to interface with any convolutional network by sparsely and incrementally building a frame-like representation from asynchronous events. Finally, we focus on the challenging task of training neural networks to operate effectively on a real-world event-based camera when the only source of training supervision comes from simulation. We tackle the problem from a domain adaptation perspective by learning to extract domain-invariant intermediate representations. This learning strategy enables the network to attain performance comparable to that potentially achieved by directly learning from real annotated samples, yet without performing any finetuning on a real device. Throughout this thesis, we explore the importance of representations in event-based networks, at both the input and hidden layers, and show that by focusing on these aspects, considerable gains can be achieved toward more effective and efficient processing.

Le camere ad eventi sono sensori bio-ispirati che emulano il funzionamento delle retine biologiche. A differenza delle fotocamere tradizionali, che generano fotogrammi a intervalli costanti e predefiniti, questi sensori, analogamente ai fotorecettori della retina, emettono nuovi dati solo quando viene rilevata una variazione di luminosità. Il risultato è un sensore in grado di codificare i cambiamenti visivi in modo sparso e incrementale con una risoluzione temporale nell’ordine dei microsecondi, un'elevata gamma dinamica e requisiti minimi di consumo energetico e larghezza di banda. Tuttavia, a causa del modo radicalmente nuovo di percepire informazioni visive che li contraddistingue, questi sensori non possono essere utilizzati direttamente con i sistemi tradizionali di visione artificiale, che devono dunque essere riprogettati per funzionare con gli eventi. Questo è il caso delle reti neurali profonde per la visione artificiale, che esprimono il loro pieno potenziale quando è possibile estrarre rappresentazioni gerarchiche dai dati in input, come nel caso delle immagini. Imparare a raggiungere questo livello di astrazione in modo efficace ed efficiente dagli eventi è tuttavia molto più difficile che cercare di fare lo stesso dalle immagini. Infatti, mentre dati visivi altamente informativi sono direttamente accessibili da un singolo fotogramma, ricostruire informazioni sull'aspetto a partire dagli eventi richiede un’elaborazione aggiuntiva in grado di correlare le informazioni nel tempo. Le informazioni visive sono infatti distribuite nel tempo per mezzo di aggiornamenti incrementali e sparsi che rendendo più difficile il compito di apprendere rappresentazioni neurali efficaci. Questa tesi affronta questa sfida concentrandosi su tre aspetti della progettazione di reti neurali profonde per la visione artificiale basata sugli eventi. In primo luogo, abbiamo studiato il problema di computare in modo efficiente le rappresentazioni neurali intermedie in modo da preservare durante il calcolo le proprietà delle camere ad eventi. Per fare ciò, abbiamo progettato un framework per convertire reti neurali profonde in sistemi con espressività computazionale identica ma in grado di eseguire elaborazioni asincrone e incrementali, mantenendo così la natura asincrona e basata sui dati delle camere ad eventi. Quindi, ci siamo concentrati sulle prestazioni e abbiamo studiato come apprendere rappresentazioni di input efficaci per svolgere un determinato compito. Abbiamo sviluppato un meccanismo ricorrente che impara automaticamente ad interfacciarsi con qualsiasi rete convoluzionale costruendo in modo sparso e incrementale una rappresentazione simile ad un fotogramma, ma a partire da eventi asincroni. Infine, ci siamo concentrati sul compito ambizioso di addestrare reti neurali in modo che funzionino efficacemente su una camera ad eventi reale anche quando l'unica fonte di supervisione durante l'allenamento proviene dalla simulazione. Abbiamo affrontato il problema dalla prospettiva del domain adaptation imparando a estrarre rappresentazioni intermedie invarianti al dominio. Questa strategia di apprendimento consente alla rete di ottenere prestazioni paragonabili a quelle potenzialmente raggiunte imparando direttamente da dati reali, ma senza eseguire alcuna messa a punto sul dispositivo reale. In questa tesi abbiamo esplorato dunque l'importanza delle rappresentazioni nelle reti basate su eventi, sia come input che nei livelli intermedi della rete, e mostrato che concentrandosi su questi aspetti è possibile ottenere notevoli miglioramenti che vanno nella direzione di un'elaborazione più efficace ed efficiente.

Learning efficient and effective representations for event-based cameras

Cannici, Marco
2021/2022

Abstract

Event-based cameras are bio-inspired sensors that emulate the functioning of biological retinas. Unlike traditional cameras, which generate dense frames at a constant and predefined rate, these sensors, similarly to the photoreceptors in the retina, output data only when a change in brightness is detected. The result is a sensor able to sparsely and incrementally encode visual changes with microseconds resolution, high dynamic range, and minimum requirements for power consumption and bandwidth. Nevertheless, due to their fundamentally novel way of recording appearance, these sensors cannot be directly used with typical computer vision systems, which must be redesigned to work with events. That is the case with deep neural networks for vision, which express their full potential when hierarchical representations can be computed from input data, such as when dealing with images. However, learning to achieve this level of abstraction efficiently and effectively from events is far more difficult than doing the same with images. In fact, while rich visual data is directly accessible from a single frame, reconstructing appearance from events requires additional computation and temporal reasoning. Visual information is indeed spread temporally through incremental and sparse updates, making learning effective network representations harder. This thesis addresses this challenge by focusing on three aspects of designing deep neural networks for event-based vision. First, we look at how to efficiently compute hidden neural representations by preserving event-based cameras' properties during computation. We accomplish this by designing a framework for converting deep neural networks into systems with identical expressiveness but capable of performing asynchronous and incremental processing, thus retaining the event camera's asynchronous and data-driven nature. Then, we focus on performance and study how to learn effective input representations for a given task. We propose a recurrent mechanism that automatically learns to interface with any convolutional network by sparsely and incrementally building a frame-like representation from asynchronous events. Finally, we focus on the challenging task of training neural networks to operate effectively on a real-world event-based camera when the only source of training supervision comes from simulation. We tackle the problem from a domain adaptation perspective by learning to extract domain-invariant intermediate representations. This learning strategy enables the network to attain performance comparable to that potentially achieved by directly learning from real annotated samples, yet without performing any finetuning on a real device. Throughout this thesis, we explore the importance of representations in event-based networks, at both the input and hidden layers, and show that by focusing on these aspects, considerable gains can be achieved toward more effective and efficient processing.
PIRODDI, LUIGI
AMIGONI, FRANCESCO
1-apr-2022
Learning efficient and effective representations for event-based cameras
Le camere ad eventi sono sensori bio-ispirati che emulano il funzionamento delle retine biologiche. A differenza delle fotocamere tradizionali, che generano fotogrammi a intervalli costanti e predefiniti, questi sensori, analogamente ai fotorecettori della retina, emettono nuovi dati solo quando viene rilevata una variazione di luminosità. Il risultato è un sensore in grado di codificare i cambiamenti visivi in modo sparso e incrementale con una risoluzione temporale nell’ordine dei microsecondi, un'elevata gamma dinamica e requisiti minimi di consumo energetico e larghezza di banda. Tuttavia, a causa del modo radicalmente nuovo di percepire informazioni visive che li contraddistingue, questi sensori non possono essere utilizzati direttamente con i sistemi tradizionali di visione artificiale, che devono dunque essere riprogettati per funzionare con gli eventi. Questo è il caso delle reti neurali profonde per la visione artificiale, che esprimono il loro pieno potenziale quando è possibile estrarre rappresentazioni gerarchiche dai dati in input, come nel caso delle immagini. Imparare a raggiungere questo livello di astrazione in modo efficace ed efficiente dagli eventi è tuttavia molto più difficile che cercare di fare lo stesso dalle immagini. Infatti, mentre dati visivi altamente informativi sono direttamente accessibili da un singolo fotogramma, ricostruire informazioni sull'aspetto a partire dagli eventi richiede un’elaborazione aggiuntiva in grado di correlare le informazioni nel tempo. Le informazioni visive sono infatti distribuite nel tempo per mezzo di aggiornamenti incrementali e sparsi che rendendo più difficile il compito di apprendere rappresentazioni neurali efficaci. Questa tesi affronta questa sfida concentrandosi su tre aspetti della progettazione di reti neurali profonde per la visione artificiale basata sugli eventi. In primo luogo, abbiamo studiato il problema di computare in modo efficiente le rappresentazioni neurali intermedie in modo da preservare durante il calcolo le proprietà delle camere ad eventi. Per fare ciò, abbiamo progettato un framework per convertire reti neurali profonde in sistemi con espressività computazionale identica ma in grado di eseguire elaborazioni asincrone e incrementali, mantenendo così la natura asincrona e basata sui dati delle camere ad eventi. Quindi, ci siamo concentrati sulle prestazioni e abbiamo studiato come apprendere rappresentazioni di input efficaci per svolgere un determinato compito. Abbiamo sviluppato un meccanismo ricorrente che impara automaticamente ad interfacciarsi con qualsiasi rete convoluzionale costruendo in modo sparso e incrementale una rappresentazione simile ad un fotogramma, ma a partire da eventi asincroni. Infine, ci siamo concentrati sul compito ambizioso di addestrare reti neurali in modo che funzionino efficacemente su una camera ad eventi reale anche quando l'unica fonte di supervisione durante l'allenamento proviene dalla simulazione. Abbiamo affrontato il problema dalla prospettiva del domain adaptation imparando a estrarre rappresentazioni intermedie invarianti al dominio. Questa strategia di apprendimento consente alla rete di ottenere prestazioni paragonabili a quelle potenzialmente raggiunte imparando direttamente da dati reali, ma senza eseguire alcuna messa a punto sul dispositivo reale. In questa tesi abbiamo esplorato dunque l'importanza delle rappresentazioni nelle reti basate su eventi, sia come input che nei livelli intermedi della rete, e mostrato che concentrandosi su questi aspetti è possibile ottenere notevoli miglioramenti che vanno nella direzione di un'elaborazione più efficace ed efficiente.
File allegati
File Dimensione Formato  
phd-thesis-cannici.pdf

accessibile in internet per tutti

Dimensione 39.05 MB
Formato Adobe PDF
39.05 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/187047