Matrix LSTMNet : an asynchronous and sparse architecture for event based vision

Event cameras are neuromorphic sensors inspired by the biological retina. Unlike conventional cameras, that capture snapshots at a predetermined frame rate, they respond to per-pixel brightness changes, producing a stream of asynchronous and spatially sparse events. This paradigm shift offers many desirable properties found in biological vision, such as high temporal resolution (in the order of µs) and high dynamic range (over 120 dB), but forces us to rethink our algorithms and processing techniques. The most successful methods to date convert batches of events into synchronous and dense image-like representations that are processed by deep learning models of conventional computer vision. However, these methods discard the inherent properties of events, leading to high latency and computational costs. Following a recent line of works, we propose a model for real-time, asynchronous event processing that exploits sparsity. We use Matrix-LSTM [5], which combines the mechanisms of recurrent and convolutional neural networks, in a novel multi-layered architecture which we name Matrix-LSTMNet. To build efficient deep networks, we define the variant of Submanifold Matrix-LSTM, that preserves sparsity, and compression modules that allow to learn hierarchical features both in space and time. We theoretically derive the complexity of all components in our architecture, and experimentally validate our method on tasks of object recognition, object detection and gesture recognition. Matrix-LSTMNet achieves similar or better performance than state-of-the-art asynchronous methods, with very low computational complexity. In addition, our method does not rely on a fixed-length history of events, and its complexity is not influenced by statistics of the data.

Le telecamere basate su eventi sono sensori neuromorfici ispirati alla retina biologica. A differenza delle telecamere convenzionali, che catturano delle istantanee a un frame rate predeterminato, queste rispondo a cambiamenti di luminosità per pixel, producendo una sequenza di eventi asincroni e spazialmente sparsi. Questo cambio di paradigma offre molte proprietà desiderabili che si trovano nella visione biologica, come un'elevata risoluzione temporale (dell'ordine dei µs) e un'elevata gamma dinamica (oltre 120 dB), ma ci costringe a ripensare i nostri algoritmi e tecniche di elaborazione. I metodi di maggior successo ad oggi convertono batch di eventi in rappresentazioni sincrone e dense simili a immagini, che vengono processate da modelli di deep learning della visione artificiale convenzionale. Tuttavia, questi metodi scartano le proprietà intrinseche degli eventi, portando a latenza e costi computazionali elevati. Seguendo una recente linea di lavori, proponiamo un modello per l'elaborazione di eventi asincrona e in tempo reale, che sfrutta la sparsità dei dati. Usiamo Matrix-LSTM [5], che combina i meccanismi delle reti neurali ricorrenti e convoluzionali, in una architettura multistrato che denominiamo Matrix-LSTMNet. Per costruire reti profonde efficienti, definiamo la variante di Submanifold Matrix-LSTM, che preserva la sparsità, e moduli di compressione che permettono di apprendere feature gerarchiche sia nello spazio che nel tempo. Deriviamo teoricamente la complessità di tutte le componenti della nostra architettura, e convalidiamo sperimentalmente il nostro metodo su attività di riconoscimento di oggetti, rilevamento di oggetti e riconoscimento di gesti. Matrix-LSTMNet raggiunge prestazioni simili o migliori rispetto ai metodi asincroni all'avanguardia, con una complessità computazionale molto bassa. Inoltre, il nostro metodo non si basa su una cronologia di eventi di lunghezza fissa, e la sua complessità non è influenzata da statistiche dei dati.