FPGA acceleration of FARSE-CNN event-based vision

Event cameras represent a paradigm shift in visual sensing, capturing asynchronous brightness changes at the pixel level instead of dense, periodic frames. Their sparse, high temporal resolution data offer advantages for real-time applications such as robotics and autonomous driving but challenge conventional deep learning models based on regular frames. The Fully Asynchronous Recurrent and Sparse Event-Based Convolutional Neural Network (FARSE-CNN) addresses these limitations by processing event streams directly while preserving spatial and temporal sparsity. However, its GPU implementation requires batching and synchronization, introducing latency and energy inefficiency that limit use in embedded and edge devices. This thesis presents the design and FPGA implementation of a hardware accelerator for FARSE-CNN, enabling real-time processing of asynchronous event data. The accelerator maps convolutional and recurrent operations into a modular, event driven pipeline that exploits sparsity to reduce computation and memory traffic. Each layer is implemented as an independent compute engine with parallel matrix vector units, local memory, and asynchronous inter layer communication. Optimized modules for submanifold convolutions, sparse pooling, temporal dropout, and LSTM gating are integrated under a global control and memory scheduling scheme. Parametric configurability allows tuning of precision, pipeline depth, and parallelism to balance accuracy and resource utilization across models such as YOLO and NCars. Experimental results on real event-camera datasets show significant performance and energy improvements over GPU implementations. The proposed accelerator demonstrates that event driven convolutional neural networks can be efficiently deployed on reconfigurable hardware, paving the way for low power, real time neuromorphic vision systems.

Le telecamere event-based rappresentano un cambiamento di paradigma nell'ambito della computer vision, catturando variazioni di luminosità in modo asincrono invece di immagini dense e periodiche. I dati generati, sparsi e ad alta risoluzione temporale, offrono vantaggi per applicazioni real time come robotica e guida autonoma, ma pongono sfide ai modelli di deep learning tradizionali basati su frame regolari. Il modello Fully Asynchronous Recurrent and Sparse Event-Based CNN (FARSE-CNN) affronta queste limitazioni elaborando direttamente i flussi di eventi e preservando la sparsità spaziale e temporale. Tuttavia, la sua implementazione su GPU richiede batching e sincronizzazione, introducendo latenza e inefficienza energetica che ne limitano l’uso in dispositivi embedded. Questa tesi presenta la progettazione e l’implementazione su FPGA di un acceleratore hardware per FARSE-CNN, capace di elaborare flussi di dati asincroni in tempo reale. L’architettura propone una mappatura modulare ed event-driven delle operazioni convoluzionali e ricorrenti, sfruttando la sparsità per ridurre sia il numero di calcoli sia il traffico di memoria. Ogni layer è realizzato come un’unità di calcolo indipendente, con moduli specializzati per convoluzioni submanifold, pooling sparso, temporal dropout e gating LSTM. La configurabilità parametrica permette di bilanciare precisione numerica, profondità della pipeline e parallelismo, rendendo l’acceleratore adattabile a modelli quali YOLO e NCars. I risultati sperimentali su dataset reali dimostrano miglioramenti significativi in prestazioni ed efficienza energetica rispetto alle implementazioni su GPU, confermando il potenziale dell’hardware riconfigurabile per sistemi di visione neuromorfica a bassa potenza e latenza.