Exploration and mapping of deep neural networks to low-power hardware accelerators and FPGAs

Deep Neural Networks are quickly becoming a leading edge solution to classify and analyze the behavior of people and the surrounding world, paving the way to leverage the millions of sensors available in the IoT era. The increasingly higher computational demands of these new class of algorithms call for a processing power reaching into the Tera OPS while product constraints still require power and energy to be curtailed within practical and market competitive boundaries. The state of the art is aiming to develop new hybrid architectures resorting to heterogeneous computing solutions coupling both general-purpose processors and HW accelerators to achieve the intended performance and efficiency targets. A key aspect of this effort is the ability to perform fast and accurate design space explorations of the wide parametric space keeping into account both hardware and software mapping challenges. In this thesis, an analytical model of accelerators in Orlando architecture is developed and used to explore the design space for convolutional neural network mapping on convolution accelerators. The results of the experiment showed that the configurability of accelerators is crucial for adapting the changing computation and memory access patterns within different stages of the convolutional neural network. In addition to this methodology, fused-layer convolution acceleration is studied as an emerging trend in accelerating memory-bound convolution layers and our incremental innovative improvements are detailed in this thesis. Experimental results show that even on smaller FPGAs it is possible to take advantage of consecutive convolution layers and reduce the external bandwidth traffic which is one of the main contributors to power consumption.

Le reti neurali profonde stanno rapidamente diventando una soluzione all'avanguardia per classificare e analizzare il comportamento delle persone e del mondo circostante, aprendo la strada per sfruttare i milioni di sensori disponibili nell'era dell'IoT. Le richieste di calcolo sempre più elevate di questa nuova classe di algoritmi richiedono una potenza di elaborazione dell'ordine dei Tera OPS, mentre i vincoli del prodotto richiedono che potenza ed energia siano ridotte entro limiti pratici e competitivi sul mercato. Lo stato dell'arte mira a sviluppare nuove architetture ibride ricorrendo a soluzioni informatiche eterogenee basate sulla combinazione di processori generici e acceleratori HW per raggiungere gli obiettivi di prestazioni ed efficienza previsti. Un aspetto chiave di questo sforzo è la capacità di eseguire esplorazioni dell'ampio spazio di progettazione che risultino rapide e accurate tenendo conto delle sfide di mappatura hardware e software. In questa tesi, è stato sviluppato un modello analitico di acceleratori dell'architettura Orlando di STMicroelectronics. Il modello è stato utilizzato per esplorare lo spazio di progettazione per la mappatura di reti neurali convoluzionali su acceleratori dedicati. I risultati degli esperimenti hanno mostrato che la configurabilità degli acceleratori è cruciale per adattare i diversi modelli di calcolo e accesso alla memoria all'interno dei diversi stadi della rete neurale convoluzionale. Oltre a questa metodologia, l'accelerazione della convoluzione basata sulla fusione dei livelli è stata studiata come tendenza emergente nell'accelerazione dei livelli di convoluzione migliorando gli accessi alla memoria. Nella tesi sono descritte le tecniche di ottimizzazione dell'approccio basato sulla fusione dei livelli. I risultati sperimentali dimostrano che anche su dispositivi FPGA più piccoli è possibile trarre vantaggio dalla fusione dei livelli di convoluzione consecutivi e ridurre il traffico dovuto alla larghezza di banda di memoria che rappresenta uno dei principali contributi al consumo energetico.