qGamma: an exploration framework for the mapping of mixed-precision quantized DNN models on hardware accelerators

Nowadays, there is a huge interest in custom spatial accelerators for on-the-edge Artificial Intelligence applications. In particular, on-the-edge Deep Neural Network accelerators are typically based on spatial architectures composed of multiple processing elements interacting with the memory hierarchy through a network-on-chip. The energy-performance efficiency of these accelerators is given by an optimized mapping of the dataflow to the hardware resources and strategies to optimize data movement and reuse. In addition, mixed-precision quantization models can help reduce latency, energy, and memory consumption. The goal of this thesis is to propose an exploration framework for mapping Deep Learning (DL) models to a mixed-precision quantized target architecture as a DNN accelerator. To achieve this main goal, we developed qGamma, a flexible framework enabling the exploration and optimal mapping of mixed-precision DNNs on general on-the-edge accelerators supporting multiple compute fixed- and floating- point precisions. Using a domain-specific genetic algorithm-based method and qMaestro, an analytical performance and energy model based on hardware synthesis results and CACTI-D, qGamma explores the immense design space to find the mapping minimizing latency, total energy, or energy-delay product. We evaluated the exploration results on various DNNs inference workloads showing the impact of using mixed-precision models when compared to fixed-precision implementations.

Al giorno d’oggi, c’è un grande interesse riguardo gli acceleratori per applicazioni di Intelligenza Artificiale nell’ambito dell’on-the-edge computing. In particolare, gli acceleratori per Deep Neural Network (DNN) sono tipicamente basati su architetture spaziali composte da più elementi di elaborazione che interagiscono con la gerarchia di memoria attraverso una rete su chip. L’efficienza energetica e le performance di questi acceleratori è data da una mappatura ottimizzata del flusso di dati basata sulle risorse hardware e da strategie per ottimizzare il movimento e il riutilizzo dei dati stessi. Inoltre, i modelli di quantizzazione a precisione mista possono contribuire a ridurre la latenza, l’energia e il consumo di memoria. L’obiettivo di questa tesi è proporre un framework di esplorazione per la mappatura dei modelli di Deep Learning (DL) su un’architettura quantizzata a precisione mista come può essere un acceleratore per DNN. Per raggiungere questo obiettivo, abbiamo sviluppato qGamma, un framework flessibile che consente l’esplorazione e la mappatura ottimale di DNN a precisione mista su acceleratori on-the-edge generici che supportano precisioni multiple di calcolo in virgola mobile e fissa. Utilizzando un metodo basato su un algoritmo genetico specifico per il dominio e qMaestro, un modello analitico di prestazioni ed energia basato sui risultati della sintesi hardware e su CACTI-D, qGamma esplora l’immenso spazio di progettazione per trovare la mappatura che minimizza la latenza, l’energia totale o il prodotto energia-latenza. Abbiamo valutato i risultati dell’esplorazione su varie DNN, mostrando l’impatto dell’uso di modelli a precisione mista rispetto alle implementazioni a precisione fissa.