As modern artificial intelligence becomes increasingly pervasive, the demand for efficient, scalable, and flexible computing platforms capable of supporting complex DNNs continues to grow. At present, GPUs dominate high-performance computing, while custom DNN accelerators are widely adopted in edge devices. Yet, the closed-source nature of these solutions restricts opportunities for hardware-software optimization and customization, limiting their adaptability to evolving application requirements. In this context, the royalty-free RISC-V ISA is gaining momentum due to its customizability, mature ecosystem, and scalability. This work presents HAMMER an end-to-end compilation framework for scalable deployment of DNNs to a RISC-V-based multi-core accelerator. HAMMER is the first framework that can deploy DNN on up to a 64-core RISC-V architecture, still ensuring performance scalability thanks to the adoption of several compile-time optimizations, i.e., thread partitioning and configurable numeric precision to support the optimization of the performance-precision trade-off. Starting from the baseline HAMMER framework, the extensive experimental campaign using different CNN and transformer models highlights that HAMMER's optimizations provide an average and peak performance speedup of 43x and 61x, respectively, with an increase in power consumption within 11.2x.
Con la diffusione sempre maggiore dell'intelligenza artificiale moderna, la domanda di piattaforme di calcolo efficienti, scalabili e flessibili, in grado di supportare reti neurali artificiali (DNN) complesse, continua a crescere. Attualmente, le GPU dominano il calcolo ad alte prestazioni, mentre gli acceleratori DNN personalizzati sono ampiamente adottati nei dispositivi marginali alla rete. Tuttavia, la natura proprietaria di queste soluzioni limita le opportunità di ottimizzazione e personalizzazione hardware-software, riducendone l'adattabilità ai requisiti delle applicazioni in continua evoluzione. In questo contesto, l'ISA RISC-V priva di royalty sta guadagnando slancio grazie alla sua estendibilità, al suo ecosistema maturo e alla sua scalabilità. Questo lavoro presenta HAMMER, un framework di compilazione completo per l'esecuzione di DNN su una piattaforma scalabile multi-core basata su RISC-V. HAMMER è il primo framework in grado di eseguire applicazioni DNN su un'architettura RISC-V fino a 64 core, garantendo al contempo la scalabilità delle prestazioni grazie all'adozione di diverse ottimizzazioni effettuate al momento della compilazione (compile-time), come il partizionamento dei thread consapevole dell'architettura hardware e la possibilità di configurare la precisione del tipo di dato per supportare l'ottimizzazione del compromesso tra prestazioni e precisione. Partendo dal framework HAMMER di base, l'ampia campagna sperimentale, che ha utilizzato diversi modelli CNN e transformer, evidenzia che le ottimizzazioni di HAMMER forniscono un'accelerazione media e di picco delle prestazioni pari rispettivamente a 43x e 61x, con un aumento del consumo energetico contenuto entro 11.2x.
PyTorch flow targeting RISC-V to scale DNNs on multi-cores
Viola, Federico
2025/2026
Abstract
As modern artificial intelligence becomes increasingly pervasive, the demand for efficient, scalable, and flexible computing platforms capable of supporting complex DNNs continues to grow. At present, GPUs dominate high-performance computing, while custom DNN accelerators are widely adopted in edge devices. Yet, the closed-source nature of these solutions restricts opportunities for hardware-software optimization and customization, limiting their adaptability to evolving application requirements. In this context, the royalty-free RISC-V ISA is gaining momentum due to its customizability, mature ecosystem, and scalability. This work presents HAMMER an end-to-end compilation framework for scalable deployment of DNNs to a RISC-V-based multi-core accelerator. HAMMER is the first framework that can deploy DNN on up to a 64-core RISC-V architecture, still ensuring performance scalability thanks to the adoption of several compile-time optimizations, i.e., thread partitioning and configurable numeric precision to support the optimization of the performance-precision trade-off. Starting from the baseline HAMMER framework, the extensive experimental campaign using different CNN and transformer models highlights that HAMMER's optimizations provide an average and peak performance speedup of 43x and 61x, respectively, with an increase in power consumption within 11.2x.| File | Dimensione | Formato | |
|---|---|---|---|
|
2025_12_Viola_Executive_Summary.pdf
non accessibile
Descrizione: Executive Summary
Dimensione
689.74 kB
Formato
Adobe PDF
|
689.74 kB | Adobe PDF | Visualizza/Apri |
|
2025_12_Viola_Tesi.pdf
non accessibile
Descrizione: Tesi
Dimensione
5.81 MB
Formato
Adobe PDF
|
5.81 MB | Adobe PDF | Visualizza/Apri |
I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/10589/246439