Extending the RISC-V vector instruction set architecture for integrating Digital In-Memory-Computing to accelerate deep learning on the edge

As deep learning expands from centralized data centers to edge devices, achieving high performance within strict power and memory constraints has become a pressing challenge. Digital In-Memory Computing (DIMC) presents a transformative approach by processing data directly within memory, significantly reducing data movement and improving computational efficiency. This thesis explores methodologies to extend the RISC-V Vector Instruction Set Architecture (ISA) for integrating DIMC, thereby accelerating deep learning workloads in resource-constrained edge environments. The research begins with a comprehensive trade-off analysis, exploring various design choices for integrating DIMC into RISC-V processors, including scalar versus vector architectures, data mapping strategies, and coupling approaches. These choices were evaluated against performance metrics such as latency and area utilization. To address the unique demands of DIMC operations—such as efficient data loading, computation management, and result storage—a set of custom instructions was developed. These instructions were specifically designed to streamline the interaction between DIMC and the vector-extended RISC-V microprocessor, enabling seamless integration and optimizing the architecture for deep learning workloads. To validate the proposed approach, a comprehensive validation environment was developed, including an innovative instruction generation tool. Instruction-level simulations evaluated the performance of the proposed architecture across over 450 convolutional configurations, achieving an average speedup of 110x and a maximum of 199x compared to the baseline Vector RISC-V. Simulations on ResNet-8 and ResNet-50 further demonstrated the architecture’s effectiveness, with ResNet-8 achieving a total speedup in convolution layers of 108x and ResNet-50 reaching 123x. These results confirm the potential of the StriveVIMC to accelerate deep learning workloads efficiently in resource-constrained edge environments.

Con la diffusione degli algoritmi di deep learning - dai data center centralizzati ai dispositivi edge - ottenere alte prestazioni rispettando severi vincoli di potenza e memoria è diventata una sfida cruciale. Il Digital In-Memory Computing (DIMC) rappresenta un approccio rivoluzionario, elaborando i dati direttamente in memoria, riducendo significativamente il movimento dei dati e migliorando l’efficienza computazionale. Questa tesi esplora metodologie per estendere l’Instruction Set Architecture (ISA) RISC-V al fine di integrare il DIMC, accelerando così gli algoritmi di deep learning in ambienti edge. La ricerca inizia con un’analisi approfondita dei trade-off progettuali, esplorando diverse ipotesi per integrare il DIMC nei processori RISC-V, tra cui la scelta di architetture scalari o vettoriali, strategie di mapping dei dati e strategie di integrazione dell’acceleratore. Le scelte sono state compiute in base a metriche di prestazione come la latenza e l’utilizzo dell’area. Per rispondere alle specifiche esigenze operative del DIMC - come il caricamento efficiente dei dati, la gestione del timing della computazione e l’archiviazione dei risultati - è stato sviluppato un set di istruzioni personalizzate; queste sono state progettate per ottimizzare l’interazione tra il DIMC e il microprocessore RISC-V vettoriale, consentendo un’integrazione fluida e ottimizzando l’architettura per algoritmi di deep learning. Per validare l’approccio proposto, è stato sviluppato un ambiente di validazione comprensivo di uno strumento in grado di generare una traccia per l’esecuzione di convoluzioni. Questo strumento ha permesso di effettuare simulazioni a livello di istruzione, attraverso le quali sono state analizzate le prestazioni dell’architettura proposta su oltre 450 configurazioni convoluzionali. I risultati ottenuti evidenziano un’accelerazione media di 110x, con un picco massimo di 199x rispetto al RISC-V vettoriale di riferimento. Le simulazioni su ResNet-8 e ResNet-50 hanno ulteriormente dimostrato l’efficacia dell’architettura, con ResNet-8 che ha raggiunto un’accelerazione totale nei layer convoluzionali di 108x e ResNet-50 di 123x. I risultati dimostrano il potenziale dell’integrazione dell’unità DIMC con il core RISC-V nell’accelerare gli algoritmi di deep learning in ambienti edge.