Channel-wise lowering of ONNX-based deep learning models for ReRAM architectures

Deep learning models require vast amounts of computational power and data movement, posing significant challenges for traditional computing architectures. As the need for more efficient processing grows, leveraging specialized hardware, such as ReRAM-based architectures, presents a potential solution for optimizing performance. ReRAM enables processing-in-memory, reducing data transfer bottlenecks and enhancing computational efficiency, making it a promising approach for accelerating deep learning tasks. Particularly, this works focuses on Convolutional Neural Networks (CNNs). Unlike traditional architectures, ReRAM enables computation near memory, significantly enhancing energy efficiency and performance for AI workloads, provided that all operations are structured in such a way as to take advantage of the different, more specialized architecture. This thesis presents a redesigned convolution transformation pass within the RAPTOR compiler, replacing the existing approach with a more modular, debuggable, and extensible solution. The new implementation distributes convolution weights across crossbars, improving computational efficiency. Additionally, a refined intermediate representation (IR) results in a shorter, more concise computational graph, simplifying debugging, and clarifying the main logical structure of the operation. A validation mechanism for the generated code was also introduced, ensuring correctness by automatically performing all relevant operations, memory accesses, and core-to-core communication. The proposed improvements contribute to the broader effort of accelerating deep learning on ReRAM architectures by providing a more maintainable and generalizable compilation framework. This work lays the groundwork for future optimizations and extensions in ReRAM-based deep learning acceleration.

I modelli di deep learning richiedono un'enorme quantità di potenza computazionale e data movement, creando sfide significative per le architetture di calcolo tradizionali. Per migliorare l'efficienza del calcolo, una possibile soluzione è l'adozione di hardware specializzati, come le architetture basate su ReRAM. Questa tecnologia consente di eseguire i calcoli direttamente nella memoria, riducendo i bottleneck legati al trasferimento dei dati e aumentando l'efficienza di calcolo, rendendola particolarmente adatta per accelerare i carichi di lavoro nel deep learning. In particolare, questo lavoro si concentra sull'ottimizzazione delle Reti Neurali Convoluzionali (CNN). A differenza delle architetture convenzionali, la ReRAM permette di eseguire le operazioni vicino alla memoria, con un notevole miglioramento dell'efficienza energetica e delle prestazioni. Tuttavia, per sfruttarne appieno il potenziale, le operazioni devono essere strutturate in modo da adattarsi alle specificità di questa architettura più specializzata. Questa tesi introduce una nuova versione del convolution transformation pass all'interno del compilatore RAPTOR, sostituendo l'approccio precedente con una soluzione più modulare, chiara, e facilmente estendibile. La nuova implementazione gestisce in modo più efficace la distribuzione dei pesi delle convoluzioni tra le crossbar, riducendo il tempo di compilazione. Inoltre, una intermediate representation (IR) più compatta e leggibile semplifica il debug e rende più chiara la struttura logica dell'operazione. È stato inoltre introdotto un meccanismo di validazione automatizzato, che verifica la correttezza del codice generato simulando le operazioni, gli accessi alla memoria e la comunicazione tra i core. I miglioramenti proposti rappresentano un passo avanti nell'accelerazione del deep learning su architetture ReRAM, offrendo un framework di compilazione più manutenibile e adattabile a future ottimizzazioni ed estensioni.