The impact that Deep Learning, as the most prominent subfield of AI, is having on our lives is already profound, and it is increasing week after week. However, with the end of Moore’s law for transistor scaling and the rise of other physical bottlenecks, traditional computers based on von Neumann architecture seem unable to withstand the extraordinary pace of AI growth in the long term, risking a sudden brake for the exploding energy consumption. In this framework, in-memory analog computing based on emerging memory technologies represents a potentially disruptive paradigm shift, that promises to satisfy the requirements of Deep Learning workloads, allowing to overcome the massive inefficiency of data transfer while further boosting the integration density and parallelism. Crosspoint arrays, which are a computing architecture based on a properly routed matrix of analog programmable memories, are key players in the expansion of the in-memory computing paradigm, thanks to their demonstrated integration density, low power consumption, and the ability to perform matrix operation with low latency and high throughput. Clearly, several challenges lie in the path toward full technology maturity and mass diffusion. When considering workloads and computing architectures of relevant sizes, nonidealities such as parasitic resistances along wires (IR drop), device and process variations, peripheral circuitry overhead, and workload partitioning issues become significant and potential showstoppers. In this scenario, this doctoral thesis mainly focuses on three directions of investigation, namely analysis and compensation of parasitic effects, exploration of memory devices, and circuital implementation. Concerning parasitic effects, a thorough study was carried out to understand, model, and assess various parasitic effects, enabling the development of compensation techniques involving architectural or algorithmic solutions. At device level, a subthreshold operated one-selector/one-resistor memory element was characterized, modeled, and validated for the application, showing outstanding resilience against parasitic IR drop. At circuital level, a PCM-based ASIC accelerator of Deep Learning inference was conceived, designed, and delivered for the tapeout, relying on an ad hoc computing architecture and embedding features that will help to further investigate circuital and device solutions. The research work tackled various challenges of the in-memory computing paradigm, exploring and addressing them from different standpoints, pivoting and exploiting the intrinsic multidisciplinarity of the field.
L'impatto che il Deep Learning, ramo più in vista dell'intelligenza artificiale (IA), sta avendo sulle nostre vite è già profondo, e aumenta visibilmente settimana dopo settimana. Tuttavia, con la fine della legge di Moore che dettava il ritmo della miniaturizzazione nei semiconduttori e l'insorgere di altre limitazioni di carattere fisico, i calcolatori tradizionali basati sull'architettura di von Neumann non sembrano poter reggere il ritmo straordinario della crescita dell'IA nel lungo periodo, rischiando di subire una brusca frenata a cause dell'aumento vertiginoso del consumo energetico. A fronte di ciò, il calcolo in memoria analogico basato su dispositivi di memoria emergenti rappresenta un cambio di paradigma potenzialmente rivoluzionario, che promette di soddisfare i requisiti dei carichi di lavoro del Deep Learning, consentendo di superare l'inefficienza dovuta al continuo trasferimento di dati e al tempo stesso di aumentare la densità di integrazione e il parallelismo. I crosspoint array, cioè un'architettura di calcolo in memoria basata su una matrice di memorie analogiche programmabili, sono attori chiave nell'espansione del paradigma del calcolo in memoria, grazie alla loro dimostrata densità di integrazione, al basso consumo energetico e alla capacità di eseguire operazioni matriciali con bassa latenza e alto throughput. D'altro canto, diversi problemi si presentano lungo il percorso verso la piena maturità tecnologica e la diffusione della tecnologia. Quando si prendono in considerazioni carichi di lavoro e architetture di calcolo di dimensioni rilevanti, alcune non idealità come le resistenze parassite lungo i fili (cosiddetto IR drop), le variabilità di dispositivi e processi, l'overhead dovuto alla circuiteria periferica e i problemi di partizionamento del carico diventano limitazioni significative e talvolta definitive. In questo contesto, questa tesi di dottorato si concentra principalmente su tre filoni di ricerca, vale a dire l'analisi e compensazione dei principali parassitismi, l'esplorazione di dispositivi di memoria e l'implementazione circuitale. Riguardo ai parassitismi, uno studio approfondito è stata condotto per comprendere, modellizzare e valutare vari effetti parassiti, consentendo lo sviluppo di tecniche di compensazione basate su soluzioni architetturali o algoritmiche. A livello di dispositivo, un elemento di memoria composto da un selettore e un resistore programmabile, operato in regime di sottosoglia, è stato caratterizzato, modellizzato e validato nel contesto dell'applicazione di accelerazione d'inferenza, dimostrando una immunità quasi totale rispetto all'IR drop parassita. A livello circuitale, un acceleratore ASIC di inferenza basato su memorie a cambio di fase (PCM) è stata ideato, progettato e finalizzato per il tapeout. L'acceleratore si basa su un'architettura di calcolo ad hoc e integra varie funzionalità di riconfigurazione ed esplorazione che saranno utili nella ricerca di ulteriori soluzioni circuitali e di dispositivo. Il lavoro di ricerca si è concentrato su varie limitazioni e sfide poste dal paradigma del calcolo in memoria, analizzandole e affrontandole da diversi punti di vista, facendo leva sulla naturale multidisciplinarietà di questo filone di ricerca.
In-memory analog acceleration of Deep Learning inference
Lepri, Nicola
2023/2024
Abstract
The impact that Deep Learning, as the most prominent subfield of AI, is having on our lives is already profound, and it is increasing week after week. However, with the end of Moore’s law for transistor scaling and the rise of other physical bottlenecks, traditional computers based on von Neumann architecture seem unable to withstand the extraordinary pace of AI growth in the long term, risking a sudden brake for the exploding energy consumption. In this framework, in-memory analog computing based on emerging memory technologies represents a potentially disruptive paradigm shift, that promises to satisfy the requirements of Deep Learning workloads, allowing to overcome the massive inefficiency of data transfer while further boosting the integration density and parallelism. Crosspoint arrays, which are a computing architecture based on a properly routed matrix of analog programmable memories, are key players in the expansion of the in-memory computing paradigm, thanks to their demonstrated integration density, low power consumption, and the ability to perform matrix operation with low latency and high throughput. Clearly, several challenges lie in the path toward full technology maturity and mass diffusion. When considering workloads and computing architectures of relevant sizes, nonidealities such as parasitic resistances along wires (IR drop), device and process variations, peripheral circuitry overhead, and workload partitioning issues become significant and potential showstoppers. In this scenario, this doctoral thesis mainly focuses on three directions of investigation, namely analysis and compensation of parasitic effects, exploration of memory devices, and circuital implementation. Concerning parasitic effects, a thorough study was carried out to understand, model, and assess various parasitic effects, enabling the development of compensation techniques involving architectural or algorithmic solutions. At device level, a subthreshold operated one-selector/one-resistor memory element was characterized, modeled, and validated for the application, showing outstanding resilience against parasitic IR drop. At circuital level, a PCM-based ASIC accelerator of Deep Learning inference was conceived, designed, and delivered for the tapeout, relying on an ad hoc computing architecture and embedding features that will help to further investigate circuital and device solutions. The research work tackled various challenges of the in-memory computing paradigm, exploring and addressing them from different standpoints, pivoting and exploiting the intrinsic multidisciplinarity of the field.File | Dimensione | Formato | |
---|---|---|---|
PhD_Thesis_240219.pdf
non accessibile
Dimensione
46.31 MB
Formato
Adobe PDF
|
46.31 MB | Adobe PDF | Visualizza/Apri |
I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/10589/217056