Design of energy-efficient neural network accelerators with embedded phase change memory devices

AI and Neural networks are experiencing unrestricted growth in both public adoption and size. While we begin to glimpse the great capability, potential, and impact these algorithms may have on the social fabric of our times, a closer look shows that there is no free lunch in life, and the forever-growing neural network models hide in plain sight an unprecedented energy demand. This novel, still evolving, and fastly growing computing application happens in conjunction with a constantly slowing evolution rate of traditional computing architectures. Among the many reasons behind this deceleration, the most evident are the (long) end of Moore’s law, the rapidly increasing cost behind further technology node scaling, and an intrinsic difficulty in optimizing the traditional von Neumann architecture to the newly emerged data-intensive applications. In this framework, the new paradigm of in-memory computing (IMC) finds its place as a promising candidate to complement the traditional architectures, accelerating those computations that are so expensive on typical machines yet so requested. IMC is made possible thanks to the flourishing research on emerging nonvolatile memory devices that can be organized in crosspoint arrays, memory matrices with high integration density, low- power, and highly parallel structures that enable trivial analog computation of matrix- vector multiplication, the main building blocks of the whole neural network framework. As with almost everything in electronics, as we move further from an idea and get closer to a practical implementation, an infinite series of undesired and parasitic effects start polluting the outcome, complicating the task. In-memory computing is not exempt from such problems, and indeed, between the nonide- alities of the memory devices, the circuital limitations, and the algorithmic compatibility issues, the task of developing a standard-setting and fully-featured IMC accelerator is still far from completion, despite the high amount of interest revolving around it. In this scenario, this doctoral thesis ultimately focuses on the design and development of a fully-custom PCM-based ASIC for IMC acceleration, but before that, it retraces all the discussions and analysis starting from PCM devices and their programming algorithms, a differential readout scheme proposal that eventually has seen the light as another testchip, and the description of an analog-to-digital readout chain that was at the core of the last ASIC. The research work tackled various challenges of the in-memory computing paradigm, exploring and addressing them from different standpoints, pivoting and exploiting the intrinsic multidisciplinarity of the field.

L'intelligenza artificiale e le reti neurali stanno vivendo una crescita senza precedenti, sia in termini di diffusione che di dimensioni. Mentre si iniziano a intravedere l'immenso potenziale e impatto che tali algoritmi possono esercitare sulle nostre vite, si scorgono anche delle grandi necessita’ in termini di potenza di calcolo e consumo di energia. Questo ambito, pur essendo nuovo e in rapido sviluppo, si confronta con il progressivo rallentamento dell'evoluzione delle architetture informatiche tradizionali. Tra le principali cause di tale decelerazione si annoverano la (prolungata) fine della legge di Moore, l'aumento vertiginoso dei costi per il continuo scaling dei nodi tecnologici e la difficoltà intrinseca di adattare l'architettura von Neumann alle moderne applicazioni. In questo contesto, il paradigma del calcolo in memoria (in-memory computing - IMC) emerge come un promettente complemento alle architetture tradizionali, in grado di accelerare quei calcoli particolarmente onerosi ma sempre più richiesti. L'IMC è reso possibile dal fiorire della ricerca sui dispositivi emergenti di memoria non volatile organizzabili in matrici crosspoint: matrici di memoria ad alta densità, a basso consumo energetico e altamente parallele, che consentono in modo naturale il calcolo analogico della moltiplicazione matrice-vettore, operazione alla base delle reti neurali. Come avviene in quasi tutti gli ambiti dell'elettronica, il passaggio dall'idea all'implementazione pratica porta con sé una lunga serie di effetti indesiderati che complicano il compito. Il calcolo in memoria non fa eccezione: tra le imperfezioni dei dispositivi di memoria, le limitazioni circuitali e le problematiche di compatibilità degli algoritmi, lo sviluppo di un acceleratore IMC completo e compatibile con i framework software esistenti è ancora lontano dall'essere realizzato, nonostante l'elevato interesse che questo settore suscita. In questo scenario, la presente tesi di dottorato si concentra sulla progettazione e lo sviluppo di un circuito integrato basato su memorie a cambiamento di fase (PCM) per l'accelerazione IMC. Il lavoro ripercorre le discussioni e le analisi sui dispositivi PCM e i loro algoritmi di programmazione, propone uno schema di lettura differenziale, da cui e’ scaturita la realizzazione di un testchip, e descrive una catena di lettura analogico-digitale innovativa, elemento centrale dell'ultimo ASIC sviluppato. Il lavoro di ricerca ha affrontato le diverse sfide del calcolo in memoria, esplorandole e analizzandole da molteplici punti di vista, sfruttando e valorizzando la multidisciplinarietà intrinseca del settore.