For over 50 years, performance of computing systems has been growing exponentially, mostly driven by the CMOS technology scaling predicted by Moore's law. However, over the past decade, this trend has been slowing down because of strict physical limitations. At the same time, another limit is becoming more and more important: the memory wall bottleneck due to the traditional Von Neumann architecture. This architecture is characterized by the physical separation between memory and computing unit, causing high latency and high energy consumption in data-extensive applications. These limitations are pushing research towards exploring some innovative architectures that allow increased computing power and efficiency while reducing energy consumption, size, and costs. Among the considered architectures, the concept of IMC has recently attracted great interest. Because of the compelling physical properties of emerging non-volatile memories based on innovative materials such as RRAM, the IMC paradigm allows unifying the storage and elaboration of data inside the same nanometric-sized physical device, enabling the performance of complex algebraic operations such as MVM, leading the way towards new emerging application such as, for example, the hardware implementation of neural networks. To build a hardware neural network, the IMC paradigm uses a matrix of RRAM memory elements in 1T1R configuration that can be selected through a gate line. The conductance programming of each 1T1R cell is done through SET and RESET processes. They consist respectively in forming and breaking a conductive filament between the two metallic electrodes of the device, by applying a sequence of voltage pulses across the cell and to the gate terminal of the transistor. This thesis focuses on the study of multilevel programming variability of a 4kbit HfOx RRAM array under different program/verify algorithms, and proposes a statistical model able to accurately predict the variability seen on the experimental data.

Per oltre 50 anni le prestazioni di calcolo sono cresciute esponenzialmente, grazie allo scaling della tecnologia CMOS predetto dalla legge di Moore. Nell'ultimo decennio però, il processo di miniaturizzazione ha subito un rapido rallentamento a causa del raggiungimento di dimensioni tali da scontrarsi con limiti fisici sempre più stringenti. Inoltre, siccome le applicazioni moderne necessitano di processare una quantità di dati sempre maggiore, a causa della separazione fisica tra unità di calcolo e unità di memoria tipica dell'ormai universalmente utilizzata architettura di Von Neumann, i sistemi odierni sono caratterizzati da un enorme consumo di potenza e da una sempre maggiore latenza. Queste problematiche hanno spinto la ricerca verso lo studio di architetture innovative che consentano di continuare a incrementare la potenza e l'efficienza di calcolo riducendo ulteriormente il consumo energetico, le dimensioni e i costi. Tra i vari schemi presi in considerazione, il concetto di calcolo in memoria (IMC) sta attirando grande interesse. Grazie alle interessanti proprietà fisiche che contraddistinguono le memorie emergenti non-volatili basate su materiali innovativi, come per esempio le memorie a switching resistivo (RRAM), il paradigma IMC prevede di combinare la funzionalità di memorizzazione e di elaborazione in un unico dispositivo fisico. Ciò permette di eseguire complesse operazioni matriciali e apre la strada verso nuove applicazioni emergenti come l'implementazione di reti neurali su hardware. Per facilitare lo studio e la progettazione hardware di reti neurali è quindi importante disporre di un modello analitico basato sulla fisica del dispositivo di memoria capace di riprodurre accuratamente il funzionamento delle singole celle, tenendo conto dell’impatto di non idealità deterministiche e statistiche della matrice, e rimanendo compatto dal punto di vista computazionale. Questo lavoro di tesi si concentra sull'analisi degli algoritmi di programmazione di celle 1T1R e propone un modello analitico compatto in grado di simularne accuratamente il funzionamento.

Statistical model of resistive switching memory arrays for neural network hardware accelerators

Glukhov, Artem
2020/2021

Abstract

For over 50 years, performance of computing systems has been growing exponentially, mostly driven by the CMOS technology scaling predicted by Moore's law. However, over the past decade, this trend has been slowing down because of strict physical limitations. At the same time, another limit is becoming more and more important: the memory wall bottleneck due to the traditional Von Neumann architecture. This architecture is characterized by the physical separation between memory and computing unit, causing high latency and high energy consumption in data-extensive applications. These limitations are pushing research towards exploring some innovative architectures that allow increased computing power and efficiency while reducing energy consumption, size, and costs. Among the considered architectures, the concept of IMC has recently attracted great interest. Because of the compelling physical properties of emerging non-volatile memories based on innovative materials such as RRAM, the IMC paradigm allows unifying the storage and elaboration of data inside the same nanometric-sized physical device, enabling the performance of complex algebraic operations such as MVM, leading the way towards new emerging application such as, for example, the hardware implementation of neural networks. To build a hardware neural network, the IMC paradigm uses a matrix of RRAM memory elements in 1T1R configuration that can be selected through a gate line. The conductance programming of each 1T1R cell is done through SET and RESET processes. They consist respectively in forming and breaking a conductive filament between the two metallic electrodes of the device, by applying a sequence of voltage pulses across the cell and to the gate terminal of the transistor. This thesis focuses on the study of multilevel programming variability of a 4kbit HfOx RRAM array under different program/verify algorithms, and proposes a statistical model able to accurately predict the variability seen on the experimental data.
ING - Scuola di Ingegneria Industriale e dell'Informazione
7-ott-2021
2020/2021
Per oltre 50 anni le prestazioni di calcolo sono cresciute esponenzialmente, grazie allo scaling della tecnologia CMOS predetto dalla legge di Moore. Nell'ultimo decennio però, il processo di miniaturizzazione ha subito un rapido rallentamento a causa del raggiungimento di dimensioni tali da scontrarsi con limiti fisici sempre più stringenti. Inoltre, siccome le applicazioni moderne necessitano di processare una quantità di dati sempre maggiore, a causa della separazione fisica tra unità di calcolo e unità di memoria tipica dell'ormai universalmente utilizzata architettura di Von Neumann, i sistemi odierni sono caratterizzati da un enorme consumo di potenza e da una sempre maggiore latenza. Queste problematiche hanno spinto la ricerca verso lo studio di architetture innovative che consentano di continuare a incrementare la potenza e l'efficienza di calcolo riducendo ulteriormente il consumo energetico, le dimensioni e i costi. Tra i vari schemi presi in considerazione, il concetto di calcolo in memoria (IMC) sta attirando grande interesse. Grazie alle interessanti proprietà fisiche che contraddistinguono le memorie emergenti non-volatili basate su materiali innovativi, come per esempio le memorie a switching resistivo (RRAM), il paradigma IMC prevede di combinare la funzionalità di memorizzazione e di elaborazione in un unico dispositivo fisico. Ciò permette di eseguire complesse operazioni matriciali e apre la strada verso nuove applicazioni emergenti come l'implementazione di reti neurali su hardware. Per facilitare lo studio e la progettazione hardware di reti neurali è quindi importante disporre di un modello analitico basato sulla fisica del dispositivo di memoria capace di riprodurre accuratamente il funzionamento delle singole celle, tenendo conto dell’impatto di non idealità deterministiche e statistiche della matrice, e rimanendo compatto dal punto di vista computazionale. Questo lavoro di tesi si concentra sull'analisi degli algoritmi di programmazione di celle 1T1R e propone un modello analitico compatto in grado di simularne accuratamente il funzionamento.
File allegati
File Dimensione Formato  
2021_10_Glukhov.pdf

accessibile in internet per tutti

Descrizione: Testo della tesi
Dimensione 30.99 MB
Formato Adobe PDF
30.99 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/179498