With the advent of the Internet-Of-Things and with the ever-growing number of people gaining the possibility to purchase smartphones and tablets capable to store a large amount of photo, video, music and applications in a single portable device, the global amount of data has increased exponentially, which raises strong requirements in terms of energy efficiency and processing speed for data analysis. To satisfy these requirements, the computing performance of modern computers has increased steadily in the past few decades thanks to the scaling down of the transistor dimensions and the consequent higher density of information being stored in the same area, as predicted by Moore's law. The downscaling is now approaching its natural end mainly due to the increasing leakage of the complementary metal-oxide-semiconductor (CMOS) transistors due to their extreme miniaturization. The operating frequency of each transistor has already reached an upper limit set by the maximum acceptable power dissipation, preventing further speed improvement at the device level to avoid an excessive temperature increase of the chip. If on one side we have reached a limit on data transport speed due to the transistors, on the other side we have to consider that there is an additional limit imposed by the fact that conventional computing systems are based on the von Neumann architecture, where memory and processing units are physically separated, which leads to an additional inevitable bottleneck due to the necessary data movement between the two separated units, which causes significant latency and energy consumption. This latency becomes significantly enormous when operation must be repeated thousand or million of times, as happens to tensor products and matrix multiplications, where the operation between the elements of the matrices cannot be done in parallel but only one after the other, finally collecting all the results. Alternative in-memory computing approaches are becoming increasingly attractive to develop novel logics and neuromorphic computations in order to overcome Von Neumann bottleneck issues. Indeed, typical operations like image learning, pattern recognition and decision exhibit high computational cost for boolean CMOS processors, while, for human brain, they represent elementary processes. In this scenario, the development of new devices designed specifically for neuromorphic computing could enable high density and low power networks in order to properly operate learning and recognition tasks. Among the various emerging memories, also know as memristors, resistive switching memories appear as one of the most promising technologies for in-memory computing, thanks to the CMOS-compatible fabrication process, the small area and the analog programming. Differently from conventional memories based on transistors, able to store binary values only, as 1 (transistor in pass mode) and 0 (transistor switched off), memristors can store information in the electrical properties, as the resistance (or conductance) for example, in an analog way. This feature plays a crucial role to disclose new computational paradigms, as analog multiplications based on the Ohm's low between the programmed conductance (encoding one of the two multiplication factors) and the input voltage (linked to the other factor). Moreover, by organizing these memories in a matrix configuration, also known as crosspoint architecture, the matrix-vector multiplication is performed in one step only, carrying out all the single elements multiplications simultaneously exploiting the Kirchhoff's low. Because of the novelty, problems of reliability and integration with existing technologies affect the emerging memories and further studies are required to overcome the limits by optimizing the materials and their responses, the fabrication steps to be implemented in nowadays process flows and developing architecture designs and algorithms to exploit the innovative features and the strong parallelism of the physical multiplication. In this scenario, this Doctoral Dissertation focuses on the topic of RRAMs for high-density crosspoint arrays, starting from their fabrication, through characterization of single devices up to the development of proof-of-concept experiments in the field of in-memory computing, hardware accelerators and brain-inspired architecture. In particular, the problem of materials will be addressed to assess the impact of the various combinations, in terms of electrical responses, performances and reliability.

Con l'avvento dell'Internet-Of-Things (IoT) e del sempre più crescente numero di persone con un dispositivo collegato alla rete, come tablet e telefoni, capaci di produrre e immagazzinare foto, video e altri dati, la richiesta di server e potenza computazionale ha messo a dura prova le tecnologie attuali e concetti come l'efficienza energetica e la velocità di processo sono diventati di primaria importanza. Per soddisfare tali richieste, le performance dei computer sono cresciute esponenzialmente negli scorsi decenni grazie alla miniaturizzazione dei transistor e conseguente incremento della densità di memoria per contenere i dati, come predetto dalla legge di Moore. La miniaturizzazione ha però raggiunto il limite ultimo, soprattutto a causa della corrente di leakage, o corrente di perdita, dei transistor realizzati con il processo metallo-ossido-semiconduttore (CMOS) e della sottigliezza dell'ossido del gate. Dall'altro lato la frequenza operativa dei transistor ha raggiunto l'apice, tenendo in considerazione che all'aumentare della frequenza il calore da dissipare aumenta e la temperatura dei chip non può salire arbitrariamente. Se da un lato si raggiunto un limite alla velocità di trasporto dei dati a causa dei transistor, dall'altro bisogna considerare che esiste un limite aggiuntivo imposto dal fatto che i sistemi di calcolo convenzionali si basano sull'architettura von Neumann, dove le unità di memoria e di elaborazione sono fisicamente separate, il che porta ad un ulteriore inevitabile collo di bottiglia a causa del necessario e continuo movimento dei dati tra le due unità separate, che causa una notevole latenza e consumo di energia. Questa latenza diventa significativamente enorme quando il trasferimento dei dati deve essere ripetuto milioni o miliardi di volte, come accade per le moltiplicazioni di matrice e i prodotti tensoriali, dove l'operazione tra gli elementi delle matrici non può essere fatta in parallelo ma solo uno dopo l'altro, raccogliendo tutti i risultati solo alla fine. Approcci alternativi stanno diventando sempre più attraenti per sviluppare nuove architetture e nuovi paradigmi capaci di superare i problemi delle tecnologie attuali. Infatti, le operazioni tipiche come l'apprendimento delle immagini, il riconoscimento dei modelli e la classificazione dei fai richiedono un elevato costo computazionale per le architetture classiche, mentre, per il cervello umano, rappresentano processi elementari. Il così detto calcolo in memoria combina elementi di memoria che non solo sono in grado di contenere informazioni ma anche di poterle processare nello stesso luogo mentre le architetture neuromorfiche cercano di replicare i processi che avvengono nel nostro cervello, al fine di velocizzare l'analisi di grandi quantità di dati. Tra le varie memorie emergenti, note anche come memristori, le memorie resistive appaiono le più promettenti per il calcolo in memoria, grazie al processo di fabbricazione compatibile con CMOS, alla possibilità di miniaturizzarle fino alla scala nanometrica e alla possibilità di codificare valori analogici invece che binari. Diversamente dalle classiche memorie basate sui transistor, capaci di assumere solamente i valori binari di accesa (bit 1) o spenta (bit 0), i memristori possono codificare l'informazione nelle proprietà elettriche, come la resistenza (o conduttanza) che puo assumere valori continui all'interno di una finestra tra un valore massimo e uno minimo. Questa caratteristica apre la strada al design di nuovi tipi di paradgmi computazionali, che superano i limiti delle tradizionali architetture moderne come nel caso del prodotto matrice vettore. Questa operazione matematica è oggigiorno una delle più dispendiose in termini di energia e tempo, ma attraverso i memristori può essere eseguita in un solo colpo di clock sfruttando un organizzazione a matrice e le semplici leggi di Ohm e di Kirchhoff. Prima di poter essere integrati con le tecnologie già esistenti, questi dispositivi devo ancora essere ottimizzati e molti studi sono ancora necessari per superare tutti quei limiti che caratterizzano i dispositivi emergenti. In questo contesto, la seguente Tesi di Dottorato si incentra sui dispositivi a switching resistivo partendo dalla fabbricazione in cleanroom e ottimizzazione del singolo dispositivo fino ad arrivare alla realizzazione di piccoli dimostratori nel campo calcolo in memoria, degli acceleratori e delle architetture ispirate al cervello umano. Lo studio dei materiali e di come si interfacciano tra loro è il cuore portante di questa ricerca, visto come passo fondamentale per l'ottimizzazione dei dispositivi in termini di comportamento elettronico, affidabilità e potenzialità.

Development of crosspoint memory arrays for neuromorphic computing

Ricci, Saverio
2022/2023

Abstract

With the advent of the Internet-Of-Things and with the ever-growing number of people gaining the possibility to purchase smartphones and tablets capable to store a large amount of photo, video, music and applications in a single portable device, the global amount of data has increased exponentially, which raises strong requirements in terms of energy efficiency and processing speed for data analysis. To satisfy these requirements, the computing performance of modern computers has increased steadily in the past few decades thanks to the scaling down of the transistor dimensions and the consequent higher density of information being stored in the same area, as predicted by Moore's law. The downscaling is now approaching its natural end mainly due to the increasing leakage of the complementary metal-oxide-semiconductor (CMOS) transistors due to their extreme miniaturization. The operating frequency of each transistor has already reached an upper limit set by the maximum acceptable power dissipation, preventing further speed improvement at the device level to avoid an excessive temperature increase of the chip. If on one side we have reached a limit on data transport speed due to the transistors, on the other side we have to consider that there is an additional limit imposed by the fact that conventional computing systems are based on the von Neumann architecture, where memory and processing units are physically separated, which leads to an additional inevitable bottleneck due to the necessary data movement between the two separated units, which causes significant latency and energy consumption. This latency becomes significantly enormous when operation must be repeated thousand or million of times, as happens to tensor products and matrix multiplications, where the operation between the elements of the matrices cannot be done in parallel but only one after the other, finally collecting all the results. Alternative in-memory computing approaches are becoming increasingly attractive to develop novel logics and neuromorphic computations in order to overcome Von Neumann bottleneck issues. Indeed, typical operations like image learning, pattern recognition and decision exhibit high computational cost for boolean CMOS processors, while, for human brain, they represent elementary processes. In this scenario, the development of new devices designed specifically for neuromorphic computing could enable high density and low power networks in order to properly operate learning and recognition tasks. Among the various emerging memories, also know as memristors, resistive switching memories appear as one of the most promising technologies for in-memory computing, thanks to the CMOS-compatible fabrication process, the small area and the analog programming. Differently from conventional memories based on transistors, able to store binary values only, as 1 (transistor in pass mode) and 0 (transistor switched off), memristors can store information in the electrical properties, as the resistance (or conductance) for example, in an analog way. This feature plays a crucial role to disclose new computational paradigms, as analog multiplications based on the Ohm's low between the programmed conductance (encoding one of the two multiplication factors) and the input voltage (linked to the other factor). Moreover, by organizing these memories in a matrix configuration, also known as crosspoint architecture, the matrix-vector multiplication is performed in one step only, carrying out all the single elements multiplications simultaneously exploiting the Kirchhoff's low. Because of the novelty, problems of reliability and integration with existing technologies affect the emerging memories and further studies are required to overcome the limits by optimizing the materials and their responses, the fabrication steps to be implemented in nowadays process flows and developing architecture designs and algorithms to exploit the innovative features and the strong parallelism of the physical multiplication. In this scenario, this Doctoral Dissertation focuses on the topic of RRAMs for high-density crosspoint arrays, starting from their fabrication, through characterization of single devices up to the development of proof-of-concept experiments in the field of in-memory computing, hardware accelerators and brain-inspired architecture. In particular, the problem of materials will be addressed to assess the impact of the various combinations, in terms of electrical responses, performances and reliability.
PIRODDI, LUIGI
GERACI, ANGELO
13-mar-2023
Development of crosspoint memory arrays for neuromorphic computing
Con l'avvento dell'Internet-Of-Things (IoT) e del sempre più crescente numero di persone con un dispositivo collegato alla rete, come tablet e telefoni, capaci di produrre e immagazzinare foto, video e altri dati, la richiesta di server e potenza computazionale ha messo a dura prova le tecnologie attuali e concetti come l'efficienza energetica e la velocità di processo sono diventati di primaria importanza. Per soddisfare tali richieste, le performance dei computer sono cresciute esponenzialmente negli scorsi decenni grazie alla miniaturizzazione dei transistor e conseguente incremento della densità di memoria per contenere i dati, come predetto dalla legge di Moore. La miniaturizzazione ha però raggiunto il limite ultimo, soprattutto a causa della corrente di leakage, o corrente di perdita, dei transistor realizzati con il processo metallo-ossido-semiconduttore (CMOS) e della sottigliezza dell'ossido del gate. Dall'altro lato la frequenza operativa dei transistor ha raggiunto l'apice, tenendo in considerazione che all'aumentare della frequenza il calore da dissipare aumenta e la temperatura dei chip non può salire arbitrariamente. Se da un lato si raggiunto un limite alla velocità di trasporto dei dati a causa dei transistor, dall'altro bisogna considerare che esiste un limite aggiuntivo imposto dal fatto che i sistemi di calcolo convenzionali si basano sull'architettura von Neumann, dove le unità di memoria e di elaborazione sono fisicamente separate, il che porta ad un ulteriore inevitabile collo di bottiglia a causa del necessario e continuo movimento dei dati tra le due unità separate, che causa una notevole latenza e consumo di energia. Questa latenza diventa significativamente enorme quando il trasferimento dei dati deve essere ripetuto milioni o miliardi di volte, come accade per le moltiplicazioni di matrice e i prodotti tensoriali, dove l'operazione tra gli elementi delle matrici non può essere fatta in parallelo ma solo uno dopo l'altro, raccogliendo tutti i risultati solo alla fine. Approcci alternativi stanno diventando sempre più attraenti per sviluppare nuove architetture e nuovi paradigmi capaci di superare i problemi delle tecnologie attuali. Infatti, le operazioni tipiche come l'apprendimento delle immagini, il riconoscimento dei modelli e la classificazione dei fai richiedono un elevato costo computazionale per le architetture classiche, mentre, per il cervello umano, rappresentano processi elementari. Il così detto calcolo in memoria combina elementi di memoria che non solo sono in grado di contenere informazioni ma anche di poterle processare nello stesso luogo mentre le architetture neuromorfiche cercano di replicare i processi che avvengono nel nostro cervello, al fine di velocizzare l'analisi di grandi quantità di dati. Tra le varie memorie emergenti, note anche come memristori, le memorie resistive appaiono le più promettenti per il calcolo in memoria, grazie al processo di fabbricazione compatibile con CMOS, alla possibilità di miniaturizzarle fino alla scala nanometrica e alla possibilità di codificare valori analogici invece che binari. Diversamente dalle classiche memorie basate sui transistor, capaci di assumere solamente i valori binari di accesa (bit 1) o spenta (bit 0), i memristori possono codificare l'informazione nelle proprietà elettriche, come la resistenza (o conduttanza) che puo assumere valori continui all'interno di una finestra tra un valore massimo e uno minimo. Questa caratteristica apre la strada al design di nuovi tipi di paradgmi computazionali, che superano i limiti delle tradizionali architetture moderne come nel caso del prodotto matrice vettore. Questa operazione matematica è oggigiorno una delle più dispendiose in termini di energia e tempo, ma attraverso i memristori può essere eseguita in un solo colpo di clock sfruttando un organizzazione a matrice e le semplici leggi di Ohm e di Kirchhoff. Prima di poter essere integrati con le tecnologie già esistenti, questi dispositivi devo ancora essere ottimizzati e molti studi sono ancora necessari per superare tutti quei limiti che caratterizzano i dispositivi emergenti. In questo contesto, la seguente Tesi di Dottorato si incentra sui dispositivi a switching resistivo partendo dalla fabbricazione in cleanroom e ottimizzazione del singolo dispositivo fino ad arrivare alla realizzazione di piccoli dimostratori nel campo calcolo in memoria, degli acceleratori e delle architetture ispirate al cervello umano. Lo studio dei materiali e di come si interfacciano tra loro è il cuore portante di questa ricerca, visto come passo fondamentale per l'ottimizzazione dei dispositivi in termini di comportamento elettronico, affidabilità e potenzialità.
File allegati
File Dimensione Formato  
PhD_Ricci.pdf

non accessibile

Descrizione: PhD dissertation
Dimensione 96.21 MB
Formato Adobe PDF
96.21 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/197050