In the recent years, the explosion of Artificial Intelligence (AI) is a never-stopping trend aiming to develop machines with human-like behavior. Part of its success has been the outstanding evolution of Deep Learning models, which has been considered one of the most important technological breakthroughs of the twenty-first century thanks to the availability of massive amount of data. This development has been made possible by the parallel evolution of hardware systems where such models could be used efficiently, such as General-Purpose Graphical Processing Units (GPGPU), striving to break the insufficient performance of Central Processing Units (CPUs). It has been understood that specialized hardware is key to evaluate complex deep learning models, specifically by employing ad-hoc architectures with highly-parallel computational units, at the cost of significant power consumption. In this regard, research has been concentrated on achieving high-performance levels through massive parallelism while retaining low power budgets, taking inspiration from the way human brains processes information with very limited power. One of the key understandings is that a significant degradation comes from the physical separation of the data and processing units, where a critical amount of time is spent solely transferring data between the two. In-memory computing aims to break this link by entirely avoiding this continuous process and performing the computation within the memory. This in-situ computation may be achieved by exploiting emerging memories employed in an analog-like behavior to perform deep learning models common operations, namely the matrix-vector multiplication; following this path, massive parallelization at remarkably reduced power is envisioned. The use of these emerging memories however brings also some key challenges due to the non-linearities these devices face arising from the physical mechanisms within the cell, which may influence the capabilities of the neural network model. In this thesis work, it has been evaluated the role of such device-specific non-idealities on two widely known neural network models, focusing on phase-change memories (PCMs). Two architectures of PCMs have been considered to assess their relative performance. Such cells have been modeled from internal data available within STMicroelectronics, and these models have then been implemented in the IBM AIHWKIT (Artificial Intelligence Hardware Kit), a platform in the context of AIMC where deep learning models are simulated accounting for device and system non-idealities. The models have been specifically trained in a Hardware-Aware manner to increase their robustness against these unwanted effects. Different analysis have been carried out to investigate the complete behavior of the systems, as well as isolating the single sources of non-idealities to commensurate their impact.

Negli ultimi anni, l'esplosione dell'Intelligenza Artificiale rappresenta un fenomeno inesorabile col progetto di sviluppare macchine capaci di comportamenti analoghi a quelli umani. Parte del suo successo è stato il considerevole sviluppo nel Deep Learning, considerato una delle più importanti innovazioni del ventunesimo secolo, alimentato dalla enorme quantità di dati oggigiorno disponibili. Questo sviluppo è stato reso possibile dallo sviluppo in parallelo di sistemi hardware capaci di eseguire tali modelli, come le GPGPU, in quanto le sole CPU non sono in grado di fornire prestazioni sufficienti. È stato dunque accettato il fatto che hardware specializzato a tali computazioni è essenziale per utilizzare tali modelli complessi, in particolare con architetture hardware dedicate con elevatissime capacità di calcolo parallelo, per quanto ciò venga ripagato con significativi consumi di potenza. In questo ambito, la ricerca si è conentrata in realizzare sistemi altamente prestanti mantenendo ciononostante consumi ridotti di potenza. L'ispirazione di ciò proviene dallo stesso cervello umano, capace difatti di eseguire tali operazioni utilzzando quantità di energia decisamente inferiori ai sistemi menzionati. Una delle prospettive più rilevanti di guadagno di prestazioni è l'enorme tempo speso dai sistemi di calcolo convenzionali, in quanto una separazione fisica tra l'elemento di calcolo e quello di memoria determina una continua necessità di accedere a quest'ultimo, che prevede significatve latenze, mentre la computazione in sé risulta essere estremamente veloce; tale fenomeno è noto come limitazione di von-Neumann. L'in-memory computing (computazione in-memoria) si prefige di eliminare tale vincolo eseguendo il calcolo contestualmente nella memoria. Ciò può essere fatto esplornando dispositivi emergenti di memoria che, impiegati in una visione analogica, permettono di eseguire le operazioni tipiche del deep learning (quali il prodotto matrice-vettore) in tempi estremamente ridotti e su scale estremamente parallele. Tuttavia, tali dispositivi esibiscono allo stesso tempo delle non-idealità che nascono dal funzionamento intrinseco del dispositivo, che possono deturpare le prestazioni della rete neurale implementata. In questo lavoro di tesi, il ruolo di tali non-idealità, specificamente provenienti da memorie a cambiamento di fase, è stato valutato su due tipologie di reti neurali ampliamente note in letteratura. Due architetture di memorie a cambiamento di fase sono state considerate, allo scopo di valutare le loro prestazioni individuali. Tali celle sono state modellate a partire dai dati sperimentali presenti internamente in STMicroelectronics, e tali modelli sono stati implementati nel IBM AIHWKIT, una piattaforma che permette di simulare reti neurali nel contesto dell'AIMC considerando le non-idealità che presentano sia le singole celle sia dispositivi di sistema. Le reti neurali sono state addestrate con una metodologia hardware-aware, al fine di incrementare la robustezza del modello rispetto alle non-idealità presenti. Diverse analisi sono state condotte per investigare il comportamento complessivo del sistema, unitamente isolando le singole non-idealità per commensurare il loro impatto relativo.

Analysis and performance evaluation of deep neural networks on phase-change memory devices

Ingenito, Edmondo
2022/2023

Abstract

In the recent years, the explosion of Artificial Intelligence (AI) is a never-stopping trend aiming to develop machines with human-like behavior. Part of its success has been the outstanding evolution of Deep Learning models, which has been considered one of the most important technological breakthroughs of the twenty-first century thanks to the availability of massive amount of data. This development has been made possible by the parallel evolution of hardware systems where such models could be used efficiently, such as General-Purpose Graphical Processing Units (GPGPU), striving to break the insufficient performance of Central Processing Units (CPUs). It has been understood that specialized hardware is key to evaluate complex deep learning models, specifically by employing ad-hoc architectures with highly-parallel computational units, at the cost of significant power consumption. In this regard, research has been concentrated on achieving high-performance levels through massive parallelism while retaining low power budgets, taking inspiration from the way human brains processes information with very limited power. One of the key understandings is that a significant degradation comes from the physical separation of the data and processing units, where a critical amount of time is spent solely transferring data between the two. In-memory computing aims to break this link by entirely avoiding this continuous process and performing the computation within the memory. This in-situ computation may be achieved by exploiting emerging memories employed in an analog-like behavior to perform deep learning models common operations, namely the matrix-vector multiplication; following this path, massive parallelization at remarkably reduced power is envisioned. The use of these emerging memories however brings also some key challenges due to the non-linearities these devices face arising from the physical mechanisms within the cell, which may influence the capabilities of the neural network model. In this thesis work, it has been evaluated the role of such device-specific non-idealities on two widely known neural network models, focusing on phase-change memories (PCMs). Two architectures of PCMs have been considered to assess their relative performance. Such cells have been modeled from internal data available within STMicroelectronics, and these models have then been implemented in the IBM AIHWKIT (Artificial Intelligence Hardware Kit), a platform in the context of AIMC where deep learning models are simulated accounting for device and system non-idealities. The models have been specifically trained in a Hardware-Aware manner to increase their robustness against these unwanted effects. Different analysis have been carried out to investigate the complete behavior of the systems, as well as isolating the single sources of non-idealities to commensurate their impact.
Laurin, Luca
BALDO, MATTEO
ING - Scuola di Ingegneria Industriale e dell'Informazione
9-apr-2024
2022/2023
Negli ultimi anni, l'esplosione dell'Intelligenza Artificiale rappresenta un fenomeno inesorabile col progetto di sviluppare macchine capaci di comportamenti analoghi a quelli umani. Parte del suo successo è stato il considerevole sviluppo nel Deep Learning, considerato una delle più importanti innovazioni del ventunesimo secolo, alimentato dalla enorme quantità di dati oggigiorno disponibili. Questo sviluppo è stato reso possibile dallo sviluppo in parallelo di sistemi hardware capaci di eseguire tali modelli, come le GPGPU, in quanto le sole CPU non sono in grado di fornire prestazioni sufficienti. È stato dunque accettato il fatto che hardware specializzato a tali computazioni è essenziale per utilizzare tali modelli complessi, in particolare con architetture hardware dedicate con elevatissime capacità di calcolo parallelo, per quanto ciò venga ripagato con significativi consumi di potenza. In questo ambito, la ricerca si è conentrata in realizzare sistemi altamente prestanti mantenendo ciononostante consumi ridotti di potenza. L'ispirazione di ciò proviene dallo stesso cervello umano, capace difatti di eseguire tali operazioni utilzzando quantità di energia decisamente inferiori ai sistemi menzionati. Una delle prospettive più rilevanti di guadagno di prestazioni è l'enorme tempo speso dai sistemi di calcolo convenzionali, in quanto una separazione fisica tra l'elemento di calcolo e quello di memoria determina una continua necessità di accedere a quest'ultimo, che prevede significatve latenze, mentre la computazione in sé risulta essere estremamente veloce; tale fenomeno è noto come limitazione di von-Neumann. L'in-memory computing (computazione in-memoria) si prefige di eliminare tale vincolo eseguendo il calcolo contestualmente nella memoria. Ciò può essere fatto esplornando dispositivi emergenti di memoria che, impiegati in una visione analogica, permettono di eseguire le operazioni tipiche del deep learning (quali il prodotto matrice-vettore) in tempi estremamente ridotti e su scale estremamente parallele. Tuttavia, tali dispositivi esibiscono allo stesso tempo delle non-idealità che nascono dal funzionamento intrinseco del dispositivo, che possono deturpare le prestazioni della rete neurale implementata. In questo lavoro di tesi, il ruolo di tali non-idealità, specificamente provenienti da memorie a cambiamento di fase, è stato valutato su due tipologie di reti neurali ampliamente note in letteratura. Due architetture di memorie a cambiamento di fase sono state considerate, allo scopo di valutare le loro prestazioni individuali. Tali celle sono state modellate a partire dai dati sperimentali presenti internamente in STMicroelectronics, e tali modelli sono stati implementati nel IBM AIHWKIT, una piattaforma che permette di simulare reti neurali nel contesto dell'AIMC considerando le non-idealità che presentano sia le singole celle sia dispositivi di sistema. Le reti neurali sono state addestrate con una metodologia hardware-aware, al fine di incrementare la robustezza del modello rispetto alle non-idealità presenti. Diverse analisi sono state condotte per investigare il comportamento complessivo del sistema, unitamente isolando le singole non-idealità per commensurare il loro impatto relativo.
File allegati
File Dimensione Formato  
Thesis.pdf

non accessibile

Descrizione: Tesi LM Edmondo Ingenito
Dimensione 9.1 MB
Formato Adobe PDF
9.1 MB Adobe PDF   Visualizza/Apri
Executive_Summary_Edmondo_Ingenito.pdf

non accessibile

Descrizione: Executive Summary Edmondo Ingenito
Dimensione 1.84 MB
Formato Adobe PDF
1.84 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/219527