Technology scaling, manufacturing advances and enhanced design methodologies have driven the increasing integration capability of CMOS devices. Sustainable performance increases, and nowadays chips can host billion transistors and more. Nevertheless, power consumption cannot be overseen, and has to be compromised with performance for optimal operation. As a matter of fact, increasing power density makes devices hotter and less reliable: it is known that 50% of failures in IC designs is due to thermal issues. Thus, thermal/reliability metrics are now set aside to the classical power/performance trade-off. VLSI integration thus relies on the reliability of the circuits itself, and with technology scaling several failure mechanisms are mining the dependability of the system, Negative Bias Temperature Instability (NBTI) representing one of the most serious concern. Mutual influence of these parameters and process variation leads to two types of variability: "time-0" variability and "dynamic" variability. The former refers to the heterogeneity of electrical characteristics among subsets of the devices, and depends basically on manufacturing technology. The latter class, on the other hand, is driven by dynamically changing operating conditions (e.g., temperature and power). These are due to performance and power profiles that adapt to the incoming data and processes. Design-time optimization covers a limited subset of the operating conditions, because of the estimation cost and the inability to predict any application scenario; waiting for the real hardware to be available increases the cost of the design and decreases the probability of optimization success. On the other hand, run-time techniques are useful for dynamic adaptation to changing conditions, but their evaluation is laborious. For these reasons, design-time and run-time choices should provide a joint optimization framework, where tools, methodologies and techniques can be evaluated, estimated and optimized. The design-time domain in this context will then provide estimation capabilities of power, performance, thermal and reliability aspects, such that the output from run-time strategies (again, evaluated using design-time methodologies) lead to a closed-loop rethinking of the strategies, to cover a broader optimization space. The presented research work is driven by this, and solutions are proposed in this direction. Several features that are of utmost importance in the current technology node are addressed: multi-core processors; reliability and aging; estimation and simulation flows.

Il progresso tecnologico e in termini di metodologie di progettazione hanno portato ad un'elevatissima capacità di integrazione di dispositivi CMOS. Al giorno d'oggi i circuiti integrati possono tranquillamente ospitare miliardi di transistor, rendendo possibile applicazioni e prestazioni prima impensbili. Tuttavia, il consumo di potenza non può essere più trascurato, e un funzionamento ottimale dei dispositivi è ora dettato dal compromesso costo/prestazioni. È un dato di fatto che l'aumento della densità di potenza rende i dispositivi più caldi e, di conseguenza, meno affidabili: il 50% dei guasti nei circuiti integrati, in effetti, è causato da problemi termici. Con l'avvento delle tecnologie nanometriche, inoltre, fenomeni fisici come NBTI (Negative-Bias Temperature Instability) rappresentano uno degli scogli maggiori per l'affidabililtà dell'intero dispositivo. Esiste inoltre una stretta e reciproca influenza tra parametri di prestazioni e parametri fisici, e la variabilità dovuta a limitazioni nel processo di fabbricazione porta ad ulteriori problematiche. Da un lato assistiamo ad una eterogeneità delle caratteristiche elettriche tra sottoinsiemi di uno stesso dispositivo, dall'altro, invece, mutevoli condizioni di funzionamento (ad esempio, temperatura e consumo di potenza). L'ottimizzazione del sistema in fase di progetto è assai limitata a causa del costo (e dell'impossibilità) di raggiungere una stima esauriente dei vari scenari di funzionamento; di contro, le analisi fatte direttamente sul campo di interesse aumentano il costo di progettazione, e riducono la probabilità di successo delle ottimizzazioni stesse. Per queste ragioni, le scelte in fase di progettazione e in fase di esecuzione dovrebbe fornire un quadro comune di ottimizzazione, in cui gli strumenti, le metodologie e le tecniche possano essere valutati, stimati e ottimizzati. La fase di progettazione fornirà quindi le capacità di stima quantitativa della potenza, delle prestazioni, di aspetti termici e di affidabilità, in modo tale che a run-time strategie appropriate portino ad un adattamento del sistema stesso alle condizioni di utilizzo. Il lavoro di ricerca presentato è guidato interamente da questo parallelo, e soluzioni innovative vengono proposte in questa direzione. Diverse caratteristiche che sono considerate di massima importanza sono studiate e affrontate: processori multi-core e Network-on-Chip, affidabilità e invecchiamento dei dispositivi microelettronici, flussi di stima e simulazione architetturale.

Exploring thermal and reliability aspects in high performance processors

CORBETTA, SIMONE

Abstract

Technology scaling, manufacturing advances and enhanced design methodologies have driven the increasing integration capability of CMOS devices. Sustainable performance increases, and nowadays chips can host billion transistors and more. Nevertheless, power consumption cannot be overseen, and has to be compromised with performance for optimal operation. As a matter of fact, increasing power density makes devices hotter and less reliable: it is known that 50% of failures in IC designs is due to thermal issues. Thus, thermal/reliability metrics are now set aside to the classical power/performance trade-off. VLSI integration thus relies on the reliability of the circuits itself, and with technology scaling several failure mechanisms are mining the dependability of the system, Negative Bias Temperature Instability (NBTI) representing one of the most serious concern. Mutual influence of these parameters and process variation leads to two types of variability: "time-0" variability and "dynamic" variability. The former refers to the heterogeneity of electrical characteristics among subsets of the devices, and depends basically on manufacturing technology. The latter class, on the other hand, is driven by dynamically changing operating conditions (e.g., temperature and power). These are due to performance and power profiles that adapt to the incoming data and processes. Design-time optimization covers a limited subset of the operating conditions, because of the estimation cost and the inability to predict any application scenario; waiting for the real hardware to be available increases the cost of the design and decreases the probability of optimization success. On the other hand, run-time techniques are useful for dynamic adaptation to changing conditions, but their evaluation is laborious. For these reasons, design-time and run-time choices should provide a joint optimization framework, where tools, methodologies and techniques can be evaluated, estimated and optimized. The design-time domain in this context will then provide estimation capabilities of power, performance, thermal and reliability aspects, such that the output from run-time strategies (again, evaluated using design-time methodologies) lead to a closed-loop rethinking of the strategies, to cover a broader optimization space. The presented research work is driven by this, and solutions are proposed in this direction. Several features that are of utmost importance in the current technology node are addressed: multi-core processors; reliability and aging; estimation and simulation flows.
FIORINI, CARLO ETTORE
ALIPPI, CESARE
28-feb-2013
Il progresso tecnologico e in termini di metodologie di progettazione hanno portato ad un'elevatissima capacità di integrazione di dispositivi CMOS. Al giorno d'oggi i circuiti integrati possono tranquillamente ospitare miliardi di transistor, rendendo possibile applicazioni e prestazioni prima impensbili. Tuttavia, il consumo di potenza non può essere più trascurato, e un funzionamento ottimale dei dispositivi è ora dettato dal compromesso costo/prestazioni. È un dato di fatto che l'aumento della densità di potenza rende i dispositivi più caldi e, di conseguenza, meno affidabili: il 50% dei guasti nei circuiti integrati, in effetti, è causato da problemi termici. Con l'avvento delle tecnologie nanometriche, inoltre, fenomeni fisici come NBTI (Negative-Bias Temperature Instability) rappresentano uno degli scogli maggiori per l'affidabililtà dell'intero dispositivo. Esiste inoltre una stretta e reciproca influenza tra parametri di prestazioni e parametri fisici, e la variabilità dovuta a limitazioni nel processo di fabbricazione porta ad ulteriori problematiche. Da un lato assistiamo ad una eterogeneità delle caratteristiche elettriche tra sottoinsiemi di uno stesso dispositivo, dall'altro, invece, mutevoli condizioni di funzionamento (ad esempio, temperatura e consumo di potenza). L'ottimizzazione del sistema in fase di progetto è assai limitata a causa del costo (e dell'impossibilità) di raggiungere una stima esauriente dei vari scenari di funzionamento; di contro, le analisi fatte direttamente sul campo di interesse aumentano il costo di progettazione, e riducono la probabilità di successo delle ottimizzazioni stesse. Per queste ragioni, le scelte in fase di progettazione e in fase di esecuzione dovrebbe fornire un quadro comune di ottimizzazione, in cui gli strumenti, le metodologie e le tecniche possano essere valutati, stimati e ottimizzati. La fase di progettazione fornirà quindi le capacità di stima quantitativa della potenza, delle prestazioni, di aspetti termici e di affidabilità, in modo tale che a run-time strategie appropriate portino ad un adattamento del sistema stesso alle condizioni di utilizzo. Il lavoro di ricerca presentato è guidato interamente da questo parallelo, e soluzioni innovative vengono proposte in questa direzione. Diverse caratteristiche che sono considerate di massima importanza sono studiate e affrontate: processori multi-core e Network-on-Chip, affidabilità e invecchiamento dei dispositivi microelettronici, flussi di stima e simulazione architetturale.
Tesi di dottorato
File allegati
File Dimensione Formato  
Corbetta.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: PhD thesis
Dimensione 5.43 MB
Formato Adobe PDF
5.43 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/74252