Modern computing systems employ multiple layers of thermal management, ranging from DVFS-based control at the CPU level to the optimization of cooling infrastructure at the data-centre scale. As processor performance continues to increase, the first line of defence, namely on-chip thermal policies, becomes increasingly critical, influencing the behaviour of all upper control layers. A careful and systematic evaluation of such policies is therefore necessary. While cycle-accurate architectural simulators combined with benchmark workloads could in principle enable this analysis, their computational cost is often prohibitive. In this work, we propose an alternative and practically viable methodology: power traces from target applications are first collected under controlled, fixed-frequency conditions and subsequently ``replayed'' under dynamically varying frequencies dictated by the policy under investigation, using only a thermal model of the CPU and the relevant portion of its cooling environment. We validate the approach experimentally, demonstrating its suitability for the design and assessment of thermal management strategies.

I sistemi di computazione moderni sono soggetti a molteplici livelli di gestione termica, che spaziano dal controllo basato su DVFS a livello di CPU fino all'infrastruttura di raffreddamento a livello di data centre. Con l’aumento della potenza di calcolo dei processori, la prima linea di difesa, ovvero le politiche termiche on-chip, assume un ruolo sempre più cruciale e influenza direttamente il comportamento dei livelli di controllo superiori. È pertanto necessaria una valutazione accurata e sistematica di tali politiche. Sebbene simulazioni architetturali cycle-accurate combinate con benchmark applicativi possano teoricamente fornire questo tipo di analisi, il loro costo computazionale risulta spesso proibitivo. In questo lavoro proponiamo un metodo alternativo, pratico ed efficiente: le tracce di potenza delle applicazioni vengono prima acquisite in condizioni controllate a frequenza fissa e successivamente ``ri-eseguite'' con frequenza variabile secondo la politica in esame, impiegando unicamente un modello termico della CPU e della porzione rilevante del suo sistema di raffreddamento. Validiamo sperimentalmente il metodo, mostrando la sua efficacia per la progettazione e la valutazione di strategie di gestione termica.

Efficient modelling of CPU thermal and performance control via power replay

Cerizzi, Davide
2024/2025

Abstract

Modern computing systems employ multiple layers of thermal management, ranging from DVFS-based control at the CPU level to the optimization of cooling infrastructure at the data-centre scale. As processor performance continues to increase, the first line of defence, namely on-chip thermal policies, becomes increasingly critical, influencing the behaviour of all upper control layers. A careful and systematic evaluation of such policies is therefore necessary. While cycle-accurate architectural simulators combined with benchmark workloads could in principle enable this analysis, their computational cost is often prohibitive. In this work, we propose an alternative and practically viable methodology: power traces from target applications are first collected under controlled, fixed-frequency conditions and subsequently ``replayed'' under dynamically varying frequencies dictated by the policy under investigation, using only a thermal model of the CPU and the relevant portion of its cooling environment. We validate the approach experimentally, demonstrating its suitability for the design and assessment of thermal management strategies.
ING - Scuola di Ingegneria Industriale e dell'Informazione
10-dic-2025
2024/2025
I sistemi di computazione moderni sono soggetti a molteplici livelli di gestione termica, che spaziano dal controllo basato su DVFS a livello di CPU fino all'infrastruttura di raffreddamento a livello di data centre. Con l’aumento della potenza di calcolo dei processori, la prima linea di difesa, ovvero le politiche termiche on-chip, assume un ruolo sempre più cruciale e influenza direttamente il comportamento dei livelli di controllo superiori. È pertanto necessaria una valutazione accurata e sistematica di tali politiche. Sebbene simulazioni architetturali cycle-accurate combinate con benchmark applicativi possano teoricamente fornire questo tipo di analisi, il loro costo computazionale risulta spesso proibitivo. In questo lavoro proponiamo un metodo alternativo, pratico ed efficiente: le tracce di potenza delle applicazioni vengono prima acquisite in condizioni controllate a frequenza fissa e successivamente ``ri-eseguite'' con frequenza variabile secondo la politica in esame, impiegando unicamente un modello termico della CPU e della porzione rilevante del suo sistema di raffreddamento. Validiamo sperimentalmente il metodo, mostrando la sua efficacia per la progettazione e la valutazione di strategie di gestione termica.
File allegati
File Dimensione Formato  
2025_12_Cerizzi_Tesi.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: Testo della tesi
Dimensione 10.18 MB
Formato Adobe PDF
10.18 MB Adobe PDF   Visualizza/Apri
2025_12_Cerizzi_Executive_Summary.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: Testo dell' executive summary
Dimensione 3.1 MB
Formato Adobe PDF
3.1 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/246448