Modern High Performance Computing (HPC) systems have reached exascale capabilities, enabling unprecedented scientific discoveries across diverse domains. The Message Passing Interface (MPI) serves as the de facto standard for programming parallel applications on these systems, coordinating thousands of processors through message passing. However, the continuous expansion of HPC systems introduces critical challenges that can limit their effectiveness. Traditionally, these systems operate under static resource alloca- tion, where the number of processors assigned to an application remains fixed throughout its execution. This can lead to resource underutilization in some execution phases. In ad- dition, the increasing scale of these systems elevates the probability of hardware failures, which can result in complete application failures. Furthermore, the power consumption associated with exascale computing makes energy efficiency a fundamental constraint. This thesis addresses these challenges by investigating the integration of Dynamic Man- agement of Resources (DMR) with User Level Failure Mitigation (ULFM) extensions to enable efficient shrinking operations in MPI applications. We propose leveraging ULFM’s error handling and communicator reconstruction capabilities to implement resource re- ductions without the need to restart applications, utilizing controlled process termination to maintain application consistency. The experimental evaluation demonstrates significant improvements in time to completion compared to restart-based approaches, while quantifying overheads and analyzing scalabil- ity across system sizes. The results suggest that combining dynamic resource management with fault tolerance mechanisms provides a promising path toward enhancing malleability.

I moderni sistemi di calcolo ad alte prestazioni (HPC) hanno raggiunto capacità exascale, consentendo scoperte scientifiche senza precedenti in diversi ambiti di ricerca. La libreria Message Passing Interface (MPI) rappresenta di fatto lo standard per la programmazione di applicazioni parallele che sfruttano questi sistemi, coordinando migliaia di processori attraverso scambi di messaggi. Tuttavia, l’espansione continua dei sistemi HPC introduce sfide che ne compromettono l’efficacia. Tradizionalmente, questi sistemi allocano le risorse in modo statico, man- tenendo fisso il numero di processori assegnati a un’applicazione durante tutta la sua esecuzione. Ciò può portare a un utilizzo inefficiente delle risorse in alcune fasi di ese- cuzione. Inoltre, la crescente dimensione di questi sistemi aumenta la probabilità di guasti hardware, che possono causare l’interruzione totale delle applicazioni. Infine, il consumo energetico associato a questi sistemi rende l’efficienza energetica un aspetto fondamentale. Questa tesi affronta queste sfide studiando l’integrazione della libreria Dynamic Manage- ment of Resources (DMR) con l’estensione User Level Failure Mitigation (ULFM), al fine di migliorare le operazioni di riduzione delle risorse in applicazioni MPI. La proposta è quella di sfruttare le capacità di gestione degli errori e di ricostruzione dei comunicatori offerte da ULFM per implementare riduzioni delle risorse senza dover ricorrere a un ri- avvio dell’intera applicazione, terminando in modo controllato i processi per mantenere la coerenza dell’applicazione. Le sperimentazioni condotte dimostrano miglioramenti significativi nei tempi di completa- mento rispetto agli approcci basati sul riavvio, quantificando al tempo stesso gli overhead e analizzando la scalabilità su diverse dimensioni di sistema. I risultati suggeriscono che combinare la gestione dinamica delle risorse con meccanismi di tolleranza ai guasti potrebbe rappresentare un percorso promettente per migliorare la malleabilità.

Empowering the DMR Malleability framework for MPI with the ULFM extension

DE ROSSO, MARCO
2024/2025

Abstract

Modern High Performance Computing (HPC) systems have reached exascale capabilities, enabling unprecedented scientific discoveries across diverse domains. The Message Passing Interface (MPI) serves as the de facto standard for programming parallel applications on these systems, coordinating thousands of processors through message passing. However, the continuous expansion of HPC systems introduces critical challenges that can limit their effectiveness. Traditionally, these systems operate under static resource alloca- tion, where the number of processors assigned to an application remains fixed throughout its execution. This can lead to resource underutilization in some execution phases. In ad- dition, the increasing scale of these systems elevates the probability of hardware failures, which can result in complete application failures. Furthermore, the power consumption associated with exascale computing makes energy efficiency a fundamental constraint. This thesis addresses these challenges by investigating the integration of Dynamic Man- agement of Resources (DMR) with User Level Failure Mitigation (ULFM) extensions to enable efficient shrinking operations in MPI applications. We propose leveraging ULFM’s error handling and communicator reconstruction capabilities to implement resource re- ductions without the need to restart applications, utilizing controlled process termination to maintain application consistency. The experimental evaluation demonstrates significant improvements in time to completion compared to restart-based approaches, while quantifying overheads and analyzing scalabil- ity across system sizes. The results suggest that combining dynamic resource management with fault tolerance mechanisms provides a promising path toward enhancing malleability.
ROCCO, ROBERTO
ING - Scuola di Ingegneria Industriale e dell'Informazione
23-ott-2025
2024/2025
I moderni sistemi di calcolo ad alte prestazioni (HPC) hanno raggiunto capacità exascale, consentendo scoperte scientifiche senza precedenti in diversi ambiti di ricerca. La libreria Message Passing Interface (MPI) rappresenta di fatto lo standard per la programmazione di applicazioni parallele che sfruttano questi sistemi, coordinando migliaia di processori attraverso scambi di messaggi. Tuttavia, l’espansione continua dei sistemi HPC introduce sfide che ne compromettono l’efficacia. Tradizionalmente, questi sistemi allocano le risorse in modo statico, man- tenendo fisso il numero di processori assegnati a un’applicazione durante tutta la sua esecuzione. Ciò può portare a un utilizzo inefficiente delle risorse in alcune fasi di ese- cuzione. Inoltre, la crescente dimensione di questi sistemi aumenta la probabilità di guasti hardware, che possono causare l’interruzione totale delle applicazioni. Infine, il consumo energetico associato a questi sistemi rende l’efficienza energetica un aspetto fondamentale. Questa tesi affronta queste sfide studiando l’integrazione della libreria Dynamic Manage- ment of Resources (DMR) con l’estensione User Level Failure Mitigation (ULFM), al fine di migliorare le operazioni di riduzione delle risorse in applicazioni MPI. La proposta è quella di sfruttare le capacità di gestione degli errori e di ricostruzione dei comunicatori offerte da ULFM per implementare riduzioni delle risorse senza dover ricorrere a un ri- avvio dell’intera applicazione, terminando in modo controllato i processi per mantenere la coerenza dell’applicazione. Le sperimentazioni condotte dimostrano miglioramenti significativi nei tempi di completa- mento rispetto agli approcci basati sul riavvio, quantificando al tempo stesso gli overhead e analizzando la scalabilità su diverse dimensioni di sistema. I risultati suggeriscono che combinare la gestione dinamica delle risorse con meccanismi di tolleranza ai guasti potrebbe rappresentare un percorso promettente per migliorare la malleabilità.
File allegati
File Dimensione Formato  
Thesis_Marco_De_Rosso.pdf

accessibile in internet per tutti

Descrizione: Thesis
Dimensione 2.49 MB
Formato Adobe PDF
2.49 MB Adobe PDF Visualizza/Apri
Executive_Summary_Marco_De_Rosso.pdf

accessibile in internet per tutti

Descrizione: Executive summary
Dimensione 961.2 kB
Formato Adobe PDF
961.2 kB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/243438