An advanced framework for fault resiliency in HPC applications focusing on novel MPI features and energy implications

High-Performance Computing (HPC) has evolved from large\linebreak mainframes to GPU-accelerated clusters, driven by the need to overcome physical limitations such as the end of Moore's law and Dennard scaling. While this shift has enabled unprecedented computational power, as demonstrated by the ExaFLOPS performance of the Frontier cluster, it has also led to significantly higher energy consumption. In such a context, maximizing efficiency is crucial, yet modern HPC systems face challenges beyond raw performance. One of these is fault management: as system complexity increases, so does the likelihood of faults, making them a growing concern for large-scale applications. Despite the presence of various fault management techniques, the Message Passing Interface (MPI), the de-facto standard for inter-process communication in HPC, still lacks built-in fault management. Existing solutions such as Checkpoint and Restart (C/R) mitigate the issue but introduce performance overhead and scalability concerns. Recent efforts have explored alternatives like User-Level Fault Mitigation (ULFM) and Reinit, which allow MPI applications to continue execution after faults occur. However, due to their complexity, these solutions are rarely integrated into real-world HPC workloads. This thesis takes a different approach by focusing on fault resilience: it extends our previous work on the Legio framework, which combines ULFM with graceful degradation, allowing applications to recover from faults more efficiently than traditional C/R methods. This approach trades some result accuracy for significantly lower recovery time and energy consumption, making it particularly suitable for embarrassingly parallel applications. Beyond proposing a practical solution, this thesis addresses key gaps in the literature. First, while most research focuses on execution time overhead, we explicitly consider the energy impact of fault management to quantify the amount of energy wasted properly. The core idea is to go beyond the assumption of energy consumption proportional to execution times, thus considering also variability in power consumption due to fault management strategies. Second, we extend Legio applicability past embarrassingly parallel applications, dealing with the concept of critical processes. Third, we extend fault resilience mechanisms to newer MPI features like group collective communicator creation and the Session model, ensuring compatibility with the evolving standard. Finally, we analyze the validity of approximate results produced under fault conditions, assessing when recomputation can be avoided to optimize energy efficiency further. By tackling these challenges, this thesis analyses the energy efficiency of MPI-based HPC workloads even in the presence of faults, bridging the gap between theoretical fault management techniques and their practical adoption in large-scale computing environments.

Il campo dell’High-Performance Computing (HPC) si è evoluto dai grandi mainframe ai cluster accelerati da GPU, spinto dalla necessità di superare limiti fisici come la fine della legge di Moore e il declino del Dennard scaling. Questo cambiamento ha permesso di raggiungere una potenza computazionale senza precedenti, come dimostrato dalle prestazioni in scala ExaFLOPS del cluster Frontier, ma ha anche comportato un aumento significativo del consumo energetico. In questo contesto, massimizzare l’efficienza è fondamentale, eppure i moderni sistemi HPC affrontano sfide che vanno oltre la pura potenza di calcolo. Una di queste è la gestione dei guasti: con l’aumento della complessità dei sistemi, cresce anche la probabilità di malfunzionamenti, rendendo i guasti una preoccupazione crescente per le applicazioni su larga scala. Nonostante l’esistenza di diverse tecniche di gestione dei guasti, lo standard Message Passing Interface (MPI), il più usato per la comunicazione tra processi in HPC, manca ancora di una gestione dei guasti integrata. Soluzioni esistenti, come il Checkpoint and Restart (C/R), mitigano il problema ma introducono overhead prestazionali e problemi di scalabilità. Studi recenti hanno esplorato alternative come l’User-Level Fault Mitigation (ULFM) e Reinit, che permettono alle applicazioni MPI di continuare l’esecuzione dopo un guasto. Tuttavia, a causa della loro complessità, queste soluzioni sono raramente integrate nei carichi di lavoro HPC reali. Questa tesi adotta un approccio differente, focalizzandosi sulla resilienza ai guasti: estendiamo il nostro lavoro precedente sul framework Legio, che combina ULFM con la degradazione controllata, consentendo alle applicazioni di riprendersi dai guasti in modo più efficiente rispetto ai metodi C/R tradizionali. Questo approccio sacrifica in parte l’accuratezza dei risultati a fronte di tempi di recupero significativamente ridotti e di un minore consumo energetico, rendendolo particolarmente adatto alle applicazioni imbarazzantemente parallele. Oltre a proporre una soluzione pratica, questa tesi affronta alcune lacune chiave nella letteratura. Primo, mentre la maggior parte delle ricerche si concentra sull’overhead in termini di tempo di esecuzione, noi consideriamo esplicitamente l’impatto energetico della gestione dei guasti per quantificare con maggiore precisione l’energia sprecata. L’idea centrale è superare l’ipotesi secondo cui il consumo energetico sia semplicemente proporzionale ai tempi di esecuzione, includendo invece anche la variabilità del consumo di potenza dovuta alle strategie di gestione dei guasti. Secondo, estendiamo l’applicabilità di Legio oltre le applicazioni imbarazzantemente parallele, introducendo il concetto di processi critici. Terzo, ampliamo i meccanismi di resilienza ai guasti per supportare le nuove funzionalità di MPI, come la creazione collettiva di comunicatori di gruppo e il modello Session, garantendo la compatibilità con lo standard in evoluzione. Infine, analizziamo la validità dei risultati approssimati ottenuti in presenza di guasti, valutando in quali casi sia possibile evitare la ricalcolazione per ottimizzare ulteriormente l’efficienza energetica. Affrontando queste sfide, questa tesi analizza l’efficienza energetica dei carichi di lavoro HPC basati su MPI anche in presenza di guasti, colmando il divario tra le tecniche teoriche di gestione dei guasti e la loro adozione pratica nei sistemi di calcolo su larga scala.