Reliability-aware resource management for HPC workload

In today’s world, larger and larger amounts of data are constantly being generated, processed and analyzed, placing High Performance Computing (HPC) systems at the core of major advances in a variety of application areas. The transition to exascale-grade HPC, the increasing number of nodes and the loss of Dennard scaling pose new challenges with respect to the reliability of possibly parallel applications and of the hardware components they run on. As a response to such problem, we propose a work composed of two pillars, the Dynamic Checkpoint Rate Tuning and the Reliam Resource Allocation Policy, designed, implemented and integrated in the BarbequeRTRM framework, to enforce, respectively, fault tolerance and reliability, both of them without neglecting their impact on the performance. On one hand, the Dynamic Checkpoint Rate Tuning consists in a smart and application-aware checkpoint scheduler, whose logic guarantees the application requirements in terms of checkpoint rate, while bounding its overhead under a user defined threshold. On the other hand, the Reliam Resource Allocation Policy makes use of run time information coming from the monitoring of the computing resources, in order to carry out a reliability-aware resource binding. Moreover, a controller is provided to the each application of the system, in order to quantify the CPU quota to assign, meeting application-specific and/or system wise performance and usage objectives. The result the Reliam Resource Allocation Policy wants to achieve is an improvement not only in the reliability of the applications, which are going to be executed on the processing elements marked as not critical by means of a periodical profiling, but also in the slowdown of the hardware components aging. Finally, the presence of a customized controller, upon which use-cases are provided as a guideline on the controlling parameters, allows the minimization of the CPU utilization, while permitting the prioritization of one or more application with respect to the others.

Gli attuali domini applicativi dell'Information Technology sono caratterizzati dalla generazione di quantità di dati sempre più ingenti, tali per cui il ricorrere a sistemi di High Performance Computing (HPC) diventa un requisito imprescindibile per l'analisi e il processing degli stessi. La transizione verso l'exascale-grade HPC, il numero sempre più alto di nodi e la fine delle leggi di scala di Dennard pongono nuove sfide riguardanti l'affidabilità delle applicazioni, eventualmente, parallele e dei componenti hardware sui quali vengono eseguite. In risposta a tale problema, proponiamo un lavoro composto da due pilastri, il Dynamic Checkpoint Rate Tuning e la Reliam Resource Allocation Policy, progettati, implementati e integrati nel framework BarbequeRTRM, per migliorare, rispettivamente, la tolleranza ai guasti e l'affidabilità delle unità computazionali, il tutto tenendo in considerazione il loro impatto sulle performance. Da una parte, il Dynamic Checkpoint Rate Tuning consiste in un checkpoint scheduler intelligente e application-aware, la cui logica garantisce il soddisfacimento dei requisiti dell'applicazione in termini di frequenza di checkpoint, confinando l'overhead di quest'ultimo al di sotto di una soglia massima definita dall'utente. Dall'altra parte, la Reliam Resource Allocation Policy si serve di informazioni estratte a run time, derivanti dal monitoraggio delle risorse computazionali, al fine di effettuare un'allocazione delle risorse orientata all'affidabilità. Inoltre, ogni applicazione viene dotata di un controllore in grado di assegnare la quantità di risorse computazionali, sulla base dei requisiti di performance e dell'utilizzo specifico di ogni singola applicazione e/o dell'intero sistema. Il risultato ricercato dalla Reliam Resource Allocation Policy è il miglioramento non solo dell'affidabilità delle applicazioni, che verranno eseguite dagli elementi di elaborazione definiti non critici attraverso un profiling periodico, ma anche in termini di rallentamento dell'usura dei componenti hardware. Infine, la presenza di un controllore personalizzabile, permette la minimizzazione dell'utilizzo della CPU, prevedendo contestualmente l'attribuzione di priorità a una o più applicazioni sulle altre.