The Dragonfly interconnect is widely adopted by extreme-scale systems, yet its sharing nature often results in traffic from various applications competing for network resources, causing workload interference and leading to variable application runtime. This work aims to leverage deep neural network methods to forecast application iteration times, using network features collected at the router port level. The problem is addressed by employing graph neural network-based dynamic models that are trained on an ad-hoc graph structure that reflects the physical characteristics of the system, and can capture its temporal and structural dynamics. Results show that this methodology is able to outperform the baselines for one and two future steps ahead. However, it faces scalability challenges when applied to larger systems. To address these limitations, the methodology was enhanced by constructing an ensemble model that integrates a custom GNN-based component with the recently proposed TimeLLM framework, which leverages large language models for time series forecasting.

La topologia Dragonfly è ampiamente adottata dai sistemi di High Performance Computing, ma la sua natura condivisa spesso provoca competizione per le risorse di rete da parte delle applicazioni, causando interferenze nel carico di lavoro e tempi di esecuzione delle applicazioni variabili. Questo lavoro di tesi mira a sfruttare i metodi delle reti neurali per prevedere i tempi di iterazione delle applicazioni, utilizzando informazioni circa le caratteristiche della rete raccolte a livello delle porte di rete. Il problema viene affrontato impiegando modelli dinamici basati su graph neural networks, addestrati su una struttura a grafo ad hoc che riflette le caratteristiche fisiche del sistema e può catturare le sue dinamiche temporali e strutturali. I risultati mostrano che questa metodologia è in grado di superare le prestazioni delle baseline. Tuttavia, si verificano problemi di scalabilità quando viene applicata a sistemi più grandi. Per risolvere queste limitazioni, l’approccio è stato migliorato costruendo un ensemble model che integra un componente basato su GNN e un componente baseto sul framework Time-LLM recentemente introdotto in letteratura, in grado di sfruttare modelli linguistici per la previsione delle serie temporali.

Predictive modeling of application runtime in Dragonfly systems

Lodi Rizzini, Pietro
2023/2024

Abstract

The Dragonfly interconnect is widely adopted by extreme-scale systems, yet its sharing nature often results in traffic from various applications competing for network resources, causing workload interference and leading to variable application runtime. This work aims to leverage deep neural network methods to forecast application iteration times, using network features collected at the router port level. The problem is addressed by employing graph neural network-based dynamic models that are trained on an ad-hoc graph structure that reflects the physical characteristics of the system, and can capture its temporal and structural dynamics. Results show that this methodology is able to outperform the baselines for one and two future steps ahead. However, it faces scalability challenges when applied to larger systems. To address these limitations, the methodology was enhanced by constructing an ensemble model that integrates a custom GNN-based component with the recently proposed TimeLLM framework, which leverages large language models for time series forecasting.
LAN, ZHILING
MEDYA, SOURAV
ING - Scuola di Ingegneria Industriale e dell'Informazione
3-apr-2025
2023/2024
La topologia Dragonfly è ampiamente adottata dai sistemi di High Performance Computing, ma la sua natura condivisa spesso provoca competizione per le risorse di rete da parte delle applicazioni, causando interferenze nel carico di lavoro e tempi di esecuzione delle applicazioni variabili. Questo lavoro di tesi mira a sfruttare i metodi delle reti neurali per prevedere i tempi di iterazione delle applicazioni, utilizzando informazioni circa le caratteristiche della rete raccolte a livello delle porte di rete. Il problema viene affrontato impiegando modelli dinamici basati su graph neural networks, addestrati su una struttura a grafo ad hoc che riflette le caratteristiche fisiche del sistema e può catturare le sue dinamiche temporali e strutturali. I risultati mostrano che questa metodologia è in grado di superare le prestazioni delle baseline. Tuttavia, si verificano problemi di scalabilità quando viene applicata a sistemi più grandi. Per risolvere queste limitazioni, l’approccio è stato migliorato costruendo un ensemble model che integra un componente basato su GNN e un componente baseto sul framework Time-LLM recentemente introdotto in letteratura, in grado di sfruttare modelli linguistici per la previsione delle serie temporali.
File allegati
File Dimensione Formato  
2025_04_LodiRizzini.pdf

non accessibile

Descrizione: testo tesi
Dimensione 5.06 MB
Formato Adobe PDF
5.06 MB Adobe PDF   Visualizza/Apri
2025_04_LodiRizzini_executiveSummary.pdf

non accessibile

Descrizione: executive summary
Dimensione 1.32 MB
Formato Adobe PDF
1.32 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/235617