Predictive modeling of application runtime in Dragonfly systems

Biblioteche e Archivi
POLITesi - Archivio digitale delle tesi di laurea e di dottorato

The Dragonfly interconnect is widely adopted by extreme-scale systems, yet its sharing nature often results in traffic from various applications competing for network resources, causing workload interference and leading to variable application runtime. This work aims to leverage deep neural network methods to forecast application iteration times, using network features collected at the router port level. The problem is addressed by employing graph neural network-based dynamic models that are trained on an ad-hoc graph structure that reflects the physical characteristics of the system, and can capture its temporal and structural dynamics. Results show that this methodology is able to outperform the baselines for one and two future steps ahead. However, it faces scalability challenges when applied to larger systems. To address these limitations, the methodology was enhanced by constructing an ensemble model that integrates a custom GNN-based component with the recently proposed TimeLLM framework, which leverages large language models for time series forecasting.

La topologia Dragonfly è ampiamente adottata dai sistemi di High Performance Computing, ma la sua natura condivisa spesso provoca competizione per le risorse di rete da parte delle applicazioni, causando interferenze nel carico di lavoro e tempi di esecuzione delle applicazioni variabili. Questo lavoro di tesi mira a sfruttare i metodi delle reti neurali per prevedere i tempi di iterazione delle applicazioni, utilizzando informazioni circa le caratteristiche della rete raccolte a livello delle porte di rete. Il problema viene affrontato impiegando modelli dinamici basati su graph neural networks, addestrati su una struttura a grafo ad hoc che riflette le caratteristiche fisiche del sistema e può catturare le sue dinamiche temporali e strutturali. I risultati mostrano che questa metodologia è in grado di superare le prestazioni delle baseline. Tuttavia, si verificano problemi di scalabilità quando viene applicata a sistemi più grandi. Per risolvere queste limitazioni, l’approccio è stato migliorato costruendo un ensemble model che integra un componente basato su GNN e un componente baseto sul framework Time-LLM recentemente introdotto in letteratura, in grado di sfruttare modelli linguistici per la previsione delle serie temporali.

Predictive modeling of application runtime in Dragonfly systems

Lodi Rizzini, Pietro

2023/2024

Abstract

The Dragonfly interconnect is widely adopted by extreme-scale systems, yet its sharing nature often results in traffic from various applications competing for network resources, causing workload interference and leading to variable application runtime. This work aims to leverage deep neural network methods to forecast application iteration times, using network features collected at the router port level. The problem is addressed by employing graph neural network-based dynamic models that are trained on an ad-hoc graph structure that reflects the physical characteristics of the system, and can capture its temporal and structural dynamics. Results show that this methodology is able to outperform the baselines for one and two future steps ahead. However, it faces scalability challenges when applied to larger systems. To address these limitations, the methodology was enhanced by constructing an ensemble model that integrates a custom GNN-based component with the recently proposed TimeLLM framework, which leverages large language models for time series forecasting.

Scheda breve

Scheda completa

	Relatore
	
				ARDAGNA, DANILO
			
	Correlatore/i
	
				LAN, ZHILING
MEDYA, SOURAV
			
	Scuola / Dip.
	
				ING  - Scuola di Ingegneria Industriale e dell'Informazione
			
	Data
	
				3-apr-2025
			
	Anno accademico
	
				2023/2024
			
	Abstract in italiano
	
				La topologia Dragonfly è ampiamente adottata dai sistemi di High Performance Computing, ma la sua natura condivisa spesso provoca competizione per le risorse di rete da parte delle applicazioni, causando interferenze nel carico di lavoro e tempi di esecuzione delle applicazioni variabili.
Questo lavoro di tesi mira a sfruttare i metodi delle reti neurali per prevedere i tempi di iterazione delle applicazioni, utilizzando informazioni circa le caratteristiche della rete raccolte a livello delle porte di rete.
Il problema viene affrontato impiegando modelli dinamici basati su graph neural networks, addestrati su una struttura a grafo ad hoc che riflette le caratteristiche fisiche del sistema e può catturare le sue dinamiche temporali e strutturali.
I risultati mostrano che questa metodologia è in grado di superare le prestazioni delle baseline. Tuttavia, si verificano problemi di scalabilità quando viene applicata a sistemi più grandi. Per risolvere queste limitazioni, l’approccio è stato migliorato costruendo un ensemble model che integra un componente basato su GNN e un componente baseto sul framework Time-LLM recentemente introdotto in letteratura, in grado di sfruttare modelli linguistici per la previsione delle serie temporali.
			
	Appare nelle tipologie:
	
				Tesi di laurea Magistrale

File allegati

File	Dimensione	Formato
2025_04_LodiRizzini.pdf non accessibile Descrizione: testo tesi Dimensione 5.06 MB Formato Adobe PDF Visualizza/Apri	5.06 MB	Adobe PDF	Visualizza/Apri
2025_04_LodiRizzini_executiveSummary.pdf non accessibile Descrizione: executive summary Dimensione 1.32 MB Formato Adobe PDF Visualizza/Apri	1.32 MB	Adobe PDF	Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/235617