Rucio: modeling and analyzing system performance in large-scale data management

Biblioteche e Archivi
POLITesi - Archivio digitale delle tesi di laurea e di dottorato

The exponential growth of data in scientific and industrial domains necessitates efficient, scalable, and automated data management solutions. Rucio, an open-source distributed data management system developed at CERN, provides a robust framework for handling large-scale datasets across heterogeneous storage infrastructures. This thesis examines Rucio’s performance by modeling and analyzing its system behavior under various workloads using queueing network theory. A detailed queue model is developed and simulated using Java Modeling Tools (JMT) to evaluate system throughput, response time, and resource utilization. Sensitivity analysis is employed to exhaustively investigate the impact of crucial parameters, such as request rates, file sizes, and resource allocations, on system efficiency and throughput. Simulation experiments conducted in JMT provide empirical insights into bottlenecks, scalability constraints, and potential optimizations for enhancing Rucio’s performance. The findings of this study lead to a deeper understanding of distributed data management and its challenges in large-scale scientific collaborations. Furthermore, this research contributes to the ongoing development of Rucio by proposing enhancements aimed at improving efficiency and scalability in data-intensive environments.

La crescita esponenziale della quantità di dati e delle richieste di accesso in ambito scientifico e industriale richiede soluzioni di gestione dati efficienti, scalabili e automatizzate. Rucio, un sistema di gestione di dati distribuito sviluppato al CERN, fornisce un framework robusto per gestire insiemi di dati in larga scala attraverso infrastrutture di memoria eterogenee. Questa tesi esamina le prestazioni di Rucio modellandone e analizzandone il comportamento sotto diversi carichi di lavoro attraverso la teoria delle code. È stato sviluppato e simulato un modello dettagliato utilizzando Java Modeling Tools (JMT) per valutarne rendimento, tempi di risposta e utilizzo delle risorse. L’analisi di sensibilità è impiegata per approfondire l’impatto di parametri chiave, quali tasso di richiesta, dimensioni dei file e allocazione delle risorse, sull’efficienza e sulle prestazioni del sistema. Le simulazioni condotte in JMT offrono risultati empirici sui colli di bottiglia, sulle limitazioni di scalabilità e sulle possibili ottimizzazioni per migliorare le prestazioni di Rucio. I risultati di questo studio contribuiscono a una comprensione più approfondita della gestione distribuita dei dati e delle sfide delle collaborazioni scientifiche su larga scala. Inoltre, questa ricerca supporta lo sviluppo di Rucio proponendo miglioramenti mirati ad aumentarne efficienza e scalabilità in ambienti ad alta intensità di dati.

Rucio: modeling and analyzing system performance in large-scale data management

Lamperti, Federico

2023/2024

Abstract

The exponential growth of data in scientific and industrial domains necessitates efficient, scalable, and automated data management solutions. Rucio, an open-source distributed data management system developed at CERN, provides a robust framework for handling large-scale datasets across heterogeneous storage infrastructures. This thesis examines Rucio’s performance by modeling and analyzing its system behavior under various workloads using queueing network theory. A detailed queue model is developed and simulated using Java Modeling Tools (JMT) to evaluate system throughput, response time, and resource utilization. Sensitivity analysis is employed to exhaustively investigate the impact of crucial parameters, such as request rates, file sizes, and resource allocations, on system efficiency and throughput. Simulation experiments conducted in JMT provide empirical insights into bottlenecks, scalability constraints, and potential optimizations for enhancing Rucio’s performance. The findings of this study lead to a deeper understanding of distributed data management and its challenges in large-scale scientific collaborations. Furthermore, this research contributes to the ongoing development of Rucio by proposing enhancements aimed at improving efficiency and scalability in data-intensive environments.

Scheda breve

Scheda completa

	Relatore
	
				GRIBAUDO, MARCO
			
	Scuola / Dip.
	
				ING  - Scuola di Ingegneria Industriale e dell'Informazione
			
	Data
	
				3-apr-2025
			
	Anno accademico
	
				2023/2024
			
	Abstract in italiano
	
				La crescita esponenziale della quantità di dati e delle richieste di accesso in ambito scientifico e industriale richiede soluzioni di gestione dati efficienti, scalabili e automatizzate. Rucio, un sistema di gestione di dati distribuito sviluppato al CERN, fornisce un framework robusto per gestire insiemi di dati in larga scala attraverso infrastrutture di memoria eterogenee. Questa tesi esamina le prestazioni di Rucio modellandone e analizzandone il comportamento sotto diversi carichi di lavoro attraverso la teoria delle code. È stato sviluppato e simulato un modello dettagliato utilizzando Java Modeling Tools (JMT) per valutarne rendimento, tempi di risposta e utilizzo delle risorse. L’analisi di sensibilità è impiegata per approfondire l’impatto di parametri chiave, quali tasso di richiesta, dimensioni dei file e allocazione delle risorse, sull’efficienza e sulle prestazioni del sistema. Le simulazioni condotte in JMT offrono risultati empirici sui colli di bottiglia, sulle limitazioni di scalabilità e sulle possibili ottimizzazioni per migliorare le prestazioni di Rucio. I risultati di questo studio contribuiscono a una comprensione più approfondita della gestione distribuita dei dati e delle sfide delle collaborazioni scientifiche su larga scala. Inoltre, questa ricerca supporta lo sviluppo di Rucio proponendo miglioramenti mirati ad aumentarne efficienza e scalabilità in ambienti ad alta intensità di dati.
			
	Appare nelle tipologie:
	
				Tesi di laurea Magistrale

File allegati

File	Dimensione	Formato
2025_04_Lamperti_Tesi_01.pdf Open Access dal 02/03/2026 Descrizione: Testo della tesi Dimensione 3.18 MB Formato Adobe PDF Visualizza/Apri	3.18 MB	Adobe PDF	Visualizza/Apri
2025_04_Lamperti_ExecutiveSummary_02.pdf Open Access dal 02/03/2026 Descrizione: Executive Summary Dimensione 1.05 MB Formato Adobe PDF Visualizza/Apri	1.05 MB	Adobe PDF	Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/234426