The exponential growth of data in scientific and industrial domains necessitates efficient, scalable, and automated data management solutions. Rucio, an open-source distributed data management system developed at CERN, provides a robust framework for handling large-scale datasets across heterogeneous storage infrastructures. This thesis examines Rucio’s performance by modeling and analyzing its system behavior under various workloads using queueing network theory. A detailed queue model is developed and simulated using Java Modeling Tools (JMT) to evaluate system throughput, response time, and resource utilization. Sensitivity analysis is employed to exhaustively investigate the impact of crucial parameters, such as request rates, file sizes, and resource allocations, on system efficiency and throughput. Simulation experiments conducted in JMT provide empirical insights into bottlenecks, scalability constraints, and potential optimizations for enhancing Rucio’s performance. The findings of this study lead to a deeper understanding of distributed data management and its challenges in large-scale scientific collaborations. Furthermore, this research contributes to the ongoing development of Rucio by proposing enhancements aimed at improving efficiency and scalability in data-intensive environments.
La crescita esponenziale della quantità di dati e delle richieste di accesso in ambito scientifico e industriale richiede soluzioni di gestione dati efficienti, scalabili e automatizzate. Rucio, un sistema di gestione di dati distribuito sviluppato al CERN, fornisce un framework robusto per gestire insiemi di dati in larga scala attraverso infrastrutture di memoria eterogenee. Questa tesi esamina le prestazioni di Rucio modellandone e analizzandone il comportamento sotto diversi carichi di lavoro attraverso la teoria delle code. È stato sviluppato e simulato un modello dettagliato utilizzando Java Modeling Tools (JMT) per valutarne rendimento, tempi di risposta e utilizzo delle risorse. L’analisi di sensibilità è impiegata per approfondire l’impatto di parametri chiave, quali tasso di richiesta, dimensioni dei file e allocazione delle risorse, sull’efficienza e sulle prestazioni del sistema. Le simulazioni condotte in JMT offrono risultati empirici sui colli di bottiglia, sulle limitazioni di scalabilità e sulle possibili ottimizzazioni per migliorare le prestazioni di Rucio. I risultati di questo studio contribuiscono a una comprensione più approfondita della gestione distribuita dei dati e delle sfide delle collaborazioni scientifiche su larga scala. Inoltre, questa ricerca supporta lo sviluppo di Rucio proponendo miglioramenti mirati ad aumentarne efficienza e scalabilità in ambienti ad alta intensità di dati.
Rucio: modeling and analyzing system performance in large-scale data management
Lamperti, Federico
2023/2024
Abstract
The exponential growth of data in scientific and industrial domains necessitates efficient, scalable, and automated data management solutions. Rucio, an open-source distributed data management system developed at CERN, provides a robust framework for handling large-scale datasets across heterogeneous storage infrastructures. This thesis examines Rucio’s performance by modeling and analyzing its system behavior under various workloads using queueing network theory. A detailed queue model is developed and simulated using Java Modeling Tools (JMT) to evaluate system throughput, response time, and resource utilization. Sensitivity analysis is employed to exhaustively investigate the impact of crucial parameters, such as request rates, file sizes, and resource allocations, on system efficiency and throughput. Simulation experiments conducted in JMT provide empirical insights into bottlenecks, scalability constraints, and potential optimizations for enhancing Rucio’s performance. The findings of this study lead to a deeper understanding of distributed data management and its challenges in large-scale scientific collaborations. Furthermore, this research contributes to the ongoing development of Rucio by proposing enhancements aimed at improving efficiency and scalability in data-intensive environments.File | Dimensione | Formato | |
---|---|---|---|
2025_04_Lamperti_Tesi_01.pdf
accessibile in internet per tutti a partire dal 01/03/2026
Descrizione: Testo della tesi
Dimensione
3.18 MB
Formato
Adobe PDF
|
3.18 MB | Adobe PDF | Visualizza/Apri |
2025_04_Lamperti_ExecutiveSummary_02.pdf
accessibile in internet per tutti a partire dal 01/03/2026
Descrizione: Executive Summary
Dimensione
1.05 MB
Formato
Adobe PDF
|
1.05 MB | Adobe PDF | Visualizza/Apri |
I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/10589/234426