The exponential growth in data production across various sectors has given rise to the phenomenon of Big Data. This increase in data volume and complexity has introduced new challenges for data management, necessitating innovative solutions for the effective organisation, storage, and analysis of vast amounts of information. In order to address these challenges, the concept of a Data Lake has been developed. A Data Lake is a system designed to store data in its original format, enabling subsequent analysis and internal processing. In the medical field, digital advancements have led to a surge in data across multiple formats, including textual data, medical images, and electronic health records (EHRs). To advance medical research and treatment, it is essential for different entities holding these datasets to collaborate and share real-world data. To facilitate such collaboration, a Health Data Lake can be employed, serving as a centralized platform for the aggregation, organization, and analysis of health data. This thesis explores the use of Rucio to develop a Health Data Lake. Rucio, an open-source system originally developed at CERN for managing complex scientific data, particularly for the ATLAS experiment, is not designed for medical data management. This thesis conducts a comprehensive analysis of Rucio's capabilities to evaluate its suitability for the healthcare sector. It demonstrates how Rucio's functionalities can be adapted to construct a Health Data Lake, enabling efficient collection, organisation and management of medical data from various research centres. The thesis outlines how Rucio can be utilised to develop the zoned architecture of a Health Data Lake, encompassing the system's key components. We conclude with an implementation design and a usage scenario within the healthcare context. In summary, the present work demonstrates how Rucio can be tailored to satisfy the demands of the healthcare industry and function as a crucial element in the construction of a Health Data Lake.

La crescita esponenziale della produzione di dati in vari settori ha dato origine al fenomeno dei Big Data. Questo aumento del volume e della complessità dei dati ha introdotto nuove sfide per la gestione dei dati, rendendo necessarie soluzioni innovative per l'organizzazione, l'archiviazione e l'analisi efficace di grandi quantità di informazioni. Per affrontare queste sfide, è stato sviluppato il concetto di Data Lake. Un Data Lake è un sistema progettato per archiviare i dati nel loro formato originale, consentendone la successiva analisi ed elaborazione interna. In campo medico, i progressi digitali hanno portato a un aumento dei dati in diversi formati, tra cui dati testuali, immagini mediche e cartelle cliniche elettroniche (EHR). Per far progredire la ricerca e il trattamento medico, è essenziale che le diverse entità che detengono questi set di dati collaborino e condividano i dati del mondo reale. Per facilitare tale collaborazione, è possibile utilizzare un Data Lake, che funge da piattaforma centralizzata per l'aggregazione, l'organizzazione e l'analisi dei dati sanitari. Questa tesi esplora l'uso di Rucio per sviluppare un Health Data Lake. Rucio, un sistema open-source originariamente sviluppato al CERN per la gestione di dati scientifici complessi, in particolare per l'esperimento ATLAS, non è stato progettato per la gestione dei dati medici. Questa tesi conduce un'analisi completa delle capacità di Rucio per valutarne l'idoneità al settore sanitario. Dimostra come le funzionalità di Rucio possano essere adattate per costruire un Health Data Lake, consentendo una raccolta, un'organizzazione e una gestione efficiente dei dati medici provenienti da diversi centri di ricerca. La tesi illustra come Rucio possa essere utilizzato per sviluppare l'architettura a zone di un Health Data Lake, includendo i componenti chiave del sistema. Si conclude con un progetto di implementazione e uno scenario di utilizzo nel contesto sanitario. In sintesi, il presente lavoro dimostra come Rucio possa essere adattato alle esigenze del settore sanitario e fungere da elemento cruciale nella costruzione di un Health Data Lake.

Rucio: A Comprehensive Solution for Managing Data in a Health Data Lake

FORTINA, VALERIA MARIA
2023/2024

Abstract

The exponential growth in data production across various sectors has given rise to the phenomenon of Big Data. This increase in data volume and complexity has introduced new challenges for data management, necessitating innovative solutions for the effective organisation, storage, and analysis of vast amounts of information. In order to address these challenges, the concept of a Data Lake has been developed. A Data Lake is a system designed to store data in its original format, enabling subsequent analysis and internal processing. In the medical field, digital advancements have led to a surge in data across multiple formats, including textual data, medical images, and electronic health records (EHRs). To advance medical research and treatment, it is essential for different entities holding these datasets to collaborate and share real-world data. To facilitate such collaboration, a Health Data Lake can be employed, serving as a centralized platform for the aggregation, organization, and analysis of health data. This thesis explores the use of Rucio to develop a Health Data Lake. Rucio, an open-source system originally developed at CERN for managing complex scientific data, particularly for the ATLAS experiment, is not designed for medical data management. This thesis conducts a comprehensive analysis of Rucio's capabilities to evaluate its suitability for the healthcare sector. It demonstrates how Rucio's functionalities can be adapted to construct a Health Data Lake, enabling efficient collection, organisation and management of medical data from various research centres. The thesis outlines how Rucio can be utilised to develop the zoned architecture of a Health Data Lake, encompassing the system's key components. We conclude with an implementation design and a usage scenario within the healthcare context. In summary, the present work demonstrates how Rucio can be tailored to satisfy the demands of the healthcare industry and function as a crucial element in the construction of a Health Data Lake.
GRIBAUDO, MARCO
ING - Scuola di Ingegneria Industriale e dell'Informazione
16-lug-2024
2023/2024
La crescita esponenziale della produzione di dati in vari settori ha dato origine al fenomeno dei Big Data. Questo aumento del volume e della complessità dei dati ha introdotto nuove sfide per la gestione dei dati, rendendo necessarie soluzioni innovative per l'organizzazione, l'archiviazione e l'analisi efficace di grandi quantità di informazioni. Per affrontare queste sfide, è stato sviluppato il concetto di Data Lake. Un Data Lake è un sistema progettato per archiviare i dati nel loro formato originale, consentendone la successiva analisi ed elaborazione interna. In campo medico, i progressi digitali hanno portato a un aumento dei dati in diversi formati, tra cui dati testuali, immagini mediche e cartelle cliniche elettroniche (EHR). Per far progredire la ricerca e il trattamento medico, è essenziale che le diverse entità che detengono questi set di dati collaborino e condividano i dati del mondo reale. Per facilitare tale collaborazione, è possibile utilizzare un Data Lake, che funge da piattaforma centralizzata per l'aggregazione, l'organizzazione e l'analisi dei dati sanitari. Questa tesi esplora l'uso di Rucio per sviluppare un Health Data Lake. Rucio, un sistema open-source originariamente sviluppato al CERN per la gestione di dati scientifici complessi, in particolare per l'esperimento ATLAS, non è stato progettato per la gestione dei dati medici. Questa tesi conduce un'analisi completa delle capacità di Rucio per valutarne l'idoneità al settore sanitario. Dimostra come le funzionalità di Rucio possano essere adattate per costruire un Health Data Lake, consentendo una raccolta, un'organizzazione e una gestione efficiente dei dati medici provenienti da diversi centri di ricerca. La tesi illustra come Rucio possa essere utilizzato per sviluppare l'architettura a zone di un Health Data Lake, includendo i componenti chiave del sistema. Si conclude con un progetto di implementazione e uno scenario di utilizzo nel contesto sanitario. In sintesi, il presente lavoro dimostra come Rucio possa essere adattato alle esigenze del settore sanitario e fungere da elemento cruciale nella costruzione di un Health Data Lake.
File allegati
File Dimensione Formato  
2024_07_Fortina_ExecutiveSummary.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: Executive Summary
Dimensione 449.24 kB
Formato Adobe PDF
449.24 kB Adobe PDF   Visualizza/Apri
2024_07_Fortina_Tesi.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: Tesi
Dimensione 3.49 MB
Formato Adobe PDF
3.49 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/222814