Facing the landscape of a healthcare system that relies on heterogeneous and rarely interconnected data management system, the Health Big Data project acknowledges the potential of collaboration and data sharing for healthcare research institutions. The creation of a federation to enhance the efficiency and effectiveness of data exchange becomes therefore an important asset and primary focus of the project. This thesis contributes to the ongoing development of the project by expanding the examination of the technologies selected for data and metadata management. Rucio, an open-source Distributed Data Management System developed at CERN has been selected for data management and to orchestrate the diverse data storage systems within the federation. To ensure proper metadata integration and thus facilitate datasets discovery, Apache Atlas and DataHub have been considered as possible alternatives to fulfill this role. The study focuses on the integration of these technologies, analyzing key architectural aspects necessary to enable seamless communication among these systems: from the definition of an effective hierarchization of the datasets stored in Rucio and the generation of unique identifiers crafted on semantic features to facilitate ownership and location identification, to DataHub’s ability to aggregate and harmonize diverse data catalogs acting as a "catalog of catalogs". Ultimately, this research will present an interface, developed to manage datasets by unifying the operational functionalities of the aforementioned systems.

Di fronte al panorama di un sistema sanitario che si basa su sistemi di gestione dati eterogenei e raramente interconnessi, il progetto Health Big Data riconosce il potenziale della collaborazione e della condivisione dei dati per gli istituti di ricerca sanitaria. La creazione di una federazione per migliorare l’efficienza e l’efficacia dello scambio di dati diventa quindi una risorsa importante e principale focus del progetto. Questa tesi contribuisce allo sviluppo del progetto approfondendo lo studio delle tecnologie selezionate per la gestione di dati e metadati. Rucio, un sistema open-source di Gestione Dati Distribuiti sviluppato al CERN, è stato selezionato per la gestione dei dati e l’orchestrazione dei diversi sistemi di storage all’interno della federazione. Per garantire la corretta integrazione dei metadati e quindi facilitare la scoperta di dataset, Apache Atlas e DataHub sono stati considerati come possibili alternative per ricoprire questo ruolo. Lo studio si concentra sull’integrazione di queste tecnologie, analizzando gli aspetti architetturali chiave per abilitare una comunicazione lineare tra questi sistemi: dalla definizione di un’efficace gerarchizzazione dei dataset archiviati in Rucio e la generazione di identificatori univoci basati su caratteristiche semantiche per facilitare l’identificazione dei proprietari e della posizione, alla capacità di DataHub di aggregare e armonizzare diversi cataloghi di dati, agendo come un "catalogo di cataloghi". Concludendo, questa ricerca presenterà un’interfaccia, sviluppata per gestire dataset unificando le funzionalità operative dei sistemi sopra menzionati.

Enhanced integration of data and metadata in the Health Big Data Project

Zane, Lorenzo
2024/2025

Abstract

Facing the landscape of a healthcare system that relies on heterogeneous and rarely interconnected data management system, the Health Big Data project acknowledges the potential of collaboration and data sharing for healthcare research institutions. The creation of a federation to enhance the efficiency and effectiveness of data exchange becomes therefore an important asset and primary focus of the project. This thesis contributes to the ongoing development of the project by expanding the examination of the technologies selected for data and metadata management. Rucio, an open-source Distributed Data Management System developed at CERN has been selected for data management and to orchestrate the diverse data storage systems within the federation. To ensure proper metadata integration and thus facilitate datasets discovery, Apache Atlas and DataHub have been considered as possible alternatives to fulfill this role. The study focuses on the integration of these technologies, analyzing key architectural aspects necessary to enable seamless communication among these systems: from the definition of an effective hierarchization of the datasets stored in Rucio and the generation of unique identifiers crafted on semantic features to facilitate ownership and location identification, to DataHub’s ability to aggregate and harmonize diverse data catalogs acting as a "catalog of catalogs". Ultimately, this research will present an interface, developed to manage datasets by unifying the operational functionalities of the aforementioned systems.
TANCA, LETIZIA
ING - Scuola di Ingegneria Industriale e dell'Informazione
3-apr-2025
2024/2025
Di fronte al panorama di un sistema sanitario che si basa su sistemi di gestione dati eterogenei e raramente interconnessi, il progetto Health Big Data riconosce il potenziale della collaborazione e della condivisione dei dati per gli istituti di ricerca sanitaria. La creazione di una federazione per migliorare l’efficienza e l’efficacia dello scambio di dati diventa quindi una risorsa importante e principale focus del progetto. Questa tesi contribuisce allo sviluppo del progetto approfondendo lo studio delle tecnologie selezionate per la gestione di dati e metadati. Rucio, un sistema open-source di Gestione Dati Distribuiti sviluppato al CERN, è stato selezionato per la gestione dei dati e l’orchestrazione dei diversi sistemi di storage all’interno della federazione. Per garantire la corretta integrazione dei metadati e quindi facilitare la scoperta di dataset, Apache Atlas e DataHub sono stati considerati come possibili alternative per ricoprire questo ruolo. Lo studio si concentra sull’integrazione di queste tecnologie, analizzando gli aspetti architetturali chiave per abilitare una comunicazione lineare tra questi sistemi: dalla definizione di un’efficace gerarchizzazione dei dataset archiviati in Rucio e la generazione di identificatori univoci basati su caratteristiche semantiche per facilitare l’identificazione dei proprietari e della posizione, alla capacità di DataHub di aggregare e armonizzare diversi cataloghi di dati, agendo come un "catalogo di cataloghi". Concludendo, questa ricerca presenterà un’interfaccia, sviluppata per gestire dataset unificando le funzionalità operative dei sistemi sopra menzionati.
File allegati
File Dimensione Formato  
2025_04_Zane_Thesis.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: 2025_04_Zane_Thesis
Dimensione 2.17 MB
Formato Adobe PDF
2.17 MB Adobe PDF   Visualizza/Apri
2025_04_Zane_Executive_Summary.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: 2025_04_Zane_Executive_Summary
Dimensione 546.41 kB
Formato Adobe PDF
546.41 kB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/236100