The lack of knowledge about the importance of sharing data makes the majority of organizations unaware of the amount of value that can be generated by exploiting their data assets. Currently, a pivotal component of the European data strategy is data sharing, resulting in an increased interest in Data Spaces, the technical infrastructures for ensuring security while sharing data. The European community has defined nine common data spaces, among which there is the healthcare. It is a field encompassing all aspects of health that aims at improving people well-being, and generates a huge volume of data. One of the key elements of a data space is the data catalog, a detailed inventory of all available assets that are used to help users to discover, understand, and trust potentially relevant information and, therefore, generate value. Its presence is crucial also in a complex and rapidly evolving domain such as healthcare, to collect and organize large volume of data over years. However, both concepts of data sharing in healthcare and data catalogs bring a lot of limitations, such as data heterogeneity, selfish behaviors of institutions owning significant data, but oriented at their benefit, misalignment between dictionaries used to describe datasets, and mismatch of interests between who collects data and who searches for information. This thesis is based on an Italian research project under development, called "Health Big Data", in which all the IRCCS (Institutes conducting research activities) collaborate to overcome existing limitations. It proposes a framework to improve current data catalogs by extending them with a knowledge base and working on the implementation of a metadata model. The latter, through a well-defined process of dataset publication, can collect, organize, and manage metadata to make information retrieval more efficient and effective, thanks to the use of a common language. Moreover, the framework must be used inside a federation, where all organizations agree on a common set of rules. At the end, the metadata model is validated through a proof of concept based on the Open Source Platform Apache Atlas.

La sanità è uno dei nove Data Spaces definiti dalla Comunità Europea. Quest’ambito comprende tutti gli aspetti della salute, volti a migliorare il benessere delle persone, e genera un imponente volume di dati. Uno degli elementi chiave di un Data Space è il Data Catalog, inventario dettagliato delle risorse disponibili, utilizzato per aiutare gli utenti nella ricerca, comprensione e verifica di informazioni potenzialmente rilevanti e, di conseguenza, atto a generare valore. La presenza di un Data Catalog è cruciale in un settore complesso ed in continua evoluzione quale quello sanitario, al fine di raccogliere ed organizzare grandi volumi di dati nel corso degli anni. Tuttavia, entrambi i concetti di Data Sharing e Data Catalog comprendono limitazioni, quali eterogeneità dei dati, approccio egoistico, orientato al solo tornaconto interno, delle istituzioni in possesso di dati significativi, disallineamento tra i dizionari utilizzati per descrivere i dataset e discrepanza di interessi tra chi pubblica i dati e chi li cerca. Questa tesi trae le basi da un progetto di ricerca Italiano in fase di sviluppo, denominato "Health Big Data", nel quale tutti gli IRCCS (Istituti di Ricovero e Cura a Carattere Scientifico) stanno collaborando per superare i limiti evidenziati. Essa propone un framework per migliorare gli attuali Data Catalog, estendendoli con una Knowledge Base e implementando un modello di metadati. Quest'ultimo, attraverso un processo predefinito di pubblicazione dei dataset, permette di raccogliere, organizzare e gestire i metadati al fine di facilitarne il recupero, grazie all’uso di un linguaggio comune. Inoltre, il framework deve essere usato all'interno di una federazione, dove tutte le organizzazioni concordano su un insieme comune di regole. Il lavoro si conclude con un Proof Of Concept per il modello di metadati proposto, basato sulla piattaforma Open Source Apache Atlas.

Improving Data Sharing in Healthcare through a Knowledge-based Data Catalog

LUPO, MELISSA
2022/2023

Abstract

The lack of knowledge about the importance of sharing data makes the majority of organizations unaware of the amount of value that can be generated by exploiting their data assets. Currently, a pivotal component of the European data strategy is data sharing, resulting in an increased interest in Data Spaces, the technical infrastructures for ensuring security while sharing data. The European community has defined nine common data spaces, among which there is the healthcare. It is a field encompassing all aspects of health that aims at improving people well-being, and generates a huge volume of data. One of the key elements of a data space is the data catalog, a detailed inventory of all available assets that are used to help users to discover, understand, and trust potentially relevant information and, therefore, generate value. Its presence is crucial also in a complex and rapidly evolving domain such as healthcare, to collect and organize large volume of data over years. However, both concepts of data sharing in healthcare and data catalogs bring a lot of limitations, such as data heterogeneity, selfish behaviors of institutions owning significant data, but oriented at their benefit, misalignment between dictionaries used to describe datasets, and mismatch of interests between who collects data and who searches for information. This thesis is based on an Italian research project under development, called "Health Big Data", in which all the IRCCS (Institutes conducting research activities) collaborate to overcome existing limitations. It proposes a framework to improve current data catalogs by extending them with a knowledge base and working on the implementation of a metadata model. The latter, through a well-defined process of dataset publication, can collect, organize, and manage metadata to make information retrieval more efficient and effective, thanks to the use of a common language. Moreover, the framework must be used inside a federation, where all organizations agree on a common set of rules. At the end, the metadata model is validated through a proof of concept based on the Open Source Platform Apache Atlas.
ING - Scuola di Ingegneria Industriale e dell'Informazione
19-dic-2023
2022/2023
La sanità è uno dei nove Data Spaces definiti dalla Comunità Europea. Quest’ambito comprende tutti gli aspetti della salute, volti a migliorare il benessere delle persone, e genera un imponente volume di dati. Uno degli elementi chiave di un Data Space è il Data Catalog, inventario dettagliato delle risorse disponibili, utilizzato per aiutare gli utenti nella ricerca, comprensione e verifica di informazioni potenzialmente rilevanti e, di conseguenza, atto a generare valore. La presenza di un Data Catalog è cruciale in un settore complesso ed in continua evoluzione quale quello sanitario, al fine di raccogliere ed organizzare grandi volumi di dati nel corso degli anni. Tuttavia, entrambi i concetti di Data Sharing e Data Catalog comprendono limitazioni, quali eterogeneità dei dati, approccio egoistico, orientato al solo tornaconto interno, delle istituzioni in possesso di dati significativi, disallineamento tra i dizionari utilizzati per descrivere i dataset e discrepanza di interessi tra chi pubblica i dati e chi li cerca. Questa tesi trae le basi da un progetto di ricerca Italiano in fase di sviluppo, denominato "Health Big Data", nel quale tutti gli IRCCS (Istituti di Ricovero e Cura a Carattere Scientifico) stanno collaborando per superare i limiti evidenziati. Essa propone un framework per migliorare gli attuali Data Catalog, estendendoli con una Knowledge Base e implementando un modello di metadati. Quest'ultimo, attraverso un processo predefinito di pubblicazione dei dataset, permette di raccogliere, organizzare e gestire i metadati al fine di facilitarne il recupero, grazie all’uso di un linguaggio comune. Inoltre, il framework deve essere usato all'interno di una federazione, dove tutte le organizzazioni concordano su un insieme comune di regole. Il lavoro si conclude con un Proof Of Concept per il modello di metadati proposto, basato sulla piattaforma Open Source Apache Atlas.
File allegati
File Dimensione Formato  
Tesi___Data_Catalog___Executive_Summary___Lupo.pdf

accessibile in internet per tutti

Descrizione: Executive summary
Dimensione 916.63 kB
Formato Adobe PDF
916.63 kB Adobe PDF Visualizza/Apri
Tesi___Data_Catalog___Lupo.pdf

accessibile in internet per tutti

Descrizione: Thesis
Dimensione 3 MB
Formato Adobe PDF
3 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/214497