A considerable amount of information is generated and used in all healthcare applications, increasing together with the technological progress. This information includes patient personal information and medical history, stored in electronic health records, data from imaging and laboratory examinations, data from genomics-driven experiments, and data generated by monitoring devices. All of these data come in different formats and from different sources, for instance various healthcare facilities, medical laboratories, wearables. Consequently, the need for new systems to store and manage these data has arisen. In particular, it is paramount to store different types of medical data in a repository accessible by different treatment and research facilities, in order to create an organized and rich dataset. The system employed in this project is the data lake, a repository that supports structured, semi-structured and unstructured data at any scale. However, to effectively maintain the value of the data, the data lake, as well as the other solutions, needs to be structured and regulated. This can be done by virtue of a data catalog, which, in turn, relies on metadata, i.e. additional data describing the managed resources. The objective of this work is to identify a metadata model fit for this use case. Seeing how the metadata strongly depend on the data they characterize, the structure they exist in and the purposes of the data, they need to be tailored to the specific application. As a suited model could not be found in the literature, one had to be expressly defined to meet the needs of this project. After developing the metadata model, it was validated through a demo implementation based on the open source data catalog platform Apache Atlas. Atlas was chosen after reviewing several available solutions. Overall, this work is a step in the implementation of a complete metadata model and, eventually, a data lake architecture to be applied in the healthcare field.

Una considerevole quantità di informazioni viene generata e usata in tutte le applicazioni sanitarie, aumentando di pari passo con il progresso tecnologico. Tali informazioni comprendono anagrafica e anamnesi dei pazienti, conservati nelle cartelle cliniche elettroniche, dati derivanti da immagini ed esami di laboratorio, dati derivanti da esperimenti basati sulla genomica e dati generati da dispositivi di monitoraggio. Tutti questi dati hanno diversi formati e provengono da diverse fonti, per esempio varie strutture sanitarie, laboratori medici, dispositivi indossabili. Di conseguenza, è sorta la necessità di nuovi sistemi per conservare e gestire i dati. Nello specifico, è fondamentale mantenere diversi tipi di dati in un archivio accessibile da diversi istituti di cura e ricerca, in modo da creare un dataset organizzato e completo. Il sistema utilizzato all'interno di questo progetto è il data lake, una repository che supporta dati strutturati, semi strutturati e non strutturati su qualisasi scala. Tuttavia, per mantenere in modo efficace il valore dei dati, il data lake, come le altre soluzioni, deve essere strutturato e regolato. Questo può essere attuato grazie a un catalogo dati che, a sua volta, si basa sui metadati, ossia dati aggiuntivi che descrivono le risorse gestite. L'obiettivo di questo lavoro è l'identificazione di un modello di metadati idoneo a questo caso. Poiché i metadati dipendono strettamente dai dati che caratterizzano, dalla struttura in cui si trovano e dallo scopo dei dati, devono essere scelti appositamente per la specifica applicazione. Dal momento che non è stato possibile trovare un modello opportuno nella letteratura, è stato necessario definirne uno espressamente per soddisfare i bisogni e i requisiti di questo progetto. Dopo aver sviluppato il modello di metadati, è stato validato tramite un'implementazione demo basata sulla piattaforma di catalogo dati open source Apache Atlas. Atlas è stato scelto dopo aver vagliato diverse soluzioni disponibili. Nel complesso, questo lavoro rappresenta un passo nell'implementazione di un modello di metadati completo e, alla fine, di un'architettura di data lake che possa essere applicata nel settore sanitario.

A metadata model for healthcare: the health big data case study

MIGOTTO, NIVES MARIA
2021/2022

Abstract

A considerable amount of information is generated and used in all healthcare applications, increasing together with the technological progress. This information includes patient personal information and medical history, stored in electronic health records, data from imaging and laboratory examinations, data from genomics-driven experiments, and data generated by monitoring devices. All of these data come in different formats and from different sources, for instance various healthcare facilities, medical laboratories, wearables. Consequently, the need for new systems to store and manage these data has arisen. In particular, it is paramount to store different types of medical data in a repository accessible by different treatment and research facilities, in order to create an organized and rich dataset. The system employed in this project is the data lake, a repository that supports structured, semi-structured and unstructured data at any scale. However, to effectively maintain the value of the data, the data lake, as well as the other solutions, needs to be structured and regulated. This can be done by virtue of a data catalog, which, in turn, relies on metadata, i.e. additional data describing the managed resources. The objective of this work is to identify a metadata model fit for this use case. Seeing how the metadata strongly depend on the data they characterize, the structure they exist in and the purposes of the data, they need to be tailored to the specific application. As a suited model could not be found in the literature, one had to be expressly defined to meet the needs of this project. After developing the metadata model, it was validated through a demo implementation based on the open source data catalog platform Apache Atlas. Atlas was chosen after reviewing several available solutions. Overall, this work is a step in the implementation of a complete metadata model and, eventually, a data lake architecture to be applied in the healthcare field.
PLEBANI, PIERLUIGI
TANCA, LETIZIA
ING - Scuola di Ingegneria Industriale e dell'Informazione
20-dic-2022
2021/2022
Una considerevole quantità di informazioni viene generata e usata in tutte le applicazioni sanitarie, aumentando di pari passo con il progresso tecnologico. Tali informazioni comprendono anagrafica e anamnesi dei pazienti, conservati nelle cartelle cliniche elettroniche, dati derivanti da immagini ed esami di laboratorio, dati derivanti da esperimenti basati sulla genomica e dati generati da dispositivi di monitoraggio. Tutti questi dati hanno diversi formati e provengono da diverse fonti, per esempio varie strutture sanitarie, laboratori medici, dispositivi indossabili. Di conseguenza, è sorta la necessità di nuovi sistemi per conservare e gestire i dati. Nello specifico, è fondamentale mantenere diversi tipi di dati in un archivio accessibile da diversi istituti di cura e ricerca, in modo da creare un dataset organizzato e completo. Il sistema utilizzato all'interno di questo progetto è il data lake, una repository che supporta dati strutturati, semi strutturati e non strutturati su qualisasi scala. Tuttavia, per mantenere in modo efficace il valore dei dati, il data lake, come le altre soluzioni, deve essere strutturato e regolato. Questo può essere attuato grazie a un catalogo dati che, a sua volta, si basa sui metadati, ossia dati aggiuntivi che descrivono le risorse gestite. L'obiettivo di questo lavoro è l'identificazione di un modello di metadati idoneo a questo caso. Poiché i metadati dipendono strettamente dai dati che caratterizzano, dalla struttura in cui si trovano e dallo scopo dei dati, devono essere scelti appositamente per la specifica applicazione. Dal momento che non è stato possibile trovare un modello opportuno nella letteratura, è stato necessario definirne uno espressamente per soddisfare i bisogni e i requisiti di questo progetto. Dopo aver sviluppato il modello di metadati, è stato validato tramite un'implementazione demo basata sulla piattaforma di catalogo dati open source Apache Atlas. Atlas è stato scelto dopo aver vagliato diverse soluzioni disponibili. Nel complesso, questo lavoro rappresenta un passo nell'implementazione di un modello di metadati completo e, alla fine, di un'architettura di data lake che possa essere applicata nel settore sanitario.
File allegati
File Dimensione Formato  
Migotto_ExecutiveSummary.pdf

accessibile in internet per tutti

Descrizione: Executive Summary
Dimensione 395.98 kB
Formato Adobe PDF
395.98 kB Adobe PDF Visualizza/Apri
Migotto_Tesi.pdf

accessibile in internet per tutti

Descrizione: Tesi
Dimensione 1.2 MB
Formato Adobe PDF
1.2 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/197084