This thesis approaches the topic of the management of medical imaging data and the data lake environment. Specifically, it studies the DICOM Standard and the management of metadata associated with DICOM imaging files. The research starts with an examination of the nature of data lakes and by asking how would DICOM datasets be managed within a healthcare data lake. The study enters the topic of metadata management, addressing the question of parameter selection for the efficient identification of ideal DICOM datasets by medical researchers.\\ Consequently, the work extended in a collaboration with two medical doctors that helped understand the utilization of DICOM imaging data and related reports both in their everyday job and in their scientific projects. They provided insights into the real-world needs of medical professionals and the key parameters that guide a research study. This thesis offers a comprehensive overview of the current landscape concerning data lakes, metadata management, and the DICOM Standard, with an emphasis on its file format and on DICOM Structured Report documents. It focuses on the utilization of a DICOM data catalog for the storage of metadata that can facilitate the subsequent retrieval of DICOM datasets. Furthermore, it proposes an automated data pipeline for the analysis of DICOM datasets, the extraction of metadata, and the construction of a graph data catalog that can measure the presence of parameters that are included in DICOM and DICOM SR files, in an adaptable and customized way. What emerged from our study is the vast potential of data lake solutions for healthcare research studies as a means to integrate diverse patient data, the critical significance of utilizing structured and standardized formats, and the invaluable utility of a DICOM data catalog in identifying the ideal DICOM datasets to kick-start a research project.
Questa tesi affronta lo studio della gestione di immagini mediche e dei data lake. Più precisamente, si concentra sullo standard DICOM e sulla gestione dei metadati contenuti in un file DICOM. Durante questo studio, la collaborazione con due medici è risultata fondamentale per capire come le immagini dei file DICOM ed i referti di tali immagini siano utilizzati dai medici nel loro lavoro di ogni giorno e come risorsa per i loro studi di ricerca. Questa tesi propone una panoramica completa sulla situazione relativa ai data lake, alla gestione dei metadati e allo standard DICOM, analizzando in particolare la possibilità di realizzare referti strutturati e standardizzati sfruttando DICOM Structured Report. Viene studiato l’utilizzo di un data catalog per file DICOM che possa facilitare l’identificazione dei dataset utili ai fini di una specifica ricerca scientifica. Inoltre, lo studio sfocia nella realizzazione di una data pipeline per l’analisi di dataset composti da file DICOM, l’estrazione di metadati e la realizzazione di un data catalog con un database a grafo in grado misurare quanto un dataset possa essere ideale secondo alcuni parametri di ricerca che possono essere personalizzati. Ciò che è emerso dal nostro studio è l'enorme potenziale delle soluzioni data lake per gli studi di ricerca nel settore sanitario come mezzo per integrare dati medici che sono salvati con diversi formati, l’importanza dell’utilizzo di formati strutturati e dell’utilizzo degli Standard e l’utilità di un data catalog per file DICOM nel risolvere il problema dell’identificazione dei dataset di file DICOM e dei relativi studi durante la fase iniziale di un progetto di ricerca.
Exploring DICOM standard in data lakes: a graph data catalog
MALE, LORENZO
2022/2023
Abstract
This thesis approaches the topic of the management of medical imaging data and the data lake environment. Specifically, it studies the DICOM Standard and the management of metadata associated with DICOM imaging files. The research starts with an examination of the nature of data lakes and by asking how would DICOM datasets be managed within a healthcare data lake. The study enters the topic of metadata management, addressing the question of parameter selection for the efficient identification of ideal DICOM datasets by medical researchers.\\ Consequently, the work extended in a collaboration with two medical doctors that helped understand the utilization of DICOM imaging data and related reports both in their everyday job and in their scientific projects. They provided insights into the real-world needs of medical professionals and the key parameters that guide a research study. This thesis offers a comprehensive overview of the current landscape concerning data lakes, metadata management, and the DICOM Standard, with an emphasis on its file format and on DICOM Structured Report documents. It focuses on the utilization of a DICOM data catalog for the storage of metadata that can facilitate the subsequent retrieval of DICOM datasets. Furthermore, it proposes an automated data pipeline for the analysis of DICOM datasets, the extraction of metadata, and the construction of a graph data catalog that can measure the presence of parameters that are included in DICOM and DICOM SR files, in an adaptable and customized way. What emerged from our study is the vast potential of data lake solutions for healthcare research studies as a means to integrate diverse patient data, the critical significance of utilizing structured and standardized formats, and the invaluable utility of a DICOM data catalog in identifying the ideal DICOM datasets to kick-start a research project.File | Dimensione | Formato | |
---|---|---|---|
TESI_LORENZO_MALE.pdf
accessibile in internet solo dagli utenti autorizzati
Dimensione
1.49 MB
Formato
Adobe PDF
|
1.49 MB | Adobe PDF | Visualizza/Apri |
I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/10589/218856