Big Data research and applications, particularly in the biomedical field, has grown considerably through technological advancements. While these technologies offer significant benefits, they introduce many challenges, particularly in standardizing heterogeneous data from multiple sources to enable efficient analysis. The Observational Medical Outcomes Partnership (OMOP) Common Data Model (CDM) has been identified as a suitable standardization model for healthcare data. To consistently represent information, it comprises unique concepts and medical terminologies, allowing data harmonization and sharing across different research centers and hospitals, effectively promoting large-scale studies. This thesis aims at creating a standardized representation of ECG signals from various public datasets, with a focus on heart rate variability (HRV) features and automatically generated arrhythmia annotations. In this work, 16 ECG arrhythmia annotations were evaluated along with 18 HRV indices (time-domain, frequency-domain, non-linear). All ECG arrhythmia annotations and 33.3% of the HRV indices could be mapped using only standard concepts, in complete adherence to OMOP. Specifically, 11.1 % were associated to a single standard concept, while 22.2% required one-to-many mappings, as no single concept could completely represent them. Furthermore, we propose a workflow to support the mapping process when suitable standard concepts do not exist or are difficult to identify. The strategy includes, other than the already mentioned approaches: a) the adoption of broader (higher in the hierarchy) standard concepts; b) the creation of custom concepts; or c) excluding terms considered not essential. In our experience, OMOP CDM proved to be a suitable tool to represent ECG data from multiple sources in a standardized manner. However, to mitigate the downsides of alternatives mapping techniques, the OMOP standard vocabularies would need to include more specialized concepts.

La ricerca e le applicazioni dei Big Data, in particolare nel settore biomedico, è cresciuta notevolmente grazie ai progressi tecnologici. Queste tecnologie offrono vantaggi significativi ma introducono molte sfide, in particolare riguardanti la standardizzazione di dati eterogenei provenienti da più fonti per consentire un’analisi efficiente. L’Observational Medical Outcomes Partnership (OMOP) Common Data Model (CDM) è stato identificato come un modello di standardizzazione adatto per i dati sanitari. Per rappresentare in modo coerente le informazioni, comprende concetti e terminologie mediche univoche, consentendo l’armonizzazione e la condivisione dei dati tra centri di ricerca ed ospedali, favorendo studi su larga scala. Questa tesi ha come obiettivo la creazione di una rappresentazione standardizzata per segnali ECG provenienti da vari dataset, con particolare attenzione alle metriche di variabilità della frequenza cardiaca (HRV) e ad annotazioni di aritmia generate in modo automatico. Questo studio ha preso in considerazione 16 annotazioni di aritmia ECG e 18 indici HRV (dominio del tempo, dominio delle frequenze e non lineari). La totalità delle annotazioni di aritmia ECG e il 33,3% degli indici HRV sono stati mappati utilizzando solamente concetti standard, in completa aderenza con OMOP. L’11,1% è stato associato ad un singolo concetto standard, il 22,2% ha richiesto una mappatura one-to-many poiché nessuno dei concetti, da solo, è stato in grado di rappresentare l’informazione in modo esaustivo. Inoltre, questo lavoro propone un workflow per i casi in cui concetti standard adatti sono difficili da identificare o inesistenti. La strategia comprende, oltre agli approcci già citati: a) l’adozione di concetti standard più ampi; b) la creazione di concetti custom; o c) l’esclusione dei termini considerati non essenziali. Nella nostra esperienza, OMOP CDM si è dimostrato adatto a rappresentare in modo standardizzato dati ECG provenienti da più fonti. Tuttavia, per mitigare gli svantaggi delle tecniche di mappatura alternative, i vocabolari standard OMOP dovrebbero includere concetti specializzati.

From ECG to OMOP: a solution for heart rate variability features mapping

Aulenti, Emanuele
2023/2024

Abstract

Big Data research and applications, particularly in the biomedical field, has grown considerably through technological advancements. While these technologies offer significant benefits, they introduce many challenges, particularly in standardizing heterogeneous data from multiple sources to enable efficient analysis. The Observational Medical Outcomes Partnership (OMOP) Common Data Model (CDM) has been identified as a suitable standardization model for healthcare data. To consistently represent information, it comprises unique concepts and medical terminologies, allowing data harmonization and sharing across different research centers and hospitals, effectively promoting large-scale studies. This thesis aims at creating a standardized representation of ECG signals from various public datasets, with a focus on heart rate variability (HRV) features and automatically generated arrhythmia annotations. In this work, 16 ECG arrhythmia annotations were evaluated along with 18 HRV indices (time-domain, frequency-domain, non-linear). All ECG arrhythmia annotations and 33.3% of the HRV indices could be mapped using only standard concepts, in complete adherence to OMOP. Specifically, 11.1 % were associated to a single standard concept, while 22.2% required one-to-many mappings, as no single concept could completely represent them. Furthermore, we propose a workflow to support the mapping process when suitable standard concepts do not exist or are difficult to identify. The strategy includes, other than the already mentioned approaches: a) the adoption of broader (higher in the hierarchy) standard concepts; b) the creation of custom concepts; or c) excluding terms considered not essential. In our experience, OMOP CDM proved to be a suitable tool to represent ECG data from multiple sources in a standardized manner. However, to mitigate the downsides of alternatives mapping techniques, the OMOP standard vocabularies would need to include more specialized concepts.
REALI, PIERLUIGI
SIGNORINI, MARIA GABRIELLA
ING - Scuola di Ingegneria Industriale e dell'Informazione
3-apr-2025
2023/2024
La ricerca e le applicazioni dei Big Data, in particolare nel settore biomedico, è cresciuta notevolmente grazie ai progressi tecnologici. Queste tecnologie offrono vantaggi significativi ma introducono molte sfide, in particolare riguardanti la standardizzazione di dati eterogenei provenienti da più fonti per consentire un’analisi efficiente. L’Observational Medical Outcomes Partnership (OMOP) Common Data Model (CDM) è stato identificato come un modello di standardizzazione adatto per i dati sanitari. Per rappresentare in modo coerente le informazioni, comprende concetti e terminologie mediche univoche, consentendo l’armonizzazione e la condivisione dei dati tra centri di ricerca ed ospedali, favorendo studi su larga scala. Questa tesi ha come obiettivo la creazione di una rappresentazione standardizzata per segnali ECG provenienti da vari dataset, con particolare attenzione alle metriche di variabilità della frequenza cardiaca (HRV) e ad annotazioni di aritmia generate in modo automatico. Questo studio ha preso in considerazione 16 annotazioni di aritmia ECG e 18 indici HRV (dominio del tempo, dominio delle frequenze e non lineari). La totalità delle annotazioni di aritmia ECG e il 33,3% degli indici HRV sono stati mappati utilizzando solamente concetti standard, in completa aderenza con OMOP. L’11,1% è stato associato ad un singolo concetto standard, il 22,2% ha richiesto una mappatura one-to-many poiché nessuno dei concetti, da solo, è stato in grado di rappresentare l’informazione in modo esaustivo. Inoltre, questo lavoro propone un workflow per i casi in cui concetti standard adatti sono difficili da identificare o inesistenti. La strategia comprende, oltre agli approcci già citati: a) l’adozione di concetti standard più ampi; b) la creazione di concetti custom; o c) l’esclusione dei termini considerati non essenziali. Nella nostra esperienza, OMOP CDM si è dimostrato adatto a rappresentare in modo standardizzato dati ECG provenienti da più fonti. Tuttavia, per mitigare gli svantaggi delle tecniche di mappatura alternative, i vocabolari standard OMOP dovrebbero includere concetti specializzati.
File allegati
File Dimensione Formato  
2025_4_Aulenti.pdf

solo utenti autorizzati a partire dal 13/03/2028

Descrizione: testo della tesi
Dimensione 1.65 MB
Formato Adobe PDF
1.65 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/235542