Design and implementation of an ETL pipeline for genomic variant integration within the OMOP common data model

The increasing growth of genomic data has led to numerous challenges regarding integra- tion, standardization, and interoperability within clinical research. In this context, the Observational Medical Outcome Partnership (OMOP) initiative provides a model that aims to overcome these limitations, with the objective of standardizing and storing clinical data while also ensuring interoperability. In particular, this thesis addresses the problem of integrating genomic variants within the OMOP Common Data Model (CDM). To this end, an Extraction-Transformation-Load (ETL) pipeline was implemented in Python which, starting from genomic files in Variant Call Format (VCF) (previously annotated using SnpEff), aims to transform the information into relational tables compliant with the OMOP standard. The developed pipeline includes procedures for variant parsing, extraction of relevant attributes, data normalization, management of duplicate records, verification of data consistency, and generation of CSV files, subsequently loaded into a PostgreSQL database. The evaluation phase involved the execution of validation checks aimed at verifying the correctness of the loading process, logical key integrity, referential consistency across tables, and the completeness of critical attributes. The obtained results confirm the robustness of the pipeline, demonstrating that genomic data, despite their semi-structured nature and the absence of complete clinical metadata, can be coherently represented within the OMOP framework. The study further highlights the semantic compatibility between functional annotations produced by SnpEff and the OMOP Genomic Extension schema, identifying both direct correspondences and intrinsic informational limitations related to the VCF format.

La crescente disponibilità di dati genomici ha introdotto numerose sfide in termini di integrazione, standardizzazione e interoperabilità all’interno della ricerca clinica. In questo contesto, l’iniziativa Observational Medical Outcomes Partnership (OMOP) propone un modello che mira a superare tali limitazioni, con l’obiettivo di standardizzare e archiviare i dati clinici garantendo al contempo l’interoperabilità. In particolare, questa tesi affronta il problema dell’integrazione delle varianti genomiche all’interno dell’OMOP Common Data Model (CDM). A tal fine è stata implementata una pipeline di Extraction–Transformation–Load (ETL) in Python che, partendo da file genomici in formato Variant Call Format (VCF) (precedente- mente annotati mediante SnpEff), mira a trasformare le informazioni in tabelle relazionali conformi allo standard OMOP. La pipeline sviluppata include procedure di parsing delle varianti, estrazione degli attributi rilevanti, normalizzazione dei dati, gestione dei record duplicati, verifica della consistenza dei dati e generazione di file CSV, successivamente caricati in un database PostgreSQL. La fase di valutazione ha previsto l’esecuzione di controlli di validazione volti a verificare la correttezza del processo di caricamento, l’integrità delle chiavi logiche, la consistenza referenziale tra le tabelle e la completezza degli attributi critici. I risultati ottenuti confermano la robustezza della pipeline, evidenziando come i dati genomici, nonostante la loro natura semi-strutturata e l’assenza di metadati clinici completi, possano essere rappresentati in modo coerente all’interno del modello OMOP. Lo studio dimostra inoltre la compatibilità semantica tra le annotazioni funzionali prodotte da SnpEff e lo schema della OMOP Genomic Extension, mettendo in luce sia le corrispondenze dirette sia i limiti informativi derivanti dal formato VCF.