A rising number of published genomic datasets presents opportunities to enhance our understanding of complex and rare diseases. Although data reuse remains difficult due to a lack of infrastructures, standards, and policies, the FAIR principles (Findability, Accessibility, Interoperability, and Reusability) provide a framework to overcome these challenges, promoting data stewardship and enhancing research efficiency. This thesis introduces a workflow for a fine-grained assessment of compliance with FAIR principles, focusing on genomic data sources and assessing resources at the individual data point level. Our implementation integrates concepts from existing frameworks and utilizes automated tests to evaluate compliance with the FAIR principles across six major genomic repositories, including Array Express, the Gene Expression Omnibus, the Genome-Wide Association Studies Catalog, the Encyclopedia of DNA Elements (ENCODE), Genomic Data Commons (GDC), and the International Cancer Genome Consortium. The developed workflow offers a scalable and efficient solution for assessing and improving the FAIRness of genomic data sources. We found that the six analyzed datasets met most of the FAIR criteria and showed areas where improvements can be easily reached. Our results highlight significant variability in FAIR compliance, with some repositories, such as ENCODE, scoring high on all principles. In contrast, others, such as GDC, display notable gaps, particularly in data provenance and ontology usage. We propose that implementing standardized metadata schemas and incorporating specific attributes in repository registries can enhance the FAIRness of datasets.
Il crescente numero di dataset genomici pubblicati offre l'opportunità di migliorare la comprensione di malattie complesse e rare. Sebbene il riutilizzo dei dati rimanga difficile a causa della mancanza di infrastrutture, standard e politiche di gestione, i principi FAIR (Findability, Accessibility, Interoperability e Reusability) forniscono un quadro per superare queste sfide, promuovendo la gestione dei dati e migliorando l'efficienza della ricerca. Questa tesi introduce un workflow per una valutazione dettagliata della conformità ai principi FAIR, concentrandosi su fonti di dati genomici e valutando le risorse a livello di singole unità di dati. La nostra implementazione integra concetti di framework esistenti e utilizza test automatizzati per valutare la conformità ai principi FAIR di sei importanti archivi genomici, tra cui Array Express, Gene Expression Omnibus, Genome-Wide Association Studies Catalog, Encyclopedia of DNA Elements (ENCODE), Genomic Data Commons (GDC) e International Cancer Genome Consortium. Il workflow sviluppato offre una soluzione scalabile ed efficiente per valutare e migliorare la FAIRness delle fonti di dati genomici. Abbiamo riscontrato che i set di dati analizzati soddisfano la maggior parte dei criteri FAIR ed abbiamo mostrato le aree in cui si possono facilmente ottenere miglioramenti. I nostri risultati evidenziano una significativa variabilità nella conformità FAIR, con alcuni archivi, come ENCODE, che ottengono punteggi elevati in tutti i principi, mentre altri, come GDC, mostrano notevoli lacune, in particolare nella provenienza dei dati e nell'uso delle ontologie. Indichiamo che l'implementazione di schemi di metadati standardizzati e l'incorporazione di attributi specifici nei registri dei depositi possano migliorare la FAIRness dei dataset.
A fine-grained FAIRness assessment workflow for genomic data sources
Drmic, Ana
2023/2024
Abstract
A rising number of published genomic datasets presents opportunities to enhance our understanding of complex and rare diseases. Although data reuse remains difficult due to a lack of infrastructures, standards, and policies, the FAIR principles (Findability, Accessibility, Interoperability, and Reusability) provide a framework to overcome these challenges, promoting data stewardship and enhancing research efficiency. This thesis introduces a workflow for a fine-grained assessment of compliance with FAIR principles, focusing on genomic data sources and assessing resources at the individual data point level. Our implementation integrates concepts from existing frameworks and utilizes automated tests to evaluate compliance with the FAIR principles across six major genomic repositories, including Array Express, the Gene Expression Omnibus, the Genome-Wide Association Studies Catalog, the Encyclopedia of DNA Elements (ENCODE), Genomic Data Commons (GDC), and the International Cancer Genome Consortium. The developed workflow offers a scalable and efficient solution for assessing and improving the FAIRness of genomic data sources. We found that the six analyzed datasets met most of the FAIR criteria and showed areas where improvements can be easily reached. Our results highlight significant variability in FAIR compliance, with some repositories, such as ENCODE, scoring high on all principles. In contrast, others, such as GDC, display notable gaps, particularly in data provenance and ontology usage. We propose that implementing standardized metadata schemas and incorporating specific attributes in repository registries can enhance the FAIRness of datasets.File | Dimensione | Formato | |
---|---|---|---|
2024_10_Drmic_Thesis_01.pdf
solo utenti autorizzati a partire dal 15/09/2025
Descrizione: Text of the thesis
Dimensione
5.83 MB
Formato
Adobe PDF
|
5.83 MB | Adobe PDF | Visualizza/Apri |
2024_10_Drmic_Executive Summary_02.pdf
solo utenti autorizzati a partire dal 15/09/2025
Descrizione: Text of the executive summary
Dimensione
998.26 kB
Formato
Adobe PDF
|
998.26 kB | Adobe PDF | Visualizza/Apri |
I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/10589/226782