In the context of genomic research, data analysis is performed on a variety of datasets, produced from studies collected by worldwide consortia. These datasets provide access to well curated biological content. Unfortunately, their complementary metadata, which describe the processes and conditions underlying the associated data, are structured differently across sources. Usually there are no conceptual representations; when present, these differ on concepts and values and are often incompatible or incomplete. This raises a substantial problem of data integration, which can be reduced using ontological support: ontologies propose standard terminologies, which connect different sources and enable metadata interoperability. In this thesis we worked on a unifying repository of genomic data sources, which gathered heterogenous metadata and integrated them on the schema level. To tackle the problem of integration on the instance level, we proposed a system for metadata enrichment, which is the process of annotating existing structured metadata with ontological terms, their definitions, synonyms, ancestors, and descendants. Enriched metadata instrument a semantically extended search of the described datasets; they help genomic researchers in locating datasets for extraction and analysis, either on their original sources or within the specific integrated repository. To achieve a sound enrichment, we first evaluated a number of state of the art tools for biomedical text annotation; then, we chose a restricted number of ontologies appropriate for representing the specific data types contained in the considered genomic datasets; finally, we used the collected information to feed the enrichment process. Our main contribution is a solid implementation of an enrichment procedure, which can be employed by the curators of the mentioned genomic data repository. The system can be generalized to semantically annotate other data structures in the biological and medical fields.

Nel campo di ricerca della genomica, l'analisi dei dati viene effettuata su set di dati prodotti da studi di consorzi internazionali. Il contenuto biologico di questi set di dati risulta curato e significativo. Al contrario, i metadati associati ai dataset, che ne descrivono i processi e le caratteristiche, sono strutturati in maniere differenti tra diverse sorgenti. Normalmente non sono presenti rappresentazioni concettuali; anche quando ci sono, i metadati differiscono in termini di entità e valori, oltre ad essere incompleti ed incompatibili tra loro. Si genera dunque una problematica di integrazione di dati, che può essere attenuata attraverso l'utilizzo di ontologie specializzate. Un'ontologia propone una terminologia di riferimento, che può connettere diverse sorgenti e consentire l'interoperabilità tra i loro metadati. In questa tesi abbiamo lavorato su un pre-esistente repository che unifica diverse sorgenti di dati, inizialmente eterogenee, poi integrate in termini di schema. Per affrontare il problema di integrazione in termini di istanze, invece, abbiamo proposto un sistema di arricchimento di metadati, che corrisponde al processo di annotare metadati strutturati attraverso termini ontologici (con le loro definizioni, sinonimi, iperonimi e iponimi). I metadati, così arricchiti, permettono di effettuare ricerche di dataset che sono estese dal punto di vista semantico. I ricercatori di genomica sono così facilitati durante la loro ricerca di dati da estrarre ed analizzare. I dati possono poi essere ottenuti sia sulle sorgenti originali che sul repository integrato prodotto. Per realizzare un arricchimento solido, per prima cosa abbiamo esaminato alcuni strumenti dello stato dell'arte che permettono di effettuare annotazioni di testo biomedico. Successivamente, abbiamo selezionato un insieme di ontologie adeguato per rappresentare i concetti e le tipologie di metadati contenuti nei dataset analizzati. Infine, abbiamo utilizzato l'informazione ottenuta per inizializzare il processo di arricchimento. Il contributo principale di questo lavoro è l'implementazione consolidata dell'arricchimento dei metadati, che può essere utilizzato dai curatori del repository di dati genomici considerato. Il sistema può essere generalizzato per produrre annotazioni semantiche su altre rappresentazioni di dati nel campo biologico e medico.

Ontology-driven metadata enrichment for genomic datasets

COLOMBO, ANDREA
2017/2018

Abstract

In the context of genomic research, data analysis is performed on a variety of datasets, produced from studies collected by worldwide consortia. These datasets provide access to well curated biological content. Unfortunately, their complementary metadata, which describe the processes and conditions underlying the associated data, are structured differently across sources. Usually there are no conceptual representations; when present, these differ on concepts and values and are often incompatible or incomplete. This raises a substantial problem of data integration, which can be reduced using ontological support: ontologies propose standard terminologies, which connect different sources and enable metadata interoperability. In this thesis we worked on a unifying repository of genomic data sources, which gathered heterogenous metadata and integrated them on the schema level. To tackle the problem of integration on the instance level, we proposed a system for metadata enrichment, which is the process of annotating existing structured metadata with ontological terms, their definitions, synonyms, ancestors, and descendants. Enriched metadata instrument a semantically extended search of the described datasets; they help genomic researchers in locating datasets for extraction and analysis, either on their original sources or within the specific integrated repository. To achieve a sound enrichment, we first evaluated a number of state of the art tools for biomedical text annotation; then, we chose a restricted number of ontologies appropriate for representing the specific data types contained in the considered genomic datasets; finally, we used the collected information to feed the enrichment process. Our main contribution is a solid implementation of an enrichment procedure, which can be employed by the curators of the mentioned genomic data repository. The system can be generalized to semantically annotate other data structures in the biological and medical fields.
BERNASCONI, ANNA
CANAKOGLU, ARIF
ING - Scuola di Ingegneria Industriale e dell'Informazione
20-dic-2018
2017/2018
Nel campo di ricerca della genomica, l'analisi dei dati viene effettuata su set di dati prodotti da studi di consorzi internazionali. Il contenuto biologico di questi set di dati risulta curato e significativo. Al contrario, i metadati associati ai dataset, che ne descrivono i processi e le caratteristiche, sono strutturati in maniere differenti tra diverse sorgenti. Normalmente non sono presenti rappresentazioni concettuali; anche quando ci sono, i metadati differiscono in termini di entità e valori, oltre ad essere incompleti ed incompatibili tra loro. Si genera dunque una problematica di integrazione di dati, che può essere attenuata attraverso l'utilizzo di ontologie specializzate. Un'ontologia propone una terminologia di riferimento, che può connettere diverse sorgenti e consentire l'interoperabilità tra i loro metadati. In questa tesi abbiamo lavorato su un pre-esistente repository che unifica diverse sorgenti di dati, inizialmente eterogenee, poi integrate in termini di schema. Per affrontare il problema di integrazione in termini di istanze, invece, abbiamo proposto un sistema di arricchimento di metadati, che corrisponde al processo di annotare metadati strutturati attraverso termini ontologici (con le loro definizioni, sinonimi, iperonimi e iponimi). I metadati, così arricchiti, permettono di effettuare ricerche di dataset che sono estese dal punto di vista semantico. I ricercatori di genomica sono così facilitati durante la loro ricerca di dati da estrarre ed analizzare. I dati possono poi essere ottenuti sia sulle sorgenti originali che sul repository integrato prodotto. Per realizzare un arricchimento solido, per prima cosa abbiamo esaminato alcuni strumenti dello stato dell'arte che permettono di effettuare annotazioni di testo biomedico. Successivamente, abbiamo selezionato un insieme di ontologie adeguato per rappresentare i concetti e le tipologie di metadati contenuti nei dataset analizzati. Infine, abbiamo utilizzato l'informazione ottenuta per inizializzare il processo di arricchimento. Il contributo principale di questo lavoro è l'implementazione consolidata dell'arricchimento dei metadati, che può essere utilizzato dai curatori del repository di dati genomici considerato. Il sistema può essere generalizzato per produrre annotazioni semantiche su altre rappresentazioni di dati nel campo biologico e medico.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
Andrea_Tesi_final.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: Testo della tesi
Dimensione 1.95 MB
Formato Adobe PDF
1.95 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/144816