The integration of genomic data and of their describing metadata is, at the same time, an important, difficult, and well-recognized challenge. It is important because a wealth of public data repositories is available to drive biological and clinical research; combining information from various heterogeneous and widely dispersed sources is paramount to a number of biological discoveries. It is difficult because the domain is complex and there is no agreement among the various data formats, data models, and metadata definitions, which refer to different vocabularies and ontologies. It is wellrecognized in the bioinformatics community because, in the common practice, repositories are accessed one-by-one, learning their specific metadata definitions as result of long and tedious efforts, and such practice is error-prone; moreover, downloaded datasets need considerable efforts prior to insertion in analysis pipelines. Within the context of the European project data-driven Genomic Computing, which supports genomic research by proposing bioinformatics tools, this PhD thesis focused on the data integration problem, sharing the motivations and methodologies of the project and addressing one of its objectives. We have thoroughly analyzed the players involved in the genomic data context, and proposed a conceptual model of metadata (the Genomic Conceptual Model) to represent in a general way the most common information attributes that document genomic samples and experiments in the available sources. The model describes a typical genomic region data file by different perspectives (biology, technology, management and extraction) and sets the basis to query the underlying data sources for locating relevant experimental datasets. We then overview META-BASE, our architecture for integrating datasets, retrieved from a variety of genomic data sources, based upon a structured transformation process; we present a number of innovative techniques for data extraction, cleaning, normalization and enrichment and we show a general, open and extensible pipeline that can easily incorporate any number of new sources. The resulting repository – already integrating several important sources – is exposed by means of user interfaces to respond to biological researchers’ needs. We provide both a graph-based endpoint for expert users, who need to explore the semantic structure of metadata, and GenoSurf (http://www.gmql.eu/genosurf/), a user-friendly search system providing access to the consolidated repository of metadata attributes, enriched by a multi-ontology knowledge base, locating relevant genomic datasets, which can then be analyzed with off-the-shelf bioinformatics tools. The models, frameworks and tools that are described in this thesis are already included in follow-up projects; they can be exploited to provide biologists and clinicians with a complete data extraction/analysis environment, guided by a conversational interface, which breaks down the technological barriers that are currently slowing down the practical adoption of our systems. Inspired by our work on genomic data integration, during the outbreak of the COVID-19 pandemic we searched for effective ways to help mitigate its effects with our contribution; we were able to successfully re-apply the modelbuild- search paradigm used for human genomics. Even if the domain of viral genomics is completely new, it presents many analogies with our previous challenges. Here we model viral nucleotide sequences as strings of letters, with corresponding sub-sequences – the genes – that encode for amino acid proteins. To highlight differences with previously considered data, we have devised the Viral Conceptual Model to account for their technological, biological and organizational aspects, in addition to computed annotations and variants on both nucleotides and amino acid sequences. We then integrate sequences with their metadata from a variety of different sources and propose a powerful search interface (ViruSurf, http://www.gmql.eu/virusurf/) able to quickly extract sequences based on their combined variants, to compare different conditions, and to build interesting populations for downstream analysis. When applied to SARS-CoV-2, the virus responsible for COVID-19, complex conceptual queries upon our system are able to replicate the search results of recent articles, hence demonstrating considerable potential in supporting virology research. The results on this thesis are part of a broad vision: availability of conceptual models, related databases and search systems for both humans and viruses’ genomics will provide important opportunities for research, especially if virus data will be connected to its host, the human being, who is the provider of genomic and phenotype information.

L'integrazione di dati genomici e dei loro metadati descrittivi è, allo stesso tempo, una sfida importante, difficile e ben riconosciuta. È importante perché è disponibile un gran numero di archivi di dati pubblici che guidano la ricerca biologica e clinica; la combinazione di informazioni provenienti da varie fonti eterogenee e sparse è fondamentale per una serie di scoperte biologiche. È difficile perché il dominio è complesso e non vi è accordo tra i vari formati dei dati, i modelli dei dati e le definizioni dei metadati, che si riferiscono a diversi vocabolari e ontologie. È ben riconosciuta nella comunità bioinformatica perché, nella pratica comune, i repository sono accessibili uno alla volta, utilizzabili solo dopo una comprensione profonda delle specifiche definizioni dei metadati, come risultato di un lungo e faticoso lavoro di interpretazione; tale pratica è sicuramente soggetta ad errori, per di più i dataset scaricati necessitano di sforzi considerevoli prima di essere inseriti nelle pipeline di analisi. Nel contesto del progetto europeo data-driven Genomic Computing, che sostiene la ricerca genomica proponendo strumenti bioinformatici, questa tesi di dottorato si è occupata del problema di integrazione dei dati, condividendo le motivazioni e metodologie del progetto ed affrontandone un particolare obbiettivo. Abbiamo analizzato a fondo gli attori coinvolti nel contesto dei dati genomici, e abbiamo proposto un modello concettuale per i metadati (il Modello Concettuale Genomico) per rappresentare in modo generale gli attributi informativi più comuni che descrivono i campioni biologici e gli esperimenti nelle fonti disponibili. Il modello introdotto descrive un tipico file di regioni genomiche da diverse prospettive: biologica, tecnologica, di gestione ed estrazione; in questo modo pone le basi per interrogare le sorgenti di dati sottostanti ai fini di localizzare dataset sperimentali rilevanti. Proponiamo poi META-BASE, la nostra architettura per l’integrazione di dataset e loro metadati estratti da una varietà di fonti di dati genomici, basata su un processo di trasformazione strutturato; presentiamo una varietà di tecniche innovative per l’estrazione dei dati, la loro pulizia, normalizzazione ed arricchimento e mostriamo una pipeline generale ed estendibile, che può facilmente includere un grande numero di nuove fonti di dati. Descriviamo il repository risultante – già contenente diverse sorgenti importanti – che viene esposto tramite interfacce utente per rispondere alle esigenze di biologi e clinici. Forniamo sia un’interfaccia per utenti esperti, basata su un grafo che permette di esplorare la struttura semantica dei metadati, sia GenoSurf (http://www.gmql. eu/genosurf/), un sistema di ricerca di facile utilizzo che fornisce l’accesso al repository consolidato dei metadati, arricchito da una base di conoscenze multi-ontologiche. Tale interfaccia permette di individuare sottoinsiemi di dati genomici rilevanti che possono essere analizzati con strumenti di bioinformatica standard. I modelli e gli strumenti descritti in questa tesi sono già stati inseriti in progetti successivi; possono essere sfruttati per fornire a biologi e clinici un ambiente completo di estrazione/analisi dei dati, guidato da un’interfaccia conversazionale che abbatte le barriere tecnologiche che attualmente rallentano l’adozione pratica dei nostri sistemi. Ispirati dal lavoro sull’integrazione di dati genomici, all’inizio della pandemia COVID-19 abbiamo cercato modi efficaci per contribuire a mitigarne gli effetti tramite la nostra ricerca; siamo stati in grado di riapplicare con successo il paradigma di ricerca modellazione-integrazione-interrogazione utilizzato per la genomica umana. Anche se il dominio della genomica virale è completamente nuovo, presenta molte analogie con le nostre sfide precedenti. Anche qui rappresentiamo le sequenze di nucleotidi del virus come stringhe di lettere, con le loro sotto-sequenze corrispondenti – i geni – che codificano per le proteine di aminoacidi. Per evidenziare le differenze con i dati analizzati in precedenza, abbiamo invece ideato il Modello Concettuale Virale, che rappresenta gli aspetti tecnologici, biologici ed organizzativi delle sequenze, oltre alle annotazioni e varianti calcolate sia sui nucleotidi che sulle sequenze di aminoacidi. Abbiamo quindi integrato le sequenze con i loro metadati provenienti da una varietà di fonti diverse ed infine abbiamo proposto una solida interfaccia di ricerca (ViruSurf, http://www.gmql.eu/virusurf/), in grado di estrarre rapidamente le sequenze in base alle loro varianti combinate, di confrontare diverse condizioni e di costruire popolazioni di interesse per analisi successive. Le query concettuali eseguite sul nostro sistema, se applicate al virus SARSCoV- 2, permettono di replicare i risultati di ricerca di articoli molto recenti, dimostrando così un enorme potenziale a sostegno della ricerca virologica. I risultati di questa tesi fanno parte di una visione più ampia: la disponibilità tempestiva di modelli concettuali, di relativi database e di sistemi di ricerca – sia per gli esseri umani che per la genomica dei virus – fornirà importanti opportunità di ricerca, soprattutto se i dati del virus saranno connessi a quelli del suo ospite, l’essere umano, che a sua volta fornirà informazioni sia a livello di genotipo che di fenotipo.

Model, integrate, search... repeat: a sound approach to building integrated repositories of genomic data

Bernasconi, Anna
2020/2021

Abstract

The integration of genomic data and of their describing metadata is, at the same time, an important, difficult, and well-recognized challenge. It is important because a wealth of public data repositories is available to drive biological and clinical research; combining information from various heterogeneous and widely dispersed sources is paramount to a number of biological discoveries. It is difficult because the domain is complex and there is no agreement among the various data formats, data models, and metadata definitions, which refer to different vocabularies and ontologies. It is wellrecognized in the bioinformatics community because, in the common practice, repositories are accessed one-by-one, learning their specific metadata definitions as result of long and tedious efforts, and such practice is error-prone; moreover, downloaded datasets need considerable efforts prior to insertion in analysis pipelines. Within the context of the European project data-driven Genomic Computing, which supports genomic research by proposing bioinformatics tools, this PhD thesis focused on the data integration problem, sharing the motivations and methodologies of the project and addressing one of its objectives. We have thoroughly analyzed the players involved in the genomic data context, and proposed a conceptual model of metadata (the Genomic Conceptual Model) to represent in a general way the most common information attributes that document genomic samples and experiments in the available sources. The model describes a typical genomic region data file by different perspectives (biology, technology, management and extraction) and sets the basis to query the underlying data sources for locating relevant experimental datasets. We then overview META-BASE, our architecture for integrating datasets, retrieved from a variety of genomic data sources, based upon a structured transformation process; we present a number of innovative techniques for data extraction, cleaning, normalization and enrichment and we show a general, open and extensible pipeline that can easily incorporate any number of new sources. The resulting repository – already integrating several important sources – is exposed by means of user interfaces to respond to biological researchers’ needs. We provide both a graph-based endpoint for expert users, who need to explore the semantic structure of metadata, and GenoSurf (http://www.gmql.eu/genosurf/), a user-friendly search system providing access to the consolidated repository of metadata attributes, enriched by a multi-ontology knowledge base, locating relevant genomic datasets, which can then be analyzed with off-the-shelf bioinformatics tools. The models, frameworks and tools that are described in this thesis are already included in follow-up projects; they can be exploited to provide biologists and clinicians with a complete data extraction/analysis environment, guided by a conversational interface, which breaks down the technological barriers that are currently slowing down the practical adoption of our systems. Inspired by our work on genomic data integration, during the outbreak of the COVID-19 pandemic we searched for effective ways to help mitigate its effects with our contribution; we were able to successfully re-apply the modelbuild- search paradigm used for human genomics. Even if the domain of viral genomics is completely new, it presents many analogies with our previous challenges. Here we model viral nucleotide sequences as strings of letters, with corresponding sub-sequences – the genes – that encode for amino acid proteins. To highlight differences with previously considered data, we have devised the Viral Conceptual Model to account for their technological, biological and organizational aspects, in addition to computed annotations and variants on both nucleotides and amino acid sequences. We then integrate sequences with their metadata from a variety of different sources and propose a powerful search interface (ViruSurf, http://www.gmql.eu/virusurf/) able to quickly extract sequences based on their combined variants, to compare different conditions, and to build interesting populations for downstream analysis. When applied to SARS-CoV-2, the virus responsible for COVID-19, complex conceptual queries upon our system are able to replicate the search results of recent articles, hence demonstrating considerable potential in supporting virology research. The results on this thesis are part of a broad vision: availability of conceptual models, related databases and search systems for both humans and viruses’ genomics will provide important opportunities for research, especially if virus data will be connected to its host, the human being, who is the provider of genomic and phenotype information.
PERNICI, BARBARA
PERNICI, BARBARA
CAMPI, ALESSANDRO
4-feb-2021
L'integrazione di dati genomici e dei loro metadati descrittivi è, allo stesso tempo, una sfida importante, difficile e ben riconosciuta. È importante perché è disponibile un gran numero di archivi di dati pubblici che guidano la ricerca biologica e clinica; la combinazione di informazioni provenienti da varie fonti eterogenee e sparse è fondamentale per una serie di scoperte biologiche. È difficile perché il dominio è complesso e non vi è accordo tra i vari formati dei dati, i modelli dei dati e le definizioni dei metadati, che si riferiscono a diversi vocabolari e ontologie. È ben riconosciuta nella comunità bioinformatica perché, nella pratica comune, i repository sono accessibili uno alla volta, utilizzabili solo dopo una comprensione profonda delle specifiche definizioni dei metadati, come risultato di un lungo e faticoso lavoro di interpretazione; tale pratica è sicuramente soggetta ad errori, per di più i dataset scaricati necessitano di sforzi considerevoli prima di essere inseriti nelle pipeline di analisi. Nel contesto del progetto europeo data-driven Genomic Computing, che sostiene la ricerca genomica proponendo strumenti bioinformatici, questa tesi di dottorato si è occupata del problema di integrazione dei dati, condividendo le motivazioni e metodologie del progetto ed affrontandone un particolare obbiettivo. Abbiamo analizzato a fondo gli attori coinvolti nel contesto dei dati genomici, e abbiamo proposto un modello concettuale per i metadati (il Modello Concettuale Genomico) per rappresentare in modo generale gli attributi informativi più comuni che descrivono i campioni biologici e gli esperimenti nelle fonti disponibili. Il modello introdotto descrive un tipico file di regioni genomiche da diverse prospettive: biologica, tecnologica, di gestione ed estrazione; in questo modo pone le basi per interrogare le sorgenti di dati sottostanti ai fini di localizzare dataset sperimentali rilevanti. Proponiamo poi META-BASE, la nostra architettura per l’integrazione di dataset e loro metadati estratti da una varietà di fonti di dati genomici, basata su un processo di trasformazione strutturato; presentiamo una varietà di tecniche innovative per l’estrazione dei dati, la loro pulizia, normalizzazione ed arricchimento e mostriamo una pipeline generale ed estendibile, che può facilmente includere un grande numero di nuove fonti di dati. Descriviamo il repository risultante – già contenente diverse sorgenti importanti – che viene esposto tramite interfacce utente per rispondere alle esigenze di biologi e clinici. Forniamo sia un’interfaccia per utenti esperti, basata su un grafo che permette di esplorare la struttura semantica dei metadati, sia GenoSurf (http://www.gmql. eu/genosurf/), un sistema di ricerca di facile utilizzo che fornisce l’accesso al repository consolidato dei metadati, arricchito da una base di conoscenze multi-ontologiche. Tale interfaccia permette di individuare sottoinsiemi di dati genomici rilevanti che possono essere analizzati con strumenti di bioinformatica standard. I modelli e gli strumenti descritti in questa tesi sono già stati inseriti in progetti successivi; possono essere sfruttati per fornire a biologi e clinici un ambiente completo di estrazione/analisi dei dati, guidato da un’interfaccia conversazionale che abbatte le barriere tecnologiche che attualmente rallentano l’adozione pratica dei nostri sistemi. Ispirati dal lavoro sull’integrazione di dati genomici, all’inizio della pandemia COVID-19 abbiamo cercato modi efficaci per contribuire a mitigarne gli effetti tramite la nostra ricerca; siamo stati in grado di riapplicare con successo il paradigma di ricerca modellazione-integrazione-interrogazione utilizzato per la genomica umana. Anche se il dominio della genomica virale è completamente nuovo, presenta molte analogie con le nostre sfide precedenti. Anche qui rappresentiamo le sequenze di nucleotidi del virus come stringhe di lettere, con le loro sotto-sequenze corrispondenti – i geni – che codificano per le proteine di aminoacidi. Per evidenziare le differenze con i dati analizzati in precedenza, abbiamo invece ideato il Modello Concettuale Virale, che rappresenta gli aspetti tecnologici, biologici ed organizzativi delle sequenze, oltre alle annotazioni e varianti calcolate sia sui nucleotidi che sulle sequenze di aminoacidi. Abbiamo quindi integrato le sequenze con i loro metadati provenienti da una varietà di fonti diverse ed infine abbiamo proposto una solida interfaccia di ricerca (ViruSurf, http://www.gmql.eu/virusurf/), in grado di estrarre rapidamente le sequenze in base alle loro varianti combinate, di confrontare diverse condizioni e di costruire popolazioni di interesse per analisi successive. Le query concettuali eseguite sul nostro sistema, se applicate al virus SARSCoV- 2, permettono di replicare i risultati di ricerca di articoli molto recenti, dimostrando così un enorme potenziale a sostegno della ricerca virologica. I risultati di questa tesi fanno parte di una visione più ampia: la disponibilità tempestiva di modelli concettuali, di relativi database e di sistemi di ricerca – sia per gli esseri umani che per la genomica dei virus – fornirà importanti opportunità di ricerca, soprattutto se i dati del virus saranno connessi a quelli del suo ospite, l’essere umano, che a sua volta fornirà informazioni sia a livello di genotipo che di fenotipo.
File allegati
File Dimensione Formato  
anna_bernasconi_phd_thesis.pdf

Open Access dal 15/01/2022

Descrizione: Tesi di dottorato di Anna Bernasconi, XXXII ciclo
Dimensione 28.21 MB
Formato Adobe PDF
28.21 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/169559