The first human genome has been sequenced at the turn of the year 2000. From this first project the modern biology has made great strides, thank to the introduction of Next-generation sequencing in the mid-2000s. The growing availability of genomic data has bring to the birth of the “tertiary analysis”, the one concerning sense-making of huge amount of data and useful biological information extraction. Many projects around the world have been brought forward in the last decade, obtaining a big amount of genomic data. Starting from the mid of '10s in the context of the GeCo project, some researchers of Polimi have introduced many tools to achieve genomic data integration to help biologists to perform tertiary analysis using multiple sources. The Genomic Data Model, the Genomic Conceptual Model, the META-BASE architecture and the GMQL query language are some of the facilities proposed by the GeCo project to obtain genomic data integration. The META-BASE architecture is the core tool for the consolidation and it allows to transform raw data and to map them using a common conceptual schema. Integrated data can be queried or surfed using appropriate tools like GMQL or GenoSurf. All this works are meant to improve the quality of health care and to facilitate biologists to make new progresses in treat of diseases. This thesis presents the efforts spent to integrate two more sources into the META-BASE architecture: GWAS Catalog, curated by the institutes NHGRI and EBI and FinnGen, curated by the University of Helsinki. It's the first time that are hosted Genome-Wide Association Study sources so the integration has required some extensions in the data schema of the GCM and the implementation of the new corresponding modules of the architecture. The potentiality of the integration between multiple ”omic” sources (e.g. ENCODE, Roadmap Epigenomics and TCGA) and GWA studies is then exploited running some GMQL queries over multiple sources, to give a hint for future works and biological discoveries. Multi-omics studies are very important to deeply understand biological associations between genes, proteins, RNA and other omic data with the ultimate goal to improve human life.

Il primo genoma umano è stato sequenziato a cavallo degli anni 2000. Da questo primo progetto la biologia moderna ha fatto grandi passi avanti, grazie all'introduzione della tecnologia Next Generation Sequencing (NGS) a metà degli anni 2000. La crescente disponibilità di dati genomici prodotti ha portato alla nascita della “analisi terziaria”, che riguarda la reinterpretazione e l'estrazione di informazioni biologiche utili da enormi quantità di dati. Molti progetti in tutto il mondo sono stati portati avanti nell'ultimo decennio, ottenendo una grande quantità di dati genomici. A partire da metà degli anni '10 di questo secolo nel contesto del progetto GeCo, alcuni ricercatori del Politecnico di Milano hanno introdotto molti strumenti per raggiungere l'integrazione in modo da aiutare i biologi a portare avanti l'analisi terziaria usando molteplici sorgenti di dati. Il Genomic Data Model, il Genomic Conceptual Model, l'architettura META-BASE e il linguaggio di interrogazione GMQL sono alcuni degli strumenti che sono stati introdotti all'interno del progetto GeCo per ottenere l'integrazione di molteplici sorgenti genomiche. L'architettura META-BASE è lo strumento cardine per la consolidazione dei dati e permette di trasformare i dati grezzi e mapparli usando uno schema concettuale condiviso (il GCM). I dati integrati possono essere interrogati o resi accessibili grazie al linguaggio GMQL oppure tramite il servizio GenoSurf. Tutti questi sforzi hanno come scopo ultimo quello di migliorare la qualità della assistenza sanitaria e di facilitare la strada ai biologi per fare nuovi progressi nella cura delle malattie. Questa tesi presenta gli sforzi compiuti per integrare due ulteriori sorgenti nell'architettura META-BASE: GWAS Catalog, curata dagli instituti NHGRI e EBI e FinnGen, curata dall'Università di Helsinki. E' la prima volta che vengono ospitate sorgenti GWAS, di conseguenza l'integrazione ha richiesto alcuni interventi al Genomic Conceptual Model e l'implementazione dei nuovi moduli corrispondenti dell'architettura. Le potenzialità dell'integrazione tra molteplici sorgenti “omiche” (ad esempio ENCODE, Roadmap Epigenomics e TCGA) e le sorgenti GWAS sono sfruttate eseguendo alcune query GMQL per dare un suggerimento su possibili lavori futuri e su nuove scoperte biologiche. Gli studi multi-omici sono molto importanti per comprendere in profondità le associazioni tra i geni, le proteine, l'RNA e altri dati omici con lo scopo ultimo di migliorare la vita umana.

Integration of genome-wide association studies into the GeCo repository

COMOLLI, FEDERICO
2020/2021

Abstract

The first human genome has been sequenced at the turn of the year 2000. From this first project the modern biology has made great strides, thank to the introduction of Next-generation sequencing in the mid-2000s. The growing availability of genomic data has bring to the birth of the “tertiary analysis”, the one concerning sense-making of huge amount of data and useful biological information extraction. Many projects around the world have been brought forward in the last decade, obtaining a big amount of genomic data. Starting from the mid of '10s in the context of the GeCo project, some researchers of Polimi have introduced many tools to achieve genomic data integration to help biologists to perform tertiary analysis using multiple sources. The Genomic Data Model, the Genomic Conceptual Model, the META-BASE architecture and the GMQL query language are some of the facilities proposed by the GeCo project to obtain genomic data integration. The META-BASE architecture is the core tool for the consolidation and it allows to transform raw data and to map them using a common conceptual schema. Integrated data can be queried or surfed using appropriate tools like GMQL or GenoSurf. All this works are meant to improve the quality of health care and to facilitate biologists to make new progresses in treat of diseases. This thesis presents the efforts spent to integrate two more sources into the META-BASE architecture: GWAS Catalog, curated by the institutes NHGRI and EBI and FinnGen, curated by the University of Helsinki. It's the first time that are hosted Genome-Wide Association Study sources so the integration has required some extensions in the data schema of the GCM and the implementation of the new corresponding modules of the architecture. The potentiality of the integration between multiple ”omic” sources (e.g. ENCODE, Roadmap Epigenomics and TCGA) and GWA studies is then exploited running some GMQL queries over multiple sources, to give a hint for future works and biological discoveries. Multi-omics studies are very important to deeply understand biological associations between genes, proteins, RNA and other omic data with the ultimate goal to improve human life.
BERNASCONI, ANNA
CANAKOGLU, ARIF
ING - Scuola di Ingegneria Industriale e dell'Informazione
23-lug-2021
2020/2021
Il primo genoma umano è stato sequenziato a cavallo degli anni 2000. Da questo primo progetto la biologia moderna ha fatto grandi passi avanti, grazie all'introduzione della tecnologia Next Generation Sequencing (NGS) a metà degli anni 2000. La crescente disponibilità di dati genomici prodotti ha portato alla nascita della “analisi terziaria”, che riguarda la reinterpretazione e l'estrazione di informazioni biologiche utili da enormi quantità di dati. Molti progetti in tutto il mondo sono stati portati avanti nell'ultimo decennio, ottenendo una grande quantità di dati genomici. A partire da metà degli anni '10 di questo secolo nel contesto del progetto GeCo, alcuni ricercatori del Politecnico di Milano hanno introdotto molti strumenti per raggiungere l'integrazione in modo da aiutare i biologi a portare avanti l'analisi terziaria usando molteplici sorgenti di dati. Il Genomic Data Model, il Genomic Conceptual Model, l'architettura META-BASE e il linguaggio di interrogazione GMQL sono alcuni degli strumenti che sono stati introdotti all'interno del progetto GeCo per ottenere l'integrazione di molteplici sorgenti genomiche. L'architettura META-BASE è lo strumento cardine per la consolidazione dei dati e permette di trasformare i dati grezzi e mapparli usando uno schema concettuale condiviso (il GCM). I dati integrati possono essere interrogati o resi accessibili grazie al linguaggio GMQL oppure tramite il servizio GenoSurf. Tutti questi sforzi hanno come scopo ultimo quello di migliorare la qualità della assistenza sanitaria e di facilitare la strada ai biologi per fare nuovi progressi nella cura delle malattie. Questa tesi presenta gli sforzi compiuti per integrare due ulteriori sorgenti nell'architettura META-BASE: GWAS Catalog, curata dagli instituti NHGRI e EBI e FinnGen, curata dall'Università di Helsinki. E' la prima volta che vengono ospitate sorgenti GWAS, di conseguenza l'integrazione ha richiesto alcuni interventi al Genomic Conceptual Model e l'implementazione dei nuovi moduli corrispondenti dell'architettura. Le potenzialità dell'integrazione tra molteplici sorgenti “omiche” (ad esempio ENCODE, Roadmap Epigenomics e TCGA) e le sorgenti GWAS sono sfruttate eseguendo alcune query GMQL per dare un suggerimento su possibili lavori futuri e su nuove scoperte biologiche. Gli studi multi-omici sono molto importanti per comprendere in profondità le associazioni tra i geni, le proteine, l'RNA e altri dati omici con lo scopo ultimo di migliorare la vita umana.
File allegati
File Dimensione Formato  
Thesis.pdf

accessibile in internet per tutti

Dimensione 5.1 MB
Formato Adobe PDF
5.1 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/177637