One of the major concerns of bioinformatics has always been the development of tools capable of integrating a large amount of biological data available through different sources, with the purpose to allow a more easy, efficient, and effective extraction of new and useful knowledge. Since the development of the Next Generation Sequencing (NGS) techniques, a more cost-effective and fast method of DNA sequencing that has led to an enormous increase of the volume of genomic data available, the problem of integrating a large amount of heterogeneous data accessible through a variety of technology has become even more pressing. In this context, the Genomic Computing (GeCo) team of Politecnico di Milano has developed the Genomic Data Model (GDM) and the GenoMetric Query Language (GMQL) which provide abstractions for genomic data and their metadata, and the possibility to query them in a simple and high-level fashion. To be queried, though, the data must be downloaded from the sources, transformed to be compliant to the GDM, and then added to a GDM repository connected to a GMQL implementation. The objective of this thesis project is to integrate in an automated way the Roadmap Epigenomics Project (REP) biological data and metadata into a GDM repository, so that the REP data can be queried using the GMQL language and potentially contribute to the discovery of new knowledge in different areas of biology and medicine. The data integration is performed by developing some additional modules for GMQL-Importer, a modular and fully configurable tool regularly used by the GeCo team to add biological data and metadata to GDM repositories. These modules are extending the capacity of the GMQL-Importer program, adding the REP source to the pool of sources from which data and metadata can be automatically downloaded, transformed, and imported in a GDM repository, fully supporting the maintenance and extension of such a repository.

L'integrazione di dati biologici rappresenta da sempre una sfida. Questo è dovuto sia all'estrema complessità ed eterogeneità intrinseca dei dati biologici che all'enorme quantitativo di sorgenti che si sono andate cumulando nel corso degli anni. Infatti ogni progetto che prevede la condivisione di dati pubblici è gestito in modo indipendente dagli altri, da gruppi di persone diversi senza alcun tipo di accordo o convenzione e utilizzando tecnologie e infrastrutture estremamente variegate. Questa mancanza di coordinamento rende difficile l'integrazione dei dati biologici finalizzata all'estrazione di nuove conoscenze. Dal punto di vista computazionale un processo di integrazione deve tenere in considerazione alcuni aspetti fondamentali come: la differenza di dimensione, formato e numero di attributi dei dati; la presenza di dati errati e da scartare; la selezione di dataset rilevanti rispetto al contesto; l'integrazione dei dataset selezionati, spesso con caratteristiche discordanti tra loro e la capacità del processo di integrazione di gestire grandi quantità di dataset mantenendo prestazioni accettabili. L'eterogeneità dei dati biologici è dovuta anche alla gran varietà di metodi e tecnologie usate per produrli. Inoltre le tecniche usate e le tecnologie sono in continua evoluzione e il loro miglioramento ha consentito, negli ultimi anni, di incrementare enormemente il volume dei dati prodotti. In particolare, le tecniche di Next Generation Sequencing (NGS) per il sequenziamento del materiale genetico hanno permesso di ridurre enormemente i costi e i tempi di produzione. La possibilità di ottenere facilmente e in modo economico un gran quantitativo di dati ha spostato l'attenzione della comunità scientifica da come ottenere questi dati a come gestirli in maniera efficiente ed efficace al fine di facilitare l'estrazione di informazioni utili. Allo stesso tempo, è diventato evidente che la conoscenza che è possibile estrarre da dati provenienti da più sorgenti, quindi coinvolgendo tipi di dati molto diversi tra loro, sia decisamente maggiore di quella ottenibile tramite analisi di singole sorgenti, spesso specializzate. Ciò ha portato allo sviluppo di un numero sempre maggiore di approcci per l'integrazione di dati, solitamente basati sull'intelligenza artificiale o tecniche di big data. In questo scenario, anche il gruppo di Genomic Computing (GeCo) del Politecnico di Milano ha proposto una sua soluzione per l'integrazione di dati genomici e l'estrazione di informazioni dalle collezioni di dati ottenute. La loro soluzione prevede, innanzitutto, l'utilizzo di un modello di dati chiamato Genomic Data Model (GDM) per uniformare tutti i dati da integrare. Una volta che l'integrazione è avvenuta, questi possono essere interrogati usando il GenoMetric Query Language (GMQL). GMQL è un linguaggio di alto livello che permette di eseguire le classiche operazioni tipiche dei database relazionali, estese per permettere di lavorare con regioni del genoma basandosi sul concetto di distanza genomica. GMQL è pensato per effettuare analisi terziaria su dati genomici, generando come risultato delle query uno o più dataset di interesse. Prima di poter essere interrogati, però, i dati devono essere integrati e resi conformi a quanto previsto da GDM. Questo è fatto grazie a un programma appositamente sviluppato, chiamato GMQL-Importer. GMQL-Importer è progettato per scaricare i dati e i relativi metadati da una o più sorgenti e trasformarli fino a renderli compatibili con il GDM. GMQL-Importer è stato sviluppato in modo totalmente generale e modulare, quindi è possibile aggiungere nuovi moduli che consentano di integrare dati provenienti da sorgenti nuove e trasformare tipi di dati precedentemente non previsti. Lo scopo di questo progetto di tesi è quello di sviluppare una serie di nuovi moduli per GMQL-Importer, chiamati RoadmapImporter, per consentirgli di scaricare e trasformare dati provenienti dal Roadmap Epigenomics Project (REP). I dati così integrati verranno poi aggiunti a un repository GDM. I moduli RoadmapImporter sono due: RoadmapDownloader, che consente di scaricare i dati e metadati specificati dall'utente dalla sorgente dati di REP, e RoadmapTransformer che, invece, è dedicato alla trasformazione dei diversi dati scaricati in dataset omogenei compatibili con GDM. La tesi è motivata dal desiderio di estendere l'attuale bacino di dati su cui è possibile effettuare query GMQL (che attualmente comprende dati principalmente provenienti da ENCODE e TCGA) e potenzialmente contribuire alla scoperta di nuovo sapere nei campi della biologia e della medicina. Il progetto è diviso in tre fasi distinte. Nella prima fase abbiamo analizzato la sorgente e tutti i dati e metadati che mette a disposizione. Questa fase è particolarmente delicata perché i dati a disposizione sono molto vari, sono prodotti di diverse fasi di elaborazione (si spazia dai dati grezzi prodotti dagli esperimenti biologici a dati ricavati da analisi secondarie) e sono distribuiti e/o duplicati in diverse repository. Spesso i dati disponibili non sono documentati o non sono documentati in modo approfondito. Una volta che i dati e metadati disponibili sono stati identificati, è stato necessario selezionare i dati rilevanti per il contesto applicativo da importare nel repository GMQL. I dati selezionati sono soggetti a un'ulteriore analisi per identificare le trasformazioni necessarie per rendere il formato dei dati e metadati compatibili con quanto richiesto da GDM. L'ultima fase riguarda l'effettiva implementazione dei moduli partendo dalle analisi effettuate in precedenza. Durante questa fase, oltre ai due moduli necessari a portare a termine l'integrazione, sono state sviluppate anche altre nuove funzionalità per GMQL-Importer insieme ad alcune migliorie generali del codice.

RoadmapImporter modules for GMQL-importer : integration of roadmap epigenomics project data and metadata into a GDM repository

MOLOGNI, RICCARDO
2016/2017

Abstract

One of the major concerns of bioinformatics has always been the development of tools capable of integrating a large amount of biological data available through different sources, with the purpose to allow a more easy, efficient, and effective extraction of new and useful knowledge. Since the development of the Next Generation Sequencing (NGS) techniques, a more cost-effective and fast method of DNA sequencing that has led to an enormous increase of the volume of genomic data available, the problem of integrating a large amount of heterogeneous data accessible through a variety of technology has become even more pressing. In this context, the Genomic Computing (GeCo) team of Politecnico di Milano has developed the Genomic Data Model (GDM) and the GenoMetric Query Language (GMQL) which provide abstractions for genomic data and their metadata, and the possibility to query them in a simple and high-level fashion. To be queried, though, the data must be downloaded from the sources, transformed to be compliant to the GDM, and then added to a GDM repository connected to a GMQL implementation. The objective of this thesis project is to integrate in an automated way the Roadmap Epigenomics Project (REP) biological data and metadata into a GDM repository, so that the REP data can be queried using the GMQL language and potentially contribute to the discovery of new knowledge in different areas of biology and medicine. The data integration is performed by developing some additional modules for GMQL-Importer, a modular and fully configurable tool regularly used by the GeCo team to add biological data and metadata to GDM repositories. These modules are extending the capacity of the GMQL-Importer program, adding the REP source to the pool of sources from which data and metadata can be automatically downloaded, transformed, and imported in a GDM repository, fully supporting the maintenance and extension of such a repository.
CANAKOGLU, ARIF
ING - Scuola di Ingegneria Industriale e dell'Informazione
19-apr-2018
2016/2017
L'integrazione di dati biologici rappresenta da sempre una sfida. Questo è dovuto sia all'estrema complessità ed eterogeneità intrinseca dei dati biologici che all'enorme quantitativo di sorgenti che si sono andate cumulando nel corso degli anni. Infatti ogni progetto che prevede la condivisione di dati pubblici è gestito in modo indipendente dagli altri, da gruppi di persone diversi senza alcun tipo di accordo o convenzione e utilizzando tecnologie e infrastrutture estremamente variegate. Questa mancanza di coordinamento rende difficile l'integrazione dei dati biologici finalizzata all'estrazione di nuove conoscenze. Dal punto di vista computazionale un processo di integrazione deve tenere in considerazione alcuni aspetti fondamentali come: la differenza di dimensione, formato e numero di attributi dei dati; la presenza di dati errati e da scartare; la selezione di dataset rilevanti rispetto al contesto; l'integrazione dei dataset selezionati, spesso con caratteristiche discordanti tra loro e la capacità del processo di integrazione di gestire grandi quantità di dataset mantenendo prestazioni accettabili. L'eterogeneità dei dati biologici è dovuta anche alla gran varietà di metodi e tecnologie usate per produrli. Inoltre le tecniche usate e le tecnologie sono in continua evoluzione e il loro miglioramento ha consentito, negli ultimi anni, di incrementare enormemente il volume dei dati prodotti. In particolare, le tecniche di Next Generation Sequencing (NGS) per il sequenziamento del materiale genetico hanno permesso di ridurre enormemente i costi e i tempi di produzione. La possibilità di ottenere facilmente e in modo economico un gran quantitativo di dati ha spostato l'attenzione della comunità scientifica da come ottenere questi dati a come gestirli in maniera efficiente ed efficace al fine di facilitare l'estrazione di informazioni utili. Allo stesso tempo, è diventato evidente che la conoscenza che è possibile estrarre da dati provenienti da più sorgenti, quindi coinvolgendo tipi di dati molto diversi tra loro, sia decisamente maggiore di quella ottenibile tramite analisi di singole sorgenti, spesso specializzate. Ciò ha portato allo sviluppo di un numero sempre maggiore di approcci per l'integrazione di dati, solitamente basati sull'intelligenza artificiale o tecniche di big data. In questo scenario, anche il gruppo di Genomic Computing (GeCo) del Politecnico di Milano ha proposto una sua soluzione per l'integrazione di dati genomici e l'estrazione di informazioni dalle collezioni di dati ottenute. La loro soluzione prevede, innanzitutto, l'utilizzo di un modello di dati chiamato Genomic Data Model (GDM) per uniformare tutti i dati da integrare. Una volta che l'integrazione è avvenuta, questi possono essere interrogati usando il GenoMetric Query Language (GMQL). GMQL è un linguaggio di alto livello che permette di eseguire le classiche operazioni tipiche dei database relazionali, estese per permettere di lavorare con regioni del genoma basandosi sul concetto di distanza genomica. GMQL è pensato per effettuare analisi terziaria su dati genomici, generando come risultato delle query uno o più dataset di interesse. Prima di poter essere interrogati, però, i dati devono essere integrati e resi conformi a quanto previsto da GDM. Questo è fatto grazie a un programma appositamente sviluppato, chiamato GMQL-Importer. GMQL-Importer è progettato per scaricare i dati e i relativi metadati da una o più sorgenti e trasformarli fino a renderli compatibili con il GDM. GMQL-Importer è stato sviluppato in modo totalmente generale e modulare, quindi è possibile aggiungere nuovi moduli che consentano di integrare dati provenienti da sorgenti nuove e trasformare tipi di dati precedentemente non previsti. Lo scopo di questo progetto di tesi è quello di sviluppare una serie di nuovi moduli per GMQL-Importer, chiamati RoadmapImporter, per consentirgli di scaricare e trasformare dati provenienti dal Roadmap Epigenomics Project (REP). I dati così integrati verranno poi aggiunti a un repository GDM. I moduli RoadmapImporter sono due: RoadmapDownloader, che consente di scaricare i dati e metadati specificati dall'utente dalla sorgente dati di REP, e RoadmapTransformer che, invece, è dedicato alla trasformazione dei diversi dati scaricati in dataset omogenei compatibili con GDM. La tesi è motivata dal desiderio di estendere l'attuale bacino di dati su cui è possibile effettuare query GMQL (che attualmente comprende dati principalmente provenienti da ENCODE e TCGA) e potenzialmente contribuire alla scoperta di nuovo sapere nei campi della biologia e della medicina. Il progetto è diviso in tre fasi distinte. Nella prima fase abbiamo analizzato la sorgente e tutti i dati e metadati che mette a disposizione. Questa fase è particolarmente delicata perché i dati a disposizione sono molto vari, sono prodotti di diverse fasi di elaborazione (si spazia dai dati grezzi prodotti dagli esperimenti biologici a dati ricavati da analisi secondarie) e sono distribuiti e/o duplicati in diverse repository. Spesso i dati disponibili non sono documentati o non sono documentati in modo approfondito. Una volta che i dati e metadati disponibili sono stati identificati, è stato necessario selezionare i dati rilevanti per il contesto applicativo da importare nel repository GMQL. I dati selezionati sono soggetti a un'ulteriore analisi per identificare le trasformazioni necessarie per rendere il formato dei dati e metadati compatibili con quanto richiesto da GDM. L'ultima fase riguarda l'effettiva implementazione dei moduli partendo dalle analisi effettuate in precedenza. Durante questa fase, oltre ai due moduli necessari a portare a termine l'integrazione, sono state sviluppate anche altre nuove funzionalità per GMQL-Importer insieme ad alcune migliorie generali del codice.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
Mologni_Riccardo_thesis_04_2018.pdf

accessibile in internet per tutti

Descrizione: Thesis pdf
Dimensione 3.9 MB
Formato Adobe PDF
3.9 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/140179