The technology advancements in the sequencing of genetic material occurred during the last 20 years lead to an impressive amount of genomic data available. Inferring notions from the captured data, however, is still a challenging task, which requires powerful tools other than strong domain knowledge. In this context, the bioinformatics community aims to implement technologies capable of sustaining the research and enabling the so-called tertiary analysis, i.e. the interpretation of the genomic sequences and the evaluation of the clinical relevance of genomic features. In this thesis, we explain how we support these challenges, in the first place by integrating the 1000 Genomes Project into the GenoMetric Query Language (GMQL) system, and then by developing a platform capable of aggregating such enormous quantity of information to provide immediate insights on human diversity and susceptibility to various pathologies. The result of this work allows expert users to exploit the powerful capabilities of the GMQL to answer complex queries over the 1000 Genomes Project data together with other genetic catalogues already available in the GMQL repository. Also, we made available the 1000 Genomes Project variation data and The Cancer Genome Atlas Program somatic mutation datasets through our novel Data Summarization API, a simple platform to query whole-genome data, to describe a population from a genetic perspective and to collect relevant statistics in a privacy-sensitive way.

Negli ultimi 20 anni, il progresso della tecnologia di sequenziamento del genoma ha portato ad un aumento straordinario della quantità di dati genomici disponibili per la ricerca. Tuttavia, lo studio di tali dati e l’estrazione di nuove conoscenze utili da essi è ancora un processo difficile che richiede una approfondita conoscenza del settore e strumenti efficaci. In tale contesto, lo scopo della comunità bioinformatica è quello di sviluppare soluzioni capaci di supportare efficacemente la ricerca e l’analisi terziaria di dati genomici, ovvero la comprensione dei processi biologici ottenibile dall’unione di informazioni eterogenee. Un obiettivo, questo, che passa anche attraverso l’integrazione di grandi banche dati genomiche. Dunque, l’obiettivo di questa tesi è quello di integrare i dati di mutazione genetica prodotti dal 1000 Genomes Project all’interno del sistema di elaborazione GenoMetric Query Language, ed, al tempo stesso, di sviluppare un software (Data-Summarization-API), capace di sfruttare questa grande quantità di dati per fornire statistiche utili allo studio della diversità e alla predisposizione verso varie patologie. Questo lavoro renderà possibile l’utilizzo delle mutazioni genetiche del 1000 Genomes Project per rispondere a domande complesse, utilizzando le potenzialità di GMQL su un dataset integrato contenente ulteriori sette sorgenti di dati. Inoltre, utilizzeremo quelle stesse mutazioni all’interno del software da noi sviluppato, assieme ai dati ottenuti dal The Cancer Genome Atlas Program, per fornire statistiche in grado di descrivere accuratamente il quadro genetico di una popolazione, pur rispettando i criteri di privacy imposti per l’utilizzo di questo tipo di informazioni.

Integration of DNA variation data into a GDM repository and API development for identification of genomic populations

ALFONSI, TOMMASO
2018/2019

Abstract

The technology advancements in the sequencing of genetic material occurred during the last 20 years lead to an impressive amount of genomic data available. Inferring notions from the captured data, however, is still a challenging task, which requires powerful tools other than strong domain knowledge. In this context, the bioinformatics community aims to implement technologies capable of sustaining the research and enabling the so-called tertiary analysis, i.e. the interpretation of the genomic sequences and the evaluation of the clinical relevance of genomic features. In this thesis, we explain how we support these challenges, in the first place by integrating the 1000 Genomes Project into the GenoMetric Query Language (GMQL) system, and then by developing a platform capable of aggregating such enormous quantity of information to provide immediate insights on human diversity and susceptibility to various pathologies. The result of this work allows expert users to exploit the powerful capabilities of the GMQL to answer complex queries over the 1000 Genomes Project data together with other genetic catalogues already available in the GMQL repository. Also, we made available the 1000 Genomes Project variation data and The Cancer Genome Atlas Program somatic mutation datasets through our novel Data Summarization API, a simple platform to query whole-genome data, to describe a population from a genetic perspective and to collect relevant statistics in a privacy-sensitive way.
BERNASCONI, ANNA
CANAKOGLU, ARIF
ING - Scuola di Ingegneria Industriale e dell'Informazione
6-giu-2020
2018/2019
Negli ultimi 20 anni, il progresso della tecnologia di sequenziamento del genoma ha portato ad un aumento straordinario della quantità di dati genomici disponibili per la ricerca. Tuttavia, lo studio di tali dati e l’estrazione di nuove conoscenze utili da essi è ancora un processo difficile che richiede una approfondita conoscenza del settore e strumenti efficaci. In tale contesto, lo scopo della comunità bioinformatica è quello di sviluppare soluzioni capaci di supportare efficacemente la ricerca e l’analisi terziaria di dati genomici, ovvero la comprensione dei processi biologici ottenibile dall’unione di informazioni eterogenee. Un obiettivo, questo, che passa anche attraverso l’integrazione di grandi banche dati genomiche. Dunque, l’obiettivo di questa tesi è quello di integrare i dati di mutazione genetica prodotti dal 1000 Genomes Project all’interno del sistema di elaborazione GenoMetric Query Language, ed, al tempo stesso, di sviluppare un software (Data-Summarization-API), capace di sfruttare questa grande quantità di dati per fornire statistiche utili allo studio della diversità e alla predisposizione verso varie patologie. Questo lavoro renderà possibile l’utilizzo delle mutazioni genetiche del 1000 Genomes Project per rispondere a domande complesse, utilizzando le potenzialità di GMQL su un dataset integrato contenente ulteriori sette sorgenti di dati. Inoltre, utilizzeremo quelle stesse mutazioni all’interno del software da noi sviluppato, assieme ai dati ottenuti dal The Cancer Genome Atlas Program, per fornire statistiche in grado di descrivere accuratamente il quadro genetico di una popolazione, pur rispettando i criteri di privacy imposti per l’utilizzo di questo tipo di informazioni.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
2020_06_Alfonsi.pdf

non accessibile

Descrizione: Thesis text
Dimensione 2.73 MB
Formato Adobe PDF
2.73 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/153774