Next Generation Sequencing (NGS), a family of technologies for reading the DNA and RNA, is by providing a huge amounts of sequencing data and features of numerous individual genomes in different biological and clinical conditions. Answers to fundamental questions for biological and clinical research are hidden in these data, e.g., how protein-DNA interactions and DNA conformation affect gene activity, how cancer develops, how driving mutations occur, how much complex diseases are dependent on personal genomic traits or environmental factors and also how make it possible to product personalised medicine based on genomic. The potential for data querying, analysis and sharing may be considered as the biggest and most important big data problem of mankind. Politecnico di Milano has been developing the GenoMetric Query Language (GMQL), a tool that provides a language for querying NGS data, thus supporting biologists to discover new genomic properties. Scientist usually manipulate statistical data in R-based environment in particular Bioconductor for the analysis and comprehension of high- throughput genomic data. The main goal of this work is to offer to R scientist a complete tool to leverage on GMQL system with a pure functional approach. This tool has been developed starting from existing GMQL API bridging them towards R functional language strictly observing Bioconductor rules and paradigms. At programming level this has meant interfacing between two very different environments such as R/Bioconductor and Scala. This approach imply to two different goals: a short-term goal to offer a full functional R interface to GMQL and two long-term goals, integration of GMQL into Bioconductor ecosystem and the a whole new use of GMQL platform from scientist in new and unplanned fields.

Next Generation Sequencing (NGS), una famiglia di tecnologie per leggere DNA e RNA, sta cambiando il mondo della ricerca biologica fornendo una quantità enorme di dati e caratteristiche di numerosi genomi presenti in differenti condizioni biologiche e cliniche. Risposte alle questioni fondamentali della ricerca clinica e biologica si nascondono dentro questi dati, e.s., come la proteina lega il DNA e come la conformazione del DNA influenza l’attività dei geni, come il cancro si sviluppa, come si verificano mutazioni, come malattie complesse sono dipendenti dal genoma umano o da fattori ambientali e inoltre come sviluppare medicine basate sul genoma. La possibilità di interrogazione dei dati, l’analisi e la condivisione può essere considerato come il più grande ed importante problema nel mondo “big data”. Il Politecnico di Milano ha sviluppato GenoMetric Query Language (GMQL), un tool che fornisce un linguaggio per interrogare dati NGS, supportando cosi i biologi a scoprire nuove proprietà genomiche. Gli scienziati, spesso, utilizzano l’ambiente R per manipolare dati, in modo particolare utilizzano Bioconductor per l’analisi e la comprensione per dati genomici ad alto rendimento. L’obbiettivo principale di questo lavoro è di offrire agli scienziati uno strumento che sfrutti l’ambiente GMQL con un approccio puramente funzionale. Questo strumento è stato sviluppato partendo dalle API GMQL già esistenti rendendole fruibili nel linguaggio R tuttavia rispettando regole e paradigmi tipici di Bioconductor. A livello di programmazione, questo ha significato interfacciare due linguaggi fortemente eterogenei come R e Scala. Questo approccio implica due differenti obbiettivi: uno più immediato ossia offrire un interfaccia funzionale tra R e GMQL, e due a lungo termine, il riconoscimento della bontà di GMQL nell’ecosistema di Bioconductor e nuovi utilizzi della piattaforma GMQL da parte di scienziati in ambiti totalmente innovativi.

Extension of R/bioconductor environment with support for GenoMetric query language for genomic big data processing

PALLOTTA, SIMONE
2016/2017

Abstract

Next Generation Sequencing (NGS), a family of technologies for reading the DNA and RNA, is by providing a huge amounts of sequencing data and features of numerous individual genomes in different biological and clinical conditions. Answers to fundamental questions for biological and clinical research are hidden in these data, e.g., how protein-DNA interactions and DNA conformation affect gene activity, how cancer develops, how driving mutations occur, how much complex diseases are dependent on personal genomic traits or environmental factors and also how make it possible to product personalised medicine based on genomic. The potential for data querying, analysis and sharing may be considered as the biggest and most important big data problem of mankind. Politecnico di Milano has been developing the GenoMetric Query Language (GMQL), a tool that provides a language for querying NGS data, thus supporting biologists to discover new genomic properties. Scientist usually manipulate statistical data in R-based environment in particular Bioconductor for the analysis and comprehension of high- throughput genomic data. The main goal of this work is to offer to R scientist a complete tool to leverage on GMQL system with a pure functional approach. This tool has been developed starting from existing GMQL API bridging them towards R functional language strictly observing Bioconductor rules and paradigms. At programming level this has meant interfacing between two very different environments such as R/Bioconductor and Scala. This approach imply to two different goals: a short-term goal to offer a full functional R interface to GMQL and two long-term goals, integration of GMQL into Bioconductor ecosystem and the a whole new use of GMQL platform from scientist in new and unplanned fields.
ING - Scuola di Ingegneria Industriale e dell'Informazione
21-dic-2017
2016/2017
Next Generation Sequencing (NGS), una famiglia di tecnologie per leggere DNA e RNA, sta cambiando il mondo della ricerca biologica fornendo una quantità enorme di dati e caratteristiche di numerosi genomi presenti in differenti condizioni biologiche e cliniche. Risposte alle questioni fondamentali della ricerca clinica e biologica si nascondono dentro questi dati, e.s., come la proteina lega il DNA e come la conformazione del DNA influenza l’attività dei geni, come il cancro si sviluppa, come si verificano mutazioni, come malattie complesse sono dipendenti dal genoma umano o da fattori ambientali e inoltre come sviluppare medicine basate sul genoma. La possibilità di interrogazione dei dati, l’analisi e la condivisione può essere considerato come il più grande ed importante problema nel mondo “big data”. Il Politecnico di Milano ha sviluppato GenoMetric Query Language (GMQL), un tool che fornisce un linguaggio per interrogare dati NGS, supportando cosi i biologi a scoprire nuove proprietà genomiche. Gli scienziati, spesso, utilizzano l’ambiente R per manipolare dati, in modo particolare utilizzano Bioconductor per l’analisi e la comprensione per dati genomici ad alto rendimento. L’obbiettivo principale di questo lavoro è di offrire agli scienziati uno strumento che sfrutti l’ambiente GMQL con un approccio puramente funzionale. Questo strumento è stato sviluppato partendo dalle API GMQL già esistenti rendendole fruibili nel linguaggio R tuttavia rispettando regole e paradigmi tipici di Bioconductor. A livello di programmazione, questo ha significato interfacciare due linguaggi fortemente eterogenei come R e Scala. Questo approccio implica due differenti obbiettivi: uno più immediato ossia offrire un interfaccia funzionale tra R e GMQL, e due a lungo termine, il riconoscimento della bontà di GMQL nell’ecosistema di Bioconductor e nuovi utilizzi della piattaforma GMQL da parte di scienziati in ambiti totalmente innovativi.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
Tesi.pdf

accessibile in internet per tutti

Descrizione: Testo della tesi
Dimensione 2.15 MB
Formato Adobe PDF
2.15 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/138549