Projects like The Human Genome Project succeeded in producing high-quality versions of genome sequences, and thousands of other studies brought information about genes' activity, their modifications and their impact on the organism's functioning and well-being. Newest technologies, such as NGS (Next Generation Sequencing) make available to scientists a huge and increasing amount of heterogeneous data. Many projects and initiatives aim to offer research accessibility to useful tools to perform complex analyses, and to environments that allow transparent sharing of the precise computational details underlying an analysis, and its meaning and interpretation. In this scenario, the Bioinformatics group at Politecnico di Milano has been developing the GenoMetric Query Language (GMQL), a high-level, declarative language for querying NGS data. An interesting environment for research is instead Galaxy, an open and extensible web-based framework who aims to make genomics tools accessible to everyone and to provide a common platform for collaboration. The goal of this thesis is to show the advantages of integrating GMQL within the Galaxy environment, through the development of a set of tools that makes possible to write GMQL queries through a visual interface and to integrate their execution with pre-existing genomic analysis workflows. We here illustrate the advantages of this integration, the architecture of the proposed tools, and practical examples of an integrated use of them.
Progetti come il Progetto Genoma Umano sono riusciti a sequenziare con precisione il genoma umano e di altri esseri viventi. Migliaia di altri studi hanno fornito ulteriori informazioni sull'attività dei geni, le loro mutazioni e il loro impatto sul funzionamento e il benessere degli organismi. Nuove tecnologie, come il Next Generation Sequencing (NGS), mettono a disposizione degli scienziati una quantità enorme e crescente di dati eterogenei. Molti progetti e iniziative mirano a offrire l'accesso a strumenti utili per eseguire analisi complesse e ad ambienti che consentano una condivisione trasparente dei dettagli computazionali sottostanti un'analisi, e il suo significato e interpretazione. In questo scenario, il gruppo di Bioinformatica presso il Politecnico di Milano ha sviluppato il GenoMetric Query Language (GMQL), un linguaggio dichiarativo di alto livello per l'interrogazione dei dati NGS. Un ambiente interessante per la ricerca è invece Galaxy, un framework basato sul web, open-source ed estensibile che mira a rendere gli strumenti per la ricerca sul genoma accessibili a tutti e a fornire una piattaforma comune per la collaborazione. L'obiettivo di questa tesi è mostrare i vantaggi dell'integrazione di GMQL all'interno dell'ambiente Galaxy, attraverso lo sviluppo di un set di strumenti software che rendono possibile scrivere interrogazioni GMQL attraverso un'interfaccia visuale e integrare la loro esecuzione con altri strumenti per analisi genomica disponibili in Galaxy. Illustriamo qui i vantaggi di questa integrazione, l'architettura degli strumenti proposti ed esempi pratici di un loro utilizzo integrato.
Development of a visual tool suite to integratively use the genometric query language within the Galaxy framework for computational genomics
BRANCATO, LUANA
2016/2017
Abstract
Projects like The Human Genome Project succeeded in producing high-quality versions of genome sequences, and thousands of other studies brought information about genes' activity, their modifications and their impact on the organism's functioning and well-being. Newest technologies, such as NGS (Next Generation Sequencing) make available to scientists a huge and increasing amount of heterogeneous data. Many projects and initiatives aim to offer research accessibility to useful tools to perform complex analyses, and to environments that allow transparent sharing of the precise computational details underlying an analysis, and its meaning and interpretation. In this scenario, the Bioinformatics group at Politecnico di Milano has been developing the GenoMetric Query Language (GMQL), a high-level, declarative language for querying NGS data. An interesting environment for research is instead Galaxy, an open and extensible web-based framework who aims to make genomics tools accessible to everyone and to provide a common platform for collaboration. The goal of this thesis is to show the advantages of integrating GMQL within the Galaxy environment, through the development of a set of tools that makes possible to write GMQL queries through a visual interface and to integrate their execution with pre-existing genomic analysis workflows. We here illustrate the advantages of this integration, the architecture of the proposed tools, and practical examples of an integrated use of them.File | Dimensione | Formato | |
---|---|---|---|
2018_04_Brancato.pdf
accessibile in internet per tutti
Descrizione: Testo della tesi
Dimensione
4.48 MB
Formato
Adobe PDF
|
4.48 MB | Adobe PDF | Visualizza/Apri |
I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/10589/140171