Genomics is the study of all the elements that compose the genetic material within an organism. The new DNA sequencing technologies (NGS) have opened new lines of research, which include the study of diseases like cancer or genetic conditions. The huge amount of data produced by these new methods makes the genomic data management one of the current biggest big data problems. In this context, GMQL, a declarative language built on top of big data technologies, was developed by the Bioinformatics group at Politecnico di Milano. The first aim of this thesis is to enlarge the scope of this language by designing and implementing a Python package capable of interfacing with the big data engine, to extract the results and convert them in a useful data structure and to give the user the possibility to work with GMQL in a full interactive environment. The package will be able to perform computations both on the local machine and using a remote GMQL server and will interface with the main data science and machine learning python packages. The second focus of this work is on applying the developed package to concrete biological problems. In particular we will concentrate on the study of Topologically Associating Domains (TADs), which are genomic regions within which the physical interactions occur much more frequently than out of them. We will use the package to analyze these data, extract new knowledge about them and derive their physical properties.

La genomica è lo studio di tutti gli elementi che compongono il materiale genetico di un organismo. Le nuove tecnologie di sequenziamento del DNA (NGS) hanno aperto, negli ultimi anni, nuove frontiere di ricerca fra cui lo studio dei tumori e delle malattie ereditarie su larga scala. La grande quantità di dati prodotti da questi nuovi metodi rendono la gestione di dati genomici uno dei problemi più grandi nel campo dei big data. In questo contesto, presso il laboratorio di bioinformatica e web engineering del Politecnico di Milano è stato sviluppato il sistema GMQL, che consiste in un linguaggio dichiarativo il quale, utilizzando tecnologie di processamento big data, permette l'esecuzione di query genomiche su grandi moli di dati. Lo scopo primario di questa tesi è di estendere questo linguaggio attraverso il design e l'implementazione di una libreria python che possa interfacciarsi con il sistema di processamento dati, estrarre i dati di interesse, convertirli in una struttura dati efficiente e rappresentativa e infine fornire un ambiente di sviluppo interattivo. La libreria sarà anche in grado di eseguire localmente o tramite l'utilizzo di un cluster remoto, nonché potrà interfacciarsi con le principali librerie python di data science e machine learning. In secondo luogo, la libreria verrà testata direttamente nella risoluzione di complessi problemi biologici. In particolare verrà posta l'attenzione sullo studio dei domini topologici, i quali sono particolari regioni genomiche caratterizzate da un aumentata densità di interazioni fisiche. Durante lo studio si utilizzerà la libreria per analizzare i dati ed estrarne nuova conoscenza al fine di derivare le proprietà fisiche di queste particolari regioni.

A Python data analysis library for genomics and its application to biology

NANNI, LUCA
2016/2017

Abstract

Genomics is the study of all the elements that compose the genetic material within an organism. The new DNA sequencing technologies (NGS) have opened new lines of research, which include the study of diseases like cancer or genetic conditions. The huge amount of data produced by these new methods makes the genomic data management one of the current biggest big data problems. In this context, GMQL, a declarative language built on top of big data technologies, was developed by the Bioinformatics group at Politecnico di Milano. The first aim of this thesis is to enlarge the scope of this language by designing and implementing a Python package capable of interfacing with the big data engine, to extract the results and convert them in a useful data structure and to give the user the possibility to work with GMQL in a full interactive environment. The package will be able to perform computations both on the local machine and using a remote GMQL server and will interface with the main data science and machine learning python packages. The second focus of this work is on applying the developed package to concrete biological problems. In particular we will concentrate on the study of Topologically Associating Domains (TADs), which are genomic regions within which the physical interactions occur much more frequently than out of them. We will use the package to analyze these data, extract new knowledge about them and derive their physical properties.
PINOLI, PIETRO
BARALIS, ELENA
ING - Scuola di Ingegneria Industriale e dell'Informazione
3-ott-2017
2016/2017
La genomica è lo studio di tutti gli elementi che compongono il materiale genetico di un organismo. Le nuove tecnologie di sequenziamento del DNA (NGS) hanno aperto, negli ultimi anni, nuove frontiere di ricerca fra cui lo studio dei tumori e delle malattie ereditarie su larga scala. La grande quantità di dati prodotti da questi nuovi metodi rendono la gestione di dati genomici uno dei problemi più grandi nel campo dei big data. In questo contesto, presso il laboratorio di bioinformatica e web engineering del Politecnico di Milano è stato sviluppato il sistema GMQL, che consiste in un linguaggio dichiarativo il quale, utilizzando tecnologie di processamento big data, permette l'esecuzione di query genomiche su grandi moli di dati. Lo scopo primario di questa tesi è di estendere questo linguaggio attraverso il design e l'implementazione di una libreria python che possa interfacciarsi con il sistema di processamento dati, estrarre i dati di interesse, convertirli in una struttura dati efficiente e rappresentativa e infine fornire un ambiente di sviluppo interattivo. La libreria sarà anche in grado di eseguire localmente o tramite l'utilizzo di un cluster remoto, nonché potrà interfacciarsi con le principali librerie python di data science e machine learning. In secondo luogo, la libreria verrà testata direttamente nella risoluzione di complessi problemi biologici. In particolare verrà posta l'attenzione sullo studio dei domini topologici, i quali sono particolari regioni genomiche caratterizzate da un aumentata densità di interazioni fisiche. Durante lo studio si utilizzerà la libreria per analizzare i dati ed estrarne nuova conoscenza al fine di derivare le proprietà fisiche di queste particolari regioni.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
tesi.pdf

accessibile in internet per tutti

Descrizione: Testo della tesi
Dimensione 8.74 MB
Formato Adobe PDF
8.74 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/135989