Epigenomics is the study of the modifications of the genome, i.e., the complete set of DNA which encodes all the information necessary for the functioning of an organism, that do not involve changes to the DNA sequence itself. Such modification includes chemical modification of the histones (the protein around which the DNA is packaged), DNA accessibility and interaction between proteins and DNA. Nowadays, thanks to huge improvements made in genome sequencing techniques we have access to a vast amount of data that incorporates a variety of biochemical activities coming from the different genes. This information is critical in order to understand the different genetic variations and mutations that may play a role to identify particular diseases, their initial development and progression. Even though the sequencing is a very powerful technique, it has its downsides; indeed, performing experiments that measure the genomic features is expensive and technical challenges may prevent a comprehensive characterization of the genome in determinate settings. To overcome this problem, a valuable method is the development of techniques capable of predicting the outcome of those experiments and imputing the biochemical activity in the form of signals which correspond to data elements representing the DNA behavior. By imputing signals it is possible to support existing experiments and predict the outcome of the ones not yet performed. In this thesis we develop new algorithms able to impute signals with high precision and, taking as a baseline the previous works done in this research area, attempt to outperform them. The first part of the work, exploiting the data provided by the ENCODE Consortium, consists of data analysis, data pre-processing and the implementation of a Nearest Neighbour algorithm for signal imputation. The second part applies matrix factorization and tensor factorization techniques, in an attempt to improve performances and eventually extract potentially useful information from the trained models.

L’epigenomica è la scienza che studia le modifiche del genoma, cioè il set completo di DNA che codifica l’informazione necessaria per il funzionamento di un organismo che non coinvolge cambiamenti della sua stessa sequenza. Questo tipo di cambiamenti include modifiche a livello chimico degli istoni (proteine intorno alle quali il DNA è avvolto), all’accessibilità al DNA e all’interazione tra proteine e DNA. Al giorno d’oggi, grazie all’affinamento delle tecniche di sequenziamento genomico, abbiamo accesso ad un vasta quantità di dati che incorpora un grande varietà di attività biochimica proveniente dai geni. Questa informazione è fondamentale per comprendere a pieno le differenti mutazioni genetiche, le quali giocano un ruolo importante nell’identificazione di specifiche malattie, del loro esordio e sviluppo. Nonostante il sequenziamento sia una tecnica molto efficace, essa presenta degli svantaggi; infatti, eseguire esperimenti che misurano le features del genoma è estremamente dispendioso. Inoltre, numerose problematiche dal punto di vista tecnico potrebbero prevenire, sotto determinate condizioni, una caratterizzazione comprensiva del genoma. Per superare questo ostacolo, una metodologia valida consiste nello sviluppo di tecniche in grado di predire il risultato di tali esperimenti ed imputare l’attività biochimica sotto forma di segnali, i quali costituiscono i dati che rappresentano l’attività del DNA. Infatti, attraverso i segnali imputati è possibile supportare i già esistenti esperimenti, predicendo l’esito di quelli non ancora effettuati. All’interno di questa tesi, riportiamo lo sviluppo di nuovi algoritmi in grado di imputare segnali con un’alta precisione cercando di migliorare le performance ottenute da alcuni algoritmi implementati precedentemente in questo ambito. La prima parte del lavoro, utilizzando i dati forniti dall’ENCODE Consortium, verte sull’analisi dei dati, il loro pre-processing e l’implementazione di un algoritmo per l’imputazione dei segnali basato sui Nearest Neighbours. La seconda parte, invece, approccia il problema attraverso tecniche di fattorizzazione per matrici e tensori, cercando di migliorare i risultati già ottenuti ed, eventualmente, estrarre dai modelli trainati informazioni potenzialmente utili.

Imputation of biochemical activity associated with functional elements of the genome produced by epigenomic experiments

GUZZO, FRANCESCO
2018/2019

Abstract

Epigenomics is the study of the modifications of the genome, i.e., the complete set of DNA which encodes all the information necessary for the functioning of an organism, that do not involve changes to the DNA sequence itself. Such modification includes chemical modification of the histones (the protein around which the DNA is packaged), DNA accessibility and interaction between proteins and DNA. Nowadays, thanks to huge improvements made in genome sequencing techniques we have access to a vast amount of data that incorporates a variety of biochemical activities coming from the different genes. This information is critical in order to understand the different genetic variations and mutations that may play a role to identify particular diseases, their initial development and progression. Even though the sequencing is a very powerful technique, it has its downsides; indeed, performing experiments that measure the genomic features is expensive and technical challenges may prevent a comprehensive characterization of the genome in determinate settings. To overcome this problem, a valuable method is the development of techniques capable of predicting the outcome of those experiments and imputing the biochemical activity in the form of signals which correspond to data elements representing the DNA behavior. By imputing signals it is possible to support existing experiments and predict the outcome of the ones not yet performed. In this thesis we develop new algorithms able to impute signals with high precision and, taking as a baseline the previous works done in this research area, attempt to outperform them. The first part of the work, exploiting the data provided by the ENCODE Consortium, consists of data analysis, data pre-processing and the implementation of a Nearest Neighbour algorithm for signal imputation. The second part applies matrix factorization and tensor factorization techniques, in an attempt to improve performances and eventually extract potentially useful information from the trained models.
CANAKOGLU, ARIF
MASSEROLI, MARCO
NANNI, LUCA
PINOLI, PIETRO
ING - Scuola di Ingegneria Industriale e dell'Informazione
18-dic-2019
2018/2019
L’epigenomica è la scienza che studia le modifiche del genoma, cioè il set completo di DNA che codifica l’informazione necessaria per il funzionamento di un organismo che non coinvolge cambiamenti della sua stessa sequenza. Questo tipo di cambiamenti include modifiche a livello chimico degli istoni (proteine intorno alle quali il DNA è avvolto), all’accessibilità al DNA e all’interazione tra proteine e DNA. Al giorno d’oggi, grazie all’affinamento delle tecniche di sequenziamento genomico, abbiamo accesso ad un vasta quantità di dati che incorpora un grande varietà di attività biochimica proveniente dai geni. Questa informazione è fondamentale per comprendere a pieno le differenti mutazioni genetiche, le quali giocano un ruolo importante nell’identificazione di specifiche malattie, del loro esordio e sviluppo. Nonostante il sequenziamento sia una tecnica molto efficace, essa presenta degli svantaggi; infatti, eseguire esperimenti che misurano le features del genoma è estremamente dispendioso. Inoltre, numerose problematiche dal punto di vista tecnico potrebbero prevenire, sotto determinate condizioni, una caratterizzazione comprensiva del genoma. Per superare questo ostacolo, una metodologia valida consiste nello sviluppo di tecniche in grado di predire il risultato di tali esperimenti ed imputare l’attività biochimica sotto forma di segnali, i quali costituiscono i dati che rappresentano l’attività del DNA. Infatti, attraverso i segnali imputati è possibile supportare i già esistenti esperimenti, predicendo l’esito di quelli non ancora effettuati. All’interno di questa tesi, riportiamo lo sviluppo di nuovi algoritmi in grado di imputare segnali con un’alta precisione cercando di migliorare le performance ottenute da alcuni algoritmi implementati precedentemente in questo ambito. La prima parte del lavoro, utilizzando i dati forniti dall’ENCODE Consortium, verte sull’analisi dei dati, il loro pre-processing e l’implementazione di un algoritmo per l’imputazione dei segnali basato sui Nearest Neighbours. La seconda parte, invece, approccia il problema attraverso tecniche di fattorizzazione per matrici e tensori, cercando di migliorare i risultati già ottenuti ed, eventualmente, estrarre dai modelli trainati informazioni potenzialmente utili.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
2019_12_Guzzo.pdf

accessibile in internet per tutti

Descrizione: Testo della tesi
Dimensione 11.33 MB
Formato Adobe PDF
11.33 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/152249