The relationship between gene coexpression and chromatin conformation is of great biological interest. Thanks to high-throughput chromosome conformation capture technologies (Hi-C), researchers are gaining insights on the tri-dimensional organization of the genome. Given the high complexity of Hi-C data and the difficult definition of gene coexpression networks, the development of proper computational tools to investigate such relationship is rapidly gaining the interest of the research community. One of the most fascinating questions in this context is how chromatin topology correlates with coexpression profiles of genes and which physical interaction patterns are most predictive of coexpression relationships. To address these questions, we developed a computational framework for the prediction of coexpression networks from chromatin conformation data. We first define a gene chromatin interaction network of genes which are in close 3D spatial proximity; then we apply two graph embedding techniques to extract a low-dimensional vector representation of each gene from the interaction network; finally, we train a classifier on pairs of gene embeddings to predict if they are coexpressed. Both graph embedding techniques outperform previous methods based on manually designed topological features, highlighting the need for more advanced strategies to encode chromatin information. We also establish that the most recent technique, based on random walks, is superior. Overall, our results demonstrate that chromatin conformation and gene regulation share a non-linear relationship and that gene topological embeddings encode relevant information, which could be used for downstream analysis.

La relazione tra l'espressione genica e la conformazione della cromatina è un tema di grande interesse biologico. Tecnologie di high-throughput chromosome conformation capture (Hi-C), stanno contribuendo a comprendere l'organizzazione tridimensionale del genoma. Data l'elevata complessità dei dati provenienti da esperimenti di Hi-C e la difficoltà nel definire reti di coespressione genica, sta crescendo rapidamente l'interesse della comunità scientifica per lo sviluppo di accurati metodi computazionali in grado di esplorare questa relazione. Uno dei più affascinanti interrogativi in questo contesto è come la topologia della cromatina sia correlata con i profili di coespressione dei geni e quali pattern di interazione fisica siano più accurati nella predizione della coespressione. Per rispondere a queste domande abbiamo sviluppato una strategia computazionale per predire le connessioni di reti di coespressione a partire da dati sulla conformazione della cromatina. Abbiamo prima definito una rete genica di interazione cromatinica in cui geni sono connessi se sono fisicamente vicini nello spazio tridimensionale; successivamente, abbiamo applicato due tecniche di graph embedding per estrarre per ogni gene, dalla rete di interazioni, una rappresentazione vettoriale a bassa dimensionalità; infine abbiamo allenato un classificatore per predire, a partire da una coppia di gene embedding, se i due geni sono coespressi. Entrambi i metodi di graph embedding mostrano un'accuratezza superiore a quella di metodi basati su caratteristiche topologiche della rete definite manualmente, evidenziando la necessità di tecniche più avanzate per codificare l'informazione sulla struttura della cromatina. È stata anche dimostrata, in questo ambito, la superiorità del metodo più recente, basato su random walk. Complessivamente, i nostri risultati dimostrano che la conformazione della cromatina e la regolazione genica sono connessi da una relazione non lineare e che gene embedding basati sulla topologia della cromatina sono in grado di incorporare informazione significativa, che può essere utilizzata per analisi più specifiche.

Co-expression network inference from chromatin conformation data through graph embedding

VARRONE, MARCO
2018/2019

Abstract

The relationship between gene coexpression and chromatin conformation is of great biological interest. Thanks to high-throughput chromosome conformation capture technologies (Hi-C), researchers are gaining insights on the tri-dimensional organization of the genome. Given the high complexity of Hi-C data and the difficult definition of gene coexpression networks, the development of proper computational tools to investigate such relationship is rapidly gaining the interest of the research community. One of the most fascinating questions in this context is how chromatin topology correlates with coexpression profiles of genes and which physical interaction patterns are most predictive of coexpression relationships. To address these questions, we developed a computational framework for the prediction of coexpression networks from chromatin conformation data. We first define a gene chromatin interaction network of genes which are in close 3D spatial proximity; then we apply two graph embedding techniques to extract a low-dimensional vector representation of each gene from the interaction network; finally, we train a classifier on pairs of gene embeddings to predict if they are coexpressed. Both graph embedding techniques outperform previous methods based on manually designed topological features, highlighting the need for more advanced strategies to encode chromatin information. We also establish that the most recent technique, based on random walks, is superior. Overall, our results demonstrate that chromatin conformation and gene regulation share a non-linear relationship and that gene topological embeddings encode relevant information, which could be used for downstream analysis.
NANNI, LUCA
ING - Scuola di Ingegneria Industriale e dell'Informazione
29-apr-2020
2018/2019
La relazione tra l'espressione genica e la conformazione della cromatina è un tema di grande interesse biologico. Tecnologie di high-throughput chromosome conformation capture (Hi-C), stanno contribuendo a comprendere l'organizzazione tridimensionale del genoma. Data l'elevata complessità dei dati provenienti da esperimenti di Hi-C e la difficoltà nel definire reti di coespressione genica, sta crescendo rapidamente l'interesse della comunità scientifica per lo sviluppo di accurati metodi computazionali in grado di esplorare questa relazione. Uno dei più affascinanti interrogativi in questo contesto è come la topologia della cromatina sia correlata con i profili di coespressione dei geni e quali pattern di interazione fisica siano più accurati nella predizione della coespressione. Per rispondere a queste domande abbiamo sviluppato una strategia computazionale per predire le connessioni di reti di coespressione a partire da dati sulla conformazione della cromatina. Abbiamo prima definito una rete genica di interazione cromatinica in cui geni sono connessi se sono fisicamente vicini nello spazio tridimensionale; successivamente, abbiamo applicato due tecniche di graph embedding per estrarre per ogni gene, dalla rete di interazioni, una rappresentazione vettoriale a bassa dimensionalità; infine abbiamo allenato un classificatore per predire, a partire da una coppia di gene embedding, se i due geni sono coespressi. Entrambi i metodi di graph embedding mostrano un'accuratezza superiore a quella di metodi basati su caratteristiche topologiche della rete definite manualmente, evidenziando la necessità di tecniche più avanzate per codificare l'informazione sulla struttura della cromatina. È stata anche dimostrata, in questo ambito, la superiorità del metodo più recente, basato su random walk. Complessivamente, i nostri risultati dimostrano che la conformazione della cromatina e la regolazione genica sono connessi da una relazione non lineare e che gene embedding basati sulla topologia della cromatina sono in grado di incorporare informazione significativa, che può essere utilizzata per analisi più specifiche.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
varrone_thesis.pdf

accessibile in internet per tutti

Descrizione: Testo della tesi
Dimensione 14.62 MB
Formato Adobe PDF
14.62 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/154380