One of the biggest scientific achievement of the last few decades in Bioinformatics was the introduction of High-throughput sequencing (HTS) methods. We can now at a relatively low cost, reveal the presence and quantity of RNA in a biological sample at any given moment in time. This, plus the introduction of new analytical techniques, brought us insights in biological and medical research. Despite all these advances, given the complexity of human biology, a lot of molecular interactions are still unknown. Pathway is the name given to series of interactions among molecules in a cell that lead to a change. Some of the most common biological pathways are involved in the regulation of gene expression and play a vital role in studies of genomics. The aim of this thesis is to introduce a method that highlights new genes to target, in particular for cancer research. Since multiple pathways are dysfunctional in cancer, and cancer accumulates new mutations as it progresses, researchers require research tools to identify relevant cancer-related genes. It is here presented a novel way of using deep neural networks to extract gene modules from gene expression data. The thesis pipeline is divided in two parts. The first focuses on the validation of the model by comparing the performances to other well-established methods. The second part instead is concerned with the extraction of gene modules, some data exploration, and the validation of the results. A Deep Autoencoder is trained with different types of cancer data taken from The Cancer Genome Atlas project. By leveraging the autoencoder's network topology, a ranking is calculated between the most relevant genes for each reduced dimension to create the modules. The effectiveness of the resulting gene sets is then tested, by checking for the over-representation of specific genes in each module with a method called enrichment analysis. Significant enriched terms related to cancer have been found in the extracted modules. The unknown genes in these modules can be highlighted as relevant target for functional analysis. The results are promising and are intended to primarily aid biologists and researchers in the investigation of new gene interactions and pathways.

Uno dei più grandi traguardi scientifici degli ultimi anni nel campo della Bioinformatica è stata l'introduzione di metodi di sequenziamento ad elevato parallelismo. Possiamo adesso, a relativo basso costo, rilevare la presenza e quantità di RNA in un campione biologico. Questo fatto, con l'introduzione di nuove tecniche di analisi, ha portato a numerose scoperte nella ricerca biologica e medica. Nonostante questi traguardi, data la complessità della biologia umana, molteplici interazioni molecolari sono ancora sconosciute. Via biologica è il nome dato a una serie di interazioni tra molecole in una cellula che portano a un determinato cambiamento. Alcune delle vie biologiche più comuni riguardano la regolazione dell'espressione genica e svolgono un ruolo essenziale negli studi di genomica. Lo scopo di questa tesi è illustrare un nuovo metodo che individui geni da analizzare, in particolare per la ricerca oncologica. Dato che molteplici vie biologiche sono disfunzionali nel cancro e che il cancro progredendo produce nuove mutazioni, i ricercatori hanno la necessità di acquisire strumenti per identificare geni rilevanti legati ad esso. In questo lavoro è introdotta un'applicazione innovativa di reti neurali profonde per l'estrazione di gruppi di geni da dati di espressione genica. La tesi si divide in due parti. La prima si concentra sulla verifica della bontà del modello tramite il confronto delle prestazioni con altri metodi noti. La seconda invece riguarda l'estrazione dei moduli di geni, l'esplorazione dei dati, e la verifica dei risultati. Abbiamo addestrato un autoassociatore profondo con dati di differenti tipologie di cancro presi dal progetto 'The Cancer Genome Atlas'. Sfruttando la topologia della rete, troviamo un ordinamento fra i geni più importanti per ogni dimensione ridotta, i quali costituiscono un singolo modulo. L'efficacia di questi gruppi di geni (moduli) è poi verificata cercando una alta rappresentanza di specifici geni con un metodo chiamato 'analisi da arricchimento'. Nei moduli estratti sono stati trovati termini significativi legati al cancro. Gli altri geni all'interno dei moduli possono essere evidenziati come obiettivi importanti per una successiva analisi funzionale. I risultati sono promettenti e sono pensati in primo luogo per l'utilizzo da parte di biologi nella ricerca di nuove interazioni fra geni.

Using deep autoencoders for gene clustering

SPACCAPELI, DANIELE
2016/2017

Abstract

One of the biggest scientific achievement of the last few decades in Bioinformatics was the introduction of High-throughput sequencing (HTS) methods. We can now at a relatively low cost, reveal the presence and quantity of RNA in a biological sample at any given moment in time. This, plus the introduction of new analytical techniques, brought us insights in biological and medical research. Despite all these advances, given the complexity of human biology, a lot of molecular interactions are still unknown. Pathway is the name given to series of interactions among molecules in a cell that lead to a change. Some of the most common biological pathways are involved in the regulation of gene expression and play a vital role in studies of genomics. The aim of this thesis is to introduce a method that highlights new genes to target, in particular for cancer research. Since multiple pathways are dysfunctional in cancer, and cancer accumulates new mutations as it progresses, researchers require research tools to identify relevant cancer-related genes. It is here presented a novel way of using deep neural networks to extract gene modules from gene expression data. The thesis pipeline is divided in two parts. The first focuses on the validation of the model by comparing the performances to other well-established methods. The second part instead is concerned with the extraction of gene modules, some data exploration, and the validation of the results. A Deep Autoencoder is trained with different types of cancer data taken from The Cancer Genome Atlas project. By leveraging the autoencoder's network topology, a ranking is calculated between the most relevant genes for each reduced dimension to create the modules. The effectiveness of the resulting gene sets is then tested, by checking for the over-representation of specific genes in each module with a method called enrichment analysis. Significant enriched terms related to cancer have been found in the extracted modules. The unknown genes in these modules can be highlighted as relevant target for functional analysis. The results are promising and are intended to primarily aid biologists and researchers in the investigation of new gene interactions and pathways.
CANAKOGLU, ARIF
LEONE, MICHELE
ING - Scuola di Ingegneria Industriale e dell'Informazione
18-apr-2018
2016/2017
Uno dei più grandi traguardi scientifici degli ultimi anni nel campo della Bioinformatica è stata l'introduzione di metodi di sequenziamento ad elevato parallelismo. Possiamo adesso, a relativo basso costo, rilevare la presenza e quantità di RNA in un campione biologico. Questo fatto, con l'introduzione di nuove tecniche di analisi, ha portato a numerose scoperte nella ricerca biologica e medica. Nonostante questi traguardi, data la complessità della biologia umana, molteplici interazioni molecolari sono ancora sconosciute. Via biologica è il nome dato a una serie di interazioni tra molecole in una cellula che portano a un determinato cambiamento. Alcune delle vie biologiche più comuni riguardano la regolazione dell'espressione genica e svolgono un ruolo essenziale negli studi di genomica. Lo scopo di questa tesi è illustrare un nuovo metodo che individui geni da analizzare, in particolare per la ricerca oncologica. Dato che molteplici vie biologiche sono disfunzionali nel cancro e che il cancro progredendo produce nuove mutazioni, i ricercatori hanno la necessità di acquisire strumenti per identificare geni rilevanti legati ad esso. In questo lavoro è introdotta un'applicazione innovativa di reti neurali profonde per l'estrazione di gruppi di geni da dati di espressione genica. La tesi si divide in due parti. La prima si concentra sulla verifica della bontà del modello tramite il confronto delle prestazioni con altri metodi noti. La seconda invece riguarda l'estrazione dei moduli di geni, l'esplorazione dei dati, e la verifica dei risultati. Abbiamo addestrato un autoassociatore profondo con dati di differenti tipologie di cancro presi dal progetto 'The Cancer Genome Atlas'. Sfruttando la topologia della rete, troviamo un ordinamento fra i geni più importanti per ogni dimensione ridotta, i quali costituiscono un singolo modulo. L'efficacia di questi gruppi di geni (moduli) è poi verificata cercando una alta rappresentanza di specifici geni con un metodo chiamato 'analisi da arricchimento'. Nei moduli estratti sono stati trovati termini significativi legati al cancro. Gli altri geni all'interno dei moduli possono essere evidenziati come obiettivi importanti per una successiva analisi funzionale. I risultati sono promettenti e sono pensati in primo luogo per l'utilizzo da parte di biologi nella ricerca di nuove interazioni fra geni.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
2018-4-Spaccapeli.pdf

Open Access dal 29/03/2019

Descrizione: Thesis document
Dimensione 4.51 MB
Formato Adobe PDF
4.51 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/139036