Technological advances in DNA sequencing technologies allow sequencing the human genome for a low cost and within a reasonable time span. This advance conduces to a huge increase in available genomic data, enabling the establishment of large-scale sequencing data projects. Producing genomic datasets, which describe genomic information, in particular, we concentrate on our attention on gene expression datasets which describe healthy and tumoral cells for various cancer types. The purpose of this thesis is to apply deep learning to classification of tumors based on gene expression. Two different Deep Learning approaches for analyzing the genomic data. First one is to create a feed-forward network (FFN) with supervised learning, the second one is using ladder network with semi-supervised learning. The main purpose of both approaches is to perform binary classification, cancerous or healthy as the outcome, over the Cancer Genome Atlas (TCGA) database.Two cancer types selected from TCGA. Breast cancer is selected because it has the highest available amount of sample in all cancer types in TCGA. The reason for kidney cancer to be selected is because it has the one of the highest mortality rate among rest. Moreover, three feature extraction method, PCA, ANOVA and random forests, employed to preprocess the selected datasets. Experiments show that, FFN reaches the acceptable accuracy rate but fails to reach a stabilization. On the other hand, ladder network outperforms the FFN in both accuracy and stabilization meaning. Effects of feature extraction method show us that, the main goal as accuracy is reached by PCA & ladder network combination, the main goal as performance is reached by ANOVA & ladder network combination.

Le innovazioni riguardanti le tecniche di sequenziamento del DNA stanno permettendo analisi del genoma umano sempre più veloci ed economiche. Ciò ha provocato un aumento considerevole dei volumi di dati disponibili riguardanti il genoma umano, permettendo l’instaurazione di progetti di sequenziamento su larga scala. In questo contesto di database genomici, ci concentreremo sui dati di espressione genica, i quali descrivono cellule tumorali e sane provenienti da diversi tipi di tessuto. Lo scopo di questa tesi è di applicare il deep-learning alla classificazione dei tumori in base all’espressione genica. Ci siamo concentrati su due approcci fondamentali per l’analisi dei dati genomici. Il primo consiste nella creazione di una rete Feed-Forward (FFN) per l’apprendimento supervisionato, il secondo utilizza una Ladder Network tramite apprendimento semi-supervisionato. L’obiettivo principale di entrambi gli approcci è di eseguire classificazione binaria, avente tumore o sano come risultato. Come dataset abbiamo utilizzato The Cancer genome Atlas (TCGA) e in particolare ci siamo concentrati su due tipi specifici di tumore: tumore della mammella e ai reni. Questa scelta è principalmente dettata dalla più alta disponibilità di samples per questi due tipi di tumore. Abbiamo utilizzato tre differenti tipi di feature extraction, PCA, ANOVA and random forest. Gli esperimenti hanno mostrato che FFN raggiunge un accuratezza accettabile ma fallisce in quanto a stabilità dei risultati. D’altra parte la Ladder Network sorpassa FFN sia in accuratezza che in stabilità. Gli effetti della feature extraction mostrano che la migliore combinazione per quanto riguarda l’accuratezza è PCA con Ladder Network, mentre per quanto riguarda le performance la combinazione ANOVA e Ladder network prevale.

Cancer classification using gene expression data with deep learning

GÖLCÜK, GÜRAY
2016/2017

Abstract

Technological advances in DNA sequencing technologies allow sequencing the human genome for a low cost and within a reasonable time span. This advance conduces to a huge increase in available genomic data, enabling the establishment of large-scale sequencing data projects. Producing genomic datasets, which describe genomic information, in particular, we concentrate on our attention on gene expression datasets which describe healthy and tumoral cells for various cancer types. The purpose of this thesis is to apply deep learning to classification of tumors based on gene expression. Two different Deep Learning approaches for analyzing the genomic data. First one is to create a feed-forward network (FFN) with supervised learning, the second one is using ladder network with semi-supervised learning. The main purpose of both approaches is to perform binary classification, cancerous or healthy as the outcome, over the Cancer Genome Atlas (TCGA) database.Two cancer types selected from TCGA. Breast cancer is selected because it has the highest available amount of sample in all cancer types in TCGA. The reason for kidney cancer to be selected is because it has the one of the highest mortality rate among rest. Moreover, three feature extraction method, PCA, ANOVA and random forests, employed to preprocess the selected datasets. Experiments show that, FFN reaches the acceptable accuracy rate but fails to reach a stabilization. On the other hand, ladder network outperforms the FFN in both accuracy and stabilization meaning. Effects of feature extraction method show us that, the main goal as accuracy is reached by PCA & ladder network combination, the main goal as performance is reached by ANOVA & ladder network combination.
CANAKOGLU, ARIF
ING - Scuola di Ingegneria Industriale e dell'Informazione
22-dic-2017
2016/2017
Le innovazioni riguardanti le tecniche di sequenziamento del DNA stanno permettendo analisi del genoma umano sempre più veloci ed economiche. Ciò ha provocato un aumento considerevole dei volumi di dati disponibili riguardanti il genoma umano, permettendo l’instaurazione di progetti di sequenziamento su larga scala. In questo contesto di database genomici, ci concentreremo sui dati di espressione genica, i quali descrivono cellule tumorali e sane provenienti da diversi tipi di tessuto. Lo scopo di questa tesi è di applicare il deep-learning alla classificazione dei tumori in base all’espressione genica. Ci siamo concentrati su due approcci fondamentali per l’analisi dei dati genomici. Il primo consiste nella creazione di una rete Feed-Forward (FFN) per l’apprendimento supervisionato, il secondo utilizza una Ladder Network tramite apprendimento semi-supervisionato. L’obiettivo principale di entrambi gli approcci è di eseguire classificazione binaria, avente tumore o sano come risultato. Come dataset abbiamo utilizzato The Cancer genome Atlas (TCGA) e in particolare ci siamo concentrati su due tipi specifici di tumore: tumore della mammella e ai reni. Questa scelta è principalmente dettata dalla più alta disponibilità di samples per questi due tipi di tumore. Abbiamo utilizzato tre differenti tipi di feature extraction, PCA, ANOVA and random forest. Gli esperimenti hanno mostrato che FFN raggiunge un accuratezza accettabile ma fallisce in quanto a stabilità dei risultati. D’altra parte la Ladder Network sorpassa FFN sia in accuratezza che in stabilità. Gli effetti della feature extraction mostrano che la migliore combinazione per quanto riguarda l’accuratezza è PCA con Ladder Network, mentre per quanto riguarda le performance la combinazione ANOVA e Ladder network prevale.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
thesis.pdf

accessibile in internet per tutti

Dimensione 2.74 MB
Formato Adobe PDF
2.74 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/138427