Genes are the atomic units of genetic inheritance in the genome, holding information about all the somatic traits of an individual. The process which activates and deactivates the flow of information from genes to traits is called gene expression. Aberrant mutations of genes can cause the development of diseases like cancer. A wide set of studies has been conducted on the ability of computational and statistical models to predict the presence of cancer from gene expression profiles. Although it is proven that cancer does not arise exclusively from aberration of the genes, a wide set of tumors originate from mutations of one or (more probably) more genes. One of the most frequent problems with gene expression datasets is the lack of samples to train machine learning models and the high dimension of the feature space. These issues are usually managed by feature selection or transformation techniques, leading inevitably to a loss of information. The usage of transfer learning procedures that exploit models trained on a big set of samples could help in the classification of more specific characteristics of the samples. This project focused on the problem of classifying genetic profiles with respect to the presence or absence of cancer. Firstly a general classification algorithm was applied to a wider set of samples coming from an heterogeneous set of cancer datasets, and then a transfer learning procedure will be used to adapt the trained model to a specific tumor type. The criterion to select the additional samples was based on a similarity metric between the cancer datasets. Our experimentations show that in a scenario of severe lack on training samples and unbalanced distribution of classes, the proposed pipeline is able to increase the performance metrics. This enlightens the fact that gene expression patterns are shared between different tumor types, making transfer learning a great tool for the addressed task.

I geni sono le unità atomiche del genoma, il quale contiene tutte le informazioni inerenti i tratti somatici di un individuo. Il processo che regola il flusso di informazioni dai geni fino al fenotipo è chiamato espressione genica. Mutazioni anomale dei geni possono causare lo sviluppo di malattie come il cancro. Negli ultimi anni sono stati condotti diversi studi sull'abilità di modelli statistici e computazionali di prevedere la presenza del cancro a partire dall'espressione genica. Nonostante sia stato provato che il cancro insorga non solo dall'attività anomala di alcuni geni, un'ampia parte ha origine dalla mutazione di uno o (più probabilmente) più geni. Uno dei più frequenti problemi con i dati di espressione genica concerne la mancanza di sufficienti campioni per l'apprendimento di modelli e la dimensione in termini di variabili. Queste problematiche vengono solitamente gestite tramite una selezione o trasformazione delle variabili al fine di catturarne i concetti più rilevanti, portando inevitabilmente alla perdita di alcune informazioni. L'uso di procedure di transfer learning da modelli concettualmente vicini, basati su una collezione più vasta di campioni, potrebbe aiutare nel processo di classificazione del tumore dai campioni. Questo progetto si focalizza sul problema di determinare la presenza del cancro a partire dai profili genetici. Prima di tutto è stato applicato un algoritmo di classificazione ad una vasta gamma di campioni provenienti da una collezione di dati eterogenea in termini di tipo di tumore. Abbiamo poi applicato una procedura di transfer learning per adattare il modello addestrato ad una specifica tipologia di tumore. Il criterio di scelta dei tipi di tumore eterogenei si è basato su metriche di similarità tra i campioni di diversi di tumori. Le nostre sperimentazioni mostrano che in uno scenario di grave mancanza di campioni disponibili per il training e una distribuzione sbilanciata delle classi, la tecnica proposta è in grado di migliorare le performance di classificazione. Questo sottolinea il fatto che i pattern di espressione genetica di diversi tumori sono parzialmente condivisi, rendendo il trasferimento della conoscenza acquisita un valido strumento a questo proposito.

Classification of genetic profiles using transfer learning

BORRELLI, GUIDO PIERANGELO
2017/2018

Abstract

Genes are the atomic units of genetic inheritance in the genome, holding information about all the somatic traits of an individual. The process which activates and deactivates the flow of information from genes to traits is called gene expression. Aberrant mutations of genes can cause the development of diseases like cancer. A wide set of studies has been conducted on the ability of computational and statistical models to predict the presence of cancer from gene expression profiles. Although it is proven that cancer does not arise exclusively from aberration of the genes, a wide set of tumors originate from mutations of one or (more probably) more genes. One of the most frequent problems with gene expression datasets is the lack of samples to train machine learning models and the high dimension of the feature space. These issues are usually managed by feature selection or transformation techniques, leading inevitably to a loss of information. The usage of transfer learning procedures that exploit models trained on a big set of samples could help in the classification of more specific characteristics of the samples. This project focused on the problem of classifying genetic profiles with respect to the presence or absence of cancer. Firstly a general classification algorithm was applied to a wider set of samples coming from an heterogeneous set of cancer datasets, and then a transfer learning procedure will be used to adapt the trained model to a specific tumor type. The criterion to select the additional samples was based on a similarity metric between the cancer datasets. Our experimentations show that in a scenario of severe lack on training samples and unbalanced distribution of classes, the proposed pipeline is able to increase the performance metrics. This enlightens the fact that gene expression patterns are shared between different tumor types, making transfer learning a great tool for the addressed task.
NANNI, LUCA
ING - Scuola di Ingegneria Industriale e dell'Informazione
3-ott-2018
2017/2018
I geni sono le unità atomiche del genoma, il quale contiene tutte le informazioni inerenti i tratti somatici di un individuo. Il processo che regola il flusso di informazioni dai geni fino al fenotipo è chiamato espressione genica. Mutazioni anomale dei geni possono causare lo sviluppo di malattie come il cancro. Negli ultimi anni sono stati condotti diversi studi sull'abilità di modelli statistici e computazionali di prevedere la presenza del cancro a partire dall'espressione genica. Nonostante sia stato provato che il cancro insorga non solo dall'attività anomala di alcuni geni, un'ampia parte ha origine dalla mutazione di uno o (più probabilmente) più geni. Uno dei più frequenti problemi con i dati di espressione genica concerne la mancanza di sufficienti campioni per l'apprendimento di modelli e la dimensione in termini di variabili. Queste problematiche vengono solitamente gestite tramite una selezione o trasformazione delle variabili al fine di catturarne i concetti più rilevanti, portando inevitabilmente alla perdita di alcune informazioni. L'uso di procedure di transfer learning da modelli concettualmente vicini, basati su una collezione più vasta di campioni, potrebbe aiutare nel processo di classificazione del tumore dai campioni. Questo progetto si focalizza sul problema di determinare la presenza del cancro a partire dai profili genetici. Prima di tutto è stato applicato un algoritmo di classificazione ad una vasta gamma di campioni provenienti da una collezione di dati eterogenea in termini di tipo di tumore. Abbiamo poi applicato una procedura di transfer learning per adattare il modello addestrato ad una specifica tipologia di tumore. Il criterio di scelta dei tipi di tumore eterogenei si è basato su metriche di similarità tra i campioni di diversi di tumori. Le nostre sperimentazioni mostrano che in uno scenario di grave mancanza di campioni disponibili per il training e una distribuzione sbilanciata delle classi, la tecnica proposta è in grado di migliorare le performance di classificazione. Questo sottolinea il fatto che i pattern di espressione genetica di diversi tumori sono parzialmente condivisi, rendendo il trasferimento della conoscenza acquisita un valido strumento a questo proposito.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
tesi.pdf

accessibile in internet per tutti

Descrizione: Testo della tesi
Dimensione 4.13 MB
Formato Adobe PDF
4.13 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/142878