Over 18 million people were diagnosed with cancer in 2018 and 9.6 million deaths were caused by cancer making it the second leading cause of death in the world. These staggering numbers, which are expected to increase further, make cancer research a major issue now more than ever. Cancer detection is a key part of research against cancer as it allows early treatment of the disease. Multiple works have been produced in the recent years using the machine learning techniques to enhance cancer detection and this project is part of their continuity. As cancer occurs subsequently to genetic mutations, the direct analysis of genetic expression of patients enables the identification of tumors through the induced genetic expression variation. The identification of genes whose genetic expression variation characterize tumors presence, the genetic markers, allows to avoid the screening of considerable number of genes. This permits to facilitate cancer detection by focusing the attention on these particular genes. The aim of the thesis was to provide an efficient framework enabling the detection of genetic markers that characterize tumors presence. The framework was tested on data obtained from the databases GEO and TCGA. The data used was genetic expression matrices of patients either having breast tumors or no tumors, obtained using microarray techniques. A graphical representation of these genetic expressions where the different values were represented as colors was employed: the heatmaps. This approach using the genetic expression as images was used to take advantage of the good performances of CNNs with images. These heatmaps were then classified using a CNN. Using the trained CNN and these heatmaps, maps detecting the areas of the image particularly used by the CNN to perform the classification were produced: the gradCAMs and the guided gradCAMs. The same CNN was trained again two different times. One training was performed with only the genetic markers identified on the gradCAM or the guided gradCAM. The other training was realized by removing these identified genetic markers and using only the rest of the genes. The same process was performed using maps of Getis Ord Gi* statistics instead of the heatmaps. These Getis Ord Gi* heatmaps were used because they enable a better preservation of the whole spatial information contained in the genetic expression matrices than the regular heatmaps. The classification was performed using the DenseNet 169 that proved to be the most performing of six neural networks tested. Various proportions of the total number of genes were then selected using either the gradCAM or the guided gradCAM. The study showed that the number of genes used for the classification could be reduced up to consider only 30% of the total number of genes with limited impact on the accuracy. According to the results, the classification could be improved by reducing the number of genes used to an average of 23%. However, the classification results using the selected genes did not provide conclusive results on their influence as genetic markers as similar results were obtained using the genes that had not been identified by the gradCAM or guided gradCAM for the classification. These results could be induced by various limited factors such as the limited amount of data used in the study or the lack of variation amongst the genetic expression values used. Deeper research should be realized in order to produce more significant results. This would include an amelioration of the framework, the optimization of the different parameters and the use of larger data sets.

Nel 2018, 9,6 milioni di morti sono state causate dal cancro e circa 18 milioni di persone hanno ricevuto tale diagnosi. Oggi, il cancro è la seconda causa di decessi a livello mondiale. Questi numeri sbalorditivi, che si prevede aumentino ulteriormente, fanno della ricerca sul cancro una questione importante oggi più che mai. L'individuazione del cancro è una parte fondamentale della ricerca sul cancro, in quanto consente un trattamento preventivo della malattia. Negli ultimi anni sono stati prodotti numerosi lavori che utilizzano le tecniche di apprendimento automatico per migliorare l'individuazione del cancro, questo progetto fa parte della loro continuità. Poichè il cancro si verifica in seguito a mutazioni genetiche, l'analisi diretta dell'espressione genetica dei pazienti permette l'identificazione dei tumori attraverso la variazione indotta dell'espressione genetica. L'identificazione dei geni la cui variazione di espressione genetica caratterizza la presenza di tumori, i marcatori genetici, permette di evitare lo screening di un numero considerevole di geni. Questo permette di facilitare l'individuazione del cancro focalizzando l'attenzione su questi particolari geni. Lo scopo della tesi è quello di fornire un quadro efficace che permetta di individuare i marcatori genetici che caratterizzano la presenza di tumori. Il framework è stato testato su dati ottenuti dalle banche dati GEO e TCGA. I dati utilizzati, ottenuti con tecniche di microarray, sono matrici di espressione genetica di pazienti con tumori al seno o senza tumori. È stata utilizzata una rappresentazione grafica di queste espressioni genetiche in cui i diversi valori sono rappresentati come colori: le mappe termiche. Questo approccio, utilizzando l'espressione genetica come immagini, è stato utilizzato per sfruttare le buone prestazioni della CNN con le immagini. Queste mappe termiche sono state poi classificate utilizzando una CNN. Utilizzando la CNN allenata e queste mappe termiche, sono state prodotte mappe che rilevano le aree dell'immagine particolarmente utilizzate dalla CNN per effettuare la classificazione: il gradCAM e il gradCAM guidato. La stessa CNN è stata nuovamente allenata con due tipi di mappe termiche. Una classificazione è stata effettuata con i soli marcatori genetici identificati sulla gradCAM o sulla gradCAM guidata. L'altra classificazione è stata realizzata rimuovendo questi marcatori genetici identificati e utilizzando solo il resto dei geni. Lo stesso processo è stato eseguito utilizzando le mappe di statistiche Getis Ord Gi* al posto delle mappe termiche. Queste carte termiche Getis Ord Gi* sono state utilizzate perchè permettono una migliore conservazione dell'intera informazione spaziale contenuta nelle matrici di espressione genetica rispetto alle normali carte termiche. La classificazione è stata eseguita utilizzando il DenseNet 169 che si è dimostrato il più performante tra le sei reti neurali testate. Varie proporzioni del numero totale di geni sono state poi selezionate utilizzando il gradCAM o il gradCAM guidato. Lo studio ha mostrato che il numero di geni utilizzati per la classificazione poteva essere ridotto fino a considerare solo il 30% del numero totale di geni con un impatto limitato sull'accuratezza. Secondo i risultati, la classificazione potrebbe essere migliorata riducendo il numero di geni utilizzati ad una media del 23%. Tuttavia, i risultati della classificazione utilizzando i geni selezionati non hanno fornito risultati conclusivi sulla loro influenza come marcatori genetici, in quanto risultati simili sono stati ottenuti utilizzando i geni non identificati per la classificazione. Questi risultati potrebbero essere indotti da vari fattori limitanti, come la quantità ridotta di dati utilizzati nello studio o la scarsa variazione tra i valori di espressione genetica utilizzati. Per ottenere risultati più significativi, è necessario effettuare ricerche più approfondite. Ciò includerebbe un miglioramento del framework, l'ottimizzazione dei diversi parametri e l'uso di set di dati più ampi.

Identification of genetic markers of tumors using gradCAM

KITANIDIS, ALEXANDRE SÉBASTIEN
2018/2019

Abstract

Over 18 million people were diagnosed with cancer in 2018 and 9.6 million deaths were caused by cancer making it the second leading cause of death in the world. These staggering numbers, which are expected to increase further, make cancer research a major issue now more than ever. Cancer detection is a key part of research against cancer as it allows early treatment of the disease. Multiple works have been produced in the recent years using the machine learning techniques to enhance cancer detection and this project is part of their continuity. As cancer occurs subsequently to genetic mutations, the direct analysis of genetic expression of patients enables the identification of tumors through the induced genetic expression variation. The identification of genes whose genetic expression variation characterize tumors presence, the genetic markers, allows to avoid the screening of considerable number of genes. This permits to facilitate cancer detection by focusing the attention on these particular genes. The aim of the thesis was to provide an efficient framework enabling the detection of genetic markers that characterize tumors presence. The framework was tested on data obtained from the databases GEO and TCGA. The data used was genetic expression matrices of patients either having breast tumors or no tumors, obtained using microarray techniques. A graphical representation of these genetic expressions where the different values were represented as colors was employed: the heatmaps. This approach using the genetic expression as images was used to take advantage of the good performances of CNNs with images. These heatmaps were then classified using a CNN. Using the trained CNN and these heatmaps, maps detecting the areas of the image particularly used by the CNN to perform the classification were produced: the gradCAMs and the guided gradCAMs. The same CNN was trained again two different times. One training was performed with only the genetic markers identified on the gradCAM or the guided gradCAM. The other training was realized by removing these identified genetic markers and using only the rest of the genes. The same process was performed using maps of Getis Ord Gi* statistics instead of the heatmaps. These Getis Ord Gi* heatmaps were used because they enable a better preservation of the whole spatial information contained in the genetic expression matrices than the regular heatmaps. The classification was performed using the DenseNet 169 that proved to be the most performing of six neural networks tested. Various proportions of the total number of genes were then selected using either the gradCAM or the guided gradCAM. The study showed that the number of genes used for the classification could be reduced up to consider only 30% of the total number of genes with limited impact on the accuracy. According to the results, the classification could be improved by reducing the number of genes used to an average of 23%. However, the classification results using the selected genes did not provide conclusive results on their influence as genetic markers as similar results were obtained using the genes that had not been identified by the gradCAM or guided gradCAM for the classification. These results could be induced by various limited factors such as the limited amount of data used in the study or the lack of variation amongst the genetic expression values used. Deeper research should be realized in order to produce more significant results. This would include an amelioration of the framework, the optimization of the different parameters and the use of larger data sets.
FRANCESCO, CALIMERI
BRUNO, PIERANGELA
ING - Scuola di Ingegneria Industriale e dell'Informazione
3-ott-2019
2018/2019
Nel 2018, 9,6 milioni di morti sono state causate dal cancro e circa 18 milioni di persone hanno ricevuto tale diagnosi. Oggi, il cancro è la seconda causa di decessi a livello mondiale. Questi numeri sbalorditivi, che si prevede aumentino ulteriormente, fanno della ricerca sul cancro una questione importante oggi più che mai. L'individuazione del cancro è una parte fondamentale della ricerca sul cancro, in quanto consente un trattamento preventivo della malattia. Negli ultimi anni sono stati prodotti numerosi lavori che utilizzano le tecniche di apprendimento automatico per migliorare l'individuazione del cancro, questo progetto fa parte della loro continuità. Poichè il cancro si verifica in seguito a mutazioni genetiche, l'analisi diretta dell'espressione genetica dei pazienti permette l'identificazione dei tumori attraverso la variazione indotta dell'espressione genetica. L'identificazione dei geni la cui variazione di espressione genetica caratterizza la presenza di tumori, i marcatori genetici, permette di evitare lo screening di un numero considerevole di geni. Questo permette di facilitare l'individuazione del cancro focalizzando l'attenzione su questi particolari geni. Lo scopo della tesi è quello di fornire un quadro efficace che permetta di individuare i marcatori genetici che caratterizzano la presenza di tumori. Il framework è stato testato su dati ottenuti dalle banche dati GEO e TCGA. I dati utilizzati, ottenuti con tecniche di microarray, sono matrici di espressione genetica di pazienti con tumori al seno o senza tumori. È stata utilizzata una rappresentazione grafica di queste espressioni genetiche in cui i diversi valori sono rappresentati come colori: le mappe termiche. Questo approccio, utilizzando l'espressione genetica come immagini, è stato utilizzato per sfruttare le buone prestazioni della CNN con le immagini. Queste mappe termiche sono state poi classificate utilizzando una CNN. Utilizzando la CNN allenata e queste mappe termiche, sono state prodotte mappe che rilevano le aree dell'immagine particolarmente utilizzate dalla CNN per effettuare la classificazione: il gradCAM e il gradCAM guidato. La stessa CNN è stata nuovamente allenata con due tipi di mappe termiche. Una classificazione è stata effettuata con i soli marcatori genetici identificati sulla gradCAM o sulla gradCAM guidata. L'altra classificazione è stata realizzata rimuovendo questi marcatori genetici identificati e utilizzando solo il resto dei geni. Lo stesso processo è stato eseguito utilizzando le mappe di statistiche Getis Ord Gi* al posto delle mappe termiche. Queste carte termiche Getis Ord Gi* sono state utilizzate perchè permettono una migliore conservazione dell'intera informazione spaziale contenuta nelle matrici di espressione genetica rispetto alle normali carte termiche. La classificazione è stata eseguita utilizzando il DenseNet 169 che si è dimostrato il più performante tra le sei reti neurali testate. Varie proporzioni del numero totale di geni sono state poi selezionate utilizzando il gradCAM o il gradCAM guidato. Lo studio ha mostrato che il numero di geni utilizzati per la classificazione poteva essere ridotto fino a considerare solo il 30% del numero totale di geni con un impatto limitato sull'accuratezza. Secondo i risultati, la classificazione potrebbe essere migliorata riducendo il numero di geni utilizzati ad una media del 23%. Tuttavia, i risultati della classificazione utilizzando i geni selezionati non hanno fornito risultati conclusivi sulla loro influenza come marcatori genetici, in quanto risultati simili sono stati ottenuti utilizzando i geni non identificati per la classificazione. Questi risultati potrebbero essere indotti da vari fattori limitanti, come la quantità ridotta di dati utilizzati nello studio o la scarsa variazione tra i valori di espressione genetica utilizzati. Per ottenere risultati più significativi, è necessario effettuare ricerche più approfondite. Ciò includerebbe un miglioramento del framework, l'ottimizzazione dei diversi parametri e l'uso di set di dati più ampi.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
MasterThesis_AlexandreKitanidis_894452.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: Thesis text
Dimensione 5.52 MB
Formato Adobe PDF
5.52 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/150129