Predicting relapse events is still one of the major challenges for breast cancer research. Despite gene expression-based classifiers may tackle this task, working on thousands of genes and only a few samples jeopardizes the performances of a classifier trained without a proper gene selection. Thus, this thesis focus on developing a novel hybrid evolutionary gene selection framework, which employs a Multi-Objective Genetic Algorithm (MOGA) to efficiently search the wide feature space while handling MOGA results in a whole new way, so as to overcome the limit of the non-easy interpretability of the MOGA broad set of solutions. Our framework provides selected classifiers with a tailored feature space not only bringing the best cross-validation result, but also showing robust performances when tested on unseen samples of an internal hold-out set, although exhibiting a possible dataset-specific bias. The robustness in internal hold-out showed the strength of our innovative key element: the final module of the framework, which fully exploits the high variability of MOGA outputs, rather than choosing just one of the solutions, as commonly done in the literature. The biological interpretation of the obtained signatures shows how selected genes are significantly involved in biological processes impacting cell cycle and immune response, thus confirming well known biological aspects of breast cancer, while suggesting possible new speculations on the disease. Lastly, part of this thesis work was submitted in the form of research paper and accepted for oral presentation at the International Joint Conference on Neural Networks (ICJNN), part of the IEEE World Congress on Computational Intelligence 2020, (IEE-WCCI 2020).

Prevedere eventi di ricaduta è ancora una delle maggiori sfide per la ricerca sul cancro al seno. Nonostante classificatori definiti mediante Machine Learning e basati sull`espressione genica possano essere impiegati in questo ambito, una corretta selezione genica preliminare è di primaria importanza per non comprometterne le prestazioni. Proponiamo in questo lavoro di tesi un nuovo framework per la selezione genetica basato sul calcolo evolutivo, che impiega un algoritmo genetico multi-obiettivo (MOGA) per esaminare in modo efficiente l'ampio spazio delle features, gestendo i risultati del MOGA in un modo completamente nuovo, superando il limite della difficile interpretabilità legata all'ampia gamma di soluzioni offerta da MOGA. Il nostro framework fornisce ai classificatori selezionati uno spazio delle features su misura che non sono solo responsabili del miglior risultato di cross-validazione, ma che esibiscono anche prestazioni robuste quando testate sui campioni del set di controllo interno sconosciuti al classificatore, sebbene presentino un possibile bias ereditato dal dataset di training. La solidità nella predizione dei campioni del set di controllo interno ha dimostrato la forza del nostro elemento innovativo chiave: il modulo finale del framework, che sfrutta appieno l'alta variabilità dei risultati del MOGA, anziché selezionare una singola soluzione, come comunemente fatto in letteratura. L'interpretazione biologica delle firme ottenute mostra come i geni selezionati siano significativamente coinvolti nei processi biologici che incidono su ciclo cellulare e risposta immunitaria, confermando così aspetti biologici ben noti del cancro al seno, suggerendo al contempo possibili nuove speculazioni sulla malattia. Infine, parte di questo lavoro di tesi è stata presentata sotto forma di research paper e accettata per presentazione orale alla International Joint Conference on Neural Networks (ICJNN), parte del IEEE World Congress on Computational Intelligence 2020, (IEE-WCCI 2020).

Hybrid gene selection framework for predicting breast cancer relapse

PERINO, LORENZO
2019/2020

Abstract

Predicting relapse events is still one of the major challenges for breast cancer research. Despite gene expression-based classifiers may tackle this task, working on thousands of genes and only a few samples jeopardizes the performances of a classifier trained without a proper gene selection. Thus, this thesis focus on developing a novel hybrid evolutionary gene selection framework, which employs a Multi-Objective Genetic Algorithm (MOGA) to efficiently search the wide feature space while handling MOGA results in a whole new way, so as to overcome the limit of the non-easy interpretability of the MOGA broad set of solutions. Our framework provides selected classifiers with a tailored feature space not only bringing the best cross-validation result, but also showing robust performances when tested on unseen samples of an internal hold-out set, although exhibiting a possible dataset-specific bias. The robustness in internal hold-out showed the strength of our innovative key element: the final module of the framework, which fully exploits the high variability of MOGA outputs, rather than choosing just one of the solutions, as commonly done in the literature. The biological interpretation of the obtained signatures shows how selected genes are significantly involved in biological processes impacting cell cycle and immune response, thus confirming well known biological aspects of breast cancer, while suggesting possible new speculations on the disease. Lastly, part of this thesis work was submitted in the form of research paper and accepted for oral presentation at the International Joint Conference on Neural Networks (ICJNN), part of the IEEE World Congress on Computational Intelligence 2020, (IEE-WCCI 2020).
CASCIANELLI, SILVIA
ING - Scuola di Ingegneria Industriale e dell'Informazione
29-apr-2020
2019/2020
Prevedere eventi di ricaduta è ancora una delle maggiori sfide per la ricerca sul cancro al seno. Nonostante classificatori definiti mediante Machine Learning e basati sull`espressione genica possano essere impiegati in questo ambito, una corretta selezione genica preliminare è di primaria importanza per non comprometterne le prestazioni. Proponiamo in questo lavoro di tesi un nuovo framework per la selezione genetica basato sul calcolo evolutivo, che impiega un algoritmo genetico multi-obiettivo (MOGA) per esaminare in modo efficiente l'ampio spazio delle features, gestendo i risultati del MOGA in un modo completamente nuovo, superando il limite della difficile interpretabilità legata all'ampia gamma di soluzioni offerta da MOGA. Il nostro framework fornisce ai classificatori selezionati uno spazio delle features su misura che non sono solo responsabili del miglior risultato di cross-validazione, ma che esibiscono anche prestazioni robuste quando testate sui campioni del set di controllo interno sconosciuti al classificatore, sebbene presentino un possibile bias ereditato dal dataset di training. La solidità nella predizione dei campioni del set di controllo interno ha dimostrato la forza del nostro elemento innovativo chiave: il modulo finale del framework, che sfrutta appieno l'alta variabilità dei risultati del MOGA, anziché selezionare una singola soluzione, come comunemente fatto in letteratura. L'interpretazione biologica delle firme ottenute mostra come i geni selezionati siano significativamente coinvolti nei processi biologici che incidono su ciclo cellulare e risposta immunitaria, confermando così aspetti biologici ben noti del cancro al seno, suggerendo al contempo possibili nuove speculazioni sulla malattia. Infine, parte di questo lavoro di tesi è stata presentata sotto forma di research paper e accettata per presentazione orale alla International Joint Conference on Neural Networks (ICJNN), parte del IEEE World Congress on Computational Intelligence 2020, (IEE-WCCI 2020).
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
TESI_POLIMI_finale.pdf

accessibile in internet per tutti

Descrizione: Testo della tesi
Dimensione 5.71 MB
Formato Adobe PDF
5.71 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/154502