Breast cancer is known to be a heterogeneous and threatening malignant disease comprising multiple intrinsic and histological subtypes with great implications on disease prognosis and outcome. Because of this, numerous multi-gene prognostic molecular tests have been developed and have now become an integral part of breast cancer management. Notwithstanding the prognostic value of these tests, they all suffer from the issue of not being able to leverage upon the advent of big data in genomics provided by high-throughput sequencing technologies. The present work was motivated by this point and aims to study the role that Machine Learning, and more specifically Deep Learning techniques, may have on the task of whole-transcriptome subtyping of breast cancer for clinical outcome prediction. To that end, several types of genomic data were studied, coming both from The Cancer Genome Atlas project (TCGA) and the ARCHS4 datasets. These were used to explore different techniques and assess how the performance of deep approaches compares to the simpler machine learning ones. Used techniques vary from supervised to semi-supervised ones, including Variational Autoencoders as a mean of extracting useful features from unlabeled samples, and in this way tackle the lack of labeled samples available. Obtained results showed the simpler machine learning models to perform at least as well as the deep ones, nonetheless, they gave important insights on how the latter may outperform the former in the near future by combining different data types to tackle the task and as the volume of available data notably increases at a very high rate.

Il tumore al seno è noto per essere una malattia eterogenea ed aggressiva, costituita da molteplici sottotipi intrinseci ed istologici, con importanti implicazioni per la prognosi e l'esito della patologia. Per questo motivo, numerosi test molecolari prognostici multi-gene sono stati sviluppati e sono ora diventati parte integrante della gestione del tumore al seno. Nonostante il valore prognostico di questi test, essi non sono in grado di sfruttare l'avvento dei Big Data nel campo della genomica, ad oggi incentivato dallo sviluppo delle tecnologie di high-troughput sequencing. Il presente lavoro è stato motivato da questo presupposto e mira a studiare il ruolo che il Machine Learning, ed in particolare le tecniche di Deep Learning, possono avere nella sottotipizzazione tramite sequenziamento dell'intero trascrittoma del tumore al seno, la quale è utile per predire l'esito clinico. A tal fine, sono stati studiati numerosi tipi di dati genomici, provenienti dal progetto The Cancer Genome Atlas (TCGA) e dal dataset ARCHS4. Essi sono stati utilizzati per esplorare tecniche differenti e valutare quanto i risultati di approcci deep siano paragonabili a quelle di approcci di machine learning più semplici. Le tecniche impiegate variano da quelle supervisionate a quelle semi-supervisionate, includendo i Variational Autoencoder, usati come metodo per estrarre features utili da samples non etichettati e in questo modo contrastare la mancanza di samples etichettati. I risultati ottenuti mostrano che i modelli di machine learning più semplici hanno risultati uguali o superiori a quelli deep, ma che, allo stesso tempo, questi ultimi potrebbero funzionare meglio in futuro grazie alla combinazione di tipi di informazioni genomiche differenti e al volume sempre crescente di dati.

Investigating deep semi-supervised learning for whole-transcriptome breast cancer subtyping

MARTINS CRISTÓVÃO, FRANCISCO MANUEL
2018/2019

Abstract

Breast cancer is known to be a heterogeneous and threatening malignant disease comprising multiple intrinsic and histological subtypes with great implications on disease prognosis and outcome. Because of this, numerous multi-gene prognostic molecular tests have been developed and have now become an integral part of breast cancer management. Notwithstanding the prognostic value of these tests, they all suffer from the issue of not being able to leverage upon the advent of big data in genomics provided by high-throughput sequencing technologies. The present work was motivated by this point and aims to study the role that Machine Learning, and more specifically Deep Learning techniques, may have on the task of whole-transcriptome subtyping of breast cancer for clinical outcome prediction. To that end, several types of genomic data were studied, coming both from The Cancer Genome Atlas project (TCGA) and the ARCHS4 datasets. These were used to explore different techniques and assess how the performance of deep approaches compares to the simpler machine learning ones. Used techniques vary from supervised to semi-supervised ones, including Variational Autoencoders as a mean of extracting useful features from unlabeled samples, and in this way tackle the lack of labeled samples available. Obtained results showed the simpler machine learning models to perform at least as well as the deep ones, nonetheless, they gave important insights on how the latter may outperform the former in the near future by combining different data types to tackle the task and as the volume of available data notably increases at a very high rate.
CANAKOGLU, ARIF
MASSEROLI, MARCO
ING - Scuola di Ingegneria Industriale e dell'Informazione
18-dic-2019
2018/2019
Il tumore al seno è noto per essere una malattia eterogenea ed aggressiva, costituita da molteplici sottotipi intrinseci ed istologici, con importanti implicazioni per la prognosi e l'esito della patologia. Per questo motivo, numerosi test molecolari prognostici multi-gene sono stati sviluppati e sono ora diventati parte integrante della gestione del tumore al seno. Nonostante il valore prognostico di questi test, essi non sono in grado di sfruttare l'avvento dei Big Data nel campo della genomica, ad oggi incentivato dallo sviluppo delle tecnologie di high-troughput sequencing. Il presente lavoro è stato motivato da questo presupposto e mira a studiare il ruolo che il Machine Learning, ed in particolare le tecniche di Deep Learning, possono avere nella sottotipizzazione tramite sequenziamento dell'intero trascrittoma del tumore al seno, la quale è utile per predire l'esito clinico. A tal fine, sono stati studiati numerosi tipi di dati genomici, provenienti dal progetto The Cancer Genome Atlas (TCGA) e dal dataset ARCHS4. Essi sono stati utilizzati per esplorare tecniche differenti e valutare quanto i risultati di approcci deep siano paragonabili a quelle di approcci di machine learning più semplici. Le tecniche impiegate variano da quelle supervisionate a quelle semi-supervisionate, includendo i Variational Autoencoder, usati come metodo per estrarre features utili da samples non etichettati e in questo modo contrastare la mancanza di samples etichettati. I risultati ottenuti mostrano che i modelli di machine learning più semplici hanno risultati uguali o superiori a quelli deep, ma che, allo stesso tempo, questi ultimi potrebbero funzionare meglio in futuro grazie alla combinazione di tipi di informazioni genomiche differenti e al volume sempre crescente di dati.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
2019_12_Martins_Cristovao.pdf

solo utenti autorizzati dal 03/12/2020

Descrizione: Thesis text
Dimensione 5.36 MB
Formato Adobe PDF
5.36 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/152266