Colorectal cancer (CRC) can be divided, considering gene expression data, into five Colorectal Intrinsic Subtypes (CRIS), each one having its own characteristics in terms of prognostic, clinical and biological aspects. The main goal of this work has been of further exploring the colorectal cancer stratification, proposing a more refined one, and subsequently developing single and multi-label classifiers for CRC. Classifiers had to be able to predict on datasets containing stromal expression (i.e., not directly related to the cancer), while being trained on purely tumoral expression data. Four clustering algorithms were explored and applied on high quality data: Non-negative Matrix Factorization (NMF), SC3, consensus hierarchical clustering and fuzzy C-means (FCM). Using the most promising subtyping result, regularised logistic regression (glmnet), Linear Support Vector Machine (LSVM), Polynomial Support Vector Machine (PSVM), Radial Support Vector Machine (RSVM) and Random Forest (RF) models have been evaluated as single-label classifiers. To accomplish the adaptation goal concerning prediction on stromal data, a feature selection pipeline (K-L) was developed, exploiting the Kolmogorov test to select similar features between stromal and non-stromal data. Regarding multi-label classification, NMF-based sample/class scores were learned to be estimated on new data through a set of regression models. On top of that, a threshold-based approach was set up to perform primary and secondary class assignments. Results showed NMF clustering result as the most robust, identifying six subtypes: five biologically similar to the original CRIS classes, and a new one. The latter one - called CRIS-F - showed an enrichment of PIK3CA and KRAS mutations; they proved to be non-mucinous and microsatellite stable tumors. In terms of classification, the most accurate single-label classifier has been the glmnet, being also able to give reliable predictions on stromal data. The multi-label threshold-based approach relevantly proved to enhance the significance of class-related biological characteristics, when considering secondary classes.

Il tumore del colon-retto (CRC) può essere suddiviso, considerando l'espressione genica, in cinque Colorectal Intrinsic Subtypes (CRIS), ognuno dei quali avente peculiari caratteristiche cliniche e biologiche. Il primo obiettivo di questa tesi è stato di esplorare la stratificazione del tumore colon-rettale, proponendone una più raffinata, e conseguentemente sviluppando classificatori single e multi-label per CRC. I classificatori dovevano inoltre predire su datasets contenenti espressione stromale (non direttamente collegata al tumore) e allo stesso tempo essere allenati su dati di espressione puramente tumorale. Quattro algoritmi di clustering sono stati applicati su dati ad alta precisione: Non-negative Matrix Factorization (NMF), SC3, consensus hierarchical clustering e fuzzy C-means. Usando il risultato di clustering più robusto, i modelli di logistic regression regolarizzata (glmnet), Linear, Polynomial e Radial Support Vector Machines, e Random Forest sono stati comparati come classificatori single-label. Per adattarsi a dati di tipo stromale, è stata sviluppata una pipeline volta a selezionare le features, sfruttando il test di Kolmogorov per selezionare geni simili nei dati con espressione stromale e non. Riguardo la classificazione multi-label, un set di modelli di regressione è stato allenato per predire su nuovi dati gli score di sample/classe forniti da NMF. Quindi, un approccio basato su soglie è stato ideato per fornire assegnamenti di classe sia primari che secondari. I risultati hanno mostrato come il clustering di NMF fosse il più robusto, introducendo sei sottotipi: cinque biologicamente simili ai tipi già esistenti, e uno nuovo. Il nuovo tipo CRIS-F ha mostrato di essere arricchito di mutazioni dei geni PIK3CA e KRAS; si tratta di tumori non mucosi e stabili in termini di microsatelliti. In merito alla classificazione, il classificatore single-label con accuracy più alta è stato il glmnet, in grado anche di dare predizioni affidabili su dati stromali. Il metodo multi-label basato su soglie ha poi dimostrato di migliorare la significatività delle caratteristiche biologiche delle classi quando si considerano gli assegnamenti secondari.

Discovery and identification of a new colorectal cancer subtype through multiple clustering and classification approaches

MAINETTI, AMOS
2020/2021

Abstract

Colorectal cancer (CRC) can be divided, considering gene expression data, into five Colorectal Intrinsic Subtypes (CRIS), each one having its own characteristics in terms of prognostic, clinical and biological aspects. The main goal of this work has been of further exploring the colorectal cancer stratification, proposing a more refined one, and subsequently developing single and multi-label classifiers for CRC. Classifiers had to be able to predict on datasets containing stromal expression (i.e., not directly related to the cancer), while being trained on purely tumoral expression data. Four clustering algorithms were explored and applied on high quality data: Non-negative Matrix Factorization (NMF), SC3, consensus hierarchical clustering and fuzzy C-means (FCM). Using the most promising subtyping result, regularised logistic regression (glmnet), Linear Support Vector Machine (LSVM), Polynomial Support Vector Machine (PSVM), Radial Support Vector Machine (RSVM) and Random Forest (RF) models have been evaluated as single-label classifiers. To accomplish the adaptation goal concerning prediction on stromal data, a feature selection pipeline (K-L) was developed, exploiting the Kolmogorov test to select similar features between stromal and non-stromal data. Regarding multi-label classification, NMF-based sample/class scores were learned to be estimated on new data through a set of regression models. On top of that, a threshold-based approach was set up to perform primary and secondary class assignments. Results showed NMF clustering result as the most robust, identifying six subtypes: five biologically similar to the original CRIS classes, and a new one. The latter one - called CRIS-F - showed an enrichment of PIK3CA and KRAS mutations; they proved to be non-mucinous and microsatellite stable tumors. In terms of classification, the most accurate single-label classifier has been the glmnet, being also able to give reliable predictions on stromal data. The multi-label threshold-based approach relevantly proved to enhance the significance of class-related biological characteristics, when considering secondary classes.
CASCIANELLI, SILVIA
ING - Scuola di Ingegneria Industriale e dell'Informazione
28-apr-2022
2020/2021
Il tumore del colon-retto (CRC) può essere suddiviso, considerando l'espressione genica, in cinque Colorectal Intrinsic Subtypes (CRIS), ognuno dei quali avente peculiari caratteristiche cliniche e biologiche. Il primo obiettivo di questa tesi è stato di esplorare la stratificazione del tumore colon-rettale, proponendone una più raffinata, e conseguentemente sviluppando classificatori single e multi-label per CRC. I classificatori dovevano inoltre predire su datasets contenenti espressione stromale (non direttamente collegata al tumore) e allo stesso tempo essere allenati su dati di espressione puramente tumorale. Quattro algoritmi di clustering sono stati applicati su dati ad alta precisione: Non-negative Matrix Factorization (NMF), SC3, consensus hierarchical clustering e fuzzy C-means. Usando il risultato di clustering più robusto, i modelli di logistic regression regolarizzata (glmnet), Linear, Polynomial e Radial Support Vector Machines, e Random Forest sono stati comparati come classificatori single-label. Per adattarsi a dati di tipo stromale, è stata sviluppata una pipeline volta a selezionare le features, sfruttando il test di Kolmogorov per selezionare geni simili nei dati con espressione stromale e non. Riguardo la classificazione multi-label, un set di modelli di regressione è stato allenato per predire su nuovi dati gli score di sample/classe forniti da NMF. Quindi, un approccio basato su soglie è stato ideato per fornire assegnamenti di classe sia primari che secondari. I risultati hanno mostrato come il clustering di NMF fosse il più robusto, introducendo sei sottotipi: cinque biologicamente simili ai tipi già esistenti, e uno nuovo. Il nuovo tipo CRIS-F ha mostrato di essere arricchito di mutazioni dei geni PIK3CA e KRAS; si tratta di tumori non mucosi e stabili in termini di microsatelliti. In merito alla classificazione, il classificatore single-label con accuracy più alta è stato il glmnet, in grado anche di dare predizioni affidabili su dati stromali. Il metodo multi-label basato su soglie ha poi dimostrato di migliorare la significatività delle caratteristiche biologiche delle classi quando si considerano gli assegnamenti secondari.
File allegati
File Dimensione Formato  
2022_04_Mainetti_01.pdf

solo utenti autorizzati dal 07/04/2023

Descrizione: Tesi
Dimensione 2.54 MB
Formato Adobe PDF
2.54 MB Adobe PDF   Visualizza/Apri
2022_04_Mainetti_02.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: Executive Summary
Dimensione 728.68 kB
Formato Adobe PDF
728.68 kB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/188108