Breast cancer is the most common malignancy among females and the leading cause of cancer deaths in the Western hemisphere. It appears as a multifactorial disease, characterized by genetic causes and nonhereditary factors. Breast cancer is a heterogeneous type of tumor with different pathological features, which impinge on prognosis, response to therapy, metastasis and long-term patient survival. For that reason, several efforts have been made to identify histological and molecular characteristics associated with clinical outcomes and disease course. Different histopathological parameters contribute to diagnostic classification and molecular profiling, commonly, subdivides breast cancer into 5 subtypes, through PAM50 classification: Luminal A, Luminal B, HER2-enriched, Normal-like and Basal. Among the molecular features, activation of HER2, hormone receptors (ER/PR), and amount of the cellular proliferation marker Ki67, play important roles in management and prognosis of patients with breast cancer. Approximately 70% of human breast cancers are hormone- dependent and Estrogen receptor-positive (ER+) breast cancer appears the most common type of those diagnosed today. However, the current traditional classifications do not sufficiently reflect the diversity of breast cancer, and the tumor heterogeneity and progression remain the main causes that complicate the treatment. Indeed, although current therapeutic strategies are stable promising approaches, some patients show no response to therapy, develop drug resistance in the long term or relapse of the disease. Furthermore, breast cancer mortality essentially results from the metastases, but a systematic and comprehensive assessment of the molecular makeup of metastases is still not available. Despite the large improvements in the prognosis and treatment of breast cancer, due to the advances in the understanding of most clinically important biological markers, there is still a considerable lack of efficient classification system, taking into account the cancer progression, during the course of the disease. Most of the studies provide only a snapshot of the breast cancer context, by simple comparing different molecular subtypes of few samples. However, as each individual sample is taken at specific time during the disease course, it is crucial to understand the differences, among them, in the framework of cancer evolution, without regarding its tumor intrinsic subtype. In the current thesis project, we wanted to observe the chronological evolution of changes of ER+ tumors gene expression profiles. In particular, from different datasets, a cohort of Summary XI 1002 patients, subdivided into normal (healthy) tissues, primary and metastatic samples, was collected and a transcriptomic analysis, over a pseudotime variable, was performed, with the aim to compensate the lack of a comprehensive breast cancer study in term of transcriptomic temporal-progression. In the first part, it was possible to computationally model the cancer dynamic process, through a trajectory inference (TI) or pseudotemporal reconstruction method called Slingshot, which use patients’ profiles at different unknown points in the dynamic process. The data are ordered along a continuous smooth lineage reconstructed and a numeric value referred to as pseudotime is assigned to each sample, to measure each sample’s transcriptional evolution, i.e. how far it progresses along a dynamic process of interest. Then, the dynamic of the process was widely studied, by identifying the temporally expressed genes i.e. those genes whose expression is changing in a continuous manner over pseudotime, using tradeSeq software package. The expression programs, driving the breast cancer progression, were determined through Geneset enrichment analysis (GSEA). The genes and annotated pathways, whose behavior over pseudotime were most perturbed, were discussed from a biological point of view. The down-regulation of common onco-suppressor genes, such as OGN, FOS and FAT2 and the up-regulation of known oncogenes, such as, CEACAM5, KIF18B, RAB26 and GDF15 have validated our pseudotime analysis. Moreover, the GSEA reveals the full extent of cell cycle-dependent gene expression, confirming the association between pseudotime and cancer progression and the ability of the time ordering method to resolve transcriptome of breast cancer patients. Other interesting genes, among the most pseudotime-associated, like APOD, CNTD2, JAM2, MYBPC1, FGFR3 and EGR1 have emerged from the analysis. These less popular genes can be considered, by us, as new targets able to predict the ER+ breast cancer behavior over time. In the second part of the study, we quantified the Tumor Infiltrating Lymphocytes (TILs) in our dataset, using the CIBERSORTx web portal, and measured the correlation between content fraction for each immune subtype and pseudotime, in order to understand how TILs affect the breast cancer progression. A complex interaction between tumor and immune micro-environment was observed, especially for Natural Killer (NK) cells. However, whether breast cancer uses TILs for evolving is still under investigation. All the data suggest that different biological processes vary as a function of pseudotime, making possible the identification of basic tumor mechanisms as a potential early or late Summary XII stage disease. The current analysis is able to study ER+ breast cancer evolution and successfully recapitulates the biological differences between tumor samples over time. The work seems to be a valid help to better understand the biological mechanisms capable to induce drug resistance, relapses and metastases in ER+ breast cancer patients.

Il carcinoma della mammella è il tumore più frequentemente diagnosticato tra le donne nel mondo e la maggiore causa di morte per cancro nell’emisfero occidentale. Esso si presenta come una malattia altamente multifattoriale, dovuta sia a cause genetiche che a fattori di rischio non ereditari. Il cancro al seno è un tipo di tumore eterogeneo, caratterizzato da una serie di fattori patologici, che incidono sulla prognosi, la risposta al trattamento, il processo di metastatizzazione e la sopravvivenza a lungo termine dei pazienti. Per questa ragione, gli sforzi della ricerca si sono concentrati nell’identificare fattori clinici predittivi, tra le tante caratteristiche istologiche e molecolari della malattia. Diversi parametri istopatologici concorrono per un’accurata classificazione diagnostica e l’analisi dei profili tumorali molecolari, ha permesso di suddividere il tumore al seno in 5 sottotipi, secondo la classificazione PAM50: Luminale A, Luminale B, HER2-arricchito, Normal-like e Basale. Tra le caratteristiche molecolari, lo stato dei recettori ormonali (ER/PR) e di HER2 di un tumore insieme alla presenza della proteina Ki67 in percentuale elevata, risultano importanti fattori di classificazione, per la prognosi e la scelta del trattamento più efficace. Circa il 70% dei carcinomi alla mammella è ormone-dipendente e, tra questi, ad oggi, il tumore Estrogen receptor-positive (ER+) risulta essere il più diagnosticato. Tuttavia, le tradizionali classificazioni utilizzate, basate sull’analisi dei biomarcatori descritti sopra, non sono sufficientemente esplicative della diversità che contraddistingue il cancro al seno e sia l’eterogeneità che la sua progressione rimangono le maggiori complicazioni della malattia e del suo trattamento. Difatti, nonostante le strategie terapeutiche in uso continuino a dare promettenti risultati, alcuni pazienti tendono ad acquisire resistenza all’effetto del farmaco o sviluppano recidive. Inoltre, sebbene la maggior parte delle morti per carcinoma alla mammella sia dovuta a metastasi, queste non sono ancora state oggetto di uno studio sistematico e approfondito. Nonostante i grandi miglioramenti nella prognosi e nel trattamento, grazie ad una maggiore comprensione dei marker biologici, vi è ancora un grande limite che riguarda la mancanza di un sistema efficiente di classificazione che tenga in considerazione il meccanismo di progressione del cancro nel corso della malattia. La maggior parte degli studi effettuati finora, hanno fornito solo un’immagine parziale delle dinamiche alla base della tumorigenesi, mediante il confronto tra piccoli datasets. Tuttavia, poiché ogni singolo campione analizzato è associato Sommario XIV ad un momento ben preciso della malattia, diviene cruciale studiarne le analogie e le differenze rispetto ad altri, alla luce dell’evoluzione tumorale, a prescindere dal sottotipo intrinseco di appartenenza. In questa tesi, si è voluto osservare l’evoluzione cronologica dei cambiamenti dell’espressione genica nel tumore al seno ER+. A partire da diversi datasets, è stato possibile reperire una coorte di 1002 pazienti, opportunamente suddivisi in campioni normali (sani), primari e metastatici e di questi effettuare un’analisi transcrittomica in funzione di uno pseudotime, con lo scopo di compensare la mancanza di uno studio completo in termini di progressione temporale. Nella prima parte del lavoro, è stata catturata, a livello computazionale, la dinamica di evoluzione dei campioni, mediante un metodo di Trajectory Inference (TI) o ricostruzione “pseudotemporale”, chiamato Slinghot. Il metodo si serve dei profili di espressione dei pazienti, distribuiti in diversi intervalli temporali del processo biologico. I dati sono ordinati lungo la traiettoria “smooth”, precedentemente ricostruita, e ad ogni campione è associato un numero, che prende il nome di pseudotime e che è in grado di misurare l’evoluzione temporale dell’individuo, cioè quanto questo è progredito nel tempo, considerato il processo biologico di interesse. La dinamica del processo di evoluzione è stata ampiamente studiata, con il pacchetto software R tradeSeq, il quale ha permesso di identificare i geni temporalmente espressi, ovvero, quei geni la cui espressione cambiava in maniera continua in funzione della variabile tempo. L’analisi di arricchimento funzionale di geni maggiormente associati allo pseudotime, condotta mediante l’uso di Gene Set Enrichment Analysis (GSEA), ha permesso poi di identificare i pathway coinvolti nella progressione tumorale. I ruoli di geni e pathway, significativamente perturbati lungo lo pseudotime, sono stati discussi dal punto di vista biologico. La down-regolazione di noti oncosoppressori, quali OGN, FOS e FAT2, insieme all’up-regolazione di oncogeni come CEACAM5, KIF18B, RAB26 e GDF15 hanno contribuito a validare la nostra analisi. Inoltre, l’arricchimento funzionale ha permesso di rivelare la stretta dipendenza dell’espressione genica dal ciclo cellulare; confermando la correlazione pseudotime-progressione tumorale e l’abilità dell’algoritmo di ordinamento temporale per l’analisi transcrittomica dei pazienti. Si può notare come l’analisi abbia fatto emergere, tra i geni maggiormente associati, alcuni meno noti e ancora poco studiati, come APOD, CNTD2, JAM2, MYBPC1, FGFR3 ed EGR1, che sono stati per questo considerati Sommario XV da noi come possibili nuovi target per predire il comportamento del tumore ER+ nel tempo. Nella seconda parte della tesi, abbiamo quantificato l’infiltrato tumorale di cellule del sistema immunitario, mediante CIBERSORTx, uno strumento, accessibile dal web, che ha permesso di misurare la correlazione tra la frazione di contenuto di ogni sottotipo immunologico e lo pseudotime, con lo scopo di capire in che modo l’infiltrato agisca sulla progressione tumorale. L’analisi ha mostrato una complessa interazione tra il tumore ed il microambiente immunologico, in particolar modo per le cellule Natural Killer (NK). Tuttavia, il modo in cui il tumore al seno sfrutti le potenzialità del sistema immunitario nell’avanzare della malattia, è ancora oggetto di studio. I risultati ottenuti suggeriscono che i processi biologici si trasformano e cambiano in funzione della variabile pseudotime. Questa considerazione ha reso possibile l’identificazione dei meccanismi di base all’origine del tumore e durante il suo evolversi. Le analisi effettuate hanno permesso di studiare l’evoluzione del carcinoma alla mammella ER+ e di riassumere in maniera efficace le maggiori differenze transcrittomiche, tra i campioni indagati, in funzione del tempo. Il lavoro si prefigura come un valido aiuto per meglio comprendere i meccanismi biologici alla base dello sviluppo di resistenza ai farmaci, e all’origine di recidive e metastasi nei pazienti affetti da tumore al seno ER+.

A novel computational approach in breast cancer transcriptomics to understand tumor evolution

IOLI, FEDERICA
2018/2019

Abstract

Breast cancer is the most common malignancy among females and the leading cause of cancer deaths in the Western hemisphere. It appears as a multifactorial disease, characterized by genetic causes and nonhereditary factors. Breast cancer is a heterogeneous type of tumor with different pathological features, which impinge on prognosis, response to therapy, metastasis and long-term patient survival. For that reason, several efforts have been made to identify histological and molecular characteristics associated with clinical outcomes and disease course. Different histopathological parameters contribute to diagnostic classification and molecular profiling, commonly, subdivides breast cancer into 5 subtypes, through PAM50 classification: Luminal A, Luminal B, HER2-enriched, Normal-like and Basal. Among the molecular features, activation of HER2, hormone receptors (ER/PR), and amount of the cellular proliferation marker Ki67, play important roles in management and prognosis of patients with breast cancer. Approximately 70% of human breast cancers are hormone- dependent and Estrogen receptor-positive (ER+) breast cancer appears the most common type of those diagnosed today. However, the current traditional classifications do not sufficiently reflect the diversity of breast cancer, and the tumor heterogeneity and progression remain the main causes that complicate the treatment. Indeed, although current therapeutic strategies are stable promising approaches, some patients show no response to therapy, develop drug resistance in the long term or relapse of the disease. Furthermore, breast cancer mortality essentially results from the metastases, but a systematic and comprehensive assessment of the molecular makeup of metastases is still not available. Despite the large improvements in the prognosis and treatment of breast cancer, due to the advances in the understanding of most clinically important biological markers, there is still a considerable lack of efficient classification system, taking into account the cancer progression, during the course of the disease. Most of the studies provide only a snapshot of the breast cancer context, by simple comparing different molecular subtypes of few samples. However, as each individual sample is taken at specific time during the disease course, it is crucial to understand the differences, among them, in the framework of cancer evolution, without regarding its tumor intrinsic subtype. In the current thesis project, we wanted to observe the chronological evolution of changes of ER+ tumors gene expression profiles. In particular, from different datasets, a cohort of Summary XI 1002 patients, subdivided into normal (healthy) tissues, primary and metastatic samples, was collected and a transcriptomic analysis, over a pseudotime variable, was performed, with the aim to compensate the lack of a comprehensive breast cancer study in term of transcriptomic temporal-progression. In the first part, it was possible to computationally model the cancer dynamic process, through a trajectory inference (TI) or pseudotemporal reconstruction method called Slingshot, which use patients’ profiles at different unknown points in the dynamic process. The data are ordered along a continuous smooth lineage reconstructed and a numeric value referred to as pseudotime is assigned to each sample, to measure each sample’s transcriptional evolution, i.e. how far it progresses along a dynamic process of interest. Then, the dynamic of the process was widely studied, by identifying the temporally expressed genes i.e. those genes whose expression is changing in a continuous manner over pseudotime, using tradeSeq software package. The expression programs, driving the breast cancer progression, were determined through Geneset enrichment analysis (GSEA). The genes and annotated pathways, whose behavior over pseudotime were most perturbed, were discussed from a biological point of view. The down-regulation of common onco-suppressor genes, such as OGN, FOS and FAT2 and the up-regulation of known oncogenes, such as, CEACAM5, KIF18B, RAB26 and GDF15 have validated our pseudotime analysis. Moreover, the GSEA reveals the full extent of cell cycle-dependent gene expression, confirming the association between pseudotime and cancer progression and the ability of the time ordering method to resolve transcriptome of breast cancer patients. Other interesting genes, among the most pseudotime-associated, like APOD, CNTD2, JAM2, MYBPC1, FGFR3 and EGR1 have emerged from the analysis. These less popular genes can be considered, by us, as new targets able to predict the ER+ breast cancer behavior over time. In the second part of the study, we quantified the Tumor Infiltrating Lymphocytes (TILs) in our dataset, using the CIBERSORTx web portal, and measured the correlation between content fraction for each immune subtype and pseudotime, in order to understand how TILs affect the breast cancer progression. A complex interaction between tumor and immune micro-environment was observed, especially for Natural Killer (NK) cells. However, whether breast cancer uses TILs for evolving is still under investigation. All the data suggest that different biological processes vary as a function of pseudotime, making possible the identification of basic tumor mechanisms as a potential early or late Summary XII stage disease. The current analysis is able to study ER+ breast cancer evolution and successfully recapitulates the biological differences between tumor samples over time. The work seems to be a valid help to better understand the biological mechanisms capable to induce drug resistance, relapses and metastases in ER+ breast cancer patients.
BOLIS , MARCO
FRATELLI, MADDALENA
ING - Scuola di Ingegneria Industriale e dell'Informazione
6-giu-2020
2018/2019
Il carcinoma della mammella è il tumore più frequentemente diagnosticato tra le donne nel mondo e la maggiore causa di morte per cancro nell’emisfero occidentale. Esso si presenta come una malattia altamente multifattoriale, dovuta sia a cause genetiche che a fattori di rischio non ereditari. Il cancro al seno è un tipo di tumore eterogeneo, caratterizzato da una serie di fattori patologici, che incidono sulla prognosi, la risposta al trattamento, il processo di metastatizzazione e la sopravvivenza a lungo termine dei pazienti. Per questa ragione, gli sforzi della ricerca si sono concentrati nell’identificare fattori clinici predittivi, tra le tante caratteristiche istologiche e molecolari della malattia. Diversi parametri istopatologici concorrono per un’accurata classificazione diagnostica e l’analisi dei profili tumorali molecolari, ha permesso di suddividere il tumore al seno in 5 sottotipi, secondo la classificazione PAM50: Luminale A, Luminale B, HER2-arricchito, Normal-like e Basale. Tra le caratteristiche molecolari, lo stato dei recettori ormonali (ER/PR) e di HER2 di un tumore insieme alla presenza della proteina Ki67 in percentuale elevata, risultano importanti fattori di classificazione, per la prognosi e la scelta del trattamento più efficace. Circa il 70% dei carcinomi alla mammella è ormone-dipendente e, tra questi, ad oggi, il tumore Estrogen receptor-positive (ER+) risulta essere il più diagnosticato. Tuttavia, le tradizionali classificazioni utilizzate, basate sull’analisi dei biomarcatori descritti sopra, non sono sufficientemente esplicative della diversità che contraddistingue il cancro al seno e sia l’eterogeneità che la sua progressione rimangono le maggiori complicazioni della malattia e del suo trattamento. Difatti, nonostante le strategie terapeutiche in uso continuino a dare promettenti risultati, alcuni pazienti tendono ad acquisire resistenza all’effetto del farmaco o sviluppano recidive. Inoltre, sebbene la maggior parte delle morti per carcinoma alla mammella sia dovuta a metastasi, queste non sono ancora state oggetto di uno studio sistematico e approfondito. Nonostante i grandi miglioramenti nella prognosi e nel trattamento, grazie ad una maggiore comprensione dei marker biologici, vi è ancora un grande limite che riguarda la mancanza di un sistema efficiente di classificazione che tenga in considerazione il meccanismo di progressione del cancro nel corso della malattia. La maggior parte degli studi effettuati finora, hanno fornito solo un’immagine parziale delle dinamiche alla base della tumorigenesi, mediante il confronto tra piccoli datasets. Tuttavia, poiché ogni singolo campione analizzato è associato Sommario XIV ad un momento ben preciso della malattia, diviene cruciale studiarne le analogie e le differenze rispetto ad altri, alla luce dell’evoluzione tumorale, a prescindere dal sottotipo intrinseco di appartenenza. In questa tesi, si è voluto osservare l’evoluzione cronologica dei cambiamenti dell’espressione genica nel tumore al seno ER+. A partire da diversi datasets, è stato possibile reperire una coorte di 1002 pazienti, opportunamente suddivisi in campioni normali (sani), primari e metastatici e di questi effettuare un’analisi transcrittomica in funzione di uno pseudotime, con lo scopo di compensare la mancanza di uno studio completo in termini di progressione temporale. Nella prima parte del lavoro, è stata catturata, a livello computazionale, la dinamica di evoluzione dei campioni, mediante un metodo di Trajectory Inference (TI) o ricostruzione “pseudotemporale”, chiamato Slinghot. Il metodo si serve dei profili di espressione dei pazienti, distribuiti in diversi intervalli temporali del processo biologico. I dati sono ordinati lungo la traiettoria “smooth”, precedentemente ricostruita, e ad ogni campione è associato un numero, che prende il nome di pseudotime e che è in grado di misurare l’evoluzione temporale dell’individuo, cioè quanto questo è progredito nel tempo, considerato il processo biologico di interesse. La dinamica del processo di evoluzione è stata ampiamente studiata, con il pacchetto software R tradeSeq, il quale ha permesso di identificare i geni temporalmente espressi, ovvero, quei geni la cui espressione cambiava in maniera continua in funzione della variabile tempo. L’analisi di arricchimento funzionale di geni maggiormente associati allo pseudotime, condotta mediante l’uso di Gene Set Enrichment Analysis (GSEA), ha permesso poi di identificare i pathway coinvolti nella progressione tumorale. I ruoli di geni e pathway, significativamente perturbati lungo lo pseudotime, sono stati discussi dal punto di vista biologico. La down-regolazione di noti oncosoppressori, quali OGN, FOS e FAT2, insieme all’up-regolazione di oncogeni come CEACAM5, KIF18B, RAB26 e GDF15 hanno contribuito a validare la nostra analisi. Inoltre, l’arricchimento funzionale ha permesso di rivelare la stretta dipendenza dell’espressione genica dal ciclo cellulare; confermando la correlazione pseudotime-progressione tumorale e l’abilità dell’algoritmo di ordinamento temporale per l’analisi transcrittomica dei pazienti. Si può notare come l’analisi abbia fatto emergere, tra i geni maggiormente associati, alcuni meno noti e ancora poco studiati, come APOD, CNTD2, JAM2, MYBPC1, FGFR3 ed EGR1, che sono stati per questo considerati Sommario XV da noi come possibili nuovi target per predire il comportamento del tumore ER+ nel tempo. Nella seconda parte della tesi, abbiamo quantificato l’infiltrato tumorale di cellule del sistema immunitario, mediante CIBERSORTx, uno strumento, accessibile dal web, che ha permesso di misurare la correlazione tra la frazione di contenuto di ogni sottotipo immunologico e lo pseudotime, con lo scopo di capire in che modo l’infiltrato agisca sulla progressione tumorale. L’analisi ha mostrato una complessa interazione tra il tumore ed il microambiente immunologico, in particolar modo per le cellule Natural Killer (NK). Tuttavia, il modo in cui il tumore al seno sfrutti le potenzialità del sistema immunitario nell’avanzare della malattia, è ancora oggetto di studio. I risultati ottenuti suggeriscono che i processi biologici si trasformano e cambiano in funzione della variabile pseudotime. Questa considerazione ha reso possibile l’identificazione dei meccanismi di base all’origine del tumore e durante il suo evolversi. Le analisi effettuate hanno permesso di studiare l’evoluzione del carcinoma alla mammella ER+ e di riassumere in maniera efficace le maggiori differenze transcrittomiche, tra i campioni indagati, in funzione del tempo. Il lavoro si prefigura come un valido aiuto per meglio comprendere i meccanismi biologici alla base dello sviluppo di resistenza ai farmaci, e all’origine di recidive e metastasi nei pazienti affetti da tumore al seno ER+.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
2020_Giugno_Ioli.pdf

solo utenti autorizzati dal 15/05/2021

Descrizione: Testo della tesi
Dimensione 29.81 MB
Formato Adobe PDF
29.81 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/165204