Somatic mutations, i.e. modifications of the DNA sequence, are important factors that may lead to cancer; they occur due to different processes, such as DNA replication infidelity, exogenous or endogenous carcinogenic exposures, enzymatic modification of DNA, or defective DNA repair. Mutational processes tend to accumulate in specific genomic regions (genic versus intergenic, transcription factors, mRNA, promoters, etc.). Somatic mutations within the transcription factor binding sites (TFBS), microRNA (miRNA), and their response elements are of particular interest since they may affect and dysregulate gene expression, which often is an important factor in cancer genesis and growth. This thesis answers the general research question about how to predict the impact of mutational processes on specific genomic regions. In addition, it provides a systematic pan-cancer characterization of the associations between constitutive boundaries and genome alterations in cancer. The results reveal the impact of mutational processes in functional genomic regions underlying the development of cancer, with potential implications for the understanding of cancer etiology, prevention, and therapy. The thesis includes a novel probabilistic model describing the impact of mutational processes operative on specific genomic regions in human cancer and develops a systematic computational framework to identify which mutational processes are more likely to hit and harm binding sites of a given transcription factor. The approach is extensively evaluated with binding sites of the CCCTC-binding factor (CTCF) which are important for the three-dimensional structure of the genome into topologically associated domains (TADs) using melanoma and skin cancer mutations. The major research result of this framework is that it identifies which mutational processes are more likely to disrupt transcription factor binding sites, and in which cancer types these disruptions are more likely to occur. This research establishes for each mutational process a catalog of binding motif disruption frequencies, which correspond to an expected background effect of the mutational patterns. Thus, the main result is a theoretical framework that works as a baseline model for transcription binding site alteration analysis in cancer genomes. In addition, the thesis investigates the effect of mutational processes on the disruption of microRNA binding sites. Mutations in the seed regions of the microRNA, which is of crucial importance for its target recognition, may disrupt the binding of microRNAs to their target genes. I develop a probabilistic framework for analyzing the alteration of microRNAs and their response elements (MRE) based on cancer-associated mutagenic processes. To the best of my knowledge, this is the first study which provides a probabilistic framework for microRNA and MRE sequence alteration analysis based on mutational processes and computationally assessing the disruptive impact of mutational signatures on human microRNA-target interactions. Recent evidence shows that the disruption of TADs might lead to tumorigenesis. As a further step in the analysis of the key role of CTCF bindings in cancer after the initial application of the impact of mutational processes on CTCF binding sites, this thesis investigates the enrichment of somatic mutation, abnormal methylation (hyper and hypomethylation), and copy number alteration events in the proximity of CTCF bindings overlapping with TADs boundaries. As a result, significant enrichment of somatic mutations in several cancer types has been identified at the CTCF binding sites of the topological boundaries. Furthermore, a significant number of over-methylated in-boundary CTCF motifs in several cancer types have been found. Finally, in several cancer types, the copy number alterations tend to overlap with active junctions more often than in matched normal samples. Several studies highlight the relevance of somatic mutations in non-coding regions of the genome which exhibit similar function, e.g., promoters or transcription factor binding sites. In the last part of the thesis, I introduce MutViz, a tool for the identification of mutation enrichments on arbitrary sets of user-defined regions; for a variety of cancer types, it contains preloaded mutations from major public datasets, well organized within an effective database organization. MutViz provides a user-friendly interface helping the user in providing sets of regions as input and in obtaining their fast exploration as output, together with statistical testing for enrichment. All the above-visualized results can give a user the general mutational landscape of the genomic sites under investigation. MutViz is an excellent tool for visualizing non-coding mutations, especially for clinicians or researchers without any bioinformatics background, as no programming skills are required.

Le mutazioni somatiche, cioè le modifiche della sequenza del DNA, sono fattori importanti che possono portare al cancro; si verificano a causa di processi diversi, come l'infedeltà della replicazione del DNA, esposizioni cancerogene esogene o endogene, modifica enzimatica del DNA o riparazione difettosa del DNA. I processi mutazionali tendono ad accumularsi in specifiche regioni genomiche (geniche contro intergeniche, fattori di trascrizione, mRNA, promotori, ecc.). Le mutazioni somatiche all'interno dei siti di legame del fattore di trascrizione (TFBS), microRNA (miRNA) e i loro elementi di risposta sono di particolare interesse poiché possono influenzare e disregolare l'espressione genica, che spesso è un fattore importante nella genesi e nella crescita del cancro. Questa tesi risponde alla domanda generale di ricerca su come prevedere l'impatto dei processi mutazionali su specifiche regioni genomiche. Inoltre, fornisce una caratterizzazione sistematica del pan-cancer delle associazioni tra i confini costitutivi e le alterazioni del genoma nel cancro. I risultati rivelano l'impatto dei processi mutazionali nelle regioni genomiche funzionali alla base dello sviluppo del cancro, con potenziali implicazioni per la comprensione dell'eziologia, della prevenzione e della terapia del cancro. La tesi include un nuovo modello probabilistico che descrive l'impatto dei processi mutazionali operativi su specifiche regioni genomiche nel cancro umano e sviluppa un quadro computazionale sistematico per identificare quali processi mutazionali hanno maggiori probabilità di colpire e danneggiare i siti di legame di un dato fattore di trascrizione. L'approccio è ampiamente valutato con siti di legame del fattore di legame CCCTC (CTCF) che sono importanti per la struttura tridimensionale del genoma in domini topologicamente associati (TAD) utilizzando melanoma e mutazioni del cancro della pelle. Il principale risultato della ricerca di questo quadro è che identifica quali processi mutazionali hanno maggiori probabilità di interrompere i siti di legame del fattore di trascrizione e in quali tipi di cancro queste interruzioni hanno maggiori probabilità di verificarsi. Questa ricerca stabilisce per ogni processo mutazionale un catalogo di frequenze di interruzione del motivo di legame, che corrispondono a un effetto di fondo atteso dei modelli mutazionali. Pertanto, il risultato principale è un quadro teorico che funziona come un modello di base per l'analisi dell'alterazione del sito di legame della trascrizione nei genomi del cancro. Inoltre, la tesi indaga l'effetto dei processi mutazionali sull'interruzione dei siti di legame dei microRNA. Le mutazioni nelle regioni seme del microRNA, che è di importanza cruciale per il riconoscimento del suo bersaglio, possono interrompere il legame dei microRNA ai loro geni bersaglio. Sviluppo un framework probabilistico per analizzare l'alterazione dei microRNA e dei loro elementi di risposta (MRE) basato su processi mutageni associati al cancro. Per quanto ne so, questo è il primo studio che fornisce un quadro probabilistico per microRNA e MRE analisi di alterazione della sequenza basata su processi mutazionali e valutazione computazionale dell'impatto dirompente delle firme mutazionali sulle interazioni microRNA-bersaglio umano. Recenti prove mostrano che l'interruzione dei TAD potrebbe portare alla tumorigenesi. Come ulteriore passo nell'analisi del ruolo chiave dei legami CTCF nel cancro dopo l'applicazione iniziale dell'impatto dei processi mutazionali sui siti di legame CTCF, questa tesi indaga l'arricchimento della mutazione somatica, la metilazione anormale (iper e ipometilazione) e la copia eventi di alterazione del numero in prossimità di binding CTCF che si sovrappongono ai confini dei TAD. Di conseguenza, è stato identificato un arricchimento significativo delle mutazioni somatiche in diversi tipi di cancro nei siti di legame CTCF dei confini topologici. Inoltre, è stato trovato un numero significativo di motivi CTCF in-boundary sovrametilati in diversi tipi di cancro. Infine, in diversi tipi di cancro, le alterazioni del numero di copie tendono a sovrapporsi alle giunzioni attive più spesso che nei campioni normali abbinati. Diversi studi evidenziano la rilevanza delle mutazioni somatiche in regioni non codificanti del genoma che presentano funzioni simili, ad esempio promotori o siti di legame del fattore di trascrizione. Nell'ultima parte della tesi, presento MutViz, uno strumento per l'identificazione di arricchimenti di mutazioni su insiemi arbitrari di regioni definite dall'utente; per una varietà di tipi di cancro, contiene mutazioni precaricate dai principali set di dati pubblici, ben organizzati all'interno di un'efficace organizzazione di database. MutViz fornisce un'interfaccia user-friendly che aiuta l'utente a fornire insiemi di regioni come input e ad ottenere la loro rapida esplorazione come output, insieme a test statistici per l'arricchimento. Tutti i risultati sopra visualizzati possono fornire a un utente il panorama mutazionale generale dei siti genomici in esame. MutViz è uno strumento eccellente per visualizzare mutazioni non codificanti, specialmente per medici o ricercatori senza alcuna preparazione bioinformatica, poiché non sono richieste abilità di programmazione.

Impact of mutational processes on regulatory elements in human cancer

Stamoulakatou, Eirini
2019/2020

Abstract

Somatic mutations, i.e. modifications of the DNA sequence, are important factors that may lead to cancer; they occur due to different processes, such as DNA replication infidelity, exogenous or endogenous carcinogenic exposures, enzymatic modification of DNA, or defective DNA repair. Mutational processes tend to accumulate in specific genomic regions (genic versus intergenic, transcription factors, mRNA, promoters, etc.). Somatic mutations within the transcription factor binding sites (TFBS), microRNA (miRNA), and their response elements are of particular interest since they may affect and dysregulate gene expression, which often is an important factor in cancer genesis and growth. This thesis answers the general research question about how to predict the impact of mutational processes on specific genomic regions. In addition, it provides a systematic pan-cancer characterization of the associations between constitutive boundaries and genome alterations in cancer. The results reveal the impact of mutational processes in functional genomic regions underlying the development of cancer, with potential implications for the understanding of cancer etiology, prevention, and therapy. The thesis includes a novel probabilistic model describing the impact of mutational processes operative on specific genomic regions in human cancer and develops a systematic computational framework to identify which mutational processes are more likely to hit and harm binding sites of a given transcription factor. The approach is extensively evaluated with binding sites of the CCCTC-binding factor (CTCF) which are important for the three-dimensional structure of the genome into topologically associated domains (TADs) using melanoma and skin cancer mutations. The major research result of this framework is that it identifies which mutational processes are more likely to disrupt transcription factor binding sites, and in which cancer types these disruptions are more likely to occur. This research establishes for each mutational process a catalog of binding motif disruption frequencies, which correspond to an expected background effect of the mutational patterns. Thus, the main result is a theoretical framework that works as a baseline model for transcription binding site alteration analysis in cancer genomes. In addition, the thesis investigates the effect of mutational processes on the disruption of microRNA binding sites. Mutations in the seed regions of the microRNA, which is of crucial importance for its target recognition, may disrupt the binding of microRNAs to their target genes. I develop a probabilistic framework for analyzing the alteration of microRNAs and their response elements (MRE) based on cancer-associated mutagenic processes. To the best of my knowledge, this is the first study which provides a probabilistic framework for microRNA and MRE sequence alteration analysis based on mutational processes and computationally assessing the disruptive impact of mutational signatures on human microRNA-target interactions. Recent evidence shows that the disruption of TADs might lead to tumorigenesis. As a further step in the analysis of the key role of CTCF bindings in cancer after the initial application of the impact of mutational processes on CTCF binding sites, this thesis investigates the enrichment of somatic mutation, abnormal methylation (hyper and hypomethylation), and copy number alteration events in the proximity of CTCF bindings overlapping with TADs boundaries. As a result, significant enrichment of somatic mutations in several cancer types has been identified at the CTCF binding sites of the topological boundaries. Furthermore, a significant number of over-methylated in-boundary CTCF motifs in several cancer types have been found. Finally, in several cancer types, the copy number alterations tend to overlap with active junctions more often than in matched normal samples. Several studies highlight the relevance of somatic mutations in non-coding regions of the genome which exhibit similar function, e.g., promoters or transcription factor binding sites. In the last part of the thesis, I introduce MutViz, a tool for the identification of mutation enrichments on arbitrary sets of user-defined regions; for a variety of cancer types, it contains preloaded mutations from major public datasets, well organized within an effective database organization. MutViz provides a user-friendly interface helping the user in providing sets of regions as input and in obtaining their fast exploration as output, together with statistical testing for enrichment. All the above-visualized results can give a user the general mutational landscape of the genomic sites under investigation. MutViz is an excellent tool for visualizing non-coding mutations, especially for clinicians or researchers without any bioinformatics background, as no programming skills are required.
PERNICI, BARBARA
PERNICI, BARBARA
9-set-2020
Le mutazioni somatiche, cioè le modifiche della sequenza del DNA, sono fattori importanti che possono portare al cancro; si verificano a causa di processi diversi, come l'infedeltà della replicazione del DNA, esposizioni cancerogene esogene o endogene, modifica enzimatica del DNA o riparazione difettosa del DNA. I processi mutazionali tendono ad accumularsi in specifiche regioni genomiche (geniche contro intergeniche, fattori di trascrizione, mRNA, promotori, ecc.). Le mutazioni somatiche all'interno dei siti di legame del fattore di trascrizione (TFBS), microRNA (miRNA) e i loro elementi di risposta sono di particolare interesse poiché possono influenzare e disregolare l'espressione genica, che spesso è un fattore importante nella genesi e nella crescita del cancro. Questa tesi risponde alla domanda generale di ricerca su come prevedere l'impatto dei processi mutazionali su specifiche regioni genomiche. Inoltre, fornisce una caratterizzazione sistematica del pan-cancer delle associazioni tra i confini costitutivi e le alterazioni del genoma nel cancro. I risultati rivelano l'impatto dei processi mutazionali nelle regioni genomiche funzionali alla base dello sviluppo del cancro, con potenziali implicazioni per la comprensione dell'eziologia, della prevenzione e della terapia del cancro. La tesi include un nuovo modello probabilistico che descrive l'impatto dei processi mutazionali operativi su specifiche regioni genomiche nel cancro umano e sviluppa un quadro computazionale sistematico per identificare quali processi mutazionali hanno maggiori probabilità di colpire e danneggiare i siti di legame di un dato fattore di trascrizione. L'approccio è ampiamente valutato con siti di legame del fattore di legame CCCTC (CTCF) che sono importanti per la struttura tridimensionale del genoma in domini topologicamente associati (TAD) utilizzando melanoma e mutazioni del cancro della pelle. Il principale risultato della ricerca di questo quadro è che identifica quali processi mutazionali hanno maggiori probabilità di interrompere i siti di legame del fattore di trascrizione e in quali tipi di cancro queste interruzioni hanno maggiori probabilità di verificarsi. Questa ricerca stabilisce per ogni processo mutazionale un catalogo di frequenze di interruzione del motivo di legame, che corrispondono a un effetto di fondo atteso dei modelli mutazionali. Pertanto, il risultato principale è un quadro teorico che funziona come un modello di base per l'analisi dell'alterazione del sito di legame della trascrizione nei genomi del cancro. Inoltre, la tesi indaga l'effetto dei processi mutazionali sull'interruzione dei siti di legame dei microRNA. Le mutazioni nelle regioni seme del microRNA, che è di importanza cruciale per il riconoscimento del suo bersaglio, possono interrompere il legame dei microRNA ai loro geni bersaglio. Sviluppo un framework probabilistico per analizzare l'alterazione dei microRNA e dei loro elementi di risposta (MRE) basato su processi mutageni associati al cancro. Per quanto ne so, questo è il primo studio che fornisce un quadro probabilistico per microRNA e MRE analisi di alterazione della sequenza basata su processi mutazionali e valutazione computazionale dell'impatto dirompente delle firme mutazionali sulle interazioni microRNA-bersaglio umano. Recenti prove mostrano che l'interruzione dei TAD potrebbe portare alla tumorigenesi. Come ulteriore passo nell'analisi del ruolo chiave dei legami CTCF nel cancro dopo l'applicazione iniziale dell'impatto dei processi mutazionali sui siti di legame CTCF, questa tesi indaga l'arricchimento della mutazione somatica, la metilazione anormale (iper e ipometilazione) e la copia eventi di alterazione del numero in prossimità di binding CTCF che si sovrappongono ai confini dei TAD. Di conseguenza, è stato identificato un arricchimento significativo delle mutazioni somatiche in diversi tipi di cancro nei siti di legame CTCF dei confini topologici. Inoltre, è stato trovato un numero significativo di motivi CTCF in-boundary sovrametilati in diversi tipi di cancro. Infine, in diversi tipi di cancro, le alterazioni del numero di copie tendono a sovrapporsi alle giunzioni attive più spesso che nei campioni normali abbinati. Diversi studi evidenziano la rilevanza delle mutazioni somatiche in regioni non codificanti del genoma che presentano funzioni simili, ad esempio promotori o siti di legame del fattore di trascrizione. Nell'ultima parte della tesi, presento MutViz, uno strumento per l'identificazione di arricchimenti di mutazioni su insiemi arbitrari di regioni definite dall'utente; per una varietà di tipi di cancro, contiene mutazioni precaricate dai principali set di dati pubblici, ben organizzati all'interno di un'efficace organizzazione di database. MutViz fornisce un'interfaccia user-friendly che aiuta l'utente a fornire insiemi di regioni come input e ad ottenere la loro rapida esplorazione come output, insieme a test statistici per l'arricchimento. Tutti i risultati sopra visualizzati possono fornire a un utente il panorama mutazionale generale dei siti genomici in esame. MutViz è uno strumento eccellente per visualizzare mutazioni non codificanti, specialmente per medici o ricercatori senza alcuna preparazione bioinformatica, poiché non sono richieste abilità di programmazione.
File allegati
File Dimensione Formato  
thesis.pdf

accessibile in internet per tutti

Descrizione: Thesis
Dimensione 46.6 MB
Formato Adobe PDF
46.6 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/169434