The knowledge of DNA regions in which transcription factors bind, in particular those DNA regions occupied by many different factors (High Occupancy Target, HOT regions), is a fundamental aspect for understanding the process of cancer genesis, that can help in the development of new targeted therapies. In this thesis parametric software tools that allow to identify HOT regions are developed, starting from ChIP-seq data containing TF DNA binding regions. The development of these tools is realized in two different software environments: R/Bioconductor (creating the package TFHAZ, Transcription Factors High Accumulation Zones) and GMQL. The calculation methods implemented have been applied to available data considered in an article in the literature and to ENCODE data of four cell lines containing different amounts of TFs. The results obtained have been compared with each other and with those present in literature, confirming what was observed in these works regarding the high concentrations of HOT regions in promoters and CpG islands. In addition, it was shown that the variability of the results obtained for the different cell lines is due to the TF data biological characteristics, while it does not depend on the different number of available TF.
La conoscenza delle regioni del DNA in cui si legano i fattori di trascrizione (TF), in particolare quelle regioni del DNA occupate da molti fattori differenti (High Occupancy Target regions, HOT), rappresenta un aspetto fondamentale per la comprensione dei meccanismi d’azione nel processo di cancerogenesi, che può aiutare a sviluppare nuove terapie mirate. In questa tesi sono proposti degli strumenti software parametrici in grado di identificare zone del DNA dense, ovvero ricche di fattori di trascrizione, partendo da dati generati tramite ChIP-seq contenenti le regioni di legame al DNA dei TF. Lo sviluppo di questi strumenti è stato realizzato in due ambienti software differenti: R/Bioconductor (sviluppando il pacchetto TFHAZ, Transcription Factors High Accumulation Zones) e GMQL. I metodi di calcolo implementati sono stati applicati ai dati disponibili considerati in un articolo in letteratura e ai dati di quattro linee cellulari forniti da ENCODE, contenenti diverse quantità di TF. Le zone dense ottenute sono state analizzate in termini di basi del DNA occupate e distribuzione lungo il genoma, ed è stata studiata la loro localizzazione in specifiche zone del DNA come i promotori e le isole CpG. I risultati ottenuti sono stati confrontati tra loro e con quelli presenti in letteratura, confermando quanto osservato in questi lavori riguardo l’elevata concentrazione di regioni HOT in promotori e isole CpG. È stato inoltre dimostrato che la variabilità dei risultati ottenuti per le diverse linee cellulari è dovuta alle caratteristiche biologiche dei dati relativi ai TF nelle differenti linee cellulari e non dipende dal diverso numero di TF disponibili.
Identificazione di zone di DNA ricche di fattori di trascrizione : sviluppo di nuovi strumenti di calcolo e analisi in diverse linee cellulari
MARCHESI, ALBERTO
2016/2017
Abstract
The knowledge of DNA regions in which transcription factors bind, in particular those DNA regions occupied by many different factors (High Occupancy Target, HOT regions), is a fundamental aspect for understanding the process of cancer genesis, that can help in the development of new targeted therapies. In this thesis parametric software tools that allow to identify HOT regions are developed, starting from ChIP-seq data containing TF DNA binding regions. The development of these tools is realized in two different software environments: R/Bioconductor (creating the package TFHAZ, Transcription Factors High Accumulation Zones) and GMQL. The calculation methods implemented have been applied to available data considered in an article in the literature and to ENCODE data of four cell lines containing different amounts of TFs. The results obtained have been compared with each other and with those present in literature, confirming what was observed in these works regarding the high concentrations of HOT regions in promoters and CpG islands. In addition, it was shown that the variability of the results obtained for the different cell lines is due to the TF data biological characteristics, while it does not depend on the different number of available TF.File | Dimensione | Formato | |
---|---|---|---|
2017_12_Marchesi.pdf
accessibile in internet solo dagli utenti autorizzati
Descrizione: Testo della tesi
Dimensione
3.47 MB
Formato
Adobe PDF
|
3.47 MB | Adobe PDF | Visualizza/Apri |
I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/10589/138547