Novel technologies have led to exponentially increasing amounts of genomic data. However, while costs have been constantly reducing, modeling and analysis techniques have only just started to catch up in effectiveness and efficiency. Regulomics is a sub-field of genomics which studies the mechanics of gene expression regulation, i.e. how cells select and express different genes to respond to the different situations. Among those, Transcription Factors (TFs) are proteins that attach themselves the DNA of prokaryotic and eukaryotic organisms in highly specific Transcription Factor Binding Sites (TFBS), and modulate how accessible the surrounding DNA areas is by RNA transcription machinery. Such areas usually contain coding sequences of genes. For this reason, they are of great importance in regulomics. TF activity has been studied in isolation by various means, such as wet-lab experiments and computational methods, but the interplay of several TFs has not been studied as much. TF co-regulation is significantly harder to analyse directly, requiring novel computational methods. This thesis discusses a novel model aimed at predicting and classifying TF-TF interactions using a data-driven, model-based approach. The fundamental idea is that TFBS and coding sequences can be represented as a set of oriented, linear coordinates with features attached, and that the distance between binding sites in this coordinate system is an informative feature which can be used to predict TF-TF interactions. This approach relies on the properties of the distribution of genomic distances between matched, closest binding sites of potential interactors. To further refine this model, firstly protein-protein interaction (PPI) network data is mined to compute additional, independent features used in classification of TF-TF interactions, under the assumption that the more shared interactors two TFs have in the PPI network, the more likely it is that they are co-operating as opposed to competing for another partner; secondly, the number of detected copies of each TF at the relevant binding sites is used to infer whether the TFBS itself it highly bound or instead disrupted. The resulting classifiers are named TICA, NAUTICA and ESTETICA; the first two show good performance with respect both to reference databases and existing literature. Taken as a whole, they represent a powerful framework for inferring and classifying TF-TF interaction phenomena.

Lo sviluppo di nuove tecnologie di sequenziamente ha portato ad una crescita esponenziale nel volume di dati genomici disponibili. Nonostante ciò, le tecniche di modellistica ed analisi sui dati stessi hanno solo da poco cominciato a pareggiarne lo sviluppo in termini di efficacia ed efficienza, nonostante il costante abbattimento dei costi. Tra gli argomenti di studio della genomica vi sono i meccanismi che regolano l'espressione dei geni, cioè come le cellule selezionano ed esprimono diversi geni in risposta a situazioni differenti. Tra di questi, i fattori di trascrizione (Transcription Factors, TFs) sono proteine che si legano al DNA di organismi pro- ed eucarioti in posizioni altamente specifiche (dette Transcription Factor Binding Sites, TFBS) e modulano l'accessibilità delle aree circostanti da parte dell'RNA polimerase, responsabile della trascrizione del DNA in RNA corrispondente. Queste aree contengono solitamente sequenze che codificano per particolari geni. Per questo motivo, gli effetti di regolazione dei TF sono molto importanti per gli studi di regulomica: l'attività di singoli TF è stata studiata in diversi modi, per esempio esperimenti di laboratori ed algoritmi computazionali, ma l'interazione tra diversi TF non è stata ancora altrettanto analizzata. La regolazione congiunta dei TF è un problema più difficile dal punto di vista analitico e nuovi metodi computazionali sono necessari per affrontarlo. Questa tesi discute un nuovo modello il cui obiettivo è la predizione e classificazione delle interazioni tra TF attraverso un modellizzazione dei dati sperimentali disponibili. L'idea fondamentale è che i TFBS e le sequenze codificanti possano essere rappresentate da un set di coordinate lineari orientate e relativo insieme di feature, e che la distanza tra i punti di legame in questo sistema di coordinate sia una feature ricca di informazioni da utilizzare per predire le interazioni TF-TF. Questo approccio si basa sulle proprietà della distribuzione delle distanze genomiche osservate tra i punti di legami più vicini tra loro dei potenziali interattori. Per raffinare ulteriormente il modello, vengono sfruttate in primo luogo le informazioni contenute nelle reti di interazioni proteiche (protein-protein interaction o PPI networks) per definire feature addizionali che siano indipendenti dalle distanze, da usare per classificare le interazioni TF-TF in co-operazioni o competizioni. L'ipotesi è quella che più interazioni due TF hanno nella rete PPI, più è probabile che i due stiano co-operando invece che competendo, e viceversa. In secondo luogo, il numero di molecole di ciascun TF che viene misurato nei punti di legami accoppiati (detto segnale di arricchimento, signal enrichment) viene usato per inferire qualore il punto di legame congiunto sia fortemente occupato o invece vi sia interferenza da parte di un competitore. I modelli modelli risultanti sono denominati TICA, NAUTICA ed ESTETICA; i primi due dimostrano buoni livelli di perfomance sia rispetto ai database biologici di riferimento, sia rispetto alla letteratura pubblicata. Presi nell'insieme, i modelli proposti rappresentano una solida infrastruttura utile a predire e classificare i fenomeni di interazione tra TF.

Data-driven techniques for knowledge discovery in regulomics

PERNA, STEFANO

Abstract

Novel technologies have led to exponentially increasing amounts of genomic data. However, while costs have been constantly reducing, modeling and analysis techniques have only just started to catch up in effectiveness and efficiency. Regulomics is a sub-field of genomics which studies the mechanics of gene expression regulation, i.e. how cells select and express different genes to respond to the different situations. Among those, Transcription Factors (TFs) are proteins that attach themselves the DNA of prokaryotic and eukaryotic organisms in highly specific Transcription Factor Binding Sites (TFBS), and modulate how accessible the surrounding DNA areas is by RNA transcription machinery. Such areas usually contain coding sequences of genes. For this reason, they are of great importance in regulomics. TF activity has been studied in isolation by various means, such as wet-lab experiments and computational methods, but the interplay of several TFs has not been studied as much. TF co-regulation is significantly harder to analyse directly, requiring novel computational methods. This thesis discusses a novel model aimed at predicting and classifying TF-TF interactions using a data-driven, model-based approach. The fundamental idea is that TFBS and coding sequences can be represented as a set of oriented, linear coordinates with features attached, and that the distance between binding sites in this coordinate system is an informative feature which can be used to predict TF-TF interactions. This approach relies on the properties of the distribution of genomic distances between matched, closest binding sites of potential interactors. To further refine this model, firstly protein-protein interaction (PPI) network data is mined to compute additional, independent features used in classification of TF-TF interactions, under the assumption that the more shared interactors two TFs have in the PPI network, the more likely it is that they are co-operating as opposed to competing for another partner; secondly, the number of detected copies of each TF at the relevant binding sites is used to infer whether the TFBS itself it highly bound or instead disrupted. The resulting classifiers are named TICA, NAUTICA and ESTETICA; the first two show good performance with respect both to reference databases and existing literature. Taken as a whole, they represent a powerful framework for inferring and classifying TF-TF interaction phenomena.
PERNICI, BARBARA
BONARINI, ANDREA
WONG, LIMSOON
8-mar-2019
Lo sviluppo di nuove tecnologie di sequenziamente ha portato ad una crescita esponenziale nel volume di dati genomici disponibili. Nonostante ciò, le tecniche di modellistica ed analisi sui dati stessi hanno solo da poco cominciato a pareggiarne lo sviluppo in termini di efficacia ed efficienza, nonostante il costante abbattimento dei costi. Tra gli argomenti di studio della genomica vi sono i meccanismi che regolano l'espressione dei geni, cioè come le cellule selezionano ed esprimono diversi geni in risposta a situazioni differenti. Tra di questi, i fattori di trascrizione (Transcription Factors, TFs) sono proteine che si legano al DNA di organismi pro- ed eucarioti in posizioni altamente specifiche (dette Transcription Factor Binding Sites, TFBS) e modulano l'accessibilità delle aree circostanti da parte dell'RNA polimerase, responsabile della trascrizione del DNA in RNA corrispondente. Queste aree contengono solitamente sequenze che codificano per particolari geni. Per questo motivo, gli effetti di regolazione dei TF sono molto importanti per gli studi di regulomica: l'attività di singoli TF è stata studiata in diversi modi, per esempio esperimenti di laboratori ed algoritmi computazionali, ma l'interazione tra diversi TF non è stata ancora altrettanto analizzata. La regolazione congiunta dei TF è un problema più difficile dal punto di vista analitico e nuovi metodi computazionali sono necessari per affrontarlo. Questa tesi discute un nuovo modello il cui obiettivo è la predizione e classificazione delle interazioni tra TF attraverso un modellizzazione dei dati sperimentali disponibili. L'idea fondamentale è che i TFBS e le sequenze codificanti possano essere rappresentate da un set di coordinate lineari orientate e relativo insieme di feature, e che la distanza tra i punti di legame in questo sistema di coordinate sia una feature ricca di informazioni da utilizzare per predire le interazioni TF-TF. Questo approccio si basa sulle proprietà della distribuzione delle distanze genomiche osservate tra i punti di legami più vicini tra loro dei potenziali interattori. Per raffinare ulteriormente il modello, vengono sfruttate in primo luogo le informazioni contenute nelle reti di interazioni proteiche (protein-protein interaction o PPI networks) per definire feature addizionali che siano indipendenti dalle distanze, da usare per classificare le interazioni TF-TF in co-operazioni o competizioni. L'ipotesi è quella che più interazioni due TF hanno nella rete PPI, più è probabile che i due stiano co-operando invece che competendo, e viceversa. In secondo luogo, il numero di molecole di ciascun TF che viene misurato nei punti di legami accoppiati (detto segnale di arricchimento, signal enrichment) viene usato per inferire qualore il punto di legame congiunto sia fortemente occupato o invece vi sia interferenza da parte di un competitore. I modelli modelli risultanti sono denominati TICA, NAUTICA ed ESTETICA; i primi due dimostrano buoni livelli di perfomance sia rispetto ai database biologici di riferimento, sia rispetto alla letteratura pubblicata. Presi nell'insieme, i modelli proposti rappresentano una solida infrastruttura utile a predire e classificare i fenomeni di interazione tra TF.
Tesi di dottorato
File allegati
File Dimensione Formato  
perna_data_driven_methods_regulomics_final_manuscript.pdf

accessibile in internet per tutti

Descrizione: Manoscritto completo della tesi
Dimensione 9.93 MB
Formato Adobe PDF
9.93 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/145714