At the epigenetic level, a key role in regulating gene expression is played by transcription factors and histone mark modifications. Understanding their contributions in regulative processes is fundamental: their alterations are the cause of many pathologies, but they also represent a promising therapeutic possibility. This work proposes statistical methods to study and model regulative processes from transcription factors and histonic markers over the K562 and GM12878 cell-lines, considering data from public genomic repositories. The studied approach operates at a genome-wide scale and in a data-driven manner, with particular concern for model interpretability. The problem has been tackled in a predictive setting, with ChIP-seq data as inputs and RNA-seq data as targets. In a first phase the classification (distinction between active and inactive genes) and the regression (mRNA measurement predictions) problems are solved. In such a context, methods to handle the intrinsic heterogeneity of epigenetic features are proposed and applied, and the ineffectiveness of non-linear models in enhancing the fitting of simpler liner ones is shown. Successively, a genetic algorithm is developed with the aim of separating distinct regulative dynamics, presumed to be overlapped at a genome-wide level. The application of such an algorithm has extracted subgroups of genes characterized by regulative models which showed to be different and generally more accurate than those fitted over the whole set of genes. These subgroups are biologically characterized and sound results emerge, though unspecific w.r.t. the cell-lines. It is also observed how, in this context, histone mark modifications are more predictive for gene transcriptional inactivity. Finally, an ensemble of linear models is proposed to consider the epigenetic multi-functionality emerged from clustering results. Such a model, fully interpretable, has showed to model transcriptional regulative dynamics at the epigenetic level in a complete and more accurate way.

A livello epigenetico, un ruolo chiave nella regolazione dell’espressione genica è svolto da fattori di trascrizione e modificazioni istoniche. Comprenderne i contributi nei processi regolativi è fondamentale: relative alterazioni sono la causa di molte patologie, ma rappresentano anche una promettente direzione terapeutica. Questo lavoro propone metodi statistici per lo studio e la modellazione dei fenomeni regolativi operati da marker istonici e fattori di trascrizione sulle linee cellulari K562 e GM12878, considerando dati da repository genomiche pubbliche. L'approccio studiato opera su scala genome-wide e in maniera data-driven, con particolare attenzione all'interpretabilità dei modelli. Il problema è impostato in termini predittivi, con dati ChIP-seq in input e RNA-seq come targets. In una prima fase sono risolti i problemi di classificazione (distinzione tra geni attivi e inattivi) e regressione (predizione delle misurazioni di mRNA). In tale contesto, sono proposti e applicati metodi per trattare l'intrinseca eterogeneità delle feature epigenetiche ed è dimostrata l'inefficacia di metodi non-lineari nel migliorare il fitting di più semplici e interpretabili modelli lineari. Successivamente, un algoritmo genetico è sviluppato al fine di separare dinamiche regolative distinte ma presumibilmente sovrapposte a livello genome-wide. L'applicazione di tale algoritmo ha estratto sottogruppi di geni caratterizzati da modelli di regolazione differenti e generalmente più accurati di quelli fittati sull'insieme globale dei geni. Tali sottogruppi sono caratterizzati biologicamente e validi risultati emergono, seppure non specifici rispetto alle linee cellulari. Inoltre, è osservato, in tale contesto, come marker istonici siano maggiormente predittivi per l'inattività trascrizionale dei geni. È infine proposto un ensemble di modelli lineari per risolvere il problema della regressione genome-wide in modo da considerare la multi-funzionalità epigenetica emersa dai risultati di clustering. Tale modello, completamente interpretabile, ha mostrato di modellare in maniera completa - e maggiormente accurata - le dinamiche regolative trascrizionali a livello epigenetico.

Data-driven modeling of epigenetic transcriptional regulation

FRASCA, FABRIZIO
2016/2017

Abstract

At the epigenetic level, a key role in regulating gene expression is played by transcription factors and histone mark modifications. Understanding their contributions in regulative processes is fundamental: their alterations are the cause of many pathologies, but they also represent a promising therapeutic possibility. This work proposes statistical methods to study and model regulative processes from transcription factors and histonic markers over the K562 and GM12878 cell-lines, considering data from public genomic repositories. The studied approach operates at a genome-wide scale and in a data-driven manner, with particular concern for model interpretability. The problem has been tackled in a predictive setting, with ChIP-seq data as inputs and RNA-seq data as targets. In a first phase the classification (distinction between active and inactive genes) and the regression (mRNA measurement predictions) problems are solved. In such a context, methods to handle the intrinsic heterogeneity of epigenetic features are proposed and applied, and the ineffectiveness of non-linear models in enhancing the fitting of simpler liner ones is shown. Successively, a genetic algorithm is developed with the aim of separating distinct regulative dynamics, presumed to be overlapped at a genome-wide level. The application of such an algorithm has extracted subgroups of genes characterized by regulative models which showed to be different and generally more accurate than those fitted over the whole set of genes. These subgroups are biologically characterized and sound results emerge, though unspecific w.r.t. the cell-lines. It is also observed how, in this context, histone mark modifications are more predictive for gene transcriptional inactivity. Finally, an ensemble of linear models is proposed to consider the epigenetic multi-functionality emerged from clustering results. Such a model, fully interpretable, has showed to model transcriptional regulative dynamics at the epigenetic level in a complete and more accurate way.
MATTEUCCI, MATTEO
MORELLI, MARCO
ING - Scuola di Ingegneria Industriale e dell'Informazione
19-apr-2018
2016/2017
A livello epigenetico, un ruolo chiave nella regolazione dell’espressione genica è svolto da fattori di trascrizione e modificazioni istoniche. Comprenderne i contributi nei processi regolativi è fondamentale: relative alterazioni sono la causa di molte patologie, ma rappresentano anche una promettente direzione terapeutica. Questo lavoro propone metodi statistici per lo studio e la modellazione dei fenomeni regolativi operati da marker istonici e fattori di trascrizione sulle linee cellulari K562 e GM12878, considerando dati da repository genomiche pubbliche. L'approccio studiato opera su scala genome-wide e in maniera data-driven, con particolare attenzione all'interpretabilità dei modelli. Il problema è impostato in termini predittivi, con dati ChIP-seq in input e RNA-seq come targets. In una prima fase sono risolti i problemi di classificazione (distinzione tra geni attivi e inattivi) e regressione (predizione delle misurazioni di mRNA). In tale contesto, sono proposti e applicati metodi per trattare l'intrinseca eterogeneità delle feature epigenetiche ed è dimostrata l'inefficacia di metodi non-lineari nel migliorare il fitting di più semplici e interpretabili modelli lineari. Successivamente, un algoritmo genetico è sviluppato al fine di separare dinamiche regolative distinte ma presumibilmente sovrapposte a livello genome-wide. L'applicazione di tale algoritmo ha estratto sottogruppi di geni caratterizzati da modelli di regolazione differenti e generalmente più accurati di quelli fittati sull'insieme globale dei geni. Tali sottogruppi sono caratterizzati biologicamente e validi risultati emergono, seppure non specifici rispetto alle linee cellulari. Inoltre, è osservato, in tale contesto, come marker istonici siano maggiormente predittivi per l'inattività trascrizionale dei geni. È infine proposto un ensemble di modelli lineari per risolvere il problema della regressione genome-wide in modo da considerare la multi-funzionalità epigenetica emersa dai risultati di clustering. Tale modello, completamente interpretabile, ha mostrato di modellare in maniera completa - e maggiormente accurata - le dinamiche regolative trascrizionali a livello epigenetico.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
2018_04_FRASCA.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: Testo della tesi
Dimensione 26.2 MB
Formato Adobe PDF
26.2 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/140190