The information necessary for the development and proper functioning of most living organisms is contained in the DNA, usually associated with proteins. In fact, DNA sequences of about 150 base pairs are wrapped around special proteins, termed histones, to form nucleosomes, the basic building blocks of chromatin. Histone modifications lead to chromatin condensation and expose DNA to the binding with transcription factors (TFs) and many other proteins, leading to the change in gene expression. In the last decades, researchers have started cataloguing chromatin proteins and their modifications. This has led to the identifica tion of several chromatin modifications or "marks" and the discovery of many regulatory elements throughout the genome. Many studies have been carried out with the aim of simplifying chromatin complexity by dividing it into a certain number of chromatin-states, to capture known classes of genomic elements. These states, therefore, can regulate transcription in each cell type under specific conditions and are highly correlated to a multi-level set of functional genomic elements. In fact, they usually include known classes of genomic features, such as promoters, enhancers, and transcribed, repressed, and repetitive regions. In the first approaches to discover these states, researchers began probing where modifications occur on the genome. In these attempts, they mainly looked for regions in which a specific mark, or a combination of few of them, were present in greater frequency. More recently, researchers have begun to take a more systematic approach: identifying multiple marks in a specific region or throughout the genome, computationally finding where their combinations occur and grouping these combinations into states. This research project aims to extend the concept of chromatin states, considering all the different types of genomic features, to create a framework that, starting from a set of functional elements, identify the corresponding samples available in the most important web resources, integrate metadata information about tissue type and possible pathological conditions through the extraction of controlled semantic terms from certain biomedical ontologies and find combinations of these genomic features. Once chromatin states have been identified, this method allows achieving a data-driven analysis, through the clustering of regions and samples, the identification of genome clusters and the gene-set enrichment analysis to associate these clusters to gene functional categories. One of the key-point of this work is the extraction of useful metadata from free-text descriptions of genomic data samples. Rather than treating the problem as classification or named entity recognition, it was modeled as machine translation, leveraging state-of-the-art sequence-to- sequence (seq2seq) models to directly map unstructured input into a structured text format. The application of such models allows for imputation of output fields that are implied, but never explicitly mentioned, in the input text. As consequence, an active learning framework to receive feedback from the users and improve the metadata prediction was designed, leading to the development of a technique to interpret the predictions of the model and apply this interpretation mechanism in a web interface to help the user give correct feedback. The result of this work is the Genomic Metadata Integration tool, called GeMI. Extracted metadata can then be integrated in the Combinatorial and Semantic Analysis of Functional Elements (CombSAFE), an innovative computational method able to identify combinations of static and dynamic genomic functional elements, and how they change across semantically annotated biological conditions. This method allows the comparison of a great number of genomic profiles of chromatin states in different conditions through Hidden Markov Models, as well as the extraction of their specific variations. Biological results suggest relevant data-driven discoveries.

Le informazioni necessarie per lo sviluppo e il corretto funzionamento della maggior parte degli organismi viventi sono contenute nel DNA, solitamente associato alle proteine. Infatti, sequenze di DNA di circa 150 paia di basi sono avvolte attorno a speciali proteine, chiamate istoni, per formare nucleosomi, le unità di base della cromatina. Le modificazioni istoniche portano alla condensazione della cromatina ed espongono il DNA al legame con i fattori di trascrizione (TF) e molte altre proteine, portando al cambiamento nell'espressione genica. Negli ultimi decenni, i ricercatori hanno iniziato a catalogare le proteine associate alla cromatina e le loro modificazioni. Ciò ha portato all'identificazione di numerose modificazioni della cromatina o "marchi" e alla scoperta di molti elementi regolatori in tutto il genoma. Molti studi sono stati condotti con l'obiettivo di semplificare la complessità della cromatina suddividendola in un certo numero di stati, per catturare classi note di elementi genomici. Questi stati, quindi, possono regolare la trascrizione in ogni tipo di cellula in condizioni specifiche e sono altamente correlati ad un insieme di elementi genomici funzionali. Infatti, di solito includono classi note di caratteristiche genomiche, come promotori, enhancer e regioni trascritte, represse e ripetitive. Nei primi studi per scoprire questi stati, i ricercatori hanno iniziato a sondare dove si verificano modifiche sul genoma. In questi tentativi si sono cercate principalmente le regioni in cui un marchio specifico, o una combinazione di alcuni di essi, fosse presente con maggiore frequenza. Più recentemente, i ricercatori hanno iniziato ad adottare un approccio più sistematico: identificare più marchi in una regione specifica o in tutto il genoma, trovare computazionalmente dove si verificano le loro combinazioni e raggrupparle poi in stati. Questo progetto di ricerca mira ad estendere il concetto di stati della cromatina, considerando tutti i diversi tipi di caratteristiche genomiche, per creare un framework che, partendo da un insieme di elementi funzionali, identifichi i corrispondenti sample disponibili nei database più importanti, integri le informazioni dei metadati riguardo al tipo di tessuto e alle possibili condizioni patologiche attraverso l'estrazione di termini semantici controllati da alcune ontologie biomediche e trovi le varie combinazioni di queste caratteristiche genomiche. Una volta identificati gli stati della cromatina, questo metodo consente di ottenere un'analisi basata sui dati, attraverso il raggruppamento di regioni e sample, l'identificazione di cluster genomici e l'analisi di arricchimento di set genici per associare questi cluster a categorie geniche funzionali. Uno dei punti chiave di questo lavoro è l'estrazione di metadati da descrizioni in forma di testo libero riguardo ad esperimenti genomici. Piuttosto che trattare il problema come una classificazione, è stato modellato come traduzione automatica, sfruttando modelli sequence to sequence (seq2seq) per mappare direttamente l'input non strutturato in un formato di testo strutturato. L'applicazione di tali modelli consente l'annotazione di campi di output che sono impliciti, ma mai citati esplicitamente, nel testo di input. Di conseguenza, è stato progettato un framework di apprendimento attivo per ricevere feedback dagli utenti e migliorare la previsione dei metadati, portando allo sviluppo di una tecnica per interpretare le previsioni del modello e applicare questo meccanismo di interpretazione in un'interfaccia web per aiutare l'utente a identificare le informazioni corrette. Il risultato di questo lavoro è lo strumento di integrazione dei metadati genomici, chiamato GeMI. I metadati estratti sono integrati in CombSAFE, un metodo computazionale innovativo in grado di identificare combinazioni di elementi funzionali genomici statici e dinamici e come cambiano attraverso condizioni biologiche annotate semanticamente. Questo metodo consente il confronto di un gran numero di profili genomici di stati della cromatina in diverse condizioni attraverso Hidden Markov Models, capire le loro variazioni specifiche. I risultati biologici suggeriscono scoperte rilevanti basate sui dati.

Genomic metadata integration and data processing methods for the analysis of chromatin behaviour in different biological conditions

Leone, Michele
2021/2022

Abstract

The information necessary for the development and proper functioning of most living organisms is contained in the DNA, usually associated with proteins. In fact, DNA sequences of about 150 base pairs are wrapped around special proteins, termed histones, to form nucleosomes, the basic building blocks of chromatin. Histone modifications lead to chromatin condensation and expose DNA to the binding with transcription factors (TFs) and many other proteins, leading to the change in gene expression. In the last decades, researchers have started cataloguing chromatin proteins and their modifications. This has led to the identifica tion of several chromatin modifications or "marks" and the discovery of many regulatory elements throughout the genome. Many studies have been carried out with the aim of simplifying chromatin complexity by dividing it into a certain number of chromatin-states, to capture known classes of genomic elements. These states, therefore, can regulate transcription in each cell type under specific conditions and are highly correlated to a multi-level set of functional genomic elements. In fact, they usually include known classes of genomic features, such as promoters, enhancers, and transcribed, repressed, and repetitive regions. In the first approaches to discover these states, researchers began probing where modifications occur on the genome. In these attempts, they mainly looked for regions in which a specific mark, or a combination of few of them, were present in greater frequency. More recently, researchers have begun to take a more systematic approach: identifying multiple marks in a specific region or throughout the genome, computationally finding where their combinations occur and grouping these combinations into states. This research project aims to extend the concept of chromatin states, considering all the different types of genomic features, to create a framework that, starting from a set of functional elements, identify the corresponding samples available in the most important web resources, integrate metadata information about tissue type and possible pathological conditions through the extraction of controlled semantic terms from certain biomedical ontologies and find combinations of these genomic features. Once chromatin states have been identified, this method allows achieving a data-driven analysis, through the clustering of regions and samples, the identification of genome clusters and the gene-set enrichment analysis to associate these clusters to gene functional categories. One of the key-point of this work is the extraction of useful metadata from free-text descriptions of genomic data samples. Rather than treating the problem as classification or named entity recognition, it was modeled as machine translation, leveraging state-of-the-art sequence-to- sequence (seq2seq) models to directly map unstructured input into a structured text format. The application of such models allows for imputation of output fields that are implied, but never explicitly mentioned, in the input text. As consequence, an active learning framework to receive feedback from the users and improve the metadata prediction was designed, leading to the development of a technique to interpret the predictions of the model and apply this interpretation mechanism in a web interface to help the user give correct feedback. The result of this work is the Genomic Metadata Integration tool, called GeMI. Extracted metadata can then be integrated in the Combinatorial and Semantic Analysis of Functional Elements (CombSAFE), an innovative computational method able to identify combinations of static and dynamic genomic functional elements, and how they change across semantically annotated biological conditions. This method allows the comparison of a great number of genomic profiles of chromatin states in different conditions through Hidden Markov Models, as well as the extraction of their specific variations. Biological results suggest relevant data-driven discoveries.
PERNICI, BARBARA
TANCA, LETIZIA
30-mar-2022
Genomic metadata integration and data processing methods for the analysis of chromatin behaviour in different biological conditions
Le informazioni necessarie per lo sviluppo e il corretto funzionamento della maggior parte degli organismi viventi sono contenute nel DNA, solitamente associato alle proteine. Infatti, sequenze di DNA di circa 150 paia di basi sono avvolte attorno a speciali proteine, chiamate istoni, per formare nucleosomi, le unità di base della cromatina. Le modificazioni istoniche portano alla condensazione della cromatina ed espongono il DNA al legame con i fattori di trascrizione (TF) e molte altre proteine, portando al cambiamento nell'espressione genica. Negli ultimi decenni, i ricercatori hanno iniziato a catalogare le proteine associate alla cromatina e le loro modificazioni. Ciò ha portato all'identificazione di numerose modificazioni della cromatina o "marchi" e alla scoperta di molti elementi regolatori in tutto il genoma. Molti studi sono stati condotti con l'obiettivo di semplificare la complessità della cromatina suddividendola in un certo numero di stati, per catturare classi note di elementi genomici. Questi stati, quindi, possono regolare la trascrizione in ogni tipo di cellula in condizioni specifiche e sono altamente correlati ad un insieme di elementi genomici funzionali. Infatti, di solito includono classi note di caratteristiche genomiche, come promotori, enhancer e regioni trascritte, represse e ripetitive. Nei primi studi per scoprire questi stati, i ricercatori hanno iniziato a sondare dove si verificano modifiche sul genoma. In questi tentativi si sono cercate principalmente le regioni in cui un marchio specifico, o una combinazione di alcuni di essi, fosse presente con maggiore frequenza. Più recentemente, i ricercatori hanno iniziato ad adottare un approccio più sistematico: identificare più marchi in una regione specifica o in tutto il genoma, trovare computazionalmente dove si verificano le loro combinazioni e raggrupparle poi in stati. Questo progetto di ricerca mira ad estendere il concetto di stati della cromatina, considerando tutti i diversi tipi di caratteristiche genomiche, per creare un framework che, partendo da un insieme di elementi funzionali, identifichi i corrispondenti sample disponibili nei database più importanti, integri le informazioni dei metadati riguardo al tipo di tessuto e alle possibili condizioni patologiche attraverso l'estrazione di termini semantici controllati da alcune ontologie biomediche e trovi le varie combinazioni di queste caratteristiche genomiche. Una volta identificati gli stati della cromatina, questo metodo consente di ottenere un'analisi basata sui dati, attraverso il raggruppamento di regioni e sample, l'identificazione di cluster genomici e l'analisi di arricchimento di set genici per associare questi cluster a categorie geniche funzionali. Uno dei punti chiave di questo lavoro è l'estrazione di metadati da descrizioni in forma di testo libero riguardo ad esperimenti genomici. Piuttosto che trattare il problema come una classificazione, è stato modellato come traduzione automatica, sfruttando modelli sequence to sequence (seq2seq) per mappare direttamente l'input non strutturato in un formato di testo strutturato. L'applicazione di tali modelli consente l'annotazione di campi di output che sono impliciti, ma mai citati esplicitamente, nel testo di input. Di conseguenza, è stato progettato un framework di apprendimento attivo per ricevere feedback dagli utenti e migliorare la previsione dei metadati, portando allo sviluppo di una tecnica per interpretare le previsioni del modello e applicare questo meccanismo di interpretazione in un'interfaccia web per aiutare l'utente a identificare le informazioni corrette. Il risultato di questo lavoro è lo strumento di integrazione dei metadati genomici, chiamato GeMI. I metadati estratti sono integrati in CombSAFE, un metodo computazionale innovativo in grado di identificare combinazioni di elementi funzionali genomici statici e dinamici e come cambiano attraverso condizioni biologiche annotate semanticamente. Questo metodo consente il confronto di un gran numero di profili genomici di stati della cromatina in diverse condizioni attraverso Hidden Markov Models, capire le loro variazioni specifiche. I risultati biologici suggeriscono scoperte rilevanti basate sui dati.
File allegati
File Dimensione Formato  
Michele_Leone_PhD_Thesis.pdf

accessibile in internet solo dagli utenti autorizzati

Dimensione 7.54 MB
Formato Adobe PDF
7.54 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/183678