This dissertation is about statistical methods for the study of the genome and epigenome, using omics data. The aim is the development of statistical techniques able to fully exploit the heterogeneous and high-dimensional data generated by new experimental technologies, e.g. Next Generation Sequencing (NGS) techniques. To produce scientific insight, a range of well-known statistical techniques are adapted and cleverly combined. Moreover, novel methods related to more recent fields such as Functional Data Analysis (FDA) are developed. The leading idea of this work consists in considering genomics data at high resolution, treating them as ``curves'' of measurements along the DNA sequence. This innovative approach has multiple advantages, for instance it incorporates the consecutive ordering of the measurements along the genome and it permits to extract the overall information filtering out the noise but, at the same time, retaining meaningful details of the data. This central idea is applied to three different genomics problems. First, ChIP-seq peaks are clustered and analyzed selecting indices reflecting their shape. Second, the genomic landscape of endogenous retroviruses is studied using Functional Data Analysis techniques. Third, a novel statistical methodology (Functional Motif Discovery) is developed with the aim to identify ``signatures shapes'' in multiple high resolution genomic tracks related to mutagenesis and genome dynamics. Many of the developed methodologies are quite general and can be broadly applied in genomics as well as in other fields.

Questa tesi descrive diversi metodi statistici per lo studio del genoma e dell'epigenoma, utilizzando i dati omici. Lo scopo è sviluppare tecniche statistiche in grado di carpire informazioni dai dati eterogenei e ad alta dimensionalità generati dalle nuove tecnologie sperimentali, ad esempio le tecniche Next Generation Sequencing (NGS). Al fine di produrre conoscenza scientifica, una vasta gamma di tecniche statistiche già note vengono adattate e combinate opportunamente. Inoltre, vengono sviluppati nuovi metodi relativamente a campi più recenti, come ad esempio l'Analisi dei Dati Funzionali (FDA). L'idea principale di questo lavoro consiste nel considerare i dati genomici ad alta risoluzione, trattandoli come ``curve'' composte da misurazioni lungo la sequenza di DNA. Questo approccio innovativo porta vantaggi su vari fronti, ad esempio consente di incorporare l'ordinamento consecutivo delle diverse misurazioni e permette di estrarre l'informazione complessiva filtrando il rumore ma conservando, allo stesso tempo, importanti dettagli presenti nei dati. Questa idea centrale è applicata a tre diversi problemi genomici. Per prima cosa, i picchi dei ChIP-seq vengono clusterizzati e analizzati selezionando degli indici che riflettano la loro forma. Il secondo problema consiste nello studio del landscape genomico di retrovirus endogeni utilizzando tecniche di Analisi dei Dati Funzionali. Infine, viene sviluppata una nuova metodologia statistica (Functional Motif Discovery) allo scopo di identificare ``forme distintive'' in molteplici tracce genomiche ad alta risoluzione, relative alla mutagenesi e alla dinamica del genoma. Molte delle metodologie sviluppate sono del tutto generali e possono essere ampliamente applicate sia in genomica che in numerosi altri campi.

Statistical methods for omics data

CREMONA, MARZIA ANGELA

Abstract

This dissertation is about statistical methods for the study of the genome and epigenome, using omics data. The aim is the development of statistical techniques able to fully exploit the heterogeneous and high-dimensional data generated by new experimental technologies, e.g. Next Generation Sequencing (NGS) techniques. To produce scientific insight, a range of well-known statistical techniques are adapted and cleverly combined. Moreover, novel methods related to more recent fields such as Functional Data Analysis (FDA) are developed. The leading idea of this work consists in considering genomics data at high resolution, treating them as ``curves'' of measurements along the DNA sequence. This innovative approach has multiple advantages, for instance it incorporates the consecutive ordering of the measurements along the genome and it permits to extract the overall information filtering out the noise but, at the same time, retaining meaningful details of the data. This central idea is applied to three different genomics problems. First, ChIP-seq peaks are clustered and analyzed selecting indices reflecting their shape. Second, the genomic landscape of endogenous retroviruses is studied using Functional Data Analysis techniques. Third, a novel statistical methodology (Functional Motif Discovery) is developed with the aim to identify ``signatures shapes'' in multiple high resolution genomic tracks related to mutagenesis and genome dynamics. Many of the developed methodologies are quite general and can be broadly applied in genomics as well as in other fields.
SABADINI, IRENE MARIA
LUCCHETTI, ROBERTO
SANGALLI, LAURA MARIA
VANTINI, SIMONE
15-gen-2016
Questa tesi descrive diversi metodi statistici per lo studio del genoma e dell'epigenoma, utilizzando i dati omici. Lo scopo è sviluppare tecniche statistiche in grado di carpire informazioni dai dati eterogenei e ad alta dimensionalità generati dalle nuove tecnologie sperimentali, ad esempio le tecniche Next Generation Sequencing (NGS). Al fine di produrre conoscenza scientifica, una vasta gamma di tecniche statistiche già note vengono adattate e combinate opportunamente. Inoltre, vengono sviluppati nuovi metodi relativamente a campi più recenti, come ad esempio l'Analisi dei Dati Funzionali (FDA). L'idea principale di questo lavoro consiste nel considerare i dati genomici ad alta risoluzione, trattandoli come ``curve'' composte da misurazioni lungo la sequenza di DNA. Questo approccio innovativo porta vantaggi su vari fronti, ad esempio consente di incorporare l'ordinamento consecutivo delle diverse misurazioni e permette di estrarre l'informazione complessiva filtrando il rumore ma conservando, allo stesso tempo, importanti dettagli presenti nei dati. Questa idea centrale è applicata a tre diversi problemi genomici. Per prima cosa, i picchi dei ChIP-seq vengono clusterizzati e analizzati selezionando degli indici che riflettano la loro forma. Il secondo problema consiste nello studio del landscape genomico di retrovirus endogeni utilizzando tecniche di Analisi dei Dati Funzionali. Infine, viene sviluppata una nuova metodologia statistica (Functional Motif Discovery) allo scopo di identificare ``forme distintive'' in molteplici tracce genomiche ad alta risoluzione, relative alla mutagenesi e alla dinamica del genoma. Molte delle metodologie sviluppate sono del tutto generali e possono essere ampliamente applicate sia in genomica che in numerosi altri campi.
Tesi di dottorato
File allegati
File Dimensione Formato  
tesi.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: Testo della tesi
Dimensione 9.75 MB
Formato Adobe PDF
9.75 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/115782