In the last decades data availability increased substantially. Thanks to that, several phenomena are now studied by means of large-scale models. The framework of probabilistic graphical models provides a mechanism to describe the interplay between variables in a compact way: this is achieved by using a graph-based representation, where the nodes correspond to the random variables of interest and the edges to direct probabilistic interactions between them. In many applications the estimation of a collection of graphical models is better suited than a single one to describe the problem under study. This happens when data are characterized by informative heterogeneity, i.e. they belong to different categories: the variables are the same, but they interact in different ways, so that some edges will be present in all categories, while others will be category-specific. In such cases, jointly estimating the multiple graphical models enables the borrowing of information across conditions: this favours the detection of a common structure and reduces the variance of the estimates, especially in categories with few observations. The aim of my thesis project, carried out during a six months internship at the MRC Biostatistics Unit (University of Cambridge), is the theoretical development of a computationally efficient Bayesian method for the joint inference of multiple Gaussian graphical models.

Negli ultimi decenni, la crescente disponibilità di dati ha reso possibile lo sviluppo di modelli su larga scala per lo studio di molti fenomeni. I modelli grafici probabilistici descrivono in maniera compatta l'interazione tra le variabili, tramite una rappresentazione a grafo, nella quale i nodi corrispondono alle variabili aleatorie di interesse e gli archi alle interazioni probabilistiche tra di esse. In molte applicazioni, il problema sotto studio è modellato più accuratamente da una collezione di modelli grafici, piuttosto che da uno singolo. Ciò avviene quando i dati sono caratterizzati da una eterogeneità di cui si vuole tenere conto, ossia sono divisi in categorie: le variabili sono le stesse, ma interagiscono tra loro in maniera differente. Di conseguenza, alcuni archi saranno presenti in tutte le categorie, altri saranno specifici di un determinato gruppo. In questo contesto, la stima congiunta dei diversi modelli grafici permette lo scambio di informazione tra categorie, favorendo l'individuazione della struttura comune e riducendo la variabilità della stima, specialmente nelle categorie con poche osservazioni. Scopo del presente progetto di tesi, sviluppato nel corso di un tirocinio di sei mesi presso la MRC Biostatistics Unit (Università di Cambridge), è lo sviluppo teorico di un metodo Bayesiano per la stima congiunta di una collezione di modelli grafici Gaussiani, che sia efficiente dal punto di vista computazionale.

A method for the joint inference of multiple Gaussian graphical models in high-dimensional setting

SPERANZA, ILARIA
2016/2017

Abstract

In the last decades data availability increased substantially. Thanks to that, several phenomena are now studied by means of large-scale models. The framework of probabilistic graphical models provides a mechanism to describe the interplay between variables in a compact way: this is achieved by using a graph-based representation, where the nodes correspond to the random variables of interest and the edges to direct probabilistic interactions between them. In many applications the estimation of a collection of graphical models is better suited than a single one to describe the problem under study. This happens when data are characterized by informative heterogeneity, i.e. they belong to different categories: the variables are the same, but they interact in different ways, so that some edges will be present in all categories, while others will be category-specific. In such cases, jointly estimating the multiple graphical models enables the borrowing of information across conditions: this favours the detection of a common structure and reduces the variance of the estimates, especially in categories with few observations. The aim of my thesis project, carried out during a six months internship at the MRC Biostatistics Unit (University of Cambridge), is the theoretical development of a computationally efficient Bayesian method for the joint inference of multiple Gaussian graphical models.
BOTTOLO, LEONARDO
LEDAY, GWENAEL
ING - Scuola di Ingegneria Industriale e dell'Informazione
19-apr-2018
2016/2017
Negli ultimi decenni, la crescente disponibilità di dati ha reso possibile lo sviluppo di modelli su larga scala per lo studio di molti fenomeni. I modelli grafici probabilistici descrivono in maniera compatta l'interazione tra le variabili, tramite una rappresentazione a grafo, nella quale i nodi corrispondono alle variabili aleatorie di interesse e gli archi alle interazioni probabilistiche tra di esse. In molte applicazioni, il problema sotto studio è modellato più accuratamente da una collezione di modelli grafici, piuttosto che da uno singolo. Ciò avviene quando i dati sono caratterizzati da una eterogeneità di cui si vuole tenere conto, ossia sono divisi in categorie: le variabili sono le stesse, ma interagiscono tra loro in maniera differente. Di conseguenza, alcuni archi saranno presenti in tutte le categorie, altri saranno specifici di un determinato gruppo. In questo contesto, la stima congiunta dei diversi modelli grafici permette lo scambio di informazione tra categorie, favorendo l'individuazione della struttura comune e riducendo la variabilità della stima, specialmente nelle categorie con poche osservazioni. Scopo del presente progetto di tesi, sviluppato nel corso di un tirocinio di sei mesi presso la MRC Biostatistics Unit (Università di Cambridge), è lo sviluppo teorico di un metodo Bayesiano per la stima congiunta di una collezione di modelli grafici Gaussiani, che sia efficiente dal punto di vista computazionale.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
2018_04_Speranza.pdf

accessibile in internet per tutti

Descrizione: Testo della tesi
Dimensione 17.87 MB
Formato Adobe PDF
17.87 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/140130