Gaussian graphical models are a powerful statistical tool to describe the concept of conditional independence between variables through a map between a graph and the family of multivariate normal models. The structure of the graph is unknown and has to be learned from data. Inference is carried out in a Bayesian framework: thus, the structure of the precision matrix is constrained by the graph through a GWishart prior distribution. In this work we aim to improve those models. Firstly, we introduce a prior distribution to impose a block structure in the adjacency matrix of the graph. Then we develop a Double Reversible Jumps Monte Carlo Markov chain that avoids any GWishart normalizing constant calculation when comparing graphical models. The novelty of this procedure is that it looks for block structured graphs, hence proposing moves that add or remove not just a single link but an entire group of them. The novel method is then applied to smooth functional data. The classical smoothing procedure is improved by placing a Gaussian graphical model on the basis expansion coefficients, providing an estimate of their conditional independence structure. Since the elements of a B-Spline basis have compact support, the independence structure is reflected on well defined portions of the domain. The Bayesian hierarchical formulation enables the borrowing of strength among different curves and the graphical model assumption allows to share information along different subintervals of the functional datum, which is possible since our model does not limit itself to block diagonal blocks, but it also admits long-term interactions. Through simulation studies, we discuss how our model improves efficiency and readability with respect to competitors. Finally, we learn the dependence structure among portions of the absorbance spectrum of strawberry purees. All implemented methods are available in our R package called Block Graph Structural Learning (BGSL).

I modelli grafici gaussiani sono un potente strumento statistico per lo studio della struttura di dipendenza fra le componenti di un vettore aleatorio. Tale struttura viene sintetizzata attraverso un grafo che però è incognito e quindi oggetto dell'inferenza statistica. Viene quindi incorporato in un modello gerarchico bayesiano, vincolando la struttura della matrice di precisione mediante una distribuzione a priori chiamata GWishart. Questo lavoro ha l'obbiettivo di estendere tali modelli. La novità introdotta consiste nell'imporre una struttura a blocchi alla matrice di adiacenza che descrive il grafo, al fine di semplificare interpretabilità della sua stima finale. A tal scopo, introduciamo una distribuzione a priori che vincola tale struttura. L'inferenza bayesiana è ottenuta sviluppando un algoritmo Markov Chain Monte Carlo trans-dimensionale, proponendo, ad ogni passo, di aggiungere o togliere un numero arbitrario di lati e non uno solo. In particolare, la procedura introdotta si basa su doppio salto reversibile evitando così la valutazione della costante di normalizzazione della GWishart. Il nuovo modello viene utilizzato per l'analisi di dati funzionali. In questo contesto, la classica tecnica di lisciamento mediante una base B-spline si arricchisce con lo studio della struttura di dipendenza dei coefficienti dell'espansione; infatti, il supporto compatto degli elementi della base trasferisce la dipendenza fra i coefficienti su porzioni ben precise del dominio delle funzioni lisciate. Inoltre, il modello permette lo scambio di informazioni tra le curve, grazie alla struttura gerarchica bayesiana. La maggior efficienza e interpretabilità del nostro modello rispetto a metodi alternativi è empiricamente verificata in diversi scenari simulati. Infine, il metodo proposto viene utilizzato per indagare la struttura di dipendenza tra bande dello spettro di assorbanza di puree di fragola. Tutti i modelli implementati sono disponibili in un pacchetto R chiamato Block Graph Structual Learning (BGSL).

Learning block structured graphs in Gaussian graphical models with an application to functional data analysis

COLOMBI, ALESSANDRO
2019/2020

Abstract

Gaussian graphical models are a powerful statistical tool to describe the concept of conditional independence between variables through a map between a graph and the family of multivariate normal models. The structure of the graph is unknown and has to be learned from data. Inference is carried out in a Bayesian framework: thus, the structure of the precision matrix is constrained by the graph through a GWishart prior distribution. In this work we aim to improve those models. Firstly, we introduce a prior distribution to impose a block structure in the adjacency matrix of the graph. Then we develop a Double Reversible Jumps Monte Carlo Markov chain that avoids any GWishart normalizing constant calculation when comparing graphical models. The novelty of this procedure is that it looks for block structured graphs, hence proposing moves that add or remove not just a single link but an entire group of them. The novel method is then applied to smooth functional data. The classical smoothing procedure is improved by placing a Gaussian graphical model on the basis expansion coefficients, providing an estimate of their conditional independence structure. Since the elements of a B-Spline basis have compact support, the independence structure is reflected on well defined portions of the domain. The Bayesian hierarchical formulation enables the borrowing of strength among different curves and the graphical model assumption allows to share information along different subintervals of the functional datum, which is possible since our model does not limit itself to block diagonal blocks, but it also admits long-term interactions. Through simulation studies, we discuss how our model improves efficiency and readability with respect to competitors. Finally, we learn the dependence structure among portions of the absorbance spectrum of strawberry purees. All implemented methods are available in our R package called Block Graph Structural Learning (BGSL).
PACI, LUCIA
PINI, ALESSIA
ING - Scuola di Ingegneria Industriale e dell'Informazione
28-apr-2021
2019/2020
I modelli grafici gaussiani sono un potente strumento statistico per lo studio della struttura di dipendenza fra le componenti di un vettore aleatorio. Tale struttura viene sintetizzata attraverso un grafo che però è incognito e quindi oggetto dell'inferenza statistica. Viene quindi incorporato in un modello gerarchico bayesiano, vincolando la struttura della matrice di precisione mediante una distribuzione a priori chiamata GWishart. Questo lavoro ha l'obbiettivo di estendere tali modelli. La novità introdotta consiste nell'imporre una struttura a blocchi alla matrice di adiacenza che descrive il grafo, al fine di semplificare interpretabilità della sua stima finale. A tal scopo, introduciamo una distribuzione a priori che vincola tale struttura. L'inferenza bayesiana è ottenuta sviluppando un algoritmo Markov Chain Monte Carlo trans-dimensionale, proponendo, ad ogni passo, di aggiungere o togliere un numero arbitrario di lati e non uno solo. In particolare, la procedura introdotta si basa su doppio salto reversibile evitando così la valutazione della costante di normalizzazione della GWishart. Il nuovo modello viene utilizzato per l'analisi di dati funzionali. In questo contesto, la classica tecnica di lisciamento mediante una base B-spline si arricchisce con lo studio della struttura di dipendenza dei coefficienti dell'espansione; infatti, il supporto compatto degli elementi della base trasferisce la dipendenza fra i coefficienti su porzioni ben precise del dominio delle funzioni lisciate. Inoltre, il modello permette lo scambio di informazioni tra le curve, grazie alla struttura gerarchica bayesiana. La maggior efficienza e interpretabilità del nostro modello rispetto a metodi alternativi è empiricamente verificata in diversi scenari simulati. Infine, il metodo proposto viene utilizzato per indagare la struttura di dipendenza tra bande dello spettro di assorbanza di puree di fragola. Tutti i modelli implementati sono disponibili in un pacchetto R chiamato Block Graph Structual Learning (BGSL).
File allegati
File Dimensione Formato  
2021_4_Colombi.pdf

accessibile in internet per tutti

Dimensione 46.61 MB
Formato Adobe PDF
46.61 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/174940