In this work we review several techniques to perform Bayesian Nonparametrics using Variantional inference methods. We focus on the class of mixtures of Normalized Completely Random measures (NormCRMs). NormCRMs are almost surely discrete processes that are particularly suitable to be used as mixing distributions in the mixture model framework. Variational inference is a method for heuristic Bayesian inference, where the posterior is approximated by the element of a family of distributions that minimizes a given functional. We present and compare different methods proposed in the literature for variational inference with nonparametric models and show how to apply them to two different NormCRMs, the Normalized Generalized Gamma process (NGG) and the Bessel Random Measure. To evaluate the performace of these techniques when used with the different nonparametric models, we have implemented some of methods and we have performed several experiments in which these methods are used for density estimation and clustering. We fit a Gaussian mixture model with an NGG mixing measure to several different multivariate datasets, including the Yeast Cell Cycle dataset, consisting of gene expression profiles measured in various conditions of environmental stress, and the popular MNIST dataset, that is a collection of images, each one showing a handwritten digit. We investigate the role of the hyperparameters of the modelsp in the posterior estimates and analyse the the goodness of fit of the variational approximation of the fitted nonparametric model.

Nel presente lavoro di tesi presentiamo una rassegna di tecniche Bayesiane non parametriche che usano metodi di inferenza variazionale. Ci concentriamo sulla classe di misture di Misure Completamente Aleatorie Normalizzate (NormCRM), che sono misure quasi certamente discrete e quindi particolarmente adatte per essere usate come misure misturanti di un modello mistura. L'inferenza variazionale è un metodo di inferenza Bayesiana approssimata, in cui si approssima la posterior con l'elemento di una famiglia di distribuzioni che minimizza un certo funzionale che dipende dalla posterior esatta. Presentiamo e confrontiamo diversi metodi proposti in letteratura per inferenza variazionale con modelli non parametrici, e mostriamo come applicarli a due diverse NormCRM: il processo gamma generalizzato normalizzato (NGG) e la misura aleatoria di Bessel. Per valutare le prestazioni di queste tecniche quando usate con i diversi modelli non parametrici abbiamo implementato alcuni dei metodi ed abbiamo effettuato una serie di esperimenti in cui questi metodi sono usati per effettuare stime di densità e clustering. Approssimiamo la posterior di un modello mistura Gaussiano con una misura misturante di tipo NGG in una serie di dataset multivariati, inclusi il dataset chiamato in letteratura Yeast Cell Cycle, che consiste nella raccolta dei profili di espressione genetica di una cellula misurati in varie condizioni di stress ambientale, e il dataset MNIST, che consiste in una serie di immagini, ognuna raffigurante una cifra scritta a mano. Investighiamo il ruolo degli iperparametri dei modelli e analizziamo la bontà dell'approssimazione variazionale della posterior.

Variational inference methods for Bayesian nonparametric models

TASCA, MICHELE ANGELO
2017/2018

Abstract

In this work we review several techniques to perform Bayesian Nonparametrics using Variantional inference methods. We focus on the class of mixtures of Normalized Completely Random measures (NormCRMs). NormCRMs are almost surely discrete processes that are particularly suitable to be used as mixing distributions in the mixture model framework. Variational inference is a method for heuristic Bayesian inference, where the posterior is approximated by the element of a family of distributions that minimizes a given functional. We present and compare different methods proposed in the literature for variational inference with nonparametric models and show how to apply them to two different NormCRMs, the Normalized Generalized Gamma process (NGG) and the Bessel Random Measure. To evaluate the performace of these techniques when used with the different nonparametric models, we have implemented some of methods and we have performed several experiments in which these methods are used for density estimation and clustering. We fit a Gaussian mixture model with an NGG mixing measure to several different multivariate datasets, including the Yeast Cell Cycle dataset, consisting of gene expression profiles measured in various conditions of environmental stress, and the popular MNIST dataset, that is a collection of images, each one showing a handwritten digit. We investigate the role of the hyperparameters of the modelsp in the posterior estimates and analyse the the goodness of fit of the variational approximation of the fitted nonparametric model.
ARGIENTO, RAFFAELE
ING - Scuola di Ingegneria Industriale e dell'Informazione
20-dic-2018
2017/2018
Nel presente lavoro di tesi presentiamo una rassegna di tecniche Bayesiane non parametriche che usano metodi di inferenza variazionale. Ci concentriamo sulla classe di misture di Misure Completamente Aleatorie Normalizzate (NormCRM), che sono misure quasi certamente discrete e quindi particolarmente adatte per essere usate come misure misturanti di un modello mistura. L'inferenza variazionale è un metodo di inferenza Bayesiana approssimata, in cui si approssima la posterior con l'elemento di una famiglia di distribuzioni che minimizza un certo funzionale che dipende dalla posterior esatta. Presentiamo e confrontiamo diversi metodi proposti in letteratura per inferenza variazionale con modelli non parametrici, e mostriamo come applicarli a due diverse NormCRM: il processo gamma generalizzato normalizzato (NGG) e la misura aleatoria di Bessel. Per valutare le prestazioni di queste tecniche quando usate con i diversi modelli non parametrici abbiamo implementato alcuni dei metodi ed abbiamo effettuato una serie di esperimenti in cui questi metodi sono usati per effettuare stime di densità e clustering. Approssimiamo la posterior di un modello mistura Gaussiano con una misura misturante di tipo NGG in una serie di dataset multivariati, inclusi il dataset chiamato in letteratura Yeast Cell Cycle, che consiste nella raccolta dei profili di espressione genetica di una cellula misurati in varie condizioni di stress ambientale, e il dataset MNIST, che consiste in una serie di immagini, ognuna raffigurante una cifra scritta a mano. Investighiamo il ruolo degli iperparametri dei modelli e analizziamo la bontà dell'approssimazione variazionale della posterior.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
tesi.pdf

non accessibile

Descrizione: Testo della tesi
Dimensione 1.31 MB
Formato Adobe PDF
1.31 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/144383