In this work we define a new class of random probability measures, approximating the well-known normalized generalized gamma (NGG) process. Our new process is defined from the representation of NGG processes as discrete measures where the weights are obtained by normalization of the jumps of a Poisson process, and the support consists of independent and identically distributed (iid) points, however considering only jumps larger than a threshold ε. Therefore, the number of jumps of this new process, called ε-NGG process, is a.s. finite. A prior distribution for ε can be elicited. We will assume the ε-NGG process as the mixing measure in a mixture model for density and cluster estimation. Moreover, an efficient Gibbs sampler scheme to simulate from the posterior is provided. The model is then applied to two datasets, the well-known univariate Galaxy dataset and the multivariate Yeast cell cycle dataset, consisting of gene expression profiles measured at 9 different times. A deep robustness analysis with respect to the prior is performed for both models, in order to evaluate the goodness-of-fit of the model in a density estimation context and investigate the role of the parameters (which can also be considered as random variables) in the posterior estimates. In the multivariate case, we will also provide posterior cluster estimates, obtained through a loss-function minimization approach.

Il presente lavoro di tesi tratta della definizione e dell’applicazione di una nuova classe di prior non parametriche che approssima un processo appartenente alla famiglia di misure aleatorie normalizzate a incrementi indipendenti. Queste ultime sono misure di probabilità aleatorie discrete i cui pesi, che sono infiniti, sono ottenuti mediante normalizzazione dei salti di un processo di Poisson, mentre i punti di supporto sono un insieme numerabile di variabili aleatorie indipendenti e identicamente distribuite da un certa legge. La particolare classe di prior non parametriche che vogliamo approssimare in questa tesi è il processo gamma generalizzato normalizzato (NGG). L’inferenza è complicata a causa della presenza di infiniti parametri non noti, che sono i pesi e il supporto della misura aleatoria discreta. Per risolvere ciò saranno tenuti in considerazione nel processo solo i salti del processo NGG maggiori di una certa soglia ε: tale definizione rende la prior di dimensione finita. Il parametro ε controlla il livello di approssimazione, da cui il nome di processo ε-NGG. Successivamente, il nuovo processo verrà considerato come misura misturante di un modello mistura, spesso usato in statistica bayesiana non parametrica come un modello flessibile per problemi di stima di densità e clustering. In questa tesi costruiremo un algoritmo Gibbs sampler per simulare dalla posterior del modello mistura. L’algoritmo verrà poi applicato a due diversi dataset. Il primo dataset, univariato, è il ben noto dataset Galaxy, mentre il secondo, multivariato, è chiamato in letteratura Yeast cell cycle dataset e raccoglie i profili di espressione genetica in 9 diversi istanti di tempo. Per entrambi condurremo un’approfondita analisi di robustezza rispetto alla scelta della prior per valutare sia la bontá del modello in un contesto di stima di densitá, sia l’influenza dei parametri, i quali possono anche essere considerati aleatori, sulle stime. Nel caso multivariato, infine, il nostro processo verrá inserito all’interno di un modello di clustering: per scegliere la migliore stima a posteriori sará usato il metodo di minimizzazione della funzione di perdita.

A Bayesian nonparametric model for density and cluster estimation : the epsilon-NGG mixture model

BIANCHINI, ILARIA
2012/2013

Abstract

In this work we define a new class of random probability measures, approximating the well-known normalized generalized gamma (NGG) process. Our new process is defined from the representation of NGG processes as discrete measures where the weights are obtained by normalization of the jumps of a Poisson process, and the support consists of independent and identically distributed (iid) points, however considering only jumps larger than a threshold ε. Therefore, the number of jumps of this new process, called ε-NGG process, is a.s. finite. A prior distribution for ε can be elicited. We will assume the ε-NGG process as the mixing measure in a mixture model for density and cluster estimation. Moreover, an efficient Gibbs sampler scheme to simulate from the posterior is provided. The model is then applied to two datasets, the well-known univariate Galaxy dataset and the multivariate Yeast cell cycle dataset, consisting of gene expression profiles measured at 9 different times. A deep robustness analysis with respect to the prior is performed for both models, in order to evaluate the goodness-of-fit of the model in a density estimation context and investigate the role of the parameters (which can also be considered as random variables) in the posterior estimates. In the multivariate case, we will also provide posterior cluster estimates, obtained through a loss-function minimization approach.
ARGIENTO, RAFFAELE
ING - Scuola di Ingegneria Industriale e dell'Informazione
29-apr-2014
2012/2013
Il presente lavoro di tesi tratta della definizione e dell’applicazione di una nuova classe di prior non parametriche che approssima un processo appartenente alla famiglia di misure aleatorie normalizzate a incrementi indipendenti. Queste ultime sono misure di probabilità aleatorie discrete i cui pesi, che sono infiniti, sono ottenuti mediante normalizzazione dei salti di un processo di Poisson, mentre i punti di supporto sono un insieme numerabile di variabili aleatorie indipendenti e identicamente distribuite da un certa legge. La particolare classe di prior non parametriche che vogliamo approssimare in questa tesi è il processo gamma generalizzato normalizzato (NGG). L’inferenza è complicata a causa della presenza di infiniti parametri non noti, che sono i pesi e il supporto della misura aleatoria discreta. Per risolvere ciò saranno tenuti in considerazione nel processo solo i salti del processo NGG maggiori di una certa soglia ε: tale definizione rende la prior di dimensione finita. Il parametro ε controlla il livello di approssimazione, da cui il nome di processo ε-NGG. Successivamente, il nuovo processo verrà considerato come misura misturante di un modello mistura, spesso usato in statistica bayesiana non parametrica come un modello flessibile per problemi di stima di densità e clustering. In questa tesi costruiremo un algoritmo Gibbs sampler per simulare dalla posterior del modello mistura. L’algoritmo verrà poi applicato a due diversi dataset. Il primo dataset, univariato, è il ben noto dataset Galaxy, mentre il secondo, multivariato, è chiamato in letteratura Yeast cell cycle dataset e raccoglie i profili di espressione genetica in 9 diversi istanti di tempo. Per entrambi condurremo un’approfondita analisi di robustezza rispetto alla scelta della prior per valutare sia la bontá del modello in un contesto di stima di densitá, sia l’influenza dei parametri, i quali possono anche essere considerati aleatori, sulle stime. Nel caso multivariato, infine, il nostro processo verrá inserito all’interno di un modello di clustering: per scegliere la migliore stima a posteriori sará usato il metodo di minimizzazione della funzione di perdita.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
2014_04_Bianchini.pdf

accessibile in internet per tutti

Descrizione: Testo della tesi
Dimensione 11.72 MB
Formato Adobe PDF
11.72 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/92540