In this work we introduce model-based cluster analysis. In particular, we focus on Bayesian nonparametric model-based clustering, using mixture model having as a mixing measure the Dirichlet or the Normalized Generalized Gamma process prior. Then, we present a new method for clustering based on the definition of a new equivalent relation unsing the distance between kernel densities in order to form clusters. We apply all the proposed methods to three datasets: the Galaxy dataset (univariate), the Kevlar dataset (univariate with covariates) and a simulated bivariate dataset on a non-convex region. We observed that more suitable estimates are provided when using our new method.
Lo scopo di questo lavoro è quello di introdurre la cluster analysis per dati reali o multivariati attraverso un approccio di tipo model-based, ovvero che prevede la presenza di un modello statistico per la descrizione delle osservazioni. In particolare, presenteremo dei metodi model-based di tipo Bayesiano non parametrico utilizzando modelli mistura con misturante il processo di Dirichlet o il processo Normalized Generalized Gamma. Successivamente presenteremo un nuovo metodo di cluster analysis che è basato sulla definizione di una relazione di equivalenza che sfrutta la distanza tra le densità kernel del modello mistura per classificare i dati. Applicheremo i metodi presentati a tre dataset: Galaxy (univariato), Kevlar (univariato con covariate) e un dataset simulato (bidimensionale) i cui elementi sono disposti in una regione non convessa del piano. Quello che abbiamo potuto osservare è che le stime del nostro nuovo metodo risultano più soddisfacenti rispetto ai metodi di letteratura.
Model based clustering via Bayesian nonparametric mixture models
CREMASCHI, ANDREA
2010/2011
Abstract
In this work we introduce model-based cluster analysis. In particular, we focus on Bayesian nonparametric model-based clustering, using mixture model having as a mixing measure the Dirichlet or the Normalized Generalized Gamma process prior. Then, we present a new method for clustering based on the definition of a new equivalent relation unsing the distance between kernel densities in order to form clusters. We apply all the proposed methods to three datasets: the Galaxy dataset (univariate), the Kevlar dataset (univariate with covariates) and a simulated bivariate dataset on a non-convex region. We observed that more suitable estimates are provided when using our new method.File | Dimensione | Formato | |
---|---|---|---|
Tesi.pdf
accessibile in internet per tutti
Descrizione: Testo della tesi
Dimensione
11.44 MB
Formato
Adobe PDF
|
11.44 MB | Adobe PDF | Visualizza/Apri |
I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/10589/48002