In this work we introduce model-based cluster analysis. In particular, we focus on Bayesian nonparametric model-based clustering, using mixture model having as a mixing measure the Dirichlet or the Normalized Generalized Gamma process prior. Then, we present a new method for clustering based on the definition of a new equivalent relation unsing the distance between kernel densities in order to form clusters. We apply all the proposed methods to three datasets: the Galaxy dataset (univariate), the Kevlar dataset (univariate with covariates) and a simulated bivariate dataset on a non-convex region. We observed that more suitable estimates are provided when using our new method.

Lo scopo di questo lavoro è quello di introdurre la cluster analysis per dati reali o multivariati attraverso un approccio di tipo model-based, ovvero che prevede la presenza di un modello statistico per la descrizione delle osservazioni. In particolare, presenteremo dei metodi model-based di tipo Bayesiano non parametrico utilizzando modelli mistura con misturante il processo di Dirichlet o il processo Normalized Generalized Gamma. Successivamente presenteremo un nuovo metodo di cluster analysis che è basato sulla definizione di una relazione di equivalenza che sfrutta la distanza tra le densità kernel del modello mistura per classificare i dati. Applicheremo i metodi presentati a tre dataset: Galaxy (univariato), Kevlar (univariato con covariate) e un dataset simulato (bidimensionale) i cui elementi sono disposti in una regione non convessa del piano. Quello che abbiamo potuto osservare è che le stime del nostro nuovo metodo risultano più soddisfacenti rispetto ai metodi di letteratura.

Model based clustering via Bayesian nonparametric mixture models

CREMASCHI, ANDREA
2010/2011

Abstract

In this work we introduce model-based cluster analysis. In particular, we focus on Bayesian nonparametric model-based clustering, using mixture model having as a mixing measure the Dirichlet or the Normalized Generalized Gamma process prior. Then, we present a new method for clustering based on the definition of a new equivalent relation unsing the distance between kernel densities in order to form clusters. We apply all the proposed methods to three datasets: the Galaxy dataset (univariate), the Kevlar dataset (univariate with covariates) and a simulated bivariate dataset on a non-convex region. We observed that more suitable estimates are provided when using our new method.
ARGIENTO, RAFFAELE
ING II - Scuola di Ingegneria dei Sistemi
23-apr-2012
2010/2011
Lo scopo di questo lavoro è quello di introdurre la cluster analysis per dati reali o multivariati attraverso un approccio di tipo model-based, ovvero che prevede la presenza di un modello statistico per la descrizione delle osservazioni. In particolare, presenteremo dei metodi model-based di tipo Bayesiano non parametrico utilizzando modelli mistura con misturante il processo di Dirichlet o il processo Normalized Generalized Gamma. Successivamente presenteremo un nuovo metodo di cluster analysis che è basato sulla definizione di una relazione di equivalenza che sfrutta la distanza tra le densità kernel del modello mistura per classificare i dati. Applicheremo i metodi presentati a tre dataset: Galaxy (univariato), Kevlar (univariato con covariate) e un dataset simulato (bidimensionale) i cui elementi sono disposti in una regione non convessa del piano. Quello che abbiamo potuto osservare è che le stime del nostro nuovo metodo risultano più soddisfacenti rispetto ai metodi di letteratura.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
Tesi.pdf

accessibile in internet per tutti

Descrizione: Testo della tesi
Dimensione 11.44 MB
Formato Adobe PDF
11.44 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/48002