Model based clustering via Bayesian nonparametric mixture models

Biblioteche e Archivi
POLITesi - Archivio digitale delle tesi di laurea e di dottorato

In this work we introduce model-based cluster analysis. In particular, we focus on Bayesian nonparametric model-based clustering, using mixture model having as a mixing measure the Dirichlet or the Normalized Generalized Gamma process prior. Then, we present a new method for clustering based on the definition of a new equivalent relation unsing the distance between kernel densities in order to form clusters. We apply all the proposed methods to three datasets: the Galaxy dataset (univariate), the Kevlar dataset (univariate with covariates) and a simulated bivariate dataset on a non-convex region. We observed that more suitable estimates are provided when using our new method.

Lo scopo di questo lavoro è quello di introdurre la cluster analysis per dati reali o multivariati attraverso un approccio di tipo model-based, ovvero che prevede la presenza di un modello statistico per la descrizione delle osservazioni. In particolare, presenteremo dei metodi model-based di tipo Bayesiano non parametrico utilizzando modelli mistura con misturante il processo di Dirichlet o il processo Normalized Generalized Gamma. Successivamente presenteremo un nuovo metodo di cluster analysis che è basato sulla definizione di una relazione di equivalenza che sfrutta la distanza tra le densità kernel del modello mistura per classificare i dati. Applicheremo i metodi presentati a tre dataset: Galaxy (univariato), Kevlar (univariato con covariate) e un dataset simulato (bidimensionale) i cui elementi sono disposti in una regione non convessa del piano. Quello che abbiamo potuto osservare è che le stime del nostro nuovo metodo risultano più soddisfacenti rispetto ai metodi di letteratura.

Model based clustering via Bayesian nonparametric mixture models

CREMASCHI, ANDREA

2010/2011

Abstract

In this work we introduce model-based cluster analysis. In particular, we focus on Bayesian nonparametric model-based clustering, using mixture model having as a mixing measure the Dirichlet or the Normalized Generalized Gamma process prior. Then, we present a new method for clustering based on the definition of a new equivalent relation unsing the distance between kernel densities in order to form clusters. We apply all the proposed methods to three datasets: the Galaxy dataset (univariate), the Kevlar dataset (univariate with covariates) and a simulated bivariate dataset on a non-convex region. We observed that more suitable estimates are provided when using our new method.

Scheda breve

Scheda completa

	Relatore
	
				GUGLIELMI, ALESSANDRA
			
	Correlatore/i
	
				ARGIENTO, RAFFAELE
			
	Scuola / Dip.
	
				ING II - Scuola di Ingegneria dei Sistemi
			
	Data
	
				23-apr-2012
			
	Anno accademico
	
				2010/2011
			
	Abstract in italiano
	
				Lo scopo di questo lavoro è quello di introdurre la cluster analysis per dati reali o multivariati
attraverso un approccio di tipo model-based, ovvero che prevede la presenza di un modello
statistico per la descrizione delle osservazioni. In particolare, presenteremo dei metodi model-based
di tipo Bayesiano non parametrico utilizzando modelli mistura con misturante il processo di Dirichlet o il processo Normalized
Generalized Gamma. Successivamente presenteremo un nuovo metodo di cluster analysis che è basato
sulla definizione di una relazione di equivalenza che sfrutta
la distanza tra le densità kernel del modello mistura per classificare i dati. Applicheremo i metodi
presentati a tre dataset: Galaxy (univariato), Kevlar (univariato con covariate) e un dataset simulato (bidimensionale) i cui elementi sono disposti in una regione non convessa del piano. Quello che abbiamo
potuto osservare è che le stime del nostro nuovo metodo risultano più soddisfacenti rispetto ai metodi di letteratura.
			
	Tipo di documento
	
				Tesi di laurea Magistrale
			
	Appare nelle tipologie:
	
				Tesi di laurea Magistrale

File allegati

File	Dimensione	Formato
Tesi.pdf accessibile in internet per tutti Descrizione: Testo della tesi Dimensione 11.44 MB Formato Adobe PDF Visualizza/Apri	11.44 MB	Adobe PDF	Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/48002