A Bayesian model-based framework is developed for clustering multivariate categorical data, with particular attention to settings where variables exhibit dependence within clusters. Categorical data pose unique challenges due to the absence of a natural met- ric structure, and classical mixture models often rely on the assumption of conditional independence, which may be overly restrictive in the presence of strong within-cluster associations. The Enriched Hamming Mixture Model (EHMM) enriches the Hamming Mixture Model by adding a second mixture layer, representing each outer cluster as a mixture of inner components. This hierarchical structure captures local dependence patterns while keeping the parameterization parsimonious and interpretable, and can be viewed as a compact reparametrization of a mixture of latent class models. Identifiability is addressed through hierarchical shrinkage priors that pull inner centers toward shared hypercenters, along with simplified variants where some parameters de- pend only on the outer level. Three model specifications are considered, each inducing a different form of within-cluster dependence. Posterior inference is carried out via a Gibbs sampler that handles uncertainty in both the number of outer clusters and their internal subcomponents. Simulation studies and real-data applications illustrate the flexibility and practical benefits of the EHMM.

In questo lavoro di tesi viene presentato un modello bayesiano per il clustering di dati categorici multivariati, con attenzione ai contesti in cui le variabili mostrano dipendenza all’interno dei cluster. L’assenza di una metrica naturale rende complessa la modellazione dei dati categorici, e le misture tradizionali basate su indipendenza condizionale possono risultare eccessivamente rigide in presenza di forti associazioni. Il punto di partenza è l’Hamming Mixture Model (HMM), un modello di mistura costruito a partire da una distribuzione definita tramite la distanza di Hamming, in cui ogni com- ponente è descritta da un centro e da un parametro di dispersione. Da qui si sviluppa l’Enriched Hamming Mixture Model (EHMM), che aggiunge un secondo livello alla mis- tura: ogni cluster è rappresentato da una mistura di componenti interni, consentendo di catturare strutture locali di dipendenza più complesse, pur mantenendo un modello interpretabile e parsimonioso. L’EHMM può anche essere interpretato come una mistura di Latent Class Models. Per affrontare i problemi di identificabilità tipici delle misture gerarchiche vengono con- siderate due strategie: una struttura di prior che induce contrazione dei centri interni verso ipercentri condivisi e formulazioni semplificate in cui alcuni parametri sono definiti solo a livello esterno. Su queste basi vengono studiate tre varianti del modello, ciascuna caratterizzata da un diverso grado di dipendenza intra-cluster. La stima dei parametri e delle assegnazioni ai cluster è ottenuta tramite un Gibbs sampler capace di gestire un numero casuale di componenti a entrambi i livelli, ottenendo così un approccio pienamente bayesiano che stima congiuntamente assegnazioni, struttura di dipendenza e parametri. Le proprietà dell’EHMM vengono esaminate tramite studi di simulazione e applicazioni a dati reali.

Enriched mixture modeling for categorical data using the hamming distance

Leone, Benedetta Sabina
2024/2025

Abstract

A Bayesian model-based framework is developed for clustering multivariate categorical data, with particular attention to settings where variables exhibit dependence within clusters. Categorical data pose unique challenges due to the absence of a natural met- ric structure, and classical mixture models often rely on the assumption of conditional independence, which may be overly restrictive in the presence of strong within-cluster associations. The Enriched Hamming Mixture Model (EHMM) enriches the Hamming Mixture Model by adding a second mixture layer, representing each outer cluster as a mixture of inner components. This hierarchical structure captures local dependence patterns while keeping the parameterization parsimonious and interpretable, and can be viewed as a compact reparametrization of a mixture of latent class models. Identifiability is addressed through hierarchical shrinkage priors that pull inner centers toward shared hypercenters, along with simplified variants where some parameters de- pend only on the outer level. Three model specifications are considered, each inducing a different form of within-cluster dependence. Posterior inference is carried out via a Gibbs sampler that handles uncertainty in both the number of outer clusters and their internal subcomponents. Simulation studies and real-data applications illustrate the flexibility and practical benefits of the EHMM.
CREMASCHI, ANDREA
PACI, LUCIA
ING - Scuola di Ingegneria Industriale e dell'Informazione
10-dic-2025
2024/2025
In questo lavoro di tesi viene presentato un modello bayesiano per il clustering di dati categorici multivariati, con attenzione ai contesti in cui le variabili mostrano dipendenza all’interno dei cluster. L’assenza di una metrica naturale rende complessa la modellazione dei dati categorici, e le misture tradizionali basate su indipendenza condizionale possono risultare eccessivamente rigide in presenza di forti associazioni. Il punto di partenza è l’Hamming Mixture Model (HMM), un modello di mistura costruito a partire da una distribuzione definita tramite la distanza di Hamming, in cui ogni com- ponente è descritta da un centro e da un parametro di dispersione. Da qui si sviluppa l’Enriched Hamming Mixture Model (EHMM), che aggiunge un secondo livello alla mis- tura: ogni cluster è rappresentato da una mistura di componenti interni, consentendo di catturare strutture locali di dipendenza più complesse, pur mantenendo un modello interpretabile e parsimonioso. L’EHMM può anche essere interpretato come una mistura di Latent Class Models. Per affrontare i problemi di identificabilità tipici delle misture gerarchiche vengono con- siderate due strategie: una struttura di prior che induce contrazione dei centri interni verso ipercentri condivisi e formulazioni semplificate in cui alcuni parametri sono definiti solo a livello esterno. Su queste basi vengono studiate tre varianti del modello, ciascuna caratterizzata da un diverso grado di dipendenza intra-cluster. La stima dei parametri e delle assegnazioni ai cluster è ottenuta tramite un Gibbs sampler capace di gestire un numero casuale di componenti a entrambi i livelli, ottenendo così un approccio pienamente bayesiano che stima congiuntamente assegnazioni, struttura di dipendenza e parametri. Le proprietà dell’EHMM vengono esaminate tramite studi di simulazione e applicazioni a dati reali.
File allegati
File Dimensione Formato  
2025_12_Leone_Tesi.pdf

accessibile in internet per tutti

Descrizione: testo tesi
Dimensione 3.36 MB
Formato Adobe PDF
3.36 MB Adobe PDF Visualizza/Apri
2025_12_Leone_ExecutiveSummary.pdf

accessibile in internet per tutti

Descrizione: testo executive summary
Dimensione 630.23 kB
Formato Adobe PDF
630.23 kB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/247397