Bayesian nonparametric clustering for structured data: methods and applications

This thesis develops Bayesian nonparametric methods for clustering structured data, where the classical exchangeability assumption is too restrictive. Clustering plays a central role in modern statistical analysis, enabling the discovery of latent structures and interpretable groupings within complex datasets. While Bayesian nonparametric models such as Dirichlet process mixtures provide a powerful and flexible framework for clustering exchangeable observations, many real-world applications involve data characterized by grouping, temporal, or covariate-dependent structures that require more sophisticated formulations. The thesis introduces three novel Bayesian nonparametric models that extend clustering to partially exchangeable, ordinal, and temporal settings, each overcoming key limitations of existing approaches in terms of model flexibility, interpretability, or computational scalability. The first model, based on the shot-noise Cox process, allows clustering across groups by letting group-specific components concentrate around shared centers, thus promoting flexible information borrowing between groups. The second contribution presents a model for personalized treatment selection with ordinal outcomes, jointly performing patient clustering and biomarker selection in cancer studies. The third contribution proposes an autoregressive product partition model for temporal clustering, which induces dependence between partitions at nearby time points while remaining computationally efficient through parallelizable posterior inference. Each model is equipped with a Markov chain Monte Carlo algorithm designed to ensure scalability and effective exploration of the partition space. Applications to galaxy data, clinical oncology, and air pollution monitoring illustrate the versatility and interpretability of the proposed approaches. Overall, the thesis advances the Bayesian nonparametric framework for clustering structured data by integrating methodological flexibility, computational efficiency, and applied relevance.

Questa tesi sviluppa metodi bayesiani non parametrici per il clustering di dati strutturati, un ambito in cui la classica ipotesi di scambiabilità risulta troppo restrittiva. Il clustering svolge un ruolo centrale nell'analisi statistica, consentendo la scoperta di strutture latenti all'interno di dataset complessi. Sebbene i modelli bayesiani non parametrici, come le misture di processi di Dirichlet, forniscano un framework potente e flessibile per il clustering di osservazioni scambiabili, molte applicazioni reali coinvolgono dati caratterizzati da raggruppamenti, strutture temporali o dipendenze da covariate che richiedono formulazioni più sofisticate. La tesi introduce tre nuovi modelli bayesiani non parametrici che estendono il clustering a contesti parzialmente scambiabili, ordinali e temporali, superando ciascuno i limiti chiave degli approcci esistenti in termini di flessibilità del modello, interpretabilità o scalabilità computazionale. Il primo modello, basato sullo shot-noise Cox process, consente il clustering per dati raggruppati permettendo alle componenti specifiche del gruppo di concentrarsi attorno a centri condivisi, promuovendo così una condivisione dell'informazione flessibile tra i gruppi. Il secondo contributo presenta un modello per la selezione personalizzata del trattamento medico con esiti ordinali, eseguendo congiuntamente il clustering dei pazienti e la selezione dei biomarcatori in studi oncologici. Il terzo contributo propone un product partition model autoregressivo per il clustering temporale, il quale induce dipendenza tra le partizioni in istanti temporali vicini pur rimanendo computazionalmente efficiente attraverso un'inferenza a posteriori parallelizzabile. Ogni modello è dotato di un algoritmo Markov chain Monte Carlo progettato per garantire scalabilità ed un'efficace esplorazione dello spazio delle partizioni. Applicazioni su dati astronomici, oncologia clinica e monitoraggio dell'inquinamento atmosferico illustrano la versatilità e l'interpretabilità degli approcci proposti. Nel complesso, la tesi fa avanzare il framework bayesiano non parametrico per il clustering di dati strutturati integrando flessibilità metodologica, efficienza computazionale e rilevanza applicativa.