Bayesian statistics is a powerful approach to inference problems due to its sheer predicting capabilities and amount of information that can be incorporated into its models. In particular, the Bayesian nonparametric (BNP) setting allows for unmatched versatility when combined with mixture models. BNP analysis has been more and more successful over the course of the last decades due to the development of specific software implementing Markov chain Monte Carlo (MCMC) methods, which are essential to conduct Bayesian posterior simulation. This work describes and documents the development of bayesmix, an open-source C++ and Python library for posterior inference in BNP mixture models. It implements several popular MCMC algorithms for posterior distribution simulation on a number of hierarchical mixture models. Clustering estimation and density regression, with covariate dependence in any part of those models, can also be performed. This work first examines the Bayesian paradigm and the main theoretical results for Bayesian nonparametrics and mixture models, and describes the implemented hierarchical models and MCMC algorithms, as well as the methods used to achieve density and clustering estimates. We then review existing Bayesian-related programs and libraries for MCMC simulation, both parametric and nonparametric, in order to understand the key factors that lead Bayesian software to success. Finally, we describe the structure of the bayesmix library, and the application to some benchmark datasets.

La statistica bayesiana è un efficace approccio ai problemi di inferenza grazie alla sua grande capacità predittiva e alla quantità di informazioni che permette di fornire a un modello. In particolare, la statistica bayesiana nonparametrica (BNP) permette una versatilità unica se applicata a modelli di mistura. L’analisi nonparametrica bayesiana ha raccolto un crescente successo nelle ultime decine di anni grazie allo sviluppo di software specifico che implementa metodi Markov chain Monte Carlo (MCMC), essenziali per effettuare simulazioni delle distribuzioni a posteriori. Questa tesi descrive e documenta la nascita di bayesmix, una libreria open-source scritta in C++ e Python pensata per l’inferenza nonparametrica in modelli mistura bayesiani. Abbiamo implementato vari algoritmi MCMC noti per la loro efficacia nella simulazione delle distribuzioni a posteriori, e svariati modelli mistura gerarchici. La libreria può anche fornire stime per il clustering e di density regression, nelle quali è possibile inserire la dipendenza da covariate in qualsiasi parte del modello. Questa tesi descrive anzitutto il paradigma bayesiano e i principali risultati teorici nell’ambito BNP e modelli mistura, descrive i modelli e gli algoritmi MCMC di cui sopra, e riporta i metodi utilizzati per le stime di densità e clustering. Segue una revisione del software bayesiano e di simulazione MCMC ad oggi disponibile, sia per modelli parametrici che nonparametrici, per desumere le caratteristiche chiave che una buona libreria MCMC dovrebbe possedere. Infine, la tesi descrive la struttura della libreria bayesmix e mostra la sua applicazione ad una manciata di librerie test.

Bayesmix : a nonparametric C++ library for mixture models

GUINDANI, BRUNO
2019/2020

Abstract

Bayesian statistics is a powerful approach to inference problems due to its sheer predicting capabilities and amount of information that can be incorporated into its models. In particular, the Bayesian nonparametric (BNP) setting allows for unmatched versatility when combined with mixture models. BNP analysis has been more and more successful over the course of the last decades due to the development of specific software implementing Markov chain Monte Carlo (MCMC) methods, which are essential to conduct Bayesian posterior simulation. This work describes and documents the development of bayesmix, an open-source C++ and Python library for posterior inference in BNP mixture models. It implements several popular MCMC algorithms for posterior distribution simulation on a number of hierarchical mixture models. Clustering estimation and density regression, with covariate dependence in any part of those models, can also be performed. This work first examines the Bayesian paradigm and the main theoretical results for Bayesian nonparametrics and mixture models, and describes the implemented hierarchical models and MCMC algorithms, as well as the methods used to achieve density and clustering estimates. We then review existing Bayesian-related programs and libraries for MCMC simulation, both parametric and nonparametric, in order to understand the key factors that lead Bayesian software to success. Finally, we describe the structure of the bayesmix library, and the application to some benchmark datasets.
BERAHA, MARIO
ING - Scuola di Ingegneria Industriale e dell'Informazione
28-apr-2021
2019/2020
La statistica bayesiana è un efficace approccio ai problemi di inferenza grazie alla sua grande capacità predittiva e alla quantità di informazioni che permette di fornire a un modello. In particolare, la statistica bayesiana nonparametrica (BNP) permette una versatilità unica se applicata a modelli di mistura. L’analisi nonparametrica bayesiana ha raccolto un crescente successo nelle ultime decine di anni grazie allo sviluppo di software specifico che implementa metodi Markov chain Monte Carlo (MCMC), essenziali per effettuare simulazioni delle distribuzioni a posteriori. Questa tesi descrive e documenta la nascita di bayesmix, una libreria open-source scritta in C++ e Python pensata per l’inferenza nonparametrica in modelli mistura bayesiani. Abbiamo implementato vari algoritmi MCMC noti per la loro efficacia nella simulazione delle distribuzioni a posteriori, e svariati modelli mistura gerarchici. La libreria può anche fornire stime per il clustering e di density regression, nelle quali è possibile inserire la dipendenza da covariate in qualsiasi parte del modello. Questa tesi descrive anzitutto il paradigma bayesiano e i principali risultati teorici nell’ambito BNP e modelli mistura, descrive i modelli e gli algoritmi MCMC di cui sopra, e riporta i metodi utilizzati per le stime di densità e clustering. Segue una revisione del software bayesiano e di simulazione MCMC ad oggi disponibile, sia per modelli parametrici che nonparametrici, per desumere le caratteristiche chiave che una buona libreria MCMC dovrebbe possedere. Infine, la tesi descrive la struttura della libreria bayesmix e mostra la sua applicazione ad una manciata di librerie test.
File allegati
File Dimensione Formato  
2021_04_Guindani.pdf

non accessibile

Descrizione: Tesi completa
Dimensione 1.49 MB
Formato Adobe PDF
1.49 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/175332