This thesis considers two aspects of count data that can raise in a real case scenario: the over-abundance of the zero value and the spatial reference. When there is an excess of zeros the more conventional probabilistic distributions, such as Poisson or Negative Binomial, are inefficient. The proposed alternative solution to the problem is the hurdle distribution, where all zeros are enclosed in a probability point mass at zero and a discrete distribution is truncated to account for only the strictly positive observations. Four Bayesian models that exploits Poisson hurdle distributions are introduced and tested with synthetic data. Therefore we consider a dataset in which the burned hectares of a forest are assumed to have a Poisson hurdle distribution. Furthermore each observation is characterized by geological and meteorological measurements which act as covariates and by a spatial reference such that each observation belongs to a sub-region treated as a group. The most suitable model out of the four proposed, has been applied to the dataset. It has a regression structure in order to take into account the covariates and some group-specific random effects to explain the spatial dependence. After assigning some prior distributions to the model parameters we obtain the posterior distributions (using Markov Chain Monte Carlo methods to sample from them). Then a Bayesian inference on the parameters is performed to assert the relevance (or not) of the group structure among data and which covariates are the most significant. We have also compared the bayesian estimates of the parameters with empirical ones (computed through the MLE). At the end a prediction on new unseen data is made.

Questa tesi considera due aspetti dei dati discreti che possono nascere in uno scenario reale: l'estrema abbondanza del valore zero e la dipendenza spaziale. Quando c'è un eccesso di zeri le convenzionali distribuzioni di probabilità, come Poisson o Binomiale Negativa, risultano inefficienti. La soluzione alternativa proposta è la distribuzione hurdle, in cui gli zeri sono rappresentati da un unico punto di massa di probabilità a zero e una ditribuzione discreta viene troncata per tener conto solo dei valori strettamenti positivi. Quattro modelli Bayesiani che sfruttano la distribuzione Poisson hurdle sono presentati e testati su dati artificiali. Poi consideriamo un dataset dove gli ettari bruciati di una foresta sono ritenuti avere una distribuzione Poisson hurdle. Inoltre ogni osservazione è caratterizzata da misurazioni meteorologiche e geologiche che fungono da covariate e da un riferimento spaziale secondo cui ogni osservazione appartiene ad una sotto-regione, trattata come un gruppo. Il modello dei quattro proposti più adatto è applicato al dataset. Si tratta di quello che presenta una regressione per tener conto delle covariate e dei random effects di gruppo per spiegare il riferimento geografico. Dopo aver assegnato ai parametri del modello delle distribuzioni a priori abbiamo ottenuto le distribuzioni a posteriori (usando le catene di Markov Monte Carlo per campionare). Poi abbiamo fatto inferenza bayesiana sui parametri per asserire la significatività o meno della struttura a gruppi dei dati e quali covariate fossero le più significative. Abbiamo confrontato la stima bayesiana dei parametri con quella empirica (calcolata con MLE) e infine è stata fatta predizione su nuovi dati inosservati.

A Bayesian Poisson hurdle model applied to spatial data

Rescaldani, Jacopo
2021/2022

Abstract

This thesis considers two aspects of count data that can raise in a real case scenario: the over-abundance of the zero value and the spatial reference. When there is an excess of zeros the more conventional probabilistic distributions, such as Poisson or Negative Binomial, are inefficient. The proposed alternative solution to the problem is the hurdle distribution, where all zeros are enclosed in a probability point mass at zero and a discrete distribution is truncated to account for only the strictly positive observations. Four Bayesian models that exploits Poisson hurdle distributions are introduced and tested with synthetic data. Therefore we consider a dataset in which the burned hectares of a forest are assumed to have a Poisson hurdle distribution. Furthermore each observation is characterized by geological and meteorological measurements which act as covariates and by a spatial reference such that each observation belongs to a sub-region treated as a group. The most suitable model out of the four proposed, has been applied to the dataset. It has a regression structure in order to take into account the covariates and some group-specific random effects to explain the spatial dependence. After assigning some prior distributions to the model parameters we obtain the posterior distributions (using Markov Chain Monte Carlo methods to sample from them). Then a Bayesian inference on the parameters is performed to assert the relevance (or not) of the group structure among data and which covariates are the most significant. We have also compared the bayesian estimates of the parameters with empirical ones (computed through the MLE). At the end a prediction on new unseen data is made.
ING - Scuola di Ingegneria Industriale e dell'Informazione
20-dic-2022
2021/2022
Questa tesi considera due aspetti dei dati discreti che possono nascere in uno scenario reale: l'estrema abbondanza del valore zero e la dipendenza spaziale. Quando c'è un eccesso di zeri le convenzionali distribuzioni di probabilità, come Poisson o Binomiale Negativa, risultano inefficienti. La soluzione alternativa proposta è la distribuzione hurdle, in cui gli zeri sono rappresentati da un unico punto di massa di probabilità a zero e una ditribuzione discreta viene troncata per tener conto solo dei valori strettamenti positivi. Quattro modelli Bayesiani che sfruttano la distribuzione Poisson hurdle sono presentati e testati su dati artificiali. Poi consideriamo un dataset dove gli ettari bruciati di una foresta sono ritenuti avere una distribuzione Poisson hurdle. Inoltre ogni osservazione è caratterizzata da misurazioni meteorologiche e geologiche che fungono da covariate e da un riferimento spaziale secondo cui ogni osservazione appartiene ad una sotto-regione, trattata come un gruppo. Il modello dei quattro proposti più adatto è applicato al dataset. Si tratta di quello che presenta una regressione per tener conto delle covariate e dei random effects di gruppo per spiegare il riferimento geografico. Dopo aver assegnato ai parametri del modello delle distribuzioni a priori abbiamo ottenuto le distribuzioni a posteriori (usando le catene di Markov Monte Carlo per campionare). Poi abbiamo fatto inferenza bayesiana sui parametri per asserire la significatività o meno della struttura a gruppi dei dati e quali covariate fossero le più significative. Abbiamo confrontato la stima bayesiana dei parametri con quella empirica (calcolata con MLE) e infine è stata fatta predizione su nuovi dati inosservati.
File allegati
File Dimensione Formato  
Rescaldani_Jacopo.pdf

accessibile in internet per tutti

Dimensione 11.45 MB
Formato Adobe PDF
11.45 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/196920