In several disciplines, like economics, environmental and health science, observations are represented as curves over a time domain. In these fields, linear and generalized linear mixed models enhance the flexibility of traditional linear models by incorporating random effects. However, in real world application, the conventional parametric assumptions for such effects may be too limiting. To address this limitation, in this study we explore the use of Dirichlet Process Mixtures (DPMs) as a nonparametric alternative for modeling random effects in functional regression settings. DPMs not only provide greater flexibility but also induce a natural clustering effect. We develop and evaluate a Function-on-Scalar model that incorporates DPMs by considering first scalar random effects and then we expand the model to include functional random curves. We study different alternatives of the model in order to improve the performance and to mitigate dimensionality issues. Through the employment of synthetic data, we show that our model successfully performs regression while simultaneously uncovering latent clusters. We conclude by adding another level of complexity and considering a binary treatment effect variable. We test the latter model on synthetic data and on real world dataset of individuals affected by Parkinson's Disease. The results show a strong fit for the functional coefficients and random effects in the synthetic setting, while on the real dataset they allow us to make meaningful inferences about the estimated effects.

In diverse discipline, come economia, scienze ambientali e in medicina, i dati sono raccolti sotto forma di curve con valori in un dominio temporale. In questi settori, i modelli lineari e generalizzati misti lineari migliorano la flessibilità dei modelli lineari tradizionali incorporando effetti casuali. Tuttavia, in applicazioni reali, le ipotesi parametriche convenzionali per tali effetti possono risultare troppo limitanti. Per ovviare a questa limitazione, in questo studio esploriamo l'uso di misture di processi di Dirichlet (DPM) come alternativa non parametrica per modellare gli effetti casuali in contesti di regressione funzionale. Le DPM non solo offrono una maggiore flessibilità ma inducono anche un effetto clustering sui dati. In questa tesi viene sviluppato e valutato un modello Function-on-Scalar che incorpora le DPM, considerando prima gli effetti casuali come variabili scalari e poi espandendo il modello per includere curve casuali funzionali. Diverse alternative del modello sono studiate e presentate al fine di migliorare le prestazioni e mitigare i problemi di dimensionalità. Attraverso l'impiego di dati sintetici, dimostriamo che il nostro modello performa con successo la task di regressione e contemporaneamente scopre cluster latenti. Concludiamo aggiungendo un ulteriore livello di complessità e considerando una variabile binaria per includere un effetto trattamento. Testiamo quest'ultimo modello su dati sintetici e su un set di dati reali di individui affetti dal morbo di Parkinson. I risultati mostrano un buon fit per i coefficienti funzionali e gli effetti casuali nel contesto sintetico, mentre sui dati reali ci permettono di fare inferenza significativa sugli effetti stimati.

Dirichlet process based models for functional data: a Bayesian approach to random effects estimation

D'Amicantonio, Silvia
2024/2025

Abstract

In several disciplines, like economics, environmental and health science, observations are represented as curves over a time domain. In these fields, linear and generalized linear mixed models enhance the flexibility of traditional linear models by incorporating random effects. However, in real world application, the conventional parametric assumptions for such effects may be too limiting. To address this limitation, in this study we explore the use of Dirichlet Process Mixtures (DPMs) as a nonparametric alternative for modeling random effects in functional regression settings. DPMs not only provide greater flexibility but also induce a natural clustering effect. We develop and evaluate a Function-on-Scalar model that incorporates DPMs by considering first scalar random effects and then we expand the model to include functional random curves. We study different alternatives of the model in order to improve the performance and to mitigate dimensionality issues. Through the employment of synthetic data, we show that our model successfully performs regression while simultaneously uncovering latent clusters. We conclude by adding another level of complexity and considering a binary treatment effect variable. We test the latter model on synthetic data and on real world dataset of individuals affected by Parkinson's Disease. The results show a strong fit for the functional coefficients and random effects in the synthetic setting, while on the real dataset they allow us to make meaningful inferences about the estimated effects.
CORRADIN, RICCARDO
RAYKOV, YORDAN
ING - Scuola di Ingegneria Industriale e dell'Informazione
3-apr-2025
2024/2025
In diverse discipline, come economia, scienze ambientali e in medicina, i dati sono raccolti sotto forma di curve con valori in un dominio temporale. In questi settori, i modelli lineari e generalizzati misti lineari migliorano la flessibilità dei modelli lineari tradizionali incorporando effetti casuali. Tuttavia, in applicazioni reali, le ipotesi parametriche convenzionali per tali effetti possono risultare troppo limitanti. Per ovviare a questa limitazione, in questo studio esploriamo l'uso di misture di processi di Dirichlet (DPM) come alternativa non parametrica per modellare gli effetti casuali in contesti di regressione funzionale. Le DPM non solo offrono una maggiore flessibilità ma inducono anche un effetto clustering sui dati. In questa tesi viene sviluppato e valutato un modello Function-on-Scalar che incorpora le DPM, considerando prima gli effetti casuali come variabili scalari e poi espandendo il modello per includere curve casuali funzionali. Diverse alternative del modello sono studiate e presentate al fine di migliorare le prestazioni e mitigare i problemi di dimensionalità. Attraverso l'impiego di dati sintetici, dimostriamo che il nostro modello performa con successo la task di regressione e contemporaneamente scopre cluster latenti. Concludiamo aggiungendo un ulteriore livello di complessità e considerando una variabile binaria per includere un effetto trattamento. Testiamo quest'ultimo modello su dati sintetici e su un set di dati reali di individui affetti dal morbo di Parkinson. I risultati mostrano un buon fit per i coefficienti funzionali e gli effetti casuali nel contesto sintetico, mentre sui dati reali ci permettono di fare inferenza significativa sugli effetti stimati.
File allegati
File Dimensione Formato  
2025_04_D_Amicantonio_Executive Summary_02.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: testo Executive Summary
Dimensione 2.31 MB
Formato Adobe PDF
2.31 MB Adobe PDF   Visualizza/Apri
2025_04_D_Amicantonio_Thesis_01.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: testo Tesi
Dimensione 12.33 MB
Formato Adobe PDF
12.33 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/235804