Providing safe drinking water is essential for human health. To achieve this, analyzing multidimensional spectroscopic measurements of water, such as absorbance and fluorescence spectra, is crucial. However, measuring such parameters entails significant time and instrumental efforts. Therefore, it is essential to develop statistical tools to minimize the required lab analyses. We propose a bivariate functional data model, where each sampling unit comprises the bivariate target: absorbance and fluorescence. We employed a Bayesian bivariate functional latent factor model extending [Montagna2012]. In our water analyses application, interpretable posterior distributions of the latent factors are crucial, thus we addressed their identifiability question applying the Varimax-RSP algorithm. We developed a Python package, available on GitHub, implementing our model and an extensive toolbox for the exploration of its posterior and posterior predictive distribution, tailored to the use-case of applied functional data analysis. Stan Hamiltonian Monte Carlo No U-Turn Sampler was applied to sample the posterior distribution, employing efficient computations of the likelihood function. This was achieved projecting the likelihood functions on a low-dimensional vector space, and observing the property of full conjugacy, of the residual of such projection, with a portion of the prior distribution. Finally this methodology was validated using both simulated and real datasets, showcasing its applicability to a variety of functional data analysis problems, including the water data from the European Project SafeCREW.

Fornire acqua potabile sicura è essenziale per la salute umana. Per raggiungere questo obiettivo, è cruciale analizzare delle misurazioni spettroscopiche multidimensionali dell'acqua, come gli spettri di assorbanza e fluorescenza. Tuttavia, la misurazione di tali parametri comporta significativi sforzi in termini di tempo e strumentazione. Pertanto, è essenziale sviluppare strumenti statistici per minimizzare le analisi di laboratorio richieste. Proponiamo un modello per dati funzionali bivariati, dove ogni unità di campionamento comprende il target bivariato: assorbanza e fluorescenza. Abbiamo impiegato un modello Bayesiano funzionale bivariato a fattori latenti, estendendo [Montagna2012]. Nella nostra applicazione di analisi dell'acqua, è cruciale ottenere distribuzioni a posteriori interpretabili dei fattori latenti, quindi abbiamo affrontato la loro questione di identificabilità, applicando l'algoritmo Varimax-RSP. Abbiamo sviluppato un pacchetto Python, disponibile su GitHub, che implementa il nostro modello e un ampio toolbox per l'esplorazione della sua distribuzione a posteriori e predittiva a posteriori, su misura per il caso d'uso dell'analisi di dati funzionali. L'Hamiltonian Monte Carlo No U-Turn Sampler di Stan è stato applicato per campionare la distribuzione a posteriori, impiegando calcoli efficienti della funzione di verosimiglianza. Ciò è stato raggiunto proiettando le funzioni di verosimiglianza su uno spazio vettoriale a bassa dimensionalità, e osservando la proprietà di completa coniugazione del residuo di tale proiezione, con una parte della distribuzione a priori. Infine questa metodologia è stata validata, utilizzando sia insiemi di dati simulati che reali, incluso dati sull'acqua provenienti dal Progetto Europeo SafeCREW, dimostrando la sua applicabilità a una varietà di problemi di analisi di dati funzionali.

Bayesian latent factor modeling for multi-target inference

URSINO, BRUNO
2023/2024

Abstract

Providing safe drinking water is essential for human health. To achieve this, analyzing multidimensional spectroscopic measurements of water, such as absorbance and fluorescence spectra, is crucial. However, measuring such parameters entails significant time and instrumental efforts. Therefore, it is essential to develop statistical tools to minimize the required lab analyses. We propose a bivariate functional data model, where each sampling unit comprises the bivariate target: absorbance and fluorescence. We employed a Bayesian bivariate functional latent factor model extending [Montagna2012]. In our water analyses application, interpretable posterior distributions of the latent factors are crucial, thus we addressed their identifiability question applying the Varimax-RSP algorithm. We developed a Python package, available on GitHub, implementing our model and an extensive toolbox for the exploration of its posterior and posterior predictive distribution, tailored to the use-case of applied functional data analysis. Stan Hamiltonian Monte Carlo No U-Turn Sampler was applied to sample the posterior distribution, employing efficient computations of the likelihood function. This was achieved projecting the likelihood functions on a low-dimensional vector space, and observing the property of full conjugacy, of the residual of such projection, with a portion of the prior distribution. Finally this methodology was validated using both simulated and real datasets, showcasing its applicability to a variety of functional data analysis problems, including the water data from the European Project SafeCREW.
ANTONELLI, MANUELA
CANTONI, BEATRICE
TROVÒ, FRANCESCO
ING - Scuola di Ingegneria Industriale e dell'Informazione
9-apr-2024
2023/2024
Fornire acqua potabile sicura è essenziale per la salute umana. Per raggiungere questo obiettivo, è cruciale analizzare delle misurazioni spettroscopiche multidimensionali dell'acqua, come gli spettri di assorbanza e fluorescenza. Tuttavia, la misurazione di tali parametri comporta significativi sforzi in termini di tempo e strumentazione. Pertanto, è essenziale sviluppare strumenti statistici per minimizzare le analisi di laboratorio richieste. Proponiamo un modello per dati funzionali bivariati, dove ogni unità di campionamento comprende il target bivariato: assorbanza e fluorescenza. Abbiamo impiegato un modello Bayesiano funzionale bivariato a fattori latenti, estendendo [Montagna2012]. Nella nostra applicazione di analisi dell'acqua, è cruciale ottenere distribuzioni a posteriori interpretabili dei fattori latenti, quindi abbiamo affrontato la loro questione di identificabilità, applicando l'algoritmo Varimax-RSP. Abbiamo sviluppato un pacchetto Python, disponibile su GitHub, che implementa il nostro modello e un ampio toolbox per l'esplorazione della sua distribuzione a posteriori e predittiva a posteriori, su misura per il caso d'uso dell'analisi di dati funzionali. L'Hamiltonian Monte Carlo No U-Turn Sampler di Stan è stato applicato per campionare la distribuzione a posteriori, impiegando calcoli efficienti della funzione di verosimiglianza. Ciò è stato raggiunto proiettando le funzioni di verosimiglianza su uno spazio vettoriale a bassa dimensionalità, e osservando la proprietà di completa coniugazione del residuo di tale proiezione, con una parte della distribuzione a priori. Infine questa metodologia è stata validata, utilizzando sia insiemi di dati simulati che reali, incluso dati sull'acqua provenienti dal Progetto Europeo SafeCREW, dimostrando la sua applicabilità a una varietà di problemi di analisi di dati funzionali.
File allegati
File Dimensione Formato  
2024_04_Ursino_Tesi_01.pdf

Open Access dal 20/03/2025

Descrizione: Tesi
Dimensione 6.97 MB
Formato Adobe PDF
6.97 MB Adobe PDF Visualizza/Apri
2024_04_Ursino_Executive Summary_02.pdf

non accessibile

Descrizione: Executive Summary
Dimensione 870.87 kB
Formato Adobe PDF
870.87 kB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/219567