A new approach to Functional Partial Least Squares, with applications to neuroimaging

Partial least squares (PLS) is a family of techniques suitable for the analysis of highly collinear variable sets, especially useful when the number of variables exceeds the sample size. PLS addresses these challenges by finding a limited number of latent variables that capture a significant proportion of covariance between the datasets. The PLS family includes symmetric methods like PLS mode A and SVD, which focus on capturing the association between the latent X and Y variables, and asymmetric ones like PLS regression, aimed at identifying the best latent X variables as linear predictors for the latent Y variables. Functional extensions of PLS (fPLS) have been developed to enhance the modelling of functional data, common in PLS applications. However, fPLS methods typically support only 1D data and struggle with functional data defined over multidimensional non-Euclidean spaces or domains with holes and concavities. To address this gap, we introduce two functional extensions of PLS mode A and SVD suitable for modelling complex functional data. The presented techniques rely on a nonparametric regression model with regularizing terms involving partial differential equations to account for the functional nature of the data. We also develop a simulation framework to test the model performance in terms of data reconstruction and accuracy of the latent estimates, varying both the model parameters and the noise conditions. Our results suggest that the proposed fPLS techniques are effective in capturing the functional nature of the data and outperform their multivariate counterparts. Finally, we show some results concerning an application of the proposed techniques to a neuroimaging and behavioural dataset.

Partial least squares (PLS) è una famiglia di tecniche per l'analisi di due o più insiemi di variabili, particolarmente utili quando le variabili sono altamente collineari o il loro numero supera la dimensione del campione. PLS affronta questi aspetti identificando un numero limitato di variabili latenti che catturano una proporzione significativa della covarianza tra i datasets. La famiglia include metodi simmetrici come PLS A e SVD, volti a catturare le associazioni lineari tra le variabili latenti in X e Y, e la regressione PLS asimmetrica, volta a identificare le componenti latenti in X che siano migliori predittori lineari delle componenti latenti in Y. Per una migliore modellizzazione dei dati funzionali, comuni nelle applicazioni PLS, sono state sviluppate estensioni funzionali del PLS (fPLS). Tuttavia, tali metodi supportano tipicamente solo dati 1D e non riescono a gestire dati funzionali complessi come quelli su domini non euclidei o che presentano buchi e concavità. Per colmare tale lacuna, in questa tesi presentiamo due estensioni funzionali di PLS A e SVD applicabili a dati funzionali definiti su domini complessi. Le tecniche proposte si fondano su un approccio basato sulla regressione non parametrica con una regolarizzazione che utilizza equazioni differenziali alle derivate parziali. Sviluppiamo anche un framework di simulazione per valutare le prestazioni dei metodi presentati in termini di ricostruzione dei dati e accuratezza delle stime delle componenti latenti, variando sia i parametri del modello che il rumore. I risultati presentati suggeriscono che le tecniche proposte sono efficaci nel catturare la natura funzionale dei dati meglio delle loro controparti multivariate. Infine, presentiamo alcuni risultati preliminari riguardanti un'applicazione di fPLS su dati comportamentali e di neuroimaging.