Optimized computational techniques for spatial regression models with differential regularization

This thesis investigates some computational aspects of an innovative class of statistical models: Spatial Regression techniques with Partial Differential Equation regularization (SR-PDE). SR-PDE approach applies the concept of regularization in an original way, incorporating in the estimate some knowledge coming from the physical nature of the phenomenon under study. This allows to estimate spatial or spatio-temporal fields combining ideas coming from statistics, applied mathematics and engineering. Accordingly, the method is particularly suited to model real-world problems, where massive datasets are sampled on complex domains, possibly approximated by meshes counting thousands of nodes. Despite the complexity of the setting, the approach always revolves around the solution of one or more large linear systems. This thesis addresses the study of such systems exploiting a classic matrix identity, Woodbury's identity, in an innovative way, to decrease the computational burden of the resolution. At the same time, it also studies how to adjust the PDE influence over the estimate. SR-PDE is a linear smoother, as such it uses a smoothing parameter to tune the PDE contribution. This thesis translates several well established parameter evaluation criteria in SR-PDE language and studies their pros and cons. Later, it focuses on one loss function, known as Generalized Cross-Validation, for which it proposes ad hoc optimization methods. In line with the goal of enhancing the computational tractability of the problem, this thesis integrates some stochastic trace estimation techniques into the algorithms, thus dramatically reducing the computational costs, without excessive loss in terms of accuracy. A C++ implementation of all the methods discussed herein is freely available as part of a CRAN package, called fdaPDE. The thesis also shows some simulations to compare these innovative techniques with other simpler strategies, quantifying the improvements in terms of times and accuracy. We conclude the study with an application to a challenging neuroimaging problem, which presents all the criticalities overcome by SR-PDE.

Questo lavoro di tesi si occupa dello studio computazionale di modelli di regressione spaziale regolarizzati attraverso Equazioni alle Derivate Parziali (EDP). Questa famiglia di tecniche statistiche permette di stimare campi spaziali o spazio-temporali incorporando nella predizione conoscenze specifiche sul fenomeno in esame, previa la loro modellizzazione in termini di un'EDP. Data la flessibilità del criterio, questa classe di modelli ben si presta alla risoluzione di problemi computazionalmente onerosi sia per numero di dati considerati, sia per complessità dei domini coinvolti (spesso approssimati da triangolazioni aventi decine di migliaia di nodi). Nonostante la difficoltà teorica del metodo, approssimazioni numeriche avanzate permettono di ridurre il problema di stima alla risoluzione di uno o più sistemi lineari. A tale proposito, questa tesi studia un'applicazione innovativa dell'identità matriciale di Woodbury, che consente di abbassare drasticamente i costi di risoluzione. Similmente, la tesi si occupa dell'identificazione di un opportuno parametro di penalizzazione, atto a ponderare efficacemente il contributo dell'EDP alla predizione. Il presente lavoro analizza diverse cifre di merito che permettano di eseguire tale valutazione. In particolare, si focalizza su una funzione nota come Cross-Validazione Generalizzata, per la quale si propongono tecniche di ottimizzazione ad hoc. Sempre nel tentativo di affinare il costo computazionale della procedura, la tesi integra gli algoritmi sviluppati con una stima stocastica di tracce matriciali. Scelta che permette di ridurre notevolmente il tempo totale di esecuzione, senza perdite eccessive in termini di precisione. Tutti gli algoritmi proposti sono stati testati su semplici modelli ed i confronti hanno sempre evidenziato vantaggi in termini computazionali. I paragoni sono resi possibili dall'implementazione delle metodologie precedentemente descritte in linguaggio C++, ora presenti nel pacchetto CRAN fdaPDE. Il lavoro si conclude con un'applicazione a dati reali, tratti da imaging cerebrale, evidenzianti tutte le complessità strutturali che questa tesi si è proposta di risolvere.