Spatial regression models with differential regularization : problems and solutions in big data settings

This work focuses on a particular functional data analysis technique, namely Spatial Regression Models with Partial Differential Regularization. This class of models estimates surfaces or spatial fields when there is a prior knowledge on the phenomenon under study, which is taken into account as a penalization described with a Partial Differential Equation. In particular, we concentrate on the computational aspects in case of big datasets. The objective is twofold: on one side we develop an algorithm based on the Woodbury matrix identity to solve linear system having a particular system matrix; when this is applied on the resolution of the system needed to estimate the surface, the resolution time is considerably reduced. On the other side the target is the Generalized Cross Validation index, which is required to tune the smoothing parameter specifying the level of penalization. The calculation of this index is tackled investigating on suitable C++ libraries as well as providing a stochastic algorithm. The stochastic approach when combined with the Woodbury based system solving decreases drastically the computational time required, thus allowing the Spatial Regression Models to deal with big datasets. Moreover we show an application of this methodology to real data, analyzing the Telecom Italia database relative to mobile phone network activity in the metropolitan area of Milan. The Erlang data provided are analyzed in the light of the information on the structure of the urban tissue, supplied by the DUSAF dataset. The aim of the analysis is to verify the relation between the structure of the city and the people mobility interpreted from the Erlang data. This problem is studied including the DUSAF data as covariates in the Spatial Regression Model.

Questo lavoro di tesi si concentra su una particolare tecnica di analisi di dati funzionali, cioè su Modelli di Regressione Spaziale con Regolarizzazione di tipo Equazione alle Derivate Parziali. Questa classe di modelli è in grado di stimare superfici o campi spaziali quando si ha una conoscenza a priori sul fenomeno in esame che si possa modellizzare tramite Equazioni alle Derivate Parziali. In particolare ci concentriamo sugli aspetti computazionali nel caso di grandi dataset. Lo scopo è duplice: da un lato si sviluppa un algoritmo basato sull'identità matriciale di Woodbury che è in grado di risolvere i sistemi lineari aventi una particolare matrice di sistema; quando l'algoritmo si applica alla risoluzione del sistema necessaria per stimare la supeficie in esame il tempo di calcolo è considerabilmente diminuito. Dall'altro lato c'è lo studio dell'indice di Cross Validazione Generalizzzato, necessario per la selezione del parametro di smoothing che bilancia il livello di penalizzazione del modello. Il problema è affrontato mediante la ricerca di librerie C++ adatte al calcolo richiesto ma anche proponendo un algoritmo di tipo stocastico. L'approccio stocastico, unito alla risoluzione del sistema lineare basata sulla formula di Woodbury di cui sopra, garantisce una diminuzione drastica dei tempi di calcolo, garantendo in questo modo la possibilità di gestire grandi dataset ai Modelli di Regressione Spaziale. Inoltre si mostra un'applicazione a dati reali, analizzando il database Telecom Italia che fornisce dati relativi all'attività della rete dei telefono cellulare nell'area metropolitana di Milano. I dati Erlang forniti dal dataset sono analizzati unendo le conoscenze sulla struttura del tessuto urbano, fornite dai dati DUSAF. Lo scopo di questa analisi è di esplorare le possibili relazioni tra la struttura della città e le mobilità dei cittadini che viene evinta dai dati sulla telefonia mobile. Questo problema è studiato incorporando i dati DUSAF nel modello di regressione spaziale sotto forma di covariate.