In recent years, new technologies have provided data more complex than numbers or vectors, such as high dimensional arrays, curves, shapes, diffusion tensors... These kinds of complex data can be analysed in the framework of Object Oriented Data Analysis. This work deals with a particularly interesting example of complex data: those belonging to a Riemannian manifold. These data are particularly interesting both from a mathematical and from a practical point of view. In particular, we focus on the case of covariance operators. First, a framework is developed for the analysis of covariance operators of functional random processes, where the covariance operator itself is the object of interest. Distances for comparing positive definite covariance matrices are either extended or shown to be inapplicable for functional data. In particular, an infinite dimensional analogue of the Procrustes size and shape distance is developed. The proposed distances are used to address important inferential problems, namely, the point estimation of covariance operators and the comparison of covariance operators between two population of curves. These techniques are applied to two problems where inference concerning the covariance is of interest. Firstly, in data arising from a study into cerebral aneurysms, it is necessary to investigate the covariance structures of radius and curvature curves among different groups of patients. Secondly, in a philological study of cross-linguistic dependence, the use of covariance operators has been suggested as a way to incorporate quantitative phonetic information. It is shown that distances between languages derived from phonetic covariance functions can provide insight into relationships between the Romance languages. A second contribution lies in the introduction of spatial dependence among Riemannian data. We consider both the modeling of the dependence on the manifold, generalizing the definition of covariance in linear spaces through the expected values of square distances, and the possibility to approximate non Euclidean data in the appropriate tangent space, where traditional statistical techniques can be used. First, the Riemannian semivariogram of a field of covariance matrices is defined. Then, we propose an estimator for the mean which considers both the non Euclidean nature of the data and their spatial correlation. Simulated data are used to evaluate the performance of the proposed estimator: taking into account spatial dependence leads to better estimates when observations are irregularly spaced in the region of interest. This allows to address a meteorological problem, namely, the estimation of the covariance matrix between temperature and precipitation for the province of Quebec in Canada. Finally, a kriging estimator based on a tangent space model is proposed for covariance fields. This allows to deal with non stationary fields, the deterministic drift being handled in the tangent space with traditional spatial statistics techniques.

Le tecnologie che si sono rese diponibili negli ultimi anni forniscono tipologie di dati più complicate di semplici numeri o vettori, ad esempio array di grandi dimensioni, curve, forme geometriche, tensori di diffusione... Questi dati complessi possono essere analizzati nel contesto dell’Object Oriented Data Analysis. Questa tesi si concentra su una particolare categoria di dati complessi, quelli che appartengono ad una varietà Riemanniana. Questi dati sono interessanti sia da un punto di vista matematico, sia per le possibili applicazioni. In particolare, l’attenzione sarà focalizzata sul caso dell’analisi di operatori di covarianza. Nella prima parte della tesi verrano sviluppati gli strumenti per affrontare l’analisi di operatori di covarianza di processi funzionali aleatori, in contesti dove l’operatore stesso è oggetto di interesse. Si mostrerà come alcune metriche comunemente utilizzate per l’analisi di matrici di covarianza nel caso finito dimensionale possano essere estese anche al caso funzionale, mentre altre siano inapplicabili. In particolare, sarà definita una metrica di tipo Procuste e alcune sue proprietà saranno dimostrate. Le distanze proposte verranno poi utilizzate per affrontare alcuni importanti problemi inferenziali, come la stima puntuale di operatori di covarianza e il confronto tra gli operatori di due popolazioni di curve. Queste tecniche si mostreranno utili in due problemi applicativi. Nel primo, in un dataset proveniente da uno studio sugli aneurismi cerebrali, sarà necessario confrontare la struttura di covarianza del raggio e della curvatura dell’arteria carotide interna tra diversi gruppi di pazienti. Nel secondo, uno studio filologico per esplorare la dipendenza tra diversi linguaggi, l’operatore di covarianza tra le le intensità del suono a diverse frequenze è stato suggerito da studi recenti come un modo efficace per riassumere l’informazione fonetica del linguaggio. Verrà mostrato come in effetti le distanze tra gli operatori aiutino a comprendere le relazioni tra alcune lingue neolatine. Un secondo contributo innovativo di questa tesi risiede nell’introduzione della dipendenza spaziale nell’analisi di dati che appartengono ad una varietà Riemanniana. Saranno considerate sia la possibilità di modellizzare la dipendenza spaziale direttamente sulla varietà, sia quella di approssimare i dati in un opportuno spazio tangente, dove tecniche ben consolidate di statistica spaziale possono essere utilizzate. Per prima cosa verrà definito un semivariogramma per dati Riemanniani, grazie al quale sarà possibile costruire uno stimatore della media che tenga conto sia della natura non Euclidea dei dati, sia della loro dipendenza spaziale. Questo ci permetterà di affrontare un problema di tipo meteorologico, cioè la stima della covarianza tra temperature e precipitazioni per la regione del Quebec, Canada. Infine, una procedura di kriging verrà definita utlizzando la proiezione dei dati su di uno spazio tangente. In questo modo sarà possibile anche trattare campi non stazionari, definendo un drift deterministico sullo spazio tangente.

Covariance operators as object data : statistical methods and applications

PIGOLI, DAVIDE

Abstract

In recent years, new technologies have provided data more complex than numbers or vectors, such as high dimensional arrays, curves, shapes, diffusion tensors... These kinds of complex data can be analysed in the framework of Object Oriented Data Analysis. This work deals with a particularly interesting example of complex data: those belonging to a Riemannian manifold. These data are particularly interesting both from a mathematical and from a practical point of view. In particular, we focus on the case of covariance operators. First, a framework is developed for the analysis of covariance operators of functional random processes, where the covariance operator itself is the object of interest. Distances for comparing positive definite covariance matrices are either extended or shown to be inapplicable for functional data. In particular, an infinite dimensional analogue of the Procrustes size and shape distance is developed. The proposed distances are used to address important inferential problems, namely, the point estimation of covariance operators and the comparison of covariance operators between two population of curves. These techniques are applied to two problems where inference concerning the covariance is of interest. Firstly, in data arising from a study into cerebral aneurysms, it is necessary to investigate the covariance structures of radius and curvature curves among different groups of patients. Secondly, in a philological study of cross-linguistic dependence, the use of covariance operators has been suggested as a way to incorporate quantitative phonetic information. It is shown that distances between languages derived from phonetic covariance functions can provide insight into relationships between the Romance languages. A second contribution lies in the introduction of spatial dependence among Riemannian data. We consider both the modeling of the dependence on the manifold, generalizing the definition of covariance in linear spaces through the expected values of square distances, and the possibility to approximate non Euclidean data in the appropriate tangent space, where traditional statistical techniques can be used. First, the Riemannian semivariogram of a field of covariance matrices is defined. Then, we propose an estimator for the mean which considers both the non Euclidean nature of the data and their spatial correlation. Simulated data are used to evaluate the performance of the proposed estimator: taking into account spatial dependence leads to better estimates when observations are irregularly spaced in the region of interest. This allows to address a meteorological problem, namely, the estimation of the covariance matrix between temperature and precipitation for the province of Quebec in Canada. Finally, a kriging estimator based on a tangent space model is proposed for covariance fields. This allows to deal with non stationary fields, the deterministic drift being handled in the tangent space with traditional spatial statistics techniques.
LUCCHETTI, ROBERTO
SECCHI, PIERCESARE
22-mar-2013
Le tecnologie che si sono rese diponibili negli ultimi anni forniscono tipologie di dati più complicate di semplici numeri o vettori, ad esempio array di grandi dimensioni, curve, forme geometriche, tensori di diffusione... Questi dati complessi possono essere analizzati nel contesto dell’Object Oriented Data Analysis. Questa tesi si concentra su una particolare categoria di dati complessi, quelli che appartengono ad una varietà Riemanniana. Questi dati sono interessanti sia da un punto di vista matematico, sia per le possibili applicazioni. In particolare, l’attenzione sarà focalizzata sul caso dell’analisi di operatori di covarianza. Nella prima parte della tesi verrano sviluppati gli strumenti per affrontare l’analisi di operatori di covarianza di processi funzionali aleatori, in contesti dove l’operatore stesso è oggetto di interesse. Si mostrerà come alcune metriche comunemente utilizzate per l’analisi di matrici di covarianza nel caso finito dimensionale possano essere estese anche al caso funzionale, mentre altre siano inapplicabili. In particolare, sarà definita una metrica di tipo Procuste e alcune sue proprietà saranno dimostrate. Le distanze proposte verranno poi utilizzate per affrontare alcuni importanti problemi inferenziali, come la stima puntuale di operatori di covarianza e il confronto tra gli operatori di due popolazioni di curve. Queste tecniche si mostreranno utili in due problemi applicativi. Nel primo, in un dataset proveniente da uno studio sugli aneurismi cerebrali, sarà necessario confrontare la struttura di covarianza del raggio e della curvatura dell’arteria carotide interna tra diversi gruppi di pazienti. Nel secondo, uno studio filologico per esplorare la dipendenza tra diversi linguaggi, l’operatore di covarianza tra le le intensità del suono a diverse frequenze è stato suggerito da studi recenti come un modo efficace per riassumere l’informazione fonetica del linguaggio. Verrà mostrato come in effetti le distanze tra gli operatori aiutino a comprendere le relazioni tra alcune lingue neolatine. Un secondo contributo innovativo di questa tesi risiede nell’introduzione della dipendenza spaziale nell’analisi di dati che appartengono ad una varietà Riemanniana. Saranno considerate sia la possibilità di modellizzare la dipendenza spaziale direttamente sulla varietà, sia quella di approssimare i dati in un opportuno spazio tangente, dove tecniche ben consolidate di statistica spaziale possono essere utilizzate. Per prima cosa verrà definito un semivariogramma per dati Riemanniani, grazie al quale sarà possibile costruire uno stimatore della media che tenga conto sia della natura non Euclidea dei dati, sia della loro dipendenza spaziale. Questo ci permetterà di affrontare un problema di tipo meteorologico, cioè la stima della covarianza tra temperature e precipitazioni per la regione del Quebec, Canada. Infine, una procedura di kriging verrà definita utlizzando la proiezione dei dati su di uno spazio tangente. In questo modo sarà possibile anche trattare campi non stazionari, definendo un drift deterministico sullo spazio tangente.
Tesi di dottorato
File allegati
File Dimensione Formato  
Pigoli PhD Thesis.pdf

Open Access dal 08/03/2014

Descrizione: Thesis manuscript
Dimensione 3.31 MB
Formato Adobe PDF
3.31 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/74703