This manuscript deals with the problem of inference for functional data, from both a global and a component-wise perspective. The first methodology developed in this work is a distribution-free inferential method for the mean of functional data based on a generalization of Hotelling's T^2 statistic in functional Hilbert spaces. The proposed statistic is the natural extension in the infinite-dimensional framework of the statistical tools for testing the mean with unknown variance, from the works of Gosset (Student) and Fisher at the beginning of the twentieth century, up to the earlier extensions of Hotelling's T^2 to high dimensional data. The proposed method is a global inferential procedure, i.e., it provides a unique result over the whole domain of the curves. For instance, it is able to test whether two functional populations have the same mean, but in case of rejection of the latter hypothesis, it is not able to select the parts of the domain presenting the differences. To answer this question, we develop in this manuscript a novel methodology, namely, the Interval Testing Procedure (ITP). This procedure is based on the expansion of data on a (possibly high-dimensional) functional basis, and provides the selection of the basis coefficients that lead to a rejection of the null hypothesis. If a local basis -such as B-splines- is used, the ITP can be used to identify regions of the domain of statistical significance. The procedure is developed for the case of testing the mean of one and two populations, and for testing the parameters of a functional-on-scalar linear model. The ITP is then employed to analyze and test functional data sets coming from different applications. A functional one-way ANOVA and a functional ANCOVA are performed to analyze knee movement data, on a follow-up study on Anterior Cruciate Ligament ruptures. The procedure is also employed in a remote sensing application, to identify the regions of wavelengths of the observed spectra that are relevant for the monitoring processing. Finally, the ITP for one-sample inference is applied to assess the uncertainty about solar energy generation systems. The methodologies developed in this work are implemented in the fdatest R package, available on CRAN.

Questa tesi tratta il problema dell’inferenza per dati funzionali, sia da un punto di vista globale, che focalizzato sulle componenti. Il primo metodo inferenziale sviluppato in questo lavoro è un test non parametrico per la media di dati funzionali, basato su di una generalizzazione a spazi di Hilbert funzionali della statistica T^2 di Hotelling. La statistica proposta è l’estensione naturale al caso infinito dimensionale di metodi classici per testare la media con varianza incognita, partendo dai primi lavori di Gosset (Student) e Fisher all’inizio del ventesimo secolo, fino alle più recenti estensioni del T^2 di Hotelling a dati ad alta dimensionalità. Si tratta di un metodo per l’inferenza globale, ovvero di una tecnica che fornisce un unico risultato sull’intero dominio delle curve. La procedura può essere utilizzata, per esempio, per testare se due popolazioni funzionali hanno la stessa media, ma nel caso di rifiuto di quest’ultima ipotesi, non è in grado di selezionare le parti del dominio nelle quali la media è diversa. Per rispondere a quest’ultimo problema, in questa tesi viene sviluppato un nuovo metodo chiamato Interval Testing Procedure (ITP). Questa procedura si basa sull’espansione dei dati su di una base funzionale (eventualmente caratterizzata da alta dimensionalità), e fornisce una selezione dei coefficienti dell’espansione che portano ad un rifiuto dell’ipotesi nulla. Se la base utilizzata è locale, come per esempio la base B-spline, l’ITP può essere utilizzato per selezionare le regioni del dominio statisticamente significative. La procedura è sviluppata per i test sulla media di una o due popolazioni, e per testare la significatività dei parametri di un modello lineare funzionale. L’ITP è poi utilizzato per analizzare e testare set di dati funzionali legati a diverse applicazioni. Una ANOVA e un’ANCOVA funzionali sono utilizzate per l’analisi di dati di movimenti del ginocchio a seguito di uno studio sulla rottura del legamento crociato anteriore. La procedura è poi utilizzata in una applicazione di controllo remoto, al fine di identificare le regioni di lunghezza d’onda dei segnali osservati che presentano maggiore rilevanza per il processo di monitoraggio. Infine, l’ITP per inferenza su un campione di dati funzionali è applicato al fine di quantificare l’incertezza che caratterizza la produzione di energia solare fotovoltaica. Le metodologie sviluppate in questo lavoro sono implementate nel pacchetto R fdatest, disponibile sul CRAN.

Global and component-wise distribution-free inference for functional data: methods and applications

PINI, ALESSIA

Abstract

This manuscript deals with the problem of inference for functional data, from both a global and a component-wise perspective. The first methodology developed in this work is a distribution-free inferential method for the mean of functional data based on a generalization of Hotelling's T^2 statistic in functional Hilbert spaces. The proposed statistic is the natural extension in the infinite-dimensional framework of the statistical tools for testing the mean with unknown variance, from the works of Gosset (Student) and Fisher at the beginning of the twentieth century, up to the earlier extensions of Hotelling's T^2 to high dimensional data. The proposed method is a global inferential procedure, i.e., it provides a unique result over the whole domain of the curves. For instance, it is able to test whether two functional populations have the same mean, but in case of rejection of the latter hypothesis, it is not able to select the parts of the domain presenting the differences. To answer this question, we develop in this manuscript a novel methodology, namely, the Interval Testing Procedure (ITP). This procedure is based on the expansion of data on a (possibly high-dimensional) functional basis, and provides the selection of the basis coefficients that lead to a rejection of the null hypothesis. If a local basis -such as B-splines- is used, the ITP can be used to identify regions of the domain of statistical significance. The procedure is developed for the case of testing the mean of one and two populations, and for testing the parameters of a functional-on-scalar linear model. The ITP is then employed to analyze and test functional data sets coming from different applications. A functional one-way ANOVA and a functional ANCOVA are performed to analyze knee movement data, on a follow-up study on Anterior Cruciate Ligament ruptures. The procedure is also employed in a remote sensing application, to identify the regions of wavelengths of the observed spectra that are relevant for the monitoring processing. Finally, the ITP for one-sample inference is applied to assess the uncertainty about solar energy generation systems. The methodologies developed in this work are implemented in the fdatest R package, available on CRAN.
LUCCHETTI, ROBERTO
VANTINI, SIMONE
15-dic-2014
Questa tesi tratta il problema dell’inferenza per dati funzionali, sia da un punto di vista globale, che focalizzato sulle componenti. Il primo metodo inferenziale sviluppato in questo lavoro è un test non parametrico per la media di dati funzionali, basato su di una generalizzazione a spazi di Hilbert funzionali della statistica T^2 di Hotelling. La statistica proposta è l’estensione naturale al caso infinito dimensionale di metodi classici per testare la media con varianza incognita, partendo dai primi lavori di Gosset (Student) e Fisher all’inizio del ventesimo secolo, fino alle più recenti estensioni del T^2 di Hotelling a dati ad alta dimensionalità. Si tratta di un metodo per l’inferenza globale, ovvero di una tecnica che fornisce un unico risultato sull’intero dominio delle curve. La procedura può essere utilizzata, per esempio, per testare se due popolazioni funzionali hanno la stessa media, ma nel caso di rifiuto di quest’ultima ipotesi, non è in grado di selezionare le parti del dominio nelle quali la media è diversa. Per rispondere a quest’ultimo problema, in questa tesi viene sviluppato un nuovo metodo chiamato Interval Testing Procedure (ITP). Questa procedura si basa sull’espansione dei dati su di una base funzionale (eventualmente caratterizzata da alta dimensionalità), e fornisce una selezione dei coefficienti dell’espansione che portano ad un rifiuto dell’ipotesi nulla. Se la base utilizzata è locale, come per esempio la base B-spline, l’ITP può essere utilizzato per selezionare le regioni del dominio statisticamente significative. La procedura è sviluppata per i test sulla media di una o due popolazioni, e per testare la significatività dei parametri di un modello lineare funzionale. L’ITP è poi utilizzato per analizzare e testare set di dati funzionali legati a diverse applicazioni. Una ANOVA e un’ANCOVA funzionali sono utilizzate per l’analisi di dati di movimenti del ginocchio a seguito di uno studio sulla rottura del legamento crociato anteriore. La procedura è poi utilizzata in una applicazione di controllo remoto, al fine di identificare le regioni di lunghezza d’onda dei segnali osservati che presentano maggiore rilevanza per il processo di monitoraggio. Infine, l’ITP per inferenza su un campione di dati funzionali è applicato al fine di quantificare l’incertezza che caratterizza la produzione di energia solare fotovoltaica. Le metodologie sviluppate in questo lavoro sono implementate nel pacchetto R fdatest, disponibile sul CRAN.
Tesi di dottorato
File allegati
File Dimensione Formato  
2014_12_PhD_Pini.pdf

accessibile in internet per tutti

Descrizione: Testo della tesi
Dimensione 5.98 MB
Formato Adobe PDF
5.98 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/98547