This work explores the problem of drawing robust, statistical inference from real, complex functional data. This is a particular instance of the Big Data concept where high-dimensional observations are constituted by measurements of some quantity of interest that can be naturally indexed with respect to an independent variable, like time or space. The recent research branch of Functional Data Analysis (FDA) has been steadily growing around the analysis of such data, thanks to the flexibility and wide applicability of the functional data model to a number of different phenomena, e.g. in environmental, economical, biomedical or engineering disciplines. Due to the richness and complexity of functional data, a common problem to virtually any FDA application is the correct inspection and management of data variability. Although that, outlier detection and robust statistics are not yet a well-established practice in FDA. Considering that in this context inference typically relies on a small number of observations compared to their degrees of freedom, and thus datasets can become easily contaminated by noisy observations or unnatural variability, the need for proper robust techniques is pressing. The objective of this work is to share some new contributions to this field, in terms of both new methods and tools, motivated by real applications. These contributions are based on some concepts from robust statistics for multivariate data that have been recently extended to the functional case, like statistical depths, multi-dimensional quantiles and robust estimators. We will show how such techniques can be used either for a safe exploration of functional datasets and identification of anomalous observations, or as flexible and meaningful building blocks for further inferential analyses.

Il presente lavoro di tesi esplora il problema dell'inferenza statistica robusta per dati funzionali reali e complessi. Tali dati sono una particolare istanza del concetto di Big Data e sono costituiti da osservazioni ad alta dimensionalità che rappresentano misurazioni di una certa quantità d'interesse naturalmente indicizzabili rispetto ad una variabile indipendente, ad esempio il tempo o lo spazio. Il ramo di ricerca della Functional Data Analysis (FDA) si è recentemente sviluppato attorno all'analisi di tali dati, grazie alla flessibilità e agli ampi margini di applicabilità del modello di dati funzionali a numerosi fenomeni, ad esempio nelle scienze ambientali, economiche biomediche o ingegneristiche. A causa della ricchezza e della complessità dei dati funzionali, un problema comune virtualmente ad ogni applicazione è la corretta analisi e gestione della variabilità dei dati. Nonostante ciò, l'identificazione di osservazioni estreme e la statistica robusta non sono ancora una pratica affermata nella FDA. Considerando che in questo contesto l'inferenza si basa tipicamente su un numero ridotto di osservazioni rispetto al numero dei loro gradi di libertà, e che pertanto i set di dati possono essere facilmente contaminati da osservazioni rumorose o da variabilità fittizia, l'esigenza di opportune tecniche robuste è diventata importante. L'obiettivo di questo lavoro è di fornire alcuni contributi a tale pratica, in termini sia di nuovi metodi che strumenti, con motivazioni tratte da applicazioni reali. Questi contributi sono basati su concetti tratti dalla statistica robusta per dati multivariati che sono stati recentemente estesi al caso dei dati funzionali, come le profondità statistiche, i quantili multi-dimensionali e gli stimatori robusti. Verrà mostrato come queste tecniche possano essere usate sia per una corretta esplorazione di set di dati funzionali e per l'identificazione di osservazioni anomale, sia come importanti strumenti di base con cui sviluppare le successive analisi inferenziali.

Robust statistical methods in functional data analysis

TARABELLONI, NICHOLAS

Abstract

This work explores the problem of drawing robust, statistical inference from real, complex functional data. This is a particular instance of the Big Data concept where high-dimensional observations are constituted by measurements of some quantity of interest that can be naturally indexed with respect to an independent variable, like time or space. The recent research branch of Functional Data Analysis (FDA) has been steadily growing around the analysis of such data, thanks to the flexibility and wide applicability of the functional data model to a number of different phenomena, e.g. in environmental, economical, biomedical or engineering disciplines. Due to the richness and complexity of functional data, a common problem to virtually any FDA application is the correct inspection and management of data variability. Although that, outlier detection and robust statistics are not yet a well-established practice in FDA. Considering that in this context inference typically relies on a small number of observations compared to their degrees of freedom, and thus datasets can become easily contaminated by noisy observations or unnatural variability, the need for proper robust techniques is pressing. The objective of this work is to share some new contributions to this field, in terms of both new methods and tools, motivated by real applications. These contributions are based on some concepts from robust statistics for multivariate data that have been recently extended to the functional case, like statistical depths, multi-dimensional quantiles and robust estimators. We will show how such techniques can be used either for a safe exploration of functional datasets and identification of anomalous observations, or as flexible and meaningful building blocks for further inferential analyses.
SABADINI, IRENE MARIA
LUCCHETTI, ROBERTO
1-feb-2017
Il presente lavoro di tesi esplora il problema dell'inferenza statistica robusta per dati funzionali reali e complessi. Tali dati sono una particolare istanza del concetto di Big Data e sono costituiti da osservazioni ad alta dimensionalità che rappresentano misurazioni di una certa quantità d'interesse naturalmente indicizzabili rispetto ad una variabile indipendente, ad esempio il tempo o lo spazio. Il ramo di ricerca della Functional Data Analysis (FDA) si è recentemente sviluppato attorno all'analisi di tali dati, grazie alla flessibilità e agli ampi margini di applicabilità del modello di dati funzionali a numerosi fenomeni, ad esempio nelle scienze ambientali, economiche biomediche o ingegneristiche. A causa della ricchezza e della complessità dei dati funzionali, un problema comune virtualmente ad ogni applicazione è la corretta analisi e gestione della variabilità dei dati. Nonostante ciò, l'identificazione di osservazioni estreme e la statistica robusta non sono ancora una pratica affermata nella FDA. Considerando che in questo contesto l'inferenza si basa tipicamente su un numero ridotto di osservazioni rispetto al numero dei loro gradi di libertà, e che pertanto i set di dati possono essere facilmente contaminati da osservazioni rumorose o da variabilità fittizia, l'esigenza di opportune tecniche robuste è diventata importante. L'obiettivo di questo lavoro è di fornire alcuni contributi a tale pratica, in termini sia di nuovi metodi che strumenti, con motivazioni tratte da applicazioni reali. Questi contributi sono basati su concetti tratti dalla statistica robusta per dati multivariati che sono stati recentemente estesi al caso dei dati funzionali, come le profondità statistiche, i quantili multi-dimensionali e gli stimatori robusti. Verrà mostrato come queste tecniche possano essere usate sia per una corretta esplorazione di set di dati funzionali e per l'identificazione di osservazioni anomale, sia come importanti strumenti di base con cui sviluppare le successive analisi inferenziali.
Tesi di dottorato
File allegati
File Dimensione Formato  
Tarabelloni_Nicholas__PhD_thesis.pdf

accessibile in internet per tutti

Descrizione: Thesis text
Dimensione 26.58 MB
Formato Adobe PDF
26.58 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/131405