Outlier detection has become a crucial step in the pre-processing of functional data, as atypical observations are prone to induce model misspecification and incorrect inference. Nonetheless, they might convey valuable insights and reveal patterns in the data. Therefore, this manuscript aims to provide evidence for the necessity of specialized tools to handle functional outliers, which are challenging to deal with due to their high dimensionality against a typically reduced sample size. Specifically, we focus on the simulation-based adjustment of the inflation factor for the fences of the well-known functional boxplot. This is achieved by controlling the proportion of observations flagged as anomalous in a clean population derived from the original one. For this purpose, robust estimators of location and scatter are required. We justify the need for this data-driven adjustment and present a simulation study and a real data analysis to compare the performance of multivariate estimators, whose properties can be extended to the small N, large P problem, with that of functional operators, to assess the necessity of conducting a fully functional analysis.

L’identificazione degli outlier è diventata una fase cruciale nella pre-elaborazione dei dati funzionali, poiché le osservazioni anomale sono inclini ad indurre una scorretta specificazione del modello e in- ferenze errate. Tuttavia, potrebbero fornire preziose intuizioni e rivelare dei pattern nei dati. Per questo motivo, il presente lavoro mira a fornire evidenze sulla necessità di strumenti specializzati per gestire gli outlier funzionali, i quali sono difficili da gestire a causa della dimensione infinita dello spazio di arrivo, rispetto ad una tipicamente ridotta dimensione campionaria. In particolare, ci concentriamo sull’aggiustamento tramite simulazione del fattore di inflazione nel ben noto boxplot funzionale. Ciò è ottenuto controllando la proporzione di osservazioni segnalate come anomale in una popolazione non contaminata derivata da quella originale. A tal fine, sono richiesti stimatori robusti di posizione e dispersione. Nella presente tesi, giustifichiamo la necessità di questo aggiustamento data-driven e pre- sentiamo uno studio di simulazione e un’analisi di dati reali per confrontare le prestazioni di stimatori multivariati, le cui proprietà possono essere estese al problema "small N, large P", con quelli degli operatori funzionali, per valutare la necessità di condurre un’analisi completamente funzionale.

On the adjustment of the inflation factor in the functional boxplot through robust covariance estimation for outlier detection

ROSSI, ANNACHIARA
2022/2023

Abstract

Outlier detection has become a crucial step in the pre-processing of functional data, as atypical observations are prone to induce model misspecification and incorrect inference. Nonetheless, they might convey valuable insights and reveal patterns in the data. Therefore, this manuscript aims to provide evidence for the necessity of specialized tools to handle functional outliers, which are challenging to deal with due to their high dimensionality against a typically reduced sample size. Specifically, we focus on the simulation-based adjustment of the inflation factor for the fences of the well-known functional boxplot. This is achieved by controlling the proportion of observations flagged as anomalous in a clean population derived from the original one. For this purpose, robust estimators of location and scatter are required. We justify the need for this data-driven adjustment and present a simulation study and a real data analysis to compare the performance of multivariate estimators, whose properties can be extended to the small N, large P problem, with that of functional operators, to assess the necessity of conducting a fully functional analysis.
IEVA, FRANCESCA
ING - Scuola di Ingegneria Industriale e dell'Informazione
4-mag-2023
2022/2023
L’identificazione degli outlier è diventata una fase cruciale nella pre-elaborazione dei dati funzionali, poiché le osservazioni anomale sono inclini ad indurre una scorretta specificazione del modello e in- ferenze errate. Tuttavia, potrebbero fornire preziose intuizioni e rivelare dei pattern nei dati. Per questo motivo, il presente lavoro mira a fornire evidenze sulla necessità di strumenti specializzati per gestire gli outlier funzionali, i quali sono difficili da gestire a causa della dimensione infinita dello spazio di arrivo, rispetto ad una tipicamente ridotta dimensione campionaria. In particolare, ci concentriamo sull’aggiustamento tramite simulazione del fattore di inflazione nel ben noto boxplot funzionale. Ciò è ottenuto controllando la proporzione di osservazioni segnalate come anomale in una popolazione non contaminata derivata da quella originale. A tal fine, sono richiesti stimatori robusti di posizione e dispersione. Nella presente tesi, giustifichiamo la necessità di questo aggiustamento data-driven e pre- sentiamo uno studio di simulazione e un’analisi di dati reali per confrontare le prestazioni di stimatori multivariati, le cui proprietà possono essere estese al problema "small N, large P", con quelli degli operatori funzionali, per valutare la necessità di condurre un’analisi completamente funzionale.
File allegati
File Dimensione Formato  
2022_Rossi_Thesis.pdf

accessibile in internet solo dagli utenti autorizzati

Dimensione 26.21 MB
Formato Adobe PDF
26.21 MB Adobe PDF   Visualizza/Apri
2022_Rossi_Executive_Summary.pdf

accessibile in internet solo dagli utenti autorizzati

Dimensione 2.54 MB
Formato Adobe PDF
2.54 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/202453