This doctoral dissertation is the result of a three-year-long research work: it mainly consists of the collection of two published papers, namely [Scimone et al., 2021a] and [Scimone et al., 2021b], and the manuscript [Scimone et al., 2023], currently submitted. The focus of the entire research is the statistical analysis of complex data: such complexity may directly come from the irreducible complexity intrinsic to the data itself - this is the case of [Scimone et al., 2021a] and [Scimone et al., 2021b] - or from a complex correlation structure, which could also be exhibited by data as simple as real numbers (this is the case of [Scimone et al., 2023]). Special attention is given to developing novel statistical methodologies devoted to the detection of various kinds of anomalies in such datasets: these methods finds application in a wide variety of fields. In the first part of the work, corresponding to [Scimone et al., 2021a], we give attention to data sets whose atoms are complex 3D geometries, proposing in particular a novel statistical framework for quality control and automatic anomaly detection of industrially manufactured complex shapes, for which consolidated monitoring techniques do not exist. The framework is, in particular, perfectly suited for Additive Manufacturing processes, which are becoming increasingly important in the Biomedical and Aerospace sectors. The second part, encompassing [Scimone et al., 2021b], focuses on complex data sets and processes exhibiting spatial non-homogeneity. Partially motivated by the huge impact of COVID-19 on the planet, we develop in [Scimone et al., 2021b] an original analysis pipeline for the spatio-temporal analysis of curve data, with application to the overall mortality curves in Italian administrative units. The framework, rigorously modeling the spatio-temporal correlation structure of the curves being analyzed, is able to capture spatial anomalies, and can be easily generalized to any family of geo-referenced temporal functions. In the third part of the thesis, based on [Scimone et al., 2023], the modeling of spatial non-homogeneities is further developed. We focus there on framing an estimation method for a family of statistical models which intrinsically encompass spatial anomalies, i.e., the family of Non Stationary Gaussian Process. While many different proposals have been advanced, they are all affected by limitations involving flexibility or computational limitations, and solid, general methods for parameter estimation for these models are still to be developed. We propose a novel, ensemble-based estimation method designed to overcome said limitations, exploring its performances both on simulated and real spatial data sets where other available methodologies struggle to find reliable solutions.

Questa tesi di dottorato è il risultato di un lavoro di ricerca durato tre anni: consiste principalmente della raccolta di due articoli già pubblicati, ovvero [Scimone et al., 2021a] e [Scimone et al., 2021b], e del manoscritto [Scimone et al., 2023], attualmente in via di pubblicazione. Obbiettivo dell’intera ricerca è l’analisi statistica di dati complessi: tale complessità può derivare direttamente dalla complessità irriducibile intrinseca ai dati stessi - questo è il caso di [Scimone et al., 2021a] e [Scimone et al., 2021b] - oppure da una complessa struttura di correlazione, che potrebbe anche essere associata a semplici numeri reali (questo è il caso di [Scimone et al., 2023]). Particolare enfasi è attribuita allo sviluppo di nuove metodologie statistiche dedicate all’individuazione di vari tipi di anomalie in dataset di questo tipo: tali metodi trovano applicazione in un’ampia varietà di campi. Nella prima parte del lavoro, corrispondente a [Scimone et al., 2021a], ci occupiamo di dataset i cui atomi sono complesse geometrie tridimensionali, e proponiamo un nuovo framework statistico per il controllo di qualità e l’identificazione automatica di anomalie in forme complesse prodotte industrialmente, per le quali non esistono tecniche di monitoraggio consolidate. Il framework è, in particolare, perfettamente adatto ai processi di Additive Manufacturing, sempre più importanti nei settori biomedico e aerospaziale. La seconda parte, che comprende [Scimone et al., 2021b] e [Scimone et al., 2023], si concentra su dati e processi complessi che presentano disomogeneità spaziale. L’enorme impatto dell’epidemia di COVID-19 sul pianeta ha motivato, in [Scimone et al., 2021b], lo sviluppo di un originale processo di analisi per curve temporali georeferenziate, con applicazione alle curve di mortalità totale nelle unità amministrative italiane (comuni e province). Il framework, che modella rigorosamente la struttura di correlazione spazio-temporale delle curve analizzate, si è dimostrato in grado di rilevare anomalie e disomogeneità spaziale, e può essere facilmente generalizzato a qualsiasi famiglia di funzioni temporali georeferenziate. La modellazione delle disomogeneità in processi spaziali è ulteriormente sviluppata in [Scimone et al., 2023], dove ci concentriamo sulla definizione di un metodo di stima per una famiglia di modelli statistici che includano intrinsecamente le anomalie spaziali, ovvero i Processi Gaussiani Non Stazionari. In assenza di metodi generali per la stima dei parametri di questi modelli, sono state avanzate in letteratura molte proposte diverse, tutte affette da limiti dovuti alla ridotta flessibilità o all’eccessivo onere computazionale. Proponiamo dunque un nuovo metodo di stima ensemble, progettato per superare dette limitazioni, e ne esploriamo le prestazioni su dataset simulati e reali, su cui altre metodologie faticano a trovare soluzioni affidabili.

Object oriented data analysis for non-homogenous processes

Scimone, Riccardo
2022/2023

Abstract

This doctoral dissertation is the result of a three-year-long research work: it mainly consists of the collection of two published papers, namely [Scimone et al., 2021a] and [Scimone et al., 2021b], and the manuscript [Scimone et al., 2023], currently submitted. The focus of the entire research is the statistical analysis of complex data: such complexity may directly come from the irreducible complexity intrinsic to the data itself - this is the case of [Scimone et al., 2021a] and [Scimone et al., 2021b] - or from a complex correlation structure, which could also be exhibited by data as simple as real numbers (this is the case of [Scimone et al., 2023]). Special attention is given to developing novel statistical methodologies devoted to the detection of various kinds of anomalies in such datasets: these methods finds application in a wide variety of fields. In the first part of the work, corresponding to [Scimone et al., 2021a], we give attention to data sets whose atoms are complex 3D geometries, proposing in particular a novel statistical framework for quality control and automatic anomaly detection of industrially manufactured complex shapes, for which consolidated monitoring techniques do not exist. The framework is, in particular, perfectly suited for Additive Manufacturing processes, which are becoming increasingly important in the Biomedical and Aerospace sectors. The second part, encompassing [Scimone et al., 2021b], focuses on complex data sets and processes exhibiting spatial non-homogeneity. Partially motivated by the huge impact of COVID-19 on the planet, we develop in [Scimone et al., 2021b] an original analysis pipeline for the spatio-temporal analysis of curve data, with application to the overall mortality curves in Italian administrative units. The framework, rigorously modeling the spatio-temporal correlation structure of the curves being analyzed, is able to capture spatial anomalies, and can be easily generalized to any family of geo-referenced temporal functions. In the third part of the thesis, based on [Scimone et al., 2023], the modeling of spatial non-homogeneities is further developed. We focus there on framing an estimation method for a family of statistical models which intrinsically encompass spatial anomalies, i.e., the family of Non Stationary Gaussian Process. While many different proposals have been advanced, they are all affected by limitations involving flexibility or computational limitations, and solid, general methods for parameter estimation for these models are still to be developed. We propose a novel, ensemble-based estimation method designed to overcome said limitations, exploring its performances both on simulated and real spatial data sets where other available methodologies struggle to find reliable solutions.
LANZI, PIERLUCA
TANCA, LETIZIA
AZZONE, GIOVANNI
MENAFOGLIO, ALESSANDRA
19-ott-2023
Object oriented data analysis for non-homogenous processes
Questa tesi di dottorato è il risultato di un lavoro di ricerca durato tre anni: consiste principalmente della raccolta di due articoli già pubblicati, ovvero [Scimone et al., 2021a] e [Scimone et al., 2021b], e del manoscritto [Scimone et al., 2023], attualmente in via di pubblicazione. Obbiettivo dell’intera ricerca è l’analisi statistica di dati complessi: tale complessità può derivare direttamente dalla complessità irriducibile intrinseca ai dati stessi - questo è il caso di [Scimone et al., 2021a] e [Scimone et al., 2021b] - oppure da una complessa struttura di correlazione, che potrebbe anche essere associata a semplici numeri reali (questo è il caso di [Scimone et al., 2023]). Particolare enfasi è attribuita allo sviluppo di nuove metodologie statistiche dedicate all’individuazione di vari tipi di anomalie in dataset di questo tipo: tali metodi trovano applicazione in un’ampia varietà di campi. Nella prima parte del lavoro, corrispondente a [Scimone et al., 2021a], ci occupiamo di dataset i cui atomi sono complesse geometrie tridimensionali, e proponiamo un nuovo framework statistico per il controllo di qualità e l’identificazione automatica di anomalie in forme complesse prodotte industrialmente, per le quali non esistono tecniche di monitoraggio consolidate. Il framework è, in particolare, perfettamente adatto ai processi di Additive Manufacturing, sempre più importanti nei settori biomedico e aerospaziale. La seconda parte, che comprende [Scimone et al., 2021b] e [Scimone et al., 2023], si concentra su dati e processi complessi che presentano disomogeneità spaziale. L’enorme impatto dell’epidemia di COVID-19 sul pianeta ha motivato, in [Scimone et al., 2021b], lo sviluppo di un originale processo di analisi per curve temporali georeferenziate, con applicazione alle curve di mortalità totale nelle unità amministrative italiane (comuni e province). Il framework, che modella rigorosamente la struttura di correlazione spazio-temporale delle curve analizzate, si è dimostrato in grado di rilevare anomalie e disomogeneità spaziale, e può essere facilmente generalizzato a qualsiasi famiglia di funzioni temporali georeferenziate. La modellazione delle disomogeneità in processi spaziali è ulteriormente sviluppata in [Scimone et al., 2023], dove ci concentriamo sulla definizione di un metodo di stima per una famiglia di modelli statistici che includano intrinsecamente le anomalie spaziali, ovvero i Processi Gaussiani Non Stazionari. In assenza di metodi generali per la stima dei parametri di questi modelli, sono state avanzate in letteratura molte proposte diverse, tutte affette da limiti dovuti alla ridotta flessibilità o all’eccessivo onere computazionale. Proponiamo dunque un nuovo metodo di stima ensemble, progettato per superare dette limitazioni, e ne esploriamo le prestazioni su dataset simulati e reali, su cui altre metodologie faticano a trovare soluzioni affidabili.
File allegati
File Dimensione Formato  
Scimone_PhD_thesis_after_reviews.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: Object Oriented Data Analysis for Non-Homogeneous Processes
Dimensione 27.39 MB
Formato Adobe PDF
27.39 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/211515