Dealing with complex data often presents challenges that can be successfully tackled with the use of some geometrical tools. In this thesis we approach two such challenges: extracting information from data considered up to equivalence classes and doing statistical analysis in non-Euclidean spaces. The first kind of issues is faced with the use of Topological Data Analysis techniques. We contribute to this field with the introduction of a new family of topological summaries which can be visually represented as trees. To analyze sets of such objects, we introduce also a novel metric structure along with an algorithm to compute it. Next, we develop an application of such framework in the field of Functional Data Analysis, working with functions up to homeomorphic reparametrization. Moving the problem of doing statistical analysis from raw data to a space of representations, for instance topological summaries, immediately poses the challenge of defining statistical tools in spaces which are often non-Euclidean and badly behaved from many perspectives. Nevertheless, we start to formalize a language to work in the space of the topological representations previously defined and, as a first result, we obtain approximations of Frechét Means in those spaces. Lastly we propose a novel class of methods to work with probability distributions on the real line, with the 2-Wasserstein metric. This metric space is richer in structure compared to the others considered in this dissertation, but still has a constrained nature which must be properly taken into account.

Dati complessi spesso presentano problematiche che possono essere affrontate e risolte per mezzo di opportuni strumenti geometrici. Nella presente tesi ci occupiamo in particolare di due di questi aspetti: quello di estrarre informazioni da dati considerati a meno di classi di equivalenza, e quello di svolgere analisi statistiche in spazi non Euclidei. Ci occupiamo del primo problema usando strumenti di analisi topologica dei dati. Il contributo del presente lavoro a tale ambito è l'introduzione di una nuova famiglia di rappresentazioni topologiche che possono essere visualizzate tramite strutture ad albero. Per analizzare insiemi di tali oggetti, li dotiamo di una nuova struttura metrica, assieme ad un algoritmo che la rende computazionalmente accessibile. Successivamente sviluppiamo un'applicazione di questo framework nell'ambito dell'analisi di dati funzionali, lavorando con funzioni a meno di riparametrizzazione tramite omeomorfismi. Nel momento in cui bisogna effettuare delle analisi statistiche in uno spazio dato da rappresentazioni dei dati originali, immediatamente si pone il problema di quali strumenti statistici si possono utilizzare in questi spazi, che tipicamente hanno una geometria molto complicata e che non sono riconducibili a strutture note quali varietà di un qualche tipo. Iniziamo quindi a formalizzare un linguaggio e delle strutture per poter lavorare nello spazio delle rappresentazioni topologiche precedentemente introdotte e, come primo risultato, otteniamo un algoritmo per approssimare le medie di Frechèt in tali spazi. Da ultimo proponiamo una nuova classe di metodi statistici per lavorare su distribuzioni di probabilità sulla retta reale, usando la 2-metrica di Wasserstein. Questo spazio metrico è più ricco rispetto agli altri considerati nella tesi, ma ha comunque dei vincoli di cui bisogna tenere conto.

Geometric data analysis: between equivalence classes and non-euclidean spaces

Pegoraro, Matteo
2020/2021

Abstract

Dealing with complex data often presents challenges that can be successfully tackled with the use of some geometrical tools. In this thesis we approach two such challenges: extracting information from data considered up to equivalence classes and doing statistical analysis in non-Euclidean spaces. The first kind of issues is faced with the use of Topological Data Analysis techniques. We contribute to this field with the introduction of a new family of topological summaries which can be visually represented as trees. To analyze sets of such objects, we introduce also a novel metric structure along with an algorithm to compute it. Next, we develop an application of such framework in the field of Functional Data Analysis, working with functions up to homeomorphic reparametrization. Moving the problem of doing statistical analysis from raw data to a space of representations, for instance topological summaries, immediately poses the challenge of defining statistical tools in spaces which are often non-Euclidean and badly behaved from many perspectives. Nevertheless, we start to formalize a language to work in the space of the topological representations previously defined and, as a first result, we obtain approximations of Frechét Means in those spaces. Lastly we propose a novel class of methods to work with probability distributions on the real line, with the 2-Wasserstein metric. This metric space is richer in structure compared to the others considered in this dissertation, but still has a constrained nature which must be properly taken into account.
SABADINI, IRENE MARIA
SABADINI, IRENE MARIA
27-set-2021
Dati complessi spesso presentano problematiche che possono essere affrontate e risolte per mezzo di opportuni strumenti geometrici. Nella presente tesi ci occupiamo in particolare di due di questi aspetti: quello di estrarre informazioni da dati considerati a meno di classi di equivalenza, e quello di svolgere analisi statistiche in spazi non Euclidei. Ci occupiamo del primo problema usando strumenti di analisi topologica dei dati. Il contributo del presente lavoro a tale ambito è l'introduzione di una nuova famiglia di rappresentazioni topologiche che possono essere visualizzate tramite strutture ad albero. Per analizzare insiemi di tali oggetti, li dotiamo di una nuova struttura metrica, assieme ad un algoritmo che la rende computazionalmente accessibile. Successivamente sviluppiamo un'applicazione di questo framework nell'ambito dell'analisi di dati funzionali, lavorando con funzioni a meno di riparametrizzazione tramite omeomorfismi. Nel momento in cui bisogna effettuare delle analisi statistiche in uno spazio dato da rappresentazioni dei dati originali, immediatamente si pone il problema di quali strumenti statistici si possono utilizzare in questi spazi, che tipicamente hanno una geometria molto complicata e che non sono riconducibili a strutture note quali varietà di un qualche tipo. Iniziamo quindi a formalizzare un linguaggio e delle strutture per poter lavorare nello spazio delle rappresentazioni topologiche precedentemente introdotte e, come primo risultato, otteniamo un algoritmo per approssimare le medie di Frechèt in tali spazi. Da ultimo proponiamo una nuova classe di metodi statistici per lavorare su distribuzioni di probabilità sulla retta reale, usando la 2-metrica di Wasserstein. Questo spazio metrico è più ricco rispetto agli altri considerati nella tesi, ma ha comunque dei vincoli di cui bisogna tenere conto.
File allegati
File Dimensione Formato  
thesis.pdf

accessibile in internet per tutti

Dimensione 10.29 MB
Formato Adobe PDF
10.29 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/179115