This dissertation concentrates on the problem of statistical analysis of the complex data, such as functional or compositional data, observed on a spatial domain. This work considers two main perspectives of the analysis, based on the spatial resolution. In the first case data are observed on a continuous domain, where each point of the domain can be associated with a datum, while in the second case data are observed on a domain discretized into a set of spatial units, where each spatial unit is represented by a datum. These two cases require diverse methodologies of analysis. The thesis argues that the analysis of the complex spatially distributed data can be conducted using methods and models of advanced statistics or machine learning. Notably, both these approaches are data-driven, thus this thesis provides comprehensive comparison between them and further discusses their advantages and limitations. Moreover, it is suggested that the proper selection of the approach depends also on how sparse data are locally. In the discrete domain case, the thesis addresses the problem of assessment of spatial structure on both global and local scale. We examine the limitations of the classical methods, that were proposed for analysis of scalar data, when applied to functional data analysis. In particular, the thesis is focused on both global and local Moran's I and their testing procedures due to their wide adoption. In the thesis it is demonstrated that if observed data are complex, direct usage of both approaches is associated with the loss of information and limited inference because classical methods cannot capture full complexity of the data. Hence, the thesis provides an extension of both approaches, that we consider as the original idea. As the key element of innovation, we propose to use a statistical testing procedure based on the notion of functional depth measure for the local hotspots detection. We discuss the strengths and limitations of this method with respect to commonly adopted techniques, such as relying on the whole data and not on its' scalar representation, tackling better false positives, and identifying local spatial clusters in presence of a strong noise. Finally, it is important to mention that this work is supported by two research projects that are results of interdepartmental collaborations. The first one focuses on the analysis and inference of sediment transport movement in the Caldone river, whereas the second one regards the assessment of the social and material vulnerability of the Italian municipalities, conditioned on the seismic hazard. As an outcome strong results are reported for both projects.

La tesi si concentra sul problema dell'analisi statistica di dati complessi, come i dati funzionali o composizionali, osservati su un dominio spaziale. La tesi considera due prospettive di analisi, condizionate da una diversa risoluzione spaziale: quella in cui i dati sono osservati su un dominio continuo, dove ad ogni punto del dominio può essere associato un dato, e quella in cui i dati sono osservati su un dominio discreto, composto da un insieme di unità spaziali, dove ad ogni unità spaziale è associato un dato. Questi due casi richiedono diverse metodologie di analisi. La tesi sostiene che l’analisi dei dati complessi con dipendenza spaziale può essere condotta facendo uso di metodi e modelli avanzati della statistica o del machine learning. Per entrambi gli approcci è seguita una impostazione di tipo data driven ( guidata dai dati); nella tesi sono offerti argomenti di confronto e discussi vantaggi e limiti dei due approcci. Inoltre è suggerito che la corretta selezione dell’approccio dipende anche da quanto i dati sono scarsi a livello locale (nello spazio). ) Nel caso in cui il dominio spaziale sia discreto, la tesi affronta il problema della valutazione della struttura di dipendenza spaziale sia a livello globale che locale. Sono discussi i limiti dei metodi classici, introdotti per l’analisi di dati scalari, quando utilizzati per il trattamento di dati funzionali. In particolare la tesi si concentra sull'indice I di Moran globale e su quello locale e sulle procedure test ad essi associate, a causa della loro ampia adozione. Nella tesi si sostiene che se i dati osservati sono complessi, l'uso diretto di entrambi gli indici è associato a perdita di informazioni, e anche l’inferenza è limitata, perché i metodi classici non possono catturare la piena complessità dei dati. Per questo, la tesi descrive una loro estensione che riteniamo conservi l’originale idea motivante. Come elemento chiave di innovazione, la tesi propone di utilizzare per l’identificazione di hot spot locali una procedura di test basata sulla nozione di misura della profondità funzionale. Sono discussi i punti di forza e i limiti di questo metodo rispetto alle tecniche comunemente adottate e viene mostrato come fare affidamento sull'intero dato funzionale e non su una sua riduzione scalare, come affrontare il problema dei falsi positivi e come identificare i cluster spaziali locali in presenza di un forte rumore. Infine, è importante menzionare che questa tesi è sostenuta da due progetti di ricerca frutto di collaborazioni interdipartimentali. Sono riportati i risultati di questi progetti, il primo relativo all'analisi del movimento di trasporto solido nel fiume Caldone e il secondo concernente la valutazione della vulnerabilità sociale e materiale dei comuni italiani in relazione alla loro pericolosità sismica.

Spatial association of complex data observed on composite domains

Didkovskyi, Oleksandr
2020/2021

Abstract

This dissertation concentrates on the problem of statistical analysis of the complex data, such as functional or compositional data, observed on a spatial domain. This work considers two main perspectives of the analysis, based on the spatial resolution. In the first case data are observed on a continuous domain, where each point of the domain can be associated with a datum, while in the second case data are observed on a domain discretized into a set of spatial units, where each spatial unit is represented by a datum. These two cases require diverse methodologies of analysis. The thesis argues that the analysis of the complex spatially distributed data can be conducted using methods and models of advanced statistics or machine learning. Notably, both these approaches are data-driven, thus this thesis provides comprehensive comparison between them and further discusses their advantages and limitations. Moreover, it is suggested that the proper selection of the approach depends also on how sparse data are locally. In the discrete domain case, the thesis addresses the problem of assessment of spatial structure on both global and local scale. We examine the limitations of the classical methods, that were proposed for analysis of scalar data, when applied to functional data analysis. In particular, the thesis is focused on both global and local Moran's I and their testing procedures due to their wide adoption. In the thesis it is demonstrated that if observed data are complex, direct usage of both approaches is associated with the loss of information and limited inference because classical methods cannot capture full complexity of the data. Hence, the thesis provides an extension of both approaches, that we consider as the original idea. As the key element of innovation, we propose to use a statistical testing procedure based on the notion of functional depth measure for the local hotspots detection. We discuss the strengths and limitations of this method with respect to commonly adopted techniques, such as relying on the whole data and not on its' scalar representation, tackling better false positives, and identifying local spatial clusters in presence of a strong noise. Finally, it is important to mention that this work is supported by two research projects that are results of interdepartmental collaborations. The first one focuses on the analysis and inference of sediment transport movement in the Caldone river, whereas the second one regards the assessment of the social and material vulnerability of the Italian municipalities, conditioned on the seismic hazard. As an outcome strong results are reported for both projects.
SABADINI, IRENE MARIA
ZUNINO, PAOLO
MENAFOGLIO, ALESSANDRA
16-lug-2021
Spatial association of complex data observed on composite domains
La tesi si concentra sul problema dell'analisi statistica di dati complessi, come i dati funzionali o composizionali, osservati su un dominio spaziale. La tesi considera due prospettive di analisi, condizionate da una diversa risoluzione spaziale: quella in cui i dati sono osservati su un dominio continuo, dove ad ogni punto del dominio può essere associato un dato, e quella in cui i dati sono osservati su un dominio discreto, composto da un insieme di unità spaziali, dove ad ogni unità spaziale è associato un dato. Questi due casi richiedono diverse metodologie di analisi. La tesi sostiene che l’analisi dei dati complessi con dipendenza spaziale può essere condotta facendo uso di metodi e modelli avanzati della statistica o del machine learning. Per entrambi gli approcci è seguita una impostazione di tipo data driven ( guidata dai dati); nella tesi sono offerti argomenti di confronto e discussi vantaggi e limiti dei due approcci. Inoltre è suggerito che la corretta selezione dell’approccio dipende anche da quanto i dati sono scarsi a livello locale (nello spazio). ) Nel caso in cui il dominio spaziale sia discreto, la tesi affronta il problema della valutazione della struttura di dipendenza spaziale sia a livello globale che locale. Sono discussi i limiti dei metodi classici, introdotti per l’analisi di dati scalari, quando utilizzati per il trattamento di dati funzionali. In particolare la tesi si concentra sull'indice I di Moran globale e su quello locale e sulle procedure test ad essi associate, a causa della loro ampia adozione. Nella tesi si sostiene che se i dati osservati sono complessi, l'uso diretto di entrambi gli indici è associato a perdita di informazioni, e anche l’inferenza è limitata, perché i metodi classici non possono catturare la piena complessità dei dati. Per questo, la tesi descrive una loro estensione che riteniamo conservi l’originale idea motivante. Come elemento chiave di innovazione, la tesi propone di utilizzare per l’identificazione di hot spot locali una procedura di test basata sulla nozione di misura della profondità funzionale. Sono discussi i punti di forza e i limiti di questo metodo rispetto alle tecniche comunemente adottate e viene mostrato come fare affidamento sull'intero dato funzionale e non su una sua riduzione scalare, come affrontare il problema dei falsi positivi e come identificare i cluster spaziali locali in presenza di un forte rumore. Infine, è importante menzionare che questa tesi è sostenuta da due progetti di ricerca frutto di collaborazioni interdipartimentali. Sono riportati i risultati di questi progetti, il primo relativo all'analisi del movimento di trasporto solido nel fiume Caldone e il secondo concernente la valutazione della vulnerabilità sociale e materiale dei comuni italiani in relazione alla loro pericolosità sismica.
File allegati
File Dimensione Formato  
Didkovskyi_PhD_Thesis.pdf

solo utenti autorizzati dal 01/07/2022

Descrizione: Didkovskyi PhD Thesis
Dimensione 28.08 MB
Formato Adobe PDF
28.08 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/176342