The growing availability of large, complex datasets amplifies the need for statistical methods that remain reliable under high dimensionality and various forms of noise. This thesis develops nonparametric, informative methodologies tailored to such settings, with a particular focus on natural hazard monitoring, where seismic and remote sensing data are both high-dimensional and corrupted by random contamination and partial observation. The methodological core of the thesis is built upon functional data analysis and conformal prediction. As in the thesis high dimensionality stems from discretizations of continuous physical processes, functional data analysis is adopted as a principled framework to provide a natural representation of the data. Viewing the data as functions rather than high-dimensional vectors not only mitigates the curse of dimensionality but also aligns the statistical model with the process underlying the data. Within this framework, the thesis advances regression with partially observed functional responses, proposes covariance estimation techniques for fragmented data, where the functional data are systematically missing over large subdomains, and provides a functional semiparametric method for estimating the intensity of a Poisson point process from covariates with inherent regularities. Conformal prediction, in turn, provides distribution-free predictive inference, enabling rigorous uncertainty quantification even in complex, high-dimensional settings where the true data generating process is unknown. In this thesis, conformal prediction is intended not only as a predictive tool, but also as a paradigm for trustworthy statistical monitoring and forecasting. Within this framework, the thesis develops interpretable anomaly detection tools for functional data and proposes adaptive conformal methods that yield informative predictive regions under label contamination in classification problems, with preliminary extensions to regression via discretization. By extending functional data analysis and conformal prediction to handle partial observation and label contamination, this work contributes a set of robust, distribution-free methodologies for high-dimensional, noisy data, while maintaining a focus on their practical utility in natural hazard monitoring and their wide applicability to other domains marked by high dimensionality and noise.

La crescente disponibilità di grandi e complessi insiemi di dati amplifica la necessità di metodi statistici che rimangano affidabili in presenza di alta dimensionalità e di diverse forme di rumore. Questa tesi sviluppa metodologie nonparametriche e informative pensate per tali contesti, con particolare attenzione al monitoraggio dei rischi naturali, in cui i dati sismici e di telerilevamento sono al tempo stesso ad alta dimensionalità e soggetti a contaminazioni casuali e osservazioni parziali. Il nucleo metodologico della tesi si fonda sull’analisi dei dati funzionali e la predizione conforme. Poiché in questo lavoro l’alta dimensionalità deriva dalla discretizzazione di processi fisici continui, l’analisi funzionale viene adottata come quadro di riferimento per fornire una rappresentazione naturale dei dati. Considerare i dati come funzioni piuttosto che come vettori ad alta dimensionalità non solo mitiga la “maledizione della dimensionalità”, ma allinea anche il modello statistico al processo sottostante i dati. In tale contesto, la tesi propone metodi per la regressione con risposte funzionali parzialmente osservate e introduce tecniche di stima della covarianza in presenza di dati frammentati, caratterizzati da regioni sistematicamente mancanti su ampi sottodomini. La predizione conforme, a sua volta, fornisce strumenti di inferenza predittiva senza fare assunzioni sulla distribuzione dei dati, permettendo una quantificazione rigorosa dell’incertezza anche in contesti complessi e ad alta dimensionalità in cui il processo generativo dei dati è ignoto. In questa tesi, la predizione conforme è intesa non solo come strumento predittivo, ma come paradigma per un monitoraggio e una previsione statistica affidabili. In questo ambito, vengono sviluppati strumenti interpretabili di rilevamento di anomalie per dati funzionali e vengono proposti metodi conformi adattivi capaci di produrre regioni predittive informative in presenza di contaminazione delle etichette nei problemi di classificazione, con estensioni preliminari alla regressione tramite discretizzazione. Estendendo l’analisi dei dati funzionali e la predizione conforme al trattamento di osservazioni parziali e contaminazioni, questo lavoro contribuisce a sviluppare metodologie robuste e distribution-free per dati ad alta dimensionalità e affetti da rumore, mantenendo al contempo l’attenzione sulla loro utilità pratica nel monitoraggio dei rischi naturali e sulla loro ampia applicabilità ad altri domini caratterizzati da alta dimensionalità e rumore.

Nonparametric statistical methods under noise and high dimensionality : for monitoring and forecasting natural hazards

Bortolotti, Teresa
2025/2026

Abstract

The growing availability of large, complex datasets amplifies the need for statistical methods that remain reliable under high dimensionality and various forms of noise. This thesis develops nonparametric, informative methodologies tailored to such settings, with a particular focus on natural hazard monitoring, where seismic and remote sensing data are both high-dimensional and corrupted by random contamination and partial observation. The methodological core of the thesis is built upon functional data analysis and conformal prediction. As in the thesis high dimensionality stems from discretizations of continuous physical processes, functional data analysis is adopted as a principled framework to provide a natural representation of the data. Viewing the data as functions rather than high-dimensional vectors not only mitigates the curse of dimensionality but also aligns the statistical model with the process underlying the data. Within this framework, the thesis advances regression with partially observed functional responses, proposes covariance estimation techniques for fragmented data, where the functional data are systematically missing over large subdomains, and provides a functional semiparametric method for estimating the intensity of a Poisson point process from covariates with inherent regularities. Conformal prediction, in turn, provides distribution-free predictive inference, enabling rigorous uncertainty quantification even in complex, high-dimensional settings where the true data generating process is unknown. In this thesis, conformal prediction is intended not only as a predictive tool, but also as a paradigm for trustworthy statistical monitoring and forecasting. Within this framework, the thesis develops interpretable anomaly detection tools for functional data and proposes adaptive conformal methods that yield informative predictive regions under label contamination in classification problems, with preliminary extensions to regression via discretization. By extending functional data analysis and conformal prediction to handle partial observation and label contamination, this work contributes a set of robust, distribution-free methodologies for high-dimensional, noisy data, while maintaining a focus on their practical utility in natural hazard monitoring and their wide applicability to other domains marked by high dimensionality and noise.
CORREGGI, MICHELE
CATINO, GIOVANNI
VANTINI, SIMONE
Casu, Francesco
9-dic-2025
La crescente disponibilità di grandi e complessi insiemi di dati amplifica la necessità di metodi statistici che rimangano affidabili in presenza di alta dimensionalità e di diverse forme di rumore. Questa tesi sviluppa metodologie nonparametriche e informative pensate per tali contesti, con particolare attenzione al monitoraggio dei rischi naturali, in cui i dati sismici e di telerilevamento sono al tempo stesso ad alta dimensionalità e soggetti a contaminazioni casuali e osservazioni parziali. Il nucleo metodologico della tesi si fonda sull’analisi dei dati funzionali e la predizione conforme. Poiché in questo lavoro l’alta dimensionalità deriva dalla discretizzazione di processi fisici continui, l’analisi funzionale viene adottata come quadro di riferimento per fornire una rappresentazione naturale dei dati. Considerare i dati come funzioni piuttosto che come vettori ad alta dimensionalità non solo mitiga la “maledizione della dimensionalità”, ma allinea anche il modello statistico al processo sottostante i dati. In tale contesto, la tesi propone metodi per la regressione con risposte funzionali parzialmente osservate e introduce tecniche di stima della covarianza in presenza di dati frammentati, caratterizzati da regioni sistematicamente mancanti su ampi sottodomini. La predizione conforme, a sua volta, fornisce strumenti di inferenza predittiva senza fare assunzioni sulla distribuzione dei dati, permettendo una quantificazione rigorosa dell’incertezza anche in contesti complessi e ad alta dimensionalità in cui il processo generativo dei dati è ignoto. In questa tesi, la predizione conforme è intesa non solo come strumento predittivo, ma come paradigma per un monitoraggio e una previsione statistica affidabili. In questo ambito, vengono sviluppati strumenti interpretabili di rilevamento di anomalie per dati funzionali e vengono proposti metodi conformi adattivi capaci di produrre regioni predittive informative in presenza di contaminazione delle etichette nei problemi di classificazione, con estensioni preliminari alla regressione tramite discretizzazione. Estendendo l’analisi dei dati funzionali e la predizione conforme al trattamento di osservazioni parziali e contaminazioni, questo lavoro contribuisce a sviluppare metodologie robuste e distribution-free per dati ad alta dimensionalità e affetti da rumore, mantenendo al contempo l’attenzione sulla loro utilità pratica nel monitoraggio dei rischi naturali e sulla loro ampia applicabilità ad altri domini caratterizzati da alta dimensionalità e rumore.
File allegati
File Dimensione Formato  
Bortolotti_PhD_thesis.pdf

accessibile in internet solo dagli utenti autorizzati

Dimensione 17.37 MB
Formato Adobe PDF
17.37 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/247997