The construction of prediction bands for probability density functions presents specific methodological challenges due to structural constraints characterizing valid distributions: non-negativity and unit integration. This research systematically investigates the application of conformal prediction methodology across different mathematical representations of distributions, aiming to identify the most effective approaches for uncertainty quantification in functional distributional contexts. The work employs a transformationestimation- inverse transformation methodological strategy, comparing seven representation frameworks: direct probability density functions (PDFs), cumulative distribution functions (CDFs), quantile functions, centered log-ratio (CLR) transformations based on Aitchison geometry, Wasserstein tangent spaces, log-quantile density (LQD) transformations, and log-hazard representations. Split conformal prediction is applied to each representation to construct prediction bands with distribution-free coverage guarantees. Empirical analysis includes simulation studies on truncated Gaussian distributions with varying parameters and applications to two real datasets: mortality distributions across Italian provinces and isoelectric points of bacterial proteins. Results are evaluated through analysis of geometric properties of bands, preservation of structural constraints, and practical interpretability. Key findings highlight that the CDF and quantile spaces are the most meaningful for representing prediction bands. Regarding the most effective spaces in which to construct the bands, two approaches emerge: the CLR transformation, which produces narrow bands tightly concentrated around the point prediction, and the Wasserstein tangent space, whose bands instead explore more broadly the potential prediction region.
La costruzione di bande di predizione per funzioni di densità di probabilità presenta sfide metodologiche specifiche dovute ai vincoli strutturali che caratterizzano le distribuzioni valide: non-negatività e integrazione unitaria. La presente ricerca investiga sistematicamente l’applicazione della metodologia di conformal prediction attraverso diverse rappresentazioni matematiche delle distribuzioni, con l’obiettivo di identificare gli approcci più efficaci per la quantificazione dell’incertezza in contesti distributivi funzionali. Il lavoro adotta una strategia metodologica basata su trasformazione-stima-trasformazione inversa, confrontando sette framework di rappresentazione: funzioni di densità dirette (PDF), funzioni di distribuzione cumulativa (CDF), funzioni quantile, trasformazioni centered log-ratio (CLR) basate sulla geometria di Aitchison, spazi tangenti di Wasserstein, trasformazioni log-quantile density (LQD) e rappresentazioni log-hazard. Per ciascuna rappresentazione viene applicato il metodo split conformal per costruire bande di predizione con garanzie di copertura distribution-free. L’analisi empirica comprende studi di simulazione su distribuzioni gaussiane troncate con parametri variabili e applicazioni a due dataset reali: distribuzioni di mortalità nelle province italiane e punti isoelettrici di proteine batteriche. I risultati sono valutati attraverso l’analisi delle proprietà geometriche delle bande, la preservazione dei vincoli strutturali e l’interpretabilità pratica. I principali risultati evidenziano che gli spazi delle CDF e delle funzioni quantile sono i più significativi per rappresentare le bande di predizione. Per quanto riguarda invece gli spazi migliori in cui costruire le bande, emergono due approcci: la trasformazione CLR, che produce bande strette e concentrate intorno alla predizione puntuale, e lo spazio tangente di Wasserstein, le cui bande esplorano invece più ampiamente la possibile regione di predizione.
Conformal prediction bands for probability density functions
DELLO RUSSO, MARCO FLAVIO
2024/2025
Abstract
The construction of prediction bands for probability density functions presents specific methodological challenges due to structural constraints characterizing valid distributions: non-negativity and unit integration. This research systematically investigates the application of conformal prediction methodology across different mathematical representations of distributions, aiming to identify the most effective approaches for uncertainty quantification in functional distributional contexts. The work employs a transformationestimation- inverse transformation methodological strategy, comparing seven representation frameworks: direct probability density functions (PDFs), cumulative distribution functions (CDFs), quantile functions, centered log-ratio (CLR) transformations based on Aitchison geometry, Wasserstein tangent spaces, log-quantile density (LQD) transformations, and log-hazard representations. Split conformal prediction is applied to each representation to construct prediction bands with distribution-free coverage guarantees. Empirical analysis includes simulation studies on truncated Gaussian distributions with varying parameters and applications to two real datasets: mortality distributions across Italian provinces and isoelectric points of bacterial proteins. Results are evaluated through analysis of geometric properties of bands, preservation of structural constraints, and practical interpretability. Key findings highlight that the CDF and quantile spaces are the most meaningful for representing prediction bands. Regarding the most effective spaces in which to construct the bands, two approaches emerge: the CLR transformation, which produces narrow bands tightly concentrated around the point prediction, and the Wasserstein tangent space, whose bands instead explore more broadly the potential prediction region.| File | Dimensione | Formato | |
|---|---|---|---|
|
2025_10_DelloRusso.pdf
solo utenti autorizzati a partire dal 23/09/2026
Descrizione: Testo della tesi
Dimensione
13.45 MB
Formato
Adobe PDF
|
13.45 MB | Adobe PDF | Visualizza/Apri |
I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/10589/243731