This thesis advances the estimation and calibration of the Functional Principal Component Analysis (fPCA) model, focusing on improving computational efficiency and accuracy. A concrete application of fPCA is Spatial Transcriptomics (ST), where it provides spatially coherent low-dimensional representations for detecting spatial domains in biological tissues. Three major contributions are presented in this work. First, the integration of Randomized Numerical Linear Algebra (RandNLA) algorithms significantly accelerates fPCA estimation by optimizing the computationally intensive Singular Value Decomposition (SVD), making it feasible for large datasets. Second, a new regularized subspace iterations algorithm is introduced to address limitations in the sequential extraction of multiple principal components (PCs). Unlike traditional methods, which degrade in quality under high regularization, the proposed approach extracts multiple PCs simultaneously, improving accuracy while maintaining efficiency. Third, a novel Generalized Cross-Validation (GCV) score is developed for calibrating the regularization level, providing a reliable and computationally efficient alternative to existing methods. These advancements enhance fPCA by making it more scalable and accurate, particularly for large datasets like the ST considered in this work. The new algorithm and calibration method solve key issues in PC extraction, while randomized SVD greatly reduces runtime.
Questa tesi propone alcuni significativi miglioramenti nella stima e nella calibrazione del modello di Analisi delle Componenti Principali Funzionali (fPCA), con particolare focus sull'efficienza computazionale e sull'accuratezza dell'algoritmo di stima. Un'applicazione concreta di questo modello riguarda i dati di Trascrittomica Spaziale (ST), dove la fPCA permette di ridurre la dimensionalità dei dati iniziali, preservandone la coerenza spaziale e dunque facilitando l'individuazione di strutture anatomiche nei tessuti. Tre sono i principali contributi di questo lavoro. Il primo riguarda l'integrazione di algoritmi di Algebra Lineare Numerica Randomizzata (RandNLA), che velocizzano in modo significativo la stima di fPCA grazie a un'ottimizzazione della decomposizione ai valori singolari (SVD), rendendola applicabile anche a dataset di grandi dimensioni. Il secondo contributo introduce un nuovo algoritmo per la stima del modello di fPCA, che supera le limitazioni dell'estrazione sequenziale delle componenti principali (PC). Questo approccio consente di estrarre più componenti contemporaneamente, preservando la qualità delle PC estratte nel caso in cui un alto livello di regolarizzazione si renda necessario e mantenendo un'elevata efficienza computazionale. Infine, il terzo contributo riguarda lo sviluppo di un nuovo criterio di cross-validazione generalizzata (GCV) per la calibrazione del livello di regolarizzazione, offrendo un metodo più affidabile ed efficiente rispetto alle alternative esistenti. Questi miglioramenti rendono il modello fPCA più scalabile e accurato, specialmente nell'analisi di grandi dataset come quelli di ST trattati in questo studio. Il nuovo algoritmo e il metodo di calibrazione risolvono alcune problematiche fondamentali nell'estrazione delle PC, mentre l'uso dell'SVD randomizzata riduce drasticamente i tempi di calcolo.
Advancements in the estimation of the functional principal component analysis model
Galliani, Marco
2023/2024
Abstract
This thesis advances the estimation and calibration of the Functional Principal Component Analysis (fPCA) model, focusing on improving computational efficiency and accuracy. A concrete application of fPCA is Spatial Transcriptomics (ST), where it provides spatially coherent low-dimensional representations for detecting spatial domains in biological tissues. Three major contributions are presented in this work. First, the integration of Randomized Numerical Linear Algebra (RandNLA) algorithms significantly accelerates fPCA estimation by optimizing the computationally intensive Singular Value Decomposition (SVD), making it feasible for large datasets. Second, a new regularized subspace iterations algorithm is introduced to address limitations in the sequential extraction of multiple principal components (PCs). Unlike traditional methods, which degrade in quality under high regularization, the proposed approach extracts multiple PCs simultaneously, improving accuracy while maintaining efficiency. Third, a novel Generalized Cross-Validation (GCV) score is developed for calibrating the regularization level, providing a reliable and computationally efficient alternative to existing methods. These advancements enhance fPCA by making it more scalable and accurate, particularly for large datasets like the ST considered in this work. The new algorithm and calibration method solve key issues in PC extraction, while randomized SVD greatly reduces runtime.File | Dimensione | Formato | |
---|---|---|---|
Thesis.pdf
non accessibile
Descrizione: Thesis
Dimensione
10.14 MB
Formato
Adobe PDF
|
10.14 MB | Adobe PDF | Visualizza/Apri |
Executive_Summary.pdf
non accessibile
Descrizione: Executive summary
Dimensione
3.44 MB
Formato
Adobe PDF
|
3.44 MB | Adobe PDF | Visualizza/Apri |
I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/10589/235281