SAFE-LD: a novel method for the estimation of linkage disequilibrium

Genome-wide association studies (GWAS) have significantly advanced our understanding of the genetic basis of complex traits. However, their resolution is limited by linkage disequilibrium (LD) - the non-random correlation between nearby genetic variants. Accurate LD is essential for fine-mapping causal variants, but individual-level genetic data required for internal LD computation are often inaccessible due to privacy constraints. As a result, researchers typically resort to external LD from public reference panels, which may not reflect the population under study, leading to a decrease in accuracy. This thesis introduces SAFE-LD (a Shrinkage and Anonymization Framework for LD Estimation), a novel method to estimate internal LD matrices directly from GWAS summary statistics, without requiring individual-level data. SAFE-LD leverages the correlation structure of marginal z-scores across multiple phenotypes, applying a thresholding strategy to exclude SNPs with effects and recover the underlying LD. Two variants of the method are proposed: Method 1 is tailored for scenarios where genetic effects are absent whereas Method 2 is tailored for scenarios with sparse genetic effects. Through extensive simulations using UK Biobank data, this work establishes the key conditions under which SAFE-LD accurately reconstructs LD. Results demonstrate that SAFE-LD is invariant to genomic region and performs consistently across different population sizes. Importantly, SAFE-LD achieves fine-mapping accuracy comparable to internal LD and significantly outperforms external LD - even in best-case scenarios with ancestry-matched panels. The method is validated across multiple loci and effect sizes using the SuSiE fine-mapping framework. SAFE-LD provides a scalable, privacy-preserving and accurate alternative to traditional estimation methods, offering substantial promise for improving fine-mapping and downstream genetic analyses in settings where individual-level data is unavailable.

Gli studi di associazione sull’intero genoma (GWAS) hanno notevolmente ampliato la nostra comprensione della base genetica dei tratti complessi. Tuttavia, la loro risoluzione è limitata dal linkage disequilibrium (LD), ovvero la correlazione non casuale tra varianti genetiche vicine. Una stima accurata del LD è essenziale per identificare con precisione le varianti causali, ma i dati genetici a livello individuale necessari per il calcolo del LD interno sono spesso inaccessibili a causa di vincoli legati alla privacy. Di conseguenza, i ricercatori ricorrono generalmente a LD esterni ottenuti da pannelli di riferimento pubblici, che però potrebbero non riflettere la popolazione studiata, portando a una diminuzione della precisione. Questa tesi introduce SAFE-LD (Shrinkage and Anonymization Framework for LD Estimation), un nuovo metodo per stimare matrici di LD interno direttamente da statistiche riassuntive GWAS, senza la necessità di dati individuali. SAFE-LD sfrutta la struttura di correlazione degli z-score marginali su molteplici fenotipi, applicando una strategia di soglia per escludere gli SNP con effetti genetici e recuperare la struttura sottostante del LD. Vengono proposte due varianti del metodo: il Metodo 1 è pensato per scenari in cui non sono presenti effetti genetici, mentre il Metodo 2 è adatto a situazioni con effetti genetici sparsi. Attraverso ampie simulazioni utilizzando dati della UK Biobank, questo lavoro identifica le condizioni chiave in cui SAFE-LD ricostruisce accuratamente il LD. I risultati dimostrano che SAFE-LD è invariante rispetto alla regione genomica e mantiene prestazioni costanti su diverse dimensioni di popolazione. In particolare, SAFE-LD raggiunge un’accuratezza nel fine-mapping paragonabile a quella del LD interno e supera significativamente il LD esterno, anche negli scenari più favorevoli con pannelli abbinati per ascendenza. Il metodo è validato su molteplici loci e dimensioni dell’effetto utilizzando il framework di fine-mapping SuSiE. SAFE-LD rappresenta un’alternativa scalabile, rispettosa della privacy e accurata rispetto ai metodi tradizionali di stima, offrendo grandi potenzialità per migliorare il fine-mapping e le analisi genetiche successive in contesti in cui i dati a livello individuale non sono disponibili.