A GPU-accelerated framework for VCF parsing and variant filtering into DataFrames

The Variant Call Format (VCF) is the de facto standard for representing genomic varia tion, yet its loosely defined structure poses challenges for parsing, filtering, and large-scale analysis. Existing tools are constrained by row-oriented representations, limited filtering capabilities, and inadequate scalability when processing large cohorts or integrating with modern analytical workflows. This thesis introduces cuVCF, a hardware-accelerated framework for high-throughput ge nomic variant analysis. By transforming raw VCF streams into normalized, column oriented dataframes, cuVCF enables efficient, scalable querying using familiar Pandas and cuDF interfaces. The pipeline integrates multithreaded CPU preprocessing with GPU based vectorized transformations, delivering dramatic performance improvements across four real-world datasets. Compared to state-of-the-art tools such as vcflib, cyvcf2, and bcftools, cuVCF achieves speedups of up to 1991× in execution time, with robust gains for large datasets like Bos taurus. Moreover, converting from VCF to CSV reduces disk usage by up to 28%, depending on data characteristics. In addition to raw performance, cuVCF simplifies integration with statistical and machine learning pipelines, offers reproducible query semantics, and supports dynamic data ex tension with minimal code overhead. These features position cuVCF as a fast, extensible, and practical platform for scalable genomic data science.

Il Variant Call Format (VCF) è lo standard per la rappresentazione delle variazioni ge nomiche, ma la sua struttura poco rigorosa introduce importanti difficoltà in fase di parsing, filtraggio e analisi su larga scala. Gli strumenti esistenti soffrono di limitazioni dovute all’organizzazione per righe, a capacità di filtraggio ridotte e a una scalabilità insufficiente nell’elaborazione di dataset di grandi dimensioni o nell’integrazione con i moderni workflow. Questa tesi presenta cuVCF, un framework accelerato tramite GPU e CPU per l’analisi ad alte prestazioni di varianti genomiche. Trasformando flussi VCF grezzi in dataframe normalizzati e orientati per colonne, cuVCF consente interrogazioni efficienti e scalabili tramite le interfacce familiari di Pandas e cuDF. La pipeline integra una fase di pre processing multithread su CPU con trasformazioni vettoriali su GPU, offrendo notevoli miglioramenti prestazionali su quattro dataset reali. Rispetto ai software presenti come vcflib, cyvcf2 e bcftools, cuVCF raggiunge accel erazioni fino a 1991× nei tempi di esecuzione, con guadagni particolarmente significativi su dataset di grandi dimensioni come Bos taurus. Inoltre, la conversione da VCF a CSV consente una riduzione dell’uso di memoria su disco fino al 28%, a seconda delle caratter istiche del dataset. Oltre alle prestazioni grezze, cuVCF semplifica l’integrazione con pipeline statistiche e di machine learning e supporta l’estensione dinamica dei dati con un overhead minimo in termini di codice. Queste caratteristiche rendono cuVCF una piattaforma veloce, estensi bile e concreta per l’analisi scalabile dei dati genomici.