The Variant Call Format (VCF) is the de facto standard for representing genomic varia tion, yet its loosely defined structure poses challenges for parsing, filtering, and large-scale analysis. Existing tools are constrained by row-oriented representations, limited filtering capabilities, and inadequate scalability when processing large cohorts or integrating with modern analytical workflows. This thesis introduces cuVCF, a hardware-accelerated framework for high-throughput ge nomic variant analysis. By transforming raw VCF streams into normalized, column oriented dataframes, cuVCF enables efficient, scalable querying using familiar Pandas and cuDF interfaces. The pipeline integrates multithreaded CPU preprocessing with GPU based vectorized transformations, delivering dramatic performance improvements across four real-world datasets. Compared to state-of-the-art tools such as vcflib, cyvcf2, and bcftools, cuVCF achieves speedups of up to 1991× in execution time, with robust gains for large datasets like Bos taurus. Moreover, converting from VCF to CSV reduces disk usage by up to 28%, depending on data characteristics. In addition to raw performance, cuVCF simplifies integration with statistical and machine learning pipelines, offers reproducible query semantics, and supports dynamic data ex tension with minimal code overhead. These features position cuVCF as a fast, extensible, and practical platform for scalable genomic data science.

Il Variant Call Format (VCF) è lo standard per la rappresentazione delle variazioni ge nomiche, ma la sua struttura poco rigorosa introduce importanti difficoltà in fase di parsing, filtraggio e analisi su larga scala. Gli strumenti esistenti soffrono di limitazioni dovute all’organizzazione per righe, a capacità di filtraggio ridotte e a una scalabilità insufficiente nell’elaborazione di dataset di grandi dimensioni o nell’integrazione con i moderni workflow. Questa tesi presenta cuVCF, un framework accelerato tramite GPU e CPU per l’analisi ad alte prestazioni di varianti genomiche. Trasformando flussi VCF grezzi in dataframe normalizzati e orientati per colonne, cuVCF consente interrogazioni efficienti e scalabili tramite le interfacce familiari di Pandas e cuDF. La pipeline integra una fase di pre processing multithread su CPU con trasformazioni vettoriali su GPU, offrendo notevoli miglioramenti prestazionali su quattro dataset reali. Rispetto ai software presenti come vcflib, cyvcf2 e bcftools, cuVCF raggiunge accel erazioni fino a 1991× nei tempi di esecuzione, con guadagni particolarmente significativi su dataset di grandi dimensioni come Bos taurus. Inoltre, la conversione da VCF a CSV consente una riduzione dell’uso di memoria su disco fino al 28%, a seconda delle caratter istiche del dataset. Oltre alle prestazioni grezze, cuVCF semplifica l’integrazione con pipeline statistiche e di machine learning e supporta l’estensione dinamica dei dati con un overhead minimo in termini di codice. Queste caratteristiche rendono cuVCF una piattaforma veloce, estensi bile e concreta per l’analisi scalabile dei dati genomici.

A GPU-accelerated framework for VCF parsing and variant filtering into DataFrames

FIORENTINI, RICCARDO
2024/2025

Abstract

The Variant Call Format (VCF) is the de facto standard for representing genomic varia tion, yet its loosely defined structure poses challenges for parsing, filtering, and large-scale analysis. Existing tools are constrained by row-oriented representations, limited filtering capabilities, and inadequate scalability when processing large cohorts or integrating with modern analytical workflows. This thesis introduces cuVCF, a hardware-accelerated framework for high-throughput ge nomic variant analysis. By transforming raw VCF streams into normalized, column oriented dataframes, cuVCF enables efficient, scalable querying using familiar Pandas and cuDF interfaces. The pipeline integrates multithreaded CPU preprocessing with GPU based vectorized transformations, delivering dramatic performance improvements across four real-world datasets. Compared to state-of-the-art tools such as vcflib, cyvcf2, and bcftools, cuVCF achieves speedups of up to 1991× in execution time, with robust gains for large datasets like Bos taurus. Moreover, converting from VCF to CSV reduces disk usage by up to 28%, depending on data characteristics. In addition to raw performance, cuVCF simplifies integration with statistical and machine learning pipelines, offers reproducible query semantics, and supports dynamic data ex tension with minimal code overhead. These features position cuVCF as a fast, extensible, and practical platform for scalable genomic data science.
COGGI, MIRKO
ING - Scuola di Ingegneria Industriale e dell'Informazione
23-ott-2025
2024/2025
Il Variant Call Format (VCF) è lo standard per la rappresentazione delle variazioni ge nomiche, ma la sua struttura poco rigorosa introduce importanti difficoltà in fase di parsing, filtraggio e analisi su larga scala. Gli strumenti esistenti soffrono di limitazioni dovute all’organizzazione per righe, a capacità di filtraggio ridotte e a una scalabilità insufficiente nell’elaborazione di dataset di grandi dimensioni o nell’integrazione con i moderni workflow. Questa tesi presenta cuVCF, un framework accelerato tramite GPU e CPU per l’analisi ad alte prestazioni di varianti genomiche. Trasformando flussi VCF grezzi in dataframe normalizzati e orientati per colonne, cuVCF consente interrogazioni efficienti e scalabili tramite le interfacce familiari di Pandas e cuDF. La pipeline integra una fase di pre processing multithread su CPU con trasformazioni vettoriali su GPU, offrendo notevoli miglioramenti prestazionali su quattro dataset reali. Rispetto ai software presenti come vcflib, cyvcf2 e bcftools, cuVCF raggiunge accel erazioni fino a 1991× nei tempi di esecuzione, con guadagni particolarmente significativi su dataset di grandi dimensioni come Bos taurus. Inoltre, la conversione da VCF a CSV consente una riduzione dell’uso di memoria su disco fino al 28%, a seconda delle caratter istiche del dataset. Oltre alle prestazioni grezze, cuVCF semplifica l’integrazione con pipeline statistiche e di machine learning e supporta l’estensione dinamica dei dati con un overhead minimo in termini di codice. Queste caratteristiche rendono cuVCF una piattaforma veloce, estensi bile e concreta per l’analisi scalabile dei dati genomici.
File allegati
File Dimensione Formato  
2025_10_Fiorentini_Executive_Summary.pdf

accessibile in internet per tutti

Descrizione: Executive Summary
Dimensione 518.63 kB
Formato Adobe PDF
518.63 kB Adobe PDF Visualizza/Apri
2025_10_Fiorentini_Tesi.pdf

accessibile in internet per tutti

Descrizione: Tesi
Dimensione 858.98 kB
Formato Adobe PDF
858.98 kB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/243058