Hardware-accelerated replication on FPGA-based SmartNICs

Replication is a fundamental technique in distributed storage systems, ensuring durability and availability even in the presence of failures. Traditional replication protocols are typically implemented in software and executed on general-purpose CPUs, but as data volumes grow and networks accelerate to 100∼Gb/s and beyond, these approaches struggle with latency overheads and high CPU utilization. Recent trends point toward hardware acceleration, with RDMA and programmable SmartNICs offering new opportunities to push replication closer to the network. In high-performance computing (HPC), where massive datasets are distributed across thousands of nodes, efficient replication is equally critical for fault tolerance and checkpointing, yet conventional software-based methods often fall short at scale. This thesis explores this direction by designing and implementing a custom replication protocol directly in hardware on FPGA-based SmartNICs. The implementation is built on the AMD Alveo U55C platform using the open-source OpenNIC shell, leveraging QDMA over PCIe for host interaction, HBM for high-speed buffering, and QSFP28 links for inter-node communication. The architecture was deployed on a two-node testbed running a leader–follower replication protocol, where leadership is distributed across keys: some updates are led by the first SmartNIC, while others are led by the second. This setup provides a balanced replication scheme that more closely resembles real-world distributed storage systems. The design was validated through hardware experiments which confirm correct ordering, delivery, and acknowledgment of replicated updates across nodes. Benchmarking shows that the hardware-based protocol achieves replication at line rate with predictable latency, while avoiding the software overhead seen in conventional implementations. Additional experiments evaluate the impact of integrating replication logic with HBM on resource utilization and end-to-end latency.

La replicazione è una tecnica fondamentale nei sistemi di archiviazione distribuiti, in quanto garantisce durabilità e disponibilità anche in presenza di guasti. I protocolli di replicazione tradizionali sono tipicamente implementati in software ed eseguiti su CPU general-purpose; tuttavia, con l’aumento dei volumi di dati e l’evoluzione delle reti verso velocità di 100∼Gb/s e oltre, questi approcci incontrano difficoltà dovute alla latenza aggiuntiva e all’elevato utilizzo della CPU. Le tendenze più recenti si orientano verso l’accelerazione hardware, con RDMA e SmartNIC programmabili che offrono nuove oppor tunità per avvicinare la replicazione alla rete. Nell’ambito del calcolo ad alte prestazioni (HPC), dove dataset di dimensioni massive sono distribuiti su migliaia di nodi, una repli cazione efficiente è altrettanto cruciale per la tolleranza ai guasti e le operazioni di check point, ma i metodi convenzionali su software risultano spesso insufficienti su larga scala. Questa tesi esplora tale direzione progettando e implementando un protocollo di repli cazione personalizzato direttamente in hardware su SmartNIC basate su FPGA. L’impleme ntazione è realizzata sulla piattaforma AMD Alveo U55C utilizzando la shell open-source OpenNIC, sfruttando il QDMA su PCIe per l’interazione con l’host, l’HBM per il buffering ad alta velocità e i collegamenti QSFP28 per la comunicazione inter-nodo. L’architettura è stata validata su un testbed a due nodi che esegue un protocollo di replicazione leader–follower, in cui la leadership è distribuita in base alle chiavi: alcuni aggiornamenti sono guidati dalla prima SmartNIC, mentre altri dalla seconda. Questo approccio fornisce uno schema di replicazione bilanciato che riflette più da vicino i sistemi di archiviazione distribuiti reali. Il progetto è stato validato attraverso esperimenti hardware che hanno confermato il corretto ordinamento, la consegna e l’acknowledgment degli aggiornamenti replicati tra i nodi. I benchmark mostrano che il protocollo implementato in hardware raggiunge la replicazione a velocità di linea con una latenza prevedibile, evitando al contempo il sovraccarico software tipico delle implementazioni convenzionali. Ulteriori esperimenti valutano l’impatto dell’integrazione della logica di replicazione con l’HBM sull’utilizzo delle risorse e sulla latenza end-to-end.