Adaptive multidimensional quadrature on multi-GPU systems

In several branches of computational science, evaluating multidimensional integrals is a crucial tasks. In scenarios necessitating stringent error control, deterministic adaptive quadrature is preferable over stochastic approaches, as it adaptively refines the integration domain based on the local behaviour of the integrand, thus enabling precise control of the approximation error. Nonetheless, after years of advancement, current adaptive frameworks are essentially limited to single-CPU or single-GPU implementations, and there has been a lack of focus on their extension to multi-GPU systems. This thesis presents a deterministic adaptive quadrature framework for multi-GPU systems, implemented using CUDA and MPI. A key challenge in this setting is the unpredictable workload distribution induced by the local behaviour of the integrand. To address this issue, we implement a strategy that dynamically redistribute workload among GPUs, and we validate it as a robust baseline, demonstrating performance gains over state-of-the-art single-GPU solvers. At the same time, it also highlights the inherent synchronisation and communication limits of strong scaling in such scenarios. The Genz-Malik cubature rule has been chosen as the numerical foundation of the solver, given its effectiveness in high-dimensional problems. Furthermore, this thesis presents a massively parallel Gauss-Kronrod integrator on a single GPU, leveraging the nested structure of the rule and its precise error estimators. By combining rigorous adaptive integration techniques with a high-performance multi-GPU architecture, this thesis demonstrates that deterministic adaptive quadrature may be scaled to multi-GPU setups. The obtained results pave the way for high-performance and highly scalable multi-GPU deterministic integrator, that could potentially facilitate scientific research in numerous fields.

In diversi ambiti della scienza computazionale, il calcolo di integrali multidimensionali rappresenta un compito fondamentale. Quando è necessario garantire un controllo rigoroso dell’errore, la quadratura adattiva deterministica si rivela preferibile rispetto agli approcci stocastici, poiché affina in maniera dinamica il dominio di integrazione in base al comportamento locale dell’integrando, permettendo così un’accurata gestione dell’errore di approssimazione. Nonostante i notevoli progressi compiuti negli ultimi anni, i framework adattivi esistenti risultano tuttora limitati a implementazioni su singola CPU o singola GPU, e solo raramente è stata affrontata la questione della loro estensione a sistemi multi-GPU. La presente tesi propone un framework di quadratura adattiva deterministica per sistemi multi-GPU, realizzato attraverso CUDA e MPI. Una sfida chiave in questo contesto è la distribuzione imprevedibile del carico di lavoro indotta dal comportamento locale dell’integrando. Una delle principali criticità in questo contesto riguarda la distribuzione imprevedibile del carico di lavoro, legata al comportamento locale dell’integranda. Per risolvere tale problematica, è stata sviluppata una strategia di ridistribuzione dinamica del carico tra le GPU, validata come baseline solida, che mostra miglioramenti prestazionali rispetto ai più avanzati solver su singola GPU. Allo stesso tempo, essa mette in luce i limiti intrinseci di sincronizzazione e comunicazione che emergono nello strong scaling di questo tipo di applicazioni. Come fondamento numerico del solver è stata adottata la regola di cubatura di Genz-Malik, riconosciuta per la sua efficacia nei problemi ad alta dimensionalità. Inoltre, la tesi presenta un integratore Gauss-Kronrod parallelo su singola GPU, che sfrutta la struttura annidata della regola e i suoi accurati stimatori di errore. Combinando metodologie rigorose di integrazione adattiva con un’architettura multi-GPU, questo lavoro dimostra la possibilità di scalare la quadratura adattiva deterministica a configurazioni multi-GPU. I risultati ottenuti aprono la strada a integratori deterministici multi-GPU ad alte prestazioni e altamente scalabili, con il potenziale di facilitare la ricerca scientifica in numerosi settori.