Mapping GEMMs on spatial architectures through adaptive programming and greedy optimization

General Matrix Multiplications (GEMMs) are fundamental kernels in tensor-based scientific applications and deep learning. Modern AI accelerators using spatial architectures can run these kernels efficiently by leveraging parallelism and data reuse, but they require specific mappings to plan data movements and computations. The choice of mapping significantly impacts energy consumption and latency. Consequently, the vast space of possible mappings, unique for each GEMM-architecture pair, must be searched thoroughly to find optimal solutions. This is a complex optimization problem that imposes effective map-space exploration strategies. Current state-of-the-art mapping tools primarily address convolution kernels, a superset of GEMMs, but often fail to leverage GEMMs' specific characteristics. As a result, they struggle to consistently generate optimal mappings in a reasonable time for all GEMM-architecture pairs. This thesis introduces FactorFlow, an automatic framework designed to map GEMM kernels to spatial architectures using adaptive programming and greedy optimization to minimize the energy-delay product. An evaluation, conducted against four other state-of-the-art mapping tools on a selected set of GEMMs and architectures, demonstrates that FactorFlow consistently discovers mappings that outperform existing tools in terms of EDP while significantly reducing the exploration execution time.

Le moltiplicazioni generali di matrici (GEMM) sono kernel fondamentali nelle applicazioni scientifiche basate su tensori e nel deep learning. I moderni acceleratori per IA che utilizzano architetture spaziali possono eseguire questi kernel in modo efficiente sfruttando parallelismo e riutilizzo dei dati, ma richiedono mappature specifiche per pianificare i movimenti dei dati e le computazioni. La scelta della mappatura influisce significativamente sul consumo energetico e sulla latenza. Di conseguenza, il vasto spazio delle possibili mappature, unico per ogni coppia GEMM-architettura, deve essere esplorato accuratamente per trovare soluzioni ottimali. Questo è un problema di ottimizzazione complesso che necessita strategie efficaci di esplorazione dello spazio delle mappature. Gli strumenti di mappatura dell'attuale stato dell'arte affrontano principalmente le convoluzioni, un sovrainsieme delle GEMM, perciò spesso non si curano di sfruttare le caratteristiche specifiche delle GEMM. Pertanto faticano a generare consistentemente mappature ottimali in un tempo ragionevole per tutte le coppie GEMM-architettura. Questa tesi introduce FactorFlow, un framework automatico progettato per mappare i kernel GEMM su architetture spaziali utilizzando la programmazione adattiva e l'ottimiz-zazione greedy per minimizzare il prodotto energia-latenza. Una valutazione, condotta contro quattro altri strumenti di mappatura allo stato dell'arte su un set selezionato di GEMM e architetture, dimostra che FactorFlow trova consistentemente mappature che superano tali strumenti in termini di prodotto energia-latenza, al contempo riducendo significativamente il tempo di esecuzione dell'esplorazione.