Scalable analog in-memory solution of large linear systems through recursive block inversion

Traditional computing systems predominantly adhere to von Neumann’s architecture, which separates memory and processing units for flexibility and generality concerns. However, as data generation inexorably grows to accommodate modern data-driven applications, the energy and latency overheads associated with continuous data transferring are exacerbated pushing von Neumann-based computing systems to their limits. In-memory computing (IMC) fundamentally subverts this paradigm since it enables computation directly within memory exploiting physical laws, therefore unlocking ideally unrivaled throughput and energy efficiency improvements. Among the various proposed IMC approaches, the adoption of nonvolatile resistive memory devices arranged in crossbar arrays has been recognized for their capability to handle matrix-vector operations efficiently. However, the analog nature of this paradigm poses scalability challenges thus limiting its applicability to contained problem size. This thesis argues Recursive Block Inversion (RBI) as an effective methodology for expanding IMC solvers to tackle inverse matrix-vector multiplication (IMVM) on matrices beyond the hardware's native capability. This work provides a detailed analysis of factors affecting RBI accuracy and applicability within computational units with limited precision. The possibility of using a single general-purpose closed-loop primitive to perform the calculations is verified and experimentally demonstrated using a CMOS-based testchip, revealing substantial improvements in energy and area efficiency compared to conventional GPU-based solvers. In response to the reduced throughput performance of single IMC core performing RBI, possible multi-core architectures are proposed to complement the research work by providing valuable insights for hardware-algorithm optimization enabling next-generation energy-efficient, scalable analog algebraic accelerators.

I sistemi di calcolo tradizionali aderiscono prevalentemente all'architettura di von Neumann, che separa memoria e unità di calcolo per motivi di flessibilità e generalità. Tuttavia, poiché la generazione di dati cresce inesorabilmente per soddisfare le moderne applicazioni data-driven, il sovraccarico di energia e latenza associato al continuo trasferimento di dati viene aggravato, spingendo i sistemi di computazione basati su von Neumann al loro limite. Il calcolo in memoria (IMC) sovverte radicalmente questo paradigma, poiché consente di effettuare calcoli direttamente all'interno della memoria sfruttando le leggi fisiche, assicurando così miglioramenti idealmente impareggiabili in termini di throughput ed efficienza energetica. Tra i vari approcci proposti per l'IMC, l'adozione di dispositivi di memoria resistiva non volatile disposti in crossbar è stata riconosciuta per la sua efficienza nell'eseguire le operazioni matrice-vettore. Tuttavia, la natura analogica di questo paradigma pone problemi di scalabilità, limitandone l'applicabilità a problemi di dimensioni contenute. Questo lavoro di tesi sostiene l'inversione ricorsiva a blocchi (RBI) come una metodologia efficace per espandere l'uso di risolutori IMC ad affrontare operazioni inversa di matrice-vettore (IMVM) su problemi che vanno oltre le capacità native dell'hardware. Questo lavoro fornisce un'analisi dettagliata dei fattori che influenzano l'accuratezza e l'applicabilità dell'RBI attraverso unità di calcolo con precisione limitata. La possibilità di utilizzare una singola primitiva universale ad anello chiuso per eseguire i calcoli è verificata e dimostrata sperimentalmente utilizzando un testchip basato su CMOS, rivelando miglioramenti sostanziali nell'efficienza energetica e di area rispetto ai risolutori convenzionali basati su GPU. In risposta alle ridotte prestazioni di velocità computazionale di una singola unità IMC che esegue l'RBI, vengono proposte possibili architetture multi-core per completare il lavoro di ricerca, fornendo utili indicazioni per l'ottimizzazione hardware-algoritmo che sarà alla base della realizzazione di acceleratori algebrici analogici scalabili ed efficienti dal punto di vista energetico di prossima generazione.