Analog in-memory computing for energy efficient robot kinematics acceleration

Modern computers are based on the von Neumann architecture, consisting of two physically separated memory and computing units. When large amounts of data are involved in the computation, as has become typical in modern workloads, the data transfer energy and latency result in significant performance loss. In-memory computing (IMC) subverts this classical paradigm by performing computations directly within the memory unit, un locking potential for vastly improved throughput and energy efficiency, with additional scalability benefits when coupled with back-end-of-the-line (BEOL) compatible emerging resistive memory devices. In particular, crossbar-based IMC has gained momentum owing to its unique capability of accelerating matrix-vector operations by exploiting Ohm’s and Kirchhoff’s law as physical surrogates for the multiply-and-accumulate (MAC) primitive. In this analog IMC (AIMC) framework, closed-loop circuits exploiting crossbar arrays in analog feedback configuration have been shown capable of executing computationally intensive inverse-matrix-vector multiplication in one-step, i.e. O(1) complexity, with a significant advantage over the conventional O(N^3) operations required by a digital processor. However, while closed-loop IMC (CL-IMC) has been successfully demonstrated for a wide spectrum of applications relying on linear inverse problems, an even larger number of use cases typically require energy-efficient solution of more complex nonlinear inverse problems, such as kinematics in robotic actuators for upcoming humanoid automata. In this work, novel CL-IMC circuits for the acceleration of forward and inverse kinematics in robotic manipulators are introduced, extensively characterized in simulation, and experimentally validated on an integrated CL-IMC testchip in 90 nm technology to assess their scaling and accuracy performance. A novel CL-IMC architecture is subsequently introduced to enhance circuit robustness, preserving performance advantages. Performance benchmarks of the proposed circuits against a state-of-the-art field-programmable gate array (FPGA) show potential for up to ×10^3 improvement in area and energy efficiency, strengthening the position of CL-IMC as a promising architecture candidate for next-generation edge-computing devices.

I computer moderni si basano sull’architettura di von Neumann, che consiste in due unità fisicamente separate, le unità di memoria e di programmazione. Quando grandi quantità di dati sono coinvolte nel calcolo, come nel caso di carichi moderni, l’energia e la latenza di trasferimento dei dati causano un significativo peggioramento delle prestazioni. Il calcolo in memoria (IMC) sovverte questo paradigma svolgendo i calcoli direttamente all’interno della memoria, potenzialmente migliorando throughput ed efficienza energetica, e con ulteriori vantaggi di scalabilità se implementato con dispositivi di memoria resistiva emergenti compatibili con la fine della linea (BEOL). In particolare l’IMC basato sui crossbar è promettente per quanto riguarda l’accelerazione di operazioni matrice-vettore sfruttando le leggi di Ohm e di Kirchhoff per implementare fisicamente la primitiva di moltiplicazione e accumulazione (MAC). In questo scenario, i circuiti in anello chiuso composti da crossbar in configurazione di feedback si sono dimostrati in grado di eseguire l’intensiva moltiplicazione matrice-vettore, in uno step, i.e. con complessità O(1), con un vantaggio significativo rispetto alle O(N^3) operazioni richieste da un processore digitale. Tuttavia, mentre l’IMC ad anello chiuso (CL-IMC) è stato dimostrato con successo per un vasto spettro di applicazioni che si basano su problemi inversi lineari, un numero ancora maggiore di casi richiede soluzioni energeticamente efficienti per problemi non lineari più complessi, ad esempio la cinematica in manipolatori robotici per i futuri automi umanoidi. In questo lavoro, sono introdotti nuovi circuiti per accelerare la cinematica diretta e inversa dei manipolatori tramite CL-IMC, sono caratterizzati con simulazioni, e validati sperimentalmente su un testchip integrato in tecnologia 90 nm per valutare le prestazioni di scalabilità e accuratezza. Una nuova architettura che si basa su CL-IMC è successivamente introdotta per migliorare la robustezza del circuito e mantenere i vantaggi nelle prestazioni. I benchmark delle prestazioni dei circuiti proposti rispetto a una field-programmable-gate-array (FPGA) allo stato dell’arte mostrano un potenziale miglioramento fino a ×10^3 nell’efficienza energetica e di area, rafforzando la posizione del CL-IMC come promettente candidato per i dispositivi di calcolo al margine di prossima generazione.