Beyond scaling: EmbBERT and the redesign of LMs for micro-devices

The impressive success of Large Language Models (LLMs) is deeply rooted in scaling model and dataset sizes. However, the question of how these architectures perform in constrained environments, addressing the opposite situation of memory and data scarcity (and whether they are useful at all in this context), remains largely unexplored. In this work, for the first time we report an extensive evaluation of extreme compression of large-scale generative language models to operate on resource-constrained devices, addressing the scarcity of research focusing on memory-bound restrictions within this context. Our project goals entail developing an AI model for natural language understanding, deployable with microcontrollers to perform tasks like command classification. Distinct from prior work, which disregards such constraints, we imposed a stringent limit of 2MB for model parameters and activations. To satisfy these demands, we evaluated state-of-the-art contenders like BERT and MAMBA with reduced parameters, along with custom models leveraging innovative techniques to minimize both parametric complexity and activations. Our experiments revealed that pared-down or purpose-built models generally outperform current SotA counterparts, emphasizing the advantage of tailored approaches at this scale of computational and memory constraints. All supporting materials, including code, results, and model checkpoints, are publicly available at https://github.com/RiccardoBravin/tiny-LLM

In questo testo vogliamo andare ad esplorare come Large Language Models (LLMs) allo stato dell'arte su larga scala possono operare su sistemi embedded con risorse limitate principalmente affrontando le grosse restrizioni in termini di memoria che vengono generalmente ignorate su questa scala da altre pubblicazioni. Il nostro progetto prevede lo sviluppo di un modello di AI per la comprensione del linguaggio naturale che possa venir utilizzata con microcontollori per eseguire task quali classificazioni di comandi vocali in forma testuale o simili. A differenza di precendenti lavori in questo ambito i quali parzialmente ignorano i limiti di questi dispositivi noi abbiamo scelto di imporre un limite di 2MB di memoria per i nostri modelli considerando non solo i pesi di questi ma anche lo spazio per le attivazioni durante l'inferenza. Per soddisfare questi vincoli abbiamo considerato sia modelli allo stato dell'arte come BERT e MAMBA con iperparametri ridotti sia modelli personalizzati che sfruttassero nuove tecniche presenti in letteratura per minimizzare sia la complessita parametrica sia le attivazioni. I nostri esperimenti rivelano che questi modelli su misura generalmente superano con buon margine i modelli allo stato dell'arte, così enfatizzando i vantaggi che modelli come quelli proposti sono in grando di portare in ambiti su questa scala con grosse limitazioni in termini di memoria e capacità computazionale. Tutti i materiali, compresi codice, risultati e checkpoint dei modelli pretrainati sono disponibili al link: https://github.com/RiccardoBravin/tiny-LLM