Towards explaining the arithmetic abilities of Large Language Models

Large Language Models (LLMs) have demonstrated surprising proficiency in arithmetic tasks, despite being trained purely on next-token prediction. However, the internal mech- anisms enabling this capability remain poorly understood. This thesis investigates the emergent algorithmic strategies that Transformer-based LLMs employ to represent and process numerical information. Through a series of mechanistic interpretability experiments on LLaMA family models, this work provides two primary sets of findings. First, by analyzing the residual stream representations of integers, we demonstrate that the model spontaneously learns a highly structured, periodic representational system for numbers, akin to a Fourier-like decom- position. Using Principal Component Analysis (PCA) and sinusoidal fitting, we identify interpretable periodic components (e.g., with periods of 2, 10, and 100) corresponding to fundamental numerical properties like parity and modular arithmetic. Causal analyses using LIME and activation patching confirm that these components are not only localized to the early-to-mid layers (0-16) but are potentially causally necessary for computation, functioning as distinct "modular encoders" and "indicator encoders". Second, we isolate a specialized set of attention heads critical for arithmetic operations. Headcontributionanalysisandcausalinterventions(ablation)consistentlyidentifyasmall cluster of heads (notably in Layer 11) as essential. Ablating these heads causes a system- atic and predictable failure, such as defaulting to outputting the first operand. Direct output decoding reveals the specific function of these components, identifying one (Head 14, Layer 11) as a "max head" that algorithmically compares the two operands and routes the larger value to the residual stream. These findings demonstrate that LLMs develop emergent, algorithm-like strategies built fromcomposableandinterpretablecomponents. Farfrombeingopaquestatisticalmimics, they reverse-engineer fundamental mathematical principles and deploy specialized circuits to solve reasoning tasks.

ILargeLanguageModels(LLM)hannomostratounasorprendentecompetenzanell’aritmetica, nonostante siano addestrati esclusivamente per predire la parola successiva. Tuttavia, i meccanismi interni che rendono possibile questa abilità restano in gran parte inesplorati. Questa tesi indaga le strategie algoritmiche emergenti che i modelli Transformer adottano per rappresentare ed elaborare informazioni numeriche. Attraversounaseriediesperimentidimechanisticinterpretabilitycondottisumodellidella famiglia LLaMA, il lavoro presenta due principali linee di risultati. Primo, analizzando le rappresentazioni dei numeri interi nel residual stream, si mostra che il modello apprende spontaneamente un sistema di rappresentazione dei numeri altamente strutturato e peri- odico, analogo a una decomposizione di Fourier. Mediante Principal Component Analysis (PCA) e adattamento di curve sinusoidali, vengono identificate componenti periodiche interpretabili (con periodi, ad esempio, di 2, 10 e 100) che corrispondono a proprietà nu- meriche fondamentali come la parità e l’aritmetica modulare. Analisi causali basate su LIME e activation patching confermano che tali componenti, localizzate principalmente nei livelli iniziali e intermedi (0–16), non solo codificano informazioni numeriche ma risul- tano causalmente necessarie per il calcolo, agendo come modular encoders e indicator encoders. Secondo, viene isolato un insieme di attention heads critiche per le operazioni aritmetiche. L’analisideicontributieleablazionicausalirivelanounpiccologruppoditeste, inpartico- lare nel livello 11, come elementi essenziali per il funzionamento del modello. L’ablazione di tali teste produce un fallimento sistematico e prevedibile, tipicamente il “default” verso il primo operando. La decodifica diretta dell’output permette inoltre di identificare la funzione specifica di alcune di esse: una in particolare (head 14, layer 11) agisce come max head, confrontando algoritmicamente i due operandi e instradando il valore maggiore nel residual stream. Nel complesso, questi risultati dimostrano che gli LLM sviluppano strategie algoritmiche emergenti, basate su componenti interpretabili e combinabili. Lungi dall’essere meri im- itatori statistici, tali modelli implementano forme di computazione strutturata, in cui circuiti specializzati codificano e manipolano concetti matematici di base per supportare il ragionamento.