Large Language Models (LLMs) have demonstrated impressive reasoning capabilities but continue to struggle with arithmetic tasks. Prior works largely focus on outputs or prompting strategies, leaving the open question of the internal structure through which models do arithmetic computation. In this work, we investigate whether LLMs encode operator precedence in their internal representations via the open-source instruction-tuned LLaMA 3.2-3B model. We constructed a dataset of arithmetic expressions with three operands and two operators, varying the order and placement of parentheses. Using this dataset, we trace whether intermediate results appear in the residual stream of the instruction-tuned LLaMA 3.2-3B model. We apply interpretability techniques such as logit lens, linear classification probes, and UMAP geometric visualization. Our results show that intermediate computations are present in the residual stream, particularly after MLP blocks. We also find that the model linearly encodes precedence in each operator's embeddings post attention layer. We introduce partial embedding swap, a technique that modifies operator precedence by exchanging high-impact embedding dimensions between operators.
- ID Articolo: 2510.13908
- Titolo: Interpreting the Latent Structure of Operator Precedence in Language Models
- Autori: Dharunish Yugeswardeenoo, Harshil Nukala, Cole Blondin, Sean O'Brien, Vasu Sharma, Kevin Zhu
- Classificazione: cs.CL (Linguistica Computazionale)
- Data di Pubblicazione/Conferenza: COLM 2025
- Link Articolo: https://arxiv.org/abs/2510.13908
I modelli linguistici di grandi dimensioni (LLM) dimostrano eccellenti capacità di ragionamento, ma presentano ancora difficoltà nei compiti aritmetici. Ricerche precedenti si sono concentrate principalmente su strategie di output o prompt, trascurando la struttura interna mediante la quale i modelli eseguono calcoli aritmetici. Questo studio, utilizzando il modello LLaMA 3.2-3B open-source con fine-tuning per istruzioni, indaga se gli LLM codifichino la precedenza degli operatori nelle loro rappresentazioni interne. Lo studio costruisce un dataset di espressioni aritmetiche contenenti tre operandi e due operatori, variando l'ordine delle operazioni e la posizione delle parentesi. Utilizzando questo dataset, gli autori tracciavano se i risultati intermedi compaiono nel flusso residuale del modello, applicando tecniche di interpretabilità quali logit lens, sonde di classificazione lineare e visualizzazione geometrica UMAP. I risultati indicano che i calcoli intermedi esistono nel flusso residuale, in particolare dopo i blocchi MLP. Lo studio scopre inoltre che il modello codifica linearmente le informazioni di precedenza negli embedding degli operatori dopo i livelli di attenzione. L'articolo introduce la tecnica di scambio parziale di embedding, modificando la precedenza degli operatori scambiando dimensioni di embedding ad alto impatto tra gli operatori.
Il problema centrale affrontato da questa ricerca è: i modelli linguistici di grandi dimensioni, quando elaborano espressioni aritmetiche, codificano e come le regole di precedenza degli operatori nelle loro rappresentazioni interne? Nello specifico, quando il modello affronta un'espressione come "1 + 1 × 2", calcola prima la moltiplicazione secondo le regole di priorità matematica, oppure elabora semplicemente da sinistra a destra?
- Significato Teorico: Comprendere i meccanismi di ragionamento aritmetico interno degli LLM ha un valore significativo per la ricerca sull'interpretabilità dell'apprendimento automatico
- Valore Pratico: Migliorare le prestazioni del modello nei compiti di ragionamento matematico, in particolare per modelli di dimensioni minori
- Contributo Metodologico: Fornire nuove tecniche per analizzare le rappresentazioni interne delle reti neurali
- La maggior parte della ricerca si concentra su prompt in linguaggio naturale e risultati finali
- Manca un'analisi approfondita dell'elaborazione della precedenza degli operatori e dei passaggi di calcolo intermedi
- Comprensione insufficiente della struttura dei calcoli aritmetici interni del modello
Attraverso metodi di interpretabilità meccanicistica, investigare profondamente come gli LLM elaborano internamente le espressioni aritmetiche, con particolare attenzione ai meccanismi di elaborazione dell'ordine delle operazioni.
- Costruzione di un dataset sistematico di espressioni aritmetiche: Contiene espressioni con tre operandi e due operatori, testando sistematicamente la precedenza sintattica e semantica
- Scoperta di prove dell'esistenza di calcoli intermedi: Attraverso la tecnica logit lens, gli autori scoprono che il modello esegue calcoli intermedi nelle reti profonde
- Rivelazione della codifica lineare della precedenza degli operatori: Dimostra che il modello codifica linearmente le informazioni di precedenza degli operatori dopo i livelli di attenzione
- Proposizione della tecnica di scambio parziale di embedding: Un nuovo metodo per modificare la precedenza degli operatori scambiando dimensioni di embedding ad alto impatto
- Fornitura di analisi di visualizzazione geometrica: Attraverso UMAP, mostra la struttura organizzativa delle rappresentazioni degli operatori
Input: Espressioni aritmetiche contenenti tre operandi e due operatori, come "a o1 b o2 c"
Output: Il risultato del calcolo dell'espressione da parte del modello
Vincoli:
- Operandi a, b, c ∈ {1, 2, ..., 9}
- Coppie di operatori (o1, o2) provengono da un insieme di precedenza mista: {(+, *), (-, *), (+, /), (-, /)}
- Tutti i risultati di calcolo sono interi positivi
Per ogni combinazione di operandi e operatori, vengono generate sei varianti strutturali:
- Parentesi sinistra: (a o1 b) o2 c
- Parentesi destra: a o1 (b o2 c)
- Parentesi sinistra invertita: (a o2 b) o1 c
- Parentesi destra invertita: a o2 (b o1 c)
- Senza parentesi (ordine naturale): a o1 b o2 c
- Senza parentesi (invertito): a o2 b o1 c
In totale vengono generati 8547 prompt, di cui il modello risponde correttamente a 4401.
- Obiettivo: Tracciare se i calcoli intermedi compaiono nel flusso residuale
- Metodo: Proiettare il flusso residuale di ogni livello attraverso la matrice di unembedding per ottenere logit dal vocabolario
- Analisi: Verificare se i token top-10 includono i risultati intermedi attesi
- Sonda di calcolo intermedio: Addestrare una sonda lineare per prevedere direttamente i valori intermedi dalle attivazioni del modello
- Sonda di precedenza: Utilizzare un classificatore di regressione logistica per prevedere l'ordine di calcolo degli operatori (primo o secondo calcolato)
Flusso dell'Algoritmo:
- Identificazione delle dimensioni influenti: Scambiare sequenzialmente ogni dimensione delle rappresentazioni nascoste degli operatori "+" e "*"
- Misurazione dell'effetto di perturbazione: Se lo scambio fa cambiare la previsione del modello da una risposta corretta (come 23) a una errata (come 35), quella dimensione codifica informazioni di precedenza
- Ordinamento e selezione: Ordinare le dimensioni per influenza, determinare il sottoinsieme minimo di dimensioni necessario per modificare la previsione
- Proiettare i vettori di attivazione dei token degli operatori in uno spazio a bassa dimensionalità
- Formato di etichettatura: [posizione][operatore]precedenza, come "1m2" che indica il simbolo di moltiplicazione in posizione 1 nell'espressione ma con precedenza di calcolo 2
Utilizzo del modello LLaMA 3.2-3B open-source con fine-tuning per istruzioni, che presenta una struttura transformer con 28 livelli.
- Numero totale di prompt: 8547
- Risposte corrette del modello: 4401 (51,5%)
- Utilizzo solo di campioni che il modello riesce a prevedere correttamente per l'analisi
- Tasso di rilevamento del calcolo intermedio: Proporzione di risultati intermedi che compaiono nei logit principali
- Accuratezza della sonda lineare: Punteggio R² e accuratezza di classificazione
- Tasso di successo dello scambio di precedenza: Proporzione di casi in cui il cambio di previsione del modello ha successo
- Tasso di rilevamento: Su 4401 prompt, 2799 volte (63,6%) viene rilevato il calcolo intermedio nei logit principali
- Livelli di apparizione: Principalmente nei livelli 16-27, con picco nei livelli 18-19
- Componente chiave: I blocchi MLP sono il componente chiave per introdurre logit intermedi, non i blocchi di attenzione
- La sonda lineare può prevedere con alta precisione i calcoli intermedi già dopo il livello 0 (punteggio R² elevato)
- La sonda di classificazione della precedenza raggiunge il 100% di accuratezza sul set di test
- Il meccanismo di attenzione migliora significativamente la decodificabilità lineare della precedenza degli operatori
- Successo nel modificare la previsione del logit massimo del modello in più istanze attraverso lo scambio di dimensioni specifiche
- Dimostra la localizzazione sparsa delle informazioni di precedenza degli operatori in dimensioni di embedding specifiche
La visualizzazione UMAP mostra:
- Una netta separazione degli embedding degli operatori prima e dopo l'attenzione
- Gli operatori con la stessa posizione e precedenza si raggruppano insieme
- Il meccanismo di attenzione codifica le informazioni di precedenza degli operatori
| Metrica | Valore |
|---|
| Tasso di rilevamento del calcolo intermedio | 63,6% (2799/4401) |
| Accuratezza della sonda di precedenza | 100% |
| Intervallo dei livelli di rilevamento principale | 16-27 |
| Livello di picco di rilevamento | 18-19 |
- Mirzadeh et al. (2024) e Bubeck et al. (2023) evidenziano le difficoltà persistenti degli LLM nei compiti aritmetici
- Lewkowycz et al. (2022) esplorano strategie di prompt come il ragionamento chain-of-thought
- Boye & Moell (2025) valutano il calcolo aritmetico su più modelli, scoprendo incoerenze frequenti
- Zhang et al. (2024) studiano la struttura interna degli LLM nei compiti aritmetici
- Stolfo et al. (2023) adottano un framework di mediazione causale per tracciare i contributi dei componenti interni alle previsioni aritmetiche
- Nainani et al. (2024) propongono il concetto di "circuiti" per spiegare il comportamento del modello specifico per compito
- nostalgebraist (2020) propone la tecnica logit lens
- Alain & Bengio (2018) sviluppano il metodo della sonda lineare
- McInnes et al. (2020) sviluppano la tecnica di riduzione dimensionale UMAP
- I calcoli intermedi effettivamente esistono: Il modello LLaMA 3.2-3B esegue calcoli intermedi internamente, e queste informazioni diventano linearmente decodificabili nelle reti profonde
- Codifica lineare della precedenza: Le informazioni di precedenza degli operatori sono codificate linearmente in dimensioni di embedding specifiche dopo i livelli di attenzione
- Ruolo chiave dell'MLP: I blocchi MLP, non i blocchi di attenzione, sono responsabili della produzione dei risultati di calcolo intermedi
- Struttura organizzativa geometrica: Il modello organizza le rappresentazioni degli operatori in base alla loro posizione e precedenza di calcolo
- Limitazione della scala del modello: Gli esperimenti vengono condotti solo su un modello LLaMA con 3B parametri, i risultati potrebbero non essere applicabili a modelli di dimensioni maggiori
- Complessità del compito: Considera solo semplici espressioni con tre operandi e due operatori
- Tipo di operatore: Coinvolge solo operazioni aritmetiche di base, non copre operazioni matematiche più complesse
- Limitazione del tasso di successo: Il modello riesce a rispondere correttamente solo al circa 51,5% dei problemi aritmetici
- Estensione a modelli linguistici di dimensioni maggiori
- Studio di espressioni matematiche più complesse e tipi di operazioni
- Esplorazione delle rappresentazioni interne di altri concetti matematici (come funzioni, equazioni)
- Sviluppo di metodi di miglioramento del modello basati su queste scoperte
- Innovazione Metodologica: Lo scambio parziale di embedding è una tecnica di intervento nuova ed efficace
- Completezza Sperimentale: Combinazione di molteplici tecniche di interpretabilità (logit lens, sonde lineari, UMAP, esperimenti di intervento)
- Importanza delle Scoperte: Prima dimostrazione sistematica del meccanismo di codifica della precedenza degli operatori negli LLM
- Rigore Tecnico: Progettazione sperimentale ragionevole, utilizzo solo di campioni che il modello riesce a rispondere correttamente per l'analisi
- Limitazione della scala: Gli esperimenti sono limitati a modelli con 3B parametri, la generalizzabilità rimane da verificare
- Semplificazione del compito: Le espressioni aritmetiche sono relativamente semplici, la complessità nei casi di applicazione reale non è sufficientemente considerata
- Profondità teorica: Manca una spiegazione teorica del perché questi meccanismi emergono
- Praticità: Sebbene fornisca importanti intuizioni, come sfruttare queste scoperte per migliorare le prestazioni del modello rimane poco chiaro
- Valore Accademico: Fornisce un contributo importante alla comprensione meccanicistica del ragionamento aritmetico negli LLM
- Significato Metodologico: La tecnica di scambio parziale di embedding può essere applicata all'analisi di altri compiti
- Potenziale Pratico: Fornisce direzioni per migliorare le capacità aritmetiche dei modelli di piccole dimensioni
- Riproducibilità: Utilizzo di modelli open-source, gli esperimenti sono relativamente facili da riprodurre
- Analisi del Modello: Applicabile all'analisi dei meccanismi interni di altri modelli linguistici
- Applicazioni Educative: Aiuta a comprendere come l'IA elabora i concetti matematici
- Miglioramento del Modello: Fornisce orientamento per sviluppare modelli con migliore ragionamento aritmetico
- Ricerca sull'Interpretabilità: Fornisce riferimenti metodologici per l'analisi meccanicistica di altri compiti cognitivi
Questo articolo cita letteratura importante nei campi dell'interpretabilità meccanicistica, del ragionamento aritmetico e dell'analisi delle reti neurali, inclusi:
- nostalgebraist (2020) - Tecnica logit lens
- Alain & Bengio (2018) - Metodo della sonda lineare
- Zhang et al. (2024) - Struttura interna degli LLM nel ragionamento aritmetico
- Stolfo et al. (2023) - Framework di analisi di mediazione causale
- McInnes et al. (2020) - Tecnica di riduzione dimensionale UMAP
Questa ricerca fornisce importanti intuizioni per comprendere i meccanismi di ragionamento aritmetico interno dei modelli linguistici di grandi dimensioni, in particolare nella gestione della precedenza degli operatori. Sebbene presenti alcune limitazioni, l'innovazione metodologica e l'importanza delle scoperte la rendono un contributo prezioso nel campo dell'interpretabilità meccanicistica.