2025-11-18T03:04:13.779328

Interpreting the Latent Structure of Operator Precedence in Language Models

Yugeswardeenoo, Nukala, Blondin et al.

Large Language Models (LLMs) have demonstrated impressive reasoning capabilities but continue to struggle with arithmetic tasks. Prior works largely focus on outputs or prompting strategies, leaving the open question of the internal structure through which models do arithmetic computation. In this work, we investigate whether LLMs encode operator precedence in their internal representations via the open-source instruction-tuned LLaMA 3.2-3B model. We constructed a dataset of arithmetic expressions with three operands and two operators, varying the order and placement of parentheses. Using this dataset, we trace whether intermediate results appear in the residual stream of the instruction-tuned LLaMA 3.2-3B model. We apply interpretability techniques such as logit lens, linear classification probes, and UMAP geometric visualization. Our results show that intermediate computations are present in the residual stream, particularly after MLP blocks. We also find that the model linearly encodes precedence in each operator's embeddings post attention layer. We introduce partial embedding swap, a technique that modifies operator precedence by exchanging high-impact embedding dimensions between operators.

academic

Interpretazione della Struttura Latente della Precedenza degli Operatori nei Modelli Linguistici

Informazioni Fondamentali

ID Articolo: 2510.13908
Titolo: Interpreting the Latent Structure of Operator Precedence in Language Models
Autori: Dharunish Yugeswardeenoo, Harshil Nukala, Cole Blondin, Sean O'Brien, Vasu Sharma, Kevin Zhu
Classificazione: cs.CL (Linguistica Computazionale)
Data di Pubblicazione/Conferenza: COLM 2025
Link Articolo: https://arxiv.org/abs/2510.13908

Riassunto

I modelli linguistici di grandi dimensioni (LLM) dimostrano eccellenti capacità di ragionamento, ma presentano ancora difficoltà nei compiti aritmetici. Ricerche precedenti si sono concentrate principalmente su strategie di output o prompt, trascurando la struttura interna mediante la quale i modelli eseguono calcoli aritmetici. Questo studio, utilizzando il modello LLaMA 3.2-3B open-source con fine-tuning per istruzioni, indaga se gli LLM codifichino la precedenza degli operatori nelle loro rappresentazioni interne. Lo studio costruisce un dataset di espressioni aritmetiche contenenti tre operandi e due operatori, variando l'ordine delle operazioni e la posizione delle parentesi. Utilizzando questo dataset, gli autori tracciavano se i risultati intermedi compaiono nel flusso residuale del modello, applicando tecniche di interpretabilità quali logit lens, sonde di classificazione lineare e visualizzazione geometrica UMAP. I risultati indicano che i calcoli intermedi esistono nel flusso residuale, in particolare dopo i blocchi MLP. Lo studio scopre inoltre che il modello codifica linearmente le informazioni di precedenza negli embedding degli operatori dopo i livelli di attenzione. L'articolo introduce la tecnica di scambio parziale di embedding, modificando la precedenza degli operatori scambiando dimensioni di embedding ad alto impatto tra gli operatori.

Contesto di Ricerca e Motivazione

Definizione del Problema

Il problema centrale affrontato da questa ricerca è: i modelli linguistici di grandi dimensioni, quando elaborano espressioni aritmetiche, codificano e come le regole di precedenza degli operatori nelle loro rappresentazioni interne? Nello specifico, quando il modello affronta un'espressione come "1 + 1 × 2", calcola prima la moltiplicazione secondo le regole di priorità matematica, oppure elabora semplicemente da sinistra a destra?

Importanza

Significato Teorico: Comprendere i meccanismi di ragionamento aritmetico interno degli LLM ha un valore significativo per la ricerca sull'interpretabilità dell'apprendimento automatico
Valore Pratico: Migliorare le prestazioni del modello nei compiti di ragionamento matematico, in particolare per modelli di dimensioni minori
Contributo Metodologico: Fornire nuove tecniche per analizzare le rappresentazioni interne delle reti neurali

Limitazioni dei Metodi Esistenti

La maggior parte della ricerca si concentra su prompt in linguaggio naturale e risultati finali
Manca un'analisi approfondita dell'elaborazione della precedenza degli operatori e dei passaggi di calcolo intermedi
Comprensione insufficiente della struttura dei calcoli aritmetici interni del modello

Motivazione della Ricerca

Attraverso metodi di interpretabilità meccanicistica, investigare profondamente come gli LLM elaborano internamente le espressioni aritmetiche, con particolare attenzione ai meccanismi di elaborazione dell'ordine delle operazioni.

Contributi Principali

Costruzione di un dataset sistematico di espressioni aritmetiche: Contiene espressioni con tre operandi e due operatori, testando sistematicamente la precedenza sintattica e semantica
Scoperta di prove dell'esistenza di calcoli intermedi: Attraverso la tecnica logit lens, gli autori scoprono che il modello esegue calcoli intermedi nelle reti profonde
Rivelazione della codifica lineare della precedenza degli operatori: Dimostra che il modello codifica linearmente le informazioni di precedenza degli operatori dopo i livelli di attenzione
Proposizione della tecnica di scambio parziale di embedding: Un nuovo metodo per modificare la precedenza degli operatori scambiando dimensioni di embedding ad alto impatto
Fornitura di analisi di visualizzazione geometrica: Attraverso UMAP, mostra la struttura organizzativa delle rappresentazioni degli operatori

Spiegazione Dettagliata dei Metodi

Definizione del Compito

Input: Espressioni aritmetiche contenenti tre operandi e due operatori, come "a o1 b o2 c" Output: Il risultato del calcolo dell'espressione da parte del modello Vincoli:

Operandi a, b, c ∈ {1, 2, ..., 9}
Coppie di operatori (o1, o2) provengono da un insieme di precedenza mista: {(+, *), (-, *), (+, /), (-, /)}
Tutti i risultati di calcolo sono interi positivi

Costruzione del Dataset

Per ogni combinazione di operandi e operatori, vengono generate sei varianti strutturali:

Parentesi sinistra: (a o1 b) o2 c
Parentesi destra: a o1 (b o2 c)
Parentesi sinistra invertita: (a o2 b) o1 c
Parentesi destra invertita: a o2 (b o1 c)
Senza parentesi (ordine naturale): a o1 b o2 c
Senza parentesi (invertito): a o2 b o1 c

In totale vengono generati 8547 prompt, di cui il modello risponde correttamente a 4401.

Metodi Tecnici Chiave

1. Analisi Logit Lens

Obiettivo: Tracciare se i calcoli intermedi compaiono nel flusso residuale
Metodo: Proiettare il flusso residuale di ogni livello attraverso la matrice di unembedding per ottenere logit dal vocabolario
Analisi: Verificare se i token top-10 includono i risultati intermedi attesi

2. Tecnica della Sonda Lineare

Sonda di calcolo intermedio: Addestrare una sonda lineare per prevedere direttamente i valori intermedi dalle attivazioni del modello
Sonda di precedenza: Utilizzare un classificatore di regressione logistica per prevedere l'ordine di calcolo degli operatori (primo o secondo calcolato)

3. Scambio Parziale di Embedding

Flusso dell'Algoritmo:

Identificazione delle dimensioni influenti: Scambiare sequenzialmente ogni dimensione delle rappresentazioni nascoste degli operatori "+" e "*"
Misurazione dell'effetto di perturbazione: Se lo scambio fa cambiare la previsione del modello da una risposta corretta (come 23) a una errata (come 35), quella dimensione codifica informazioni di precedenza
Ordinamento e selezione: Ordinare le dimensioni per influenza, determinare il sottoinsieme minimo di dimensioni necessario per modificare la previsione

4. Visualizzazione Geometrica UMAP

Proiettare i vettori di attivazione dei token degli operatori in uno spazio a bassa dimensionalità
Formato di etichettatura: [posizione][operatore]precedenza, come "1m2" che indica il simbolo di moltiplicazione in posizione 1 nell'espressione ma con precedenza di calcolo 2

Configurazione Sperimentale

Scelta del Modello

Utilizzo del modello LLaMA 3.2-3B open-source con fine-tuning per istruzioni, che presenta una struttura transformer con 28 livelli.

Statistiche del Dataset

Numero totale di prompt: 8547
Risposte corrette del modello: 4401 (51,5%)
Utilizzo solo di campioni che il modello riesce a prevedere correttamente per l'analisi

Metriche di Valutazione

Tasso di rilevamento del calcolo intermedio: Proporzione di risultati intermedi che compaiono nei logit principali
Accuratezza della sonda lineare: Punteggio R² e accuratezza di classificazione
Tasso di successo dello scambio di precedenza: Proporzione di casi in cui il cambio di previsione del modello ha successo

Risultati Sperimentali

Scoperte Principali

1. Esistenza di Calcoli Intermedi

Tasso di rilevamento: Su 4401 prompt, 2799 volte (63,6%) viene rilevato il calcolo intermedio nei logit principali
Livelli di apparizione: Principalmente nei livelli 16-27, con picco nei livelli 18-19
Componente chiave: I blocchi MLP sono il componente chiave per introdurre logit intermedi, non i blocchi di attenzione

2. Prove di Codifica Lineare

La sonda lineare può prevedere con alta precisione i calcoli intermedi già dopo il livello 0 (punteggio R² elevato)
La sonda di classificazione della precedenza raggiunge il 100% di accuratezza sul set di test
Il meccanismo di attenzione migliora significativamente la decodificabilità lineare della precedenza degli operatori

3. Risultati dello Scambio Parziale di Embedding

Successo nel modificare la previsione del logit massimo del modello in più istanze attraverso lo scambio di dimensioni specifiche
Dimostra la localizzazione sparsa delle informazioni di precedenza degli operatori in dimensioni di embedding specifiche

4. Analisi della Struttura Geometrica

La visualizzazione UMAP mostra:

Una netta separazione degli embedding degli operatori prima e dopo l'attenzione
Gli operatori con la stessa posizione e precedenza si raggruppano insieme
Il meccanismo di attenzione codifica le informazioni di precedenza degli operatori

Risultati Quantitativi

Metrica	Valore
Tasso di rilevamento del calcolo intermedio	63,6% (2799/4401)
Accuratezza della sonda di precedenza	100%
Intervallo dei livelli di rilevamento principale	16-27
Livello di picco di rilevamento	18-19

Lavori Correlati

Ricerca sul Ragionamento Aritmetico

Mirzadeh et al. (2024) e Bubeck et al. (2023) evidenziano le difficoltà persistenti degli LLM nei compiti aritmetici
Lewkowycz et al. (2022) esplorano strategie di prompt come il ragionamento chain-of-thought
Boye & Moell (2025) valutano il calcolo aritmetico su più modelli, scoprendo incoerenze frequenti

Interpretabilità Meccanicistica

Zhang et al. (2024) studiano la struttura interna degli LLM nei compiti aritmetici
Stolfo et al. (2023) adottano un framework di mediazione causale per tracciare i contributi dei componenti interni alle previsioni aritmetiche
Nainani et al. (2024) propongono il concetto di "circuiti" per spiegare il comportamento del modello specifico per compito

Metodi Tecnici

nostalgebraist (2020) propone la tecnica logit lens
Alain & Bengio (2018) sviluppano il metodo della sonda lineare
McInnes et al. (2020) sviluppano la tecnica di riduzione dimensionale UMAP

Conclusioni e Discussione

Conclusioni Principali

I calcoli intermedi effettivamente esistono: Il modello LLaMA 3.2-3B esegue calcoli intermedi internamente, e queste informazioni diventano linearmente decodificabili nelle reti profonde
Codifica lineare della precedenza: Le informazioni di precedenza degli operatori sono codificate linearmente in dimensioni di embedding specifiche dopo i livelli di attenzione
Ruolo chiave dell'MLP: I blocchi MLP, non i blocchi di attenzione, sono responsabili della produzione dei risultati di calcolo intermedi
Struttura organizzativa geometrica: Il modello organizza le rappresentazioni degli operatori in base alla loro posizione e precedenza di calcolo

Limitazioni

Limitazione della scala del modello: Gli esperimenti vengono condotti solo su un modello LLaMA con 3B parametri, i risultati potrebbero non essere applicabili a modelli di dimensioni maggiori
Complessità del compito: Considera solo semplici espressioni con tre operandi e due operatori
Tipo di operatore: Coinvolge solo operazioni aritmetiche di base, non copre operazioni matematiche più complesse
Limitazione del tasso di successo: Il modello riesce a rispondere correttamente solo al circa 51,5% dei problemi aritmetici

Direzioni Future

Estensione a modelli linguistici di dimensioni maggiori
Studio di espressioni matematiche più complesse e tipi di operazioni
Esplorazione delle rappresentazioni interne di altri concetti matematici (come funzioni, equazioni)
Sviluppo di metodi di miglioramento del modello basati su queste scoperte

Valutazione Approfondita

Punti di Forza

Innovazione Metodologica: Lo scambio parziale di embedding è una tecnica di intervento nuova ed efficace
Completezza Sperimentale: Combinazione di molteplici tecniche di interpretabilità (logit lens, sonde lineari, UMAP, esperimenti di intervento)
Importanza delle Scoperte: Prima dimostrazione sistematica del meccanismo di codifica della precedenza degli operatori negli LLM
Rigore Tecnico: Progettazione sperimentale ragionevole, utilizzo solo di campioni che il modello riesce a rispondere correttamente per l'analisi

Insufficienze

Limitazione della scala: Gli esperimenti sono limitati a modelli con 3B parametri, la generalizzabilità rimane da verificare
Semplificazione del compito: Le espressioni aritmetiche sono relativamente semplici, la complessità nei casi di applicazione reale non è sufficientemente considerata
Profondità teorica: Manca una spiegazione teorica del perché questi meccanismi emergono
Praticità: Sebbene fornisca importanti intuizioni, come sfruttare queste scoperte per migliorare le prestazioni del modello rimane poco chiaro

Impatto

Valore Accademico: Fornisce un contributo importante alla comprensione meccanicistica del ragionamento aritmetico negli LLM
Significato Metodologico: La tecnica di scambio parziale di embedding può essere applicata all'analisi di altri compiti
Potenziale Pratico: Fornisce direzioni per migliorare le capacità aritmetiche dei modelli di piccole dimensioni
Riproducibilità: Utilizzo di modelli open-source, gli esperimenti sono relativamente facili da riprodurre

Scenari Applicabili

Analisi del Modello: Applicabile all'analisi dei meccanismi interni di altri modelli linguistici
Applicazioni Educative: Aiuta a comprendere come l'IA elabora i concetti matematici
Miglioramento del Modello: Fornisce orientamento per sviluppare modelli con migliore ragionamento aritmetico
Ricerca sull'Interpretabilità: Fornisce riferimenti metodologici per l'analisi meccanicistica di altri compiti cognitivi

Bibliografia

Questo articolo cita letteratura importante nei campi dell'interpretabilità meccanicistica, del ragionamento aritmetico e dell'analisi delle reti neurali, inclusi:

nostalgebraist (2020) - Tecnica logit lens
Alain & Bengio (2018) - Metodo della sonda lineare
Zhang et al. (2024) - Struttura interna degli LLM nel ragionamento aritmetico
Stolfo et al. (2023) - Framework di analisi di mediazione causale
McInnes et al. (2020) - Tecnica di riduzione dimensionale UMAP

Questa ricerca fornisce importanti intuizioni per comprendere i meccanismi di ragionamento aritmetico interno dei modelli linguistici di grandi dimensioni, in particolare nella gestione della precedenza degli operatori. Sebbene presenti alcune limitazioni, l'innovazione metodologica e l'importanza delle scoperte la rendono un contributo prezioso nel campo dell'interpretabilità meccanicistica.