2025-11-18T03:04:13.779328

Interpreting the Latent Structure of Operator Precedence in Language Models

Yugeswardeenoo, Nukala, Blondin et al.
Large Language Models (LLMs) have demonstrated impressive reasoning capabilities but continue to struggle with arithmetic tasks. Prior works largely focus on outputs or prompting strategies, leaving the open question of the internal structure through which models do arithmetic computation. In this work, we investigate whether LLMs encode operator precedence in their internal representations via the open-source instruction-tuned LLaMA 3.2-3B model. We constructed a dataset of arithmetic expressions with three operands and two operators, varying the order and placement of parentheses. Using this dataset, we trace whether intermediate results appear in the residual stream of the instruction-tuned LLaMA 3.2-3B model. We apply interpretability techniques such as logit lens, linear classification probes, and UMAP geometric visualization. Our results show that intermediate computations are present in the residual stream, particularly after MLP blocks. We also find that the model linearly encodes precedence in each operator's embeddings post attention layer. We introduce partial embedding swap, a technique that modifies operator precedence by exchanging high-impact embedding dimensions between operators.
academic

Interpretazione della Struttura Latente della Precedenza degli Operatori nei Modelli Linguistici

Informazioni Fondamentali

  • ID Articolo: 2510.13908
  • Titolo: Interpreting the Latent Structure of Operator Precedence in Language Models
  • Autori: Dharunish Yugeswardeenoo, Harshil Nukala, Cole Blondin, Sean O'Brien, Vasu Sharma, Kevin Zhu
  • Classificazione: cs.CL (Linguistica Computazionale)
  • Data di Pubblicazione/Conferenza: COLM 2025
  • Link Articolo: https://arxiv.org/abs/2510.13908

Riassunto

I modelli linguistici di grandi dimensioni (LLM) dimostrano eccellenti capacità di ragionamento, ma presentano ancora difficoltà nei compiti aritmetici. Ricerche precedenti si sono concentrate principalmente su strategie di output o prompt, trascurando la struttura interna mediante la quale i modelli eseguono calcoli aritmetici. Questo studio, utilizzando il modello LLaMA 3.2-3B open-source con fine-tuning per istruzioni, indaga se gli LLM codifichino la precedenza degli operatori nelle loro rappresentazioni interne. Lo studio costruisce un dataset di espressioni aritmetiche contenenti tre operandi e due operatori, variando l'ordine delle operazioni e la posizione delle parentesi. Utilizzando questo dataset, gli autori tracciavano se i risultati intermedi compaiono nel flusso residuale del modello, applicando tecniche di interpretabilità quali logit lens, sonde di classificazione lineare e visualizzazione geometrica UMAP. I risultati indicano che i calcoli intermedi esistono nel flusso residuale, in particolare dopo i blocchi MLP. Lo studio scopre inoltre che il modello codifica linearmente le informazioni di precedenza negli embedding degli operatori dopo i livelli di attenzione. L'articolo introduce la tecnica di scambio parziale di embedding, modificando la precedenza degli operatori scambiando dimensioni di embedding ad alto impatto tra gli operatori.

Contesto di Ricerca e Motivazione

Definizione del Problema

Il problema centrale affrontato da questa ricerca è: i modelli linguistici di grandi dimensioni, quando elaborano espressioni aritmetiche, codificano e come le regole di precedenza degli operatori nelle loro rappresentazioni interne? Nello specifico, quando il modello affronta un'espressione come "1 + 1 × 2", calcola prima la moltiplicazione secondo le regole di priorità matematica, oppure elabora semplicemente da sinistra a destra?

Importanza

  1. Significato Teorico: Comprendere i meccanismi di ragionamento aritmetico interno degli LLM ha un valore significativo per la ricerca sull'interpretabilità dell'apprendimento automatico
  2. Valore Pratico: Migliorare le prestazioni del modello nei compiti di ragionamento matematico, in particolare per modelli di dimensioni minori
  3. Contributo Metodologico: Fornire nuove tecniche per analizzare le rappresentazioni interne delle reti neurali

Limitazioni dei Metodi Esistenti

  • La maggior parte della ricerca si concentra su prompt in linguaggio naturale e risultati finali
  • Manca un'analisi approfondita dell'elaborazione della precedenza degli operatori e dei passaggi di calcolo intermedi
  • Comprensione insufficiente della struttura dei calcoli aritmetici interni del modello

Motivazione della Ricerca

Attraverso metodi di interpretabilità meccanicistica, investigare profondamente come gli LLM elaborano internamente le espressioni aritmetiche, con particolare attenzione ai meccanismi di elaborazione dell'ordine delle operazioni.

Contributi Principali

  1. Costruzione di un dataset sistematico di espressioni aritmetiche: Contiene espressioni con tre operandi e due operatori, testando sistematicamente la precedenza sintattica e semantica
  2. Scoperta di prove dell'esistenza di calcoli intermedi: Attraverso la tecnica logit lens, gli autori scoprono che il modello esegue calcoli intermedi nelle reti profonde
  3. Rivelazione della codifica lineare della precedenza degli operatori: Dimostra che il modello codifica linearmente le informazioni di precedenza degli operatori dopo i livelli di attenzione
  4. Proposizione della tecnica di scambio parziale di embedding: Un nuovo metodo per modificare la precedenza degli operatori scambiando dimensioni di embedding ad alto impatto
  5. Fornitura di analisi di visualizzazione geometrica: Attraverso UMAP, mostra la struttura organizzativa delle rappresentazioni degli operatori

Spiegazione Dettagliata dei Metodi

Definizione del Compito

Input: Espressioni aritmetiche contenenti tre operandi e due operatori, come "a o1 b o2 c" Output: Il risultato del calcolo dell'espressione da parte del modello Vincoli:

  • Operandi a, b, c ∈ {1, 2, ..., 9}
  • Coppie di operatori (o1, o2) provengono da un insieme di precedenza mista: {(+, *), (-, *), (+, /), (-, /)}
  • Tutti i risultati di calcolo sono interi positivi

Costruzione del Dataset

Per ogni combinazione di operandi e operatori, vengono generate sei varianti strutturali:

  1. Parentesi sinistra: (a o1 b) o2 c
  2. Parentesi destra: a o1 (b o2 c)
  3. Parentesi sinistra invertita: (a o2 b) o1 c
  4. Parentesi destra invertita: a o2 (b o1 c)
  5. Senza parentesi (ordine naturale): a o1 b o2 c
  6. Senza parentesi (invertito): a o2 b o1 c

In totale vengono generati 8547 prompt, di cui il modello risponde correttamente a 4401.

Metodi Tecnici Chiave

1. Analisi Logit Lens

  • Obiettivo: Tracciare se i calcoli intermedi compaiono nel flusso residuale
  • Metodo: Proiettare il flusso residuale di ogni livello attraverso la matrice di unembedding per ottenere logit dal vocabolario
  • Analisi: Verificare se i token top-10 includono i risultati intermedi attesi

2. Tecnica della Sonda Lineare

  • Sonda di calcolo intermedio: Addestrare una sonda lineare per prevedere direttamente i valori intermedi dalle attivazioni del modello
  • Sonda di precedenza: Utilizzare un classificatore di regressione logistica per prevedere l'ordine di calcolo degli operatori (primo o secondo calcolato)

3. Scambio Parziale di Embedding

Flusso dell'Algoritmo:

  1. Identificazione delle dimensioni influenti: Scambiare sequenzialmente ogni dimensione delle rappresentazioni nascoste degli operatori "+" e "*"
  2. Misurazione dell'effetto di perturbazione: Se lo scambio fa cambiare la previsione del modello da una risposta corretta (come 23) a una errata (come 35), quella dimensione codifica informazioni di precedenza
  3. Ordinamento e selezione: Ordinare le dimensioni per influenza, determinare il sottoinsieme minimo di dimensioni necessario per modificare la previsione

4. Visualizzazione Geometrica UMAP

  • Proiettare i vettori di attivazione dei token degli operatori in uno spazio a bassa dimensionalità
  • Formato di etichettatura: [posizione][operatore]precedenza, come "1m2" che indica il simbolo di moltiplicazione in posizione 1 nell'espressione ma con precedenza di calcolo 2

Configurazione Sperimentale

Scelta del Modello

Utilizzo del modello LLaMA 3.2-3B open-source con fine-tuning per istruzioni, che presenta una struttura transformer con 28 livelli.

Statistiche del Dataset

  • Numero totale di prompt: 8547
  • Risposte corrette del modello: 4401 (51,5%)
  • Utilizzo solo di campioni che il modello riesce a prevedere correttamente per l'analisi

Metriche di Valutazione

  • Tasso di rilevamento del calcolo intermedio: Proporzione di risultati intermedi che compaiono nei logit principali
  • Accuratezza della sonda lineare: Punteggio R² e accuratezza di classificazione
  • Tasso di successo dello scambio di precedenza: Proporzione di casi in cui il cambio di previsione del modello ha successo

Risultati Sperimentali

Scoperte Principali

1. Esistenza di Calcoli Intermedi

  • Tasso di rilevamento: Su 4401 prompt, 2799 volte (63,6%) viene rilevato il calcolo intermedio nei logit principali
  • Livelli di apparizione: Principalmente nei livelli 16-27, con picco nei livelli 18-19
  • Componente chiave: I blocchi MLP sono il componente chiave per introdurre logit intermedi, non i blocchi di attenzione

2. Prove di Codifica Lineare

  • La sonda lineare può prevedere con alta precisione i calcoli intermedi già dopo il livello 0 (punteggio R² elevato)
  • La sonda di classificazione della precedenza raggiunge il 100% di accuratezza sul set di test
  • Il meccanismo di attenzione migliora significativamente la decodificabilità lineare della precedenza degli operatori

3. Risultati dello Scambio Parziale di Embedding

  • Successo nel modificare la previsione del logit massimo del modello in più istanze attraverso lo scambio di dimensioni specifiche
  • Dimostra la localizzazione sparsa delle informazioni di precedenza degli operatori in dimensioni di embedding specifiche

4. Analisi della Struttura Geometrica

La visualizzazione UMAP mostra:

  • Una netta separazione degli embedding degli operatori prima e dopo l'attenzione
  • Gli operatori con la stessa posizione e precedenza si raggruppano insieme
  • Il meccanismo di attenzione codifica le informazioni di precedenza degli operatori

Risultati Quantitativi

MetricaValore
Tasso di rilevamento del calcolo intermedio63,6% (2799/4401)
Accuratezza della sonda di precedenza100%
Intervallo dei livelli di rilevamento principale16-27
Livello di picco di rilevamento18-19

Lavori Correlati

Ricerca sul Ragionamento Aritmetico

  • Mirzadeh et al. (2024) e Bubeck et al. (2023) evidenziano le difficoltà persistenti degli LLM nei compiti aritmetici
  • Lewkowycz et al. (2022) esplorano strategie di prompt come il ragionamento chain-of-thought
  • Boye & Moell (2025) valutano il calcolo aritmetico su più modelli, scoprendo incoerenze frequenti

Interpretabilità Meccanicistica

  • Zhang et al. (2024) studiano la struttura interna degli LLM nei compiti aritmetici
  • Stolfo et al. (2023) adottano un framework di mediazione causale per tracciare i contributi dei componenti interni alle previsioni aritmetiche
  • Nainani et al. (2024) propongono il concetto di "circuiti" per spiegare il comportamento del modello specifico per compito

Metodi Tecnici

  • nostalgebraist (2020) propone la tecnica logit lens
  • Alain & Bengio (2018) sviluppano il metodo della sonda lineare
  • McInnes et al. (2020) sviluppano la tecnica di riduzione dimensionale UMAP

Conclusioni e Discussione

Conclusioni Principali

  1. I calcoli intermedi effettivamente esistono: Il modello LLaMA 3.2-3B esegue calcoli intermedi internamente, e queste informazioni diventano linearmente decodificabili nelle reti profonde
  2. Codifica lineare della precedenza: Le informazioni di precedenza degli operatori sono codificate linearmente in dimensioni di embedding specifiche dopo i livelli di attenzione
  3. Ruolo chiave dell'MLP: I blocchi MLP, non i blocchi di attenzione, sono responsabili della produzione dei risultati di calcolo intermedi
  4. Struttura organizzativa geometrica: Il modello organizza le rappresentazioni degli operatori in base alla loro posizione e precedenza di calcolo

Limitazioni

  1. Limitazione della scala del modello: Gli esperimenti vengono condotti solo su un modello LLaMA con 3B parametri, i risultati potrebbero non essere applicabili a modelli di dimensioni maggiori
  2. Complessità del compito: Considera solo semplici espressioni con tre operandi e due operatori
  3. Tipo di operatore: Coinvolge solo operazioni aritmetiche di base, non copre operazioni matematiche più complesse
  4. Limitazione del tasso di successo: Il modello riesce a rispondere correttamente solo al circa 51,5% dei problemi aritmetici

Direzioni Future

  1. Estensione a modelli linguistici di dimensioni maggiori
  2. Studio di espressioni matematiche più complesse e tipi di operazioni
  3. Esplorazione delle rappresentazioni interne di altri concetti matematici (come funzioni, equazioni)
  4. Sviluppo di metodi di miglioramento del modello basati su queste scoperte

Valutazione Approfondita

Punti di Forza

  1. Innovazione Metodologica: Lo scambio parziale di embedding è una tecnica di intervento nuova ed efficace
  2. Completezza Sperimentale: Combinazione di molteplici tecniche di interpretabilità (logit lens, sonde lineari, UMAP, esperimenti di intervento)
  3. Importanza delle Scoperte: Prima dimostrazione sistematica del meccanismo di codifica della precedenza degli operatori negli LLM
  4. Rigore Tecnico: Progettazione sperimentale ragionevole, utilizzo solo di campioni che il modello riesce a rispondere correttamente per l'analisi

Insufficienze

  1. Limitazione della scala: Gli esperimenti sono limitati a modelli con 3B parametri, la generalizzabilità rimane da verificare
  2. Semplificazione del compito: Le espressioni aritmetiche sono relativamente semplici, la complessità nei casi di applicazione reale non è sufficientemente considerata
  3. Profondità teorica: Manca una spiegazione teorica del perché questi meccanismi emergono
  4. Praticità: Sebbene fornisca importanti intuizioni, come sfruttare queste scoperte per migliorare le prestazioni del modello rimane poco chiaro

Impatto

  1. Valore Accademico: Fornisce un contributo importante alla comprensione meccanicistica del ragionamento aritmetico negli LLM
  2. Significato Metodologico: La tecnica di scambio parziale di embedding può essere applicata all'analisi di altri compiti
  3. Potenziale Pratico: Fornisce direzioni per migliorare le capacità aritmetiche dei modelli di piccole dimensioni
  4. Riproducibilità: Utilizzo di modelli open-source, gli esperimenti sono relativamente facili da riprodurre

Scenari Applicabili

  1. Analisi del Modello: Applicabile all'analisi dei meccanismi interni di altri modelli linguistici
  2. Applicazioni Educative: Aiuta a comprendere come l'IA elabora i concetti matematici
  3. Miglioramento del Modello: Fornisce orientamento per sviluppare modelli con migliore ragionamento aritmetico
  4. Ricerca sull'Interpretabilità: Fornisce riferimenti metodologici per l'analisi meccanicistica di altri compiti cognitivi

Bibliografia

Questo articolo cita letteratura importante nei campi dell'interpretabilità meccanicistica, del ragionamento aritmetico e dell'analisi delle reti neurali, inclusi:

  • nostalgebraist (2020) - Tecnica logit lens
  • Alain & Bengio (2018) - Metodo della sonda lineare
  • Zhang et al. (2024) - Struttura interna degli LLM nel ragionamento aritmetico
  • Stolfo et al. (2023) - Framework di analisi di mediazione causale
  • McInnes et al. (2020) - Tecnica di riduzione dimensionale UMAP

Questa ricerca fornisce importanti intuizioni per comprendere i meccanismi di ragionamento aritmetico interno dei modelli linguistici di grandi dimensioni, in particolare nella gestione della precedenza degli operatori. Sebbene presenti alcune limitazioni, l'innovazione metodologica e l'importanza delle scoperte la rendono un contributo prezioso nel campo dell'interpretabilità meccanicistica.