2025-11-18T03:04:13.779328

Interpreting the Latent Structure of Operator Precedence in Language Models

Yugeswardeenoo, Nukala, Blondin et al.
Large Language Models (LLMs) have demonstrated impressive reasoning capabilities but continue to struggle with arithmetic tasks. Prior works largely focus on outputs or prompting strategies, leaving the open question of the internal structure through which models do arithmetic computation. In this work, we investigate whether LLMs encode operator precedence in their internal representations via the open-source instruction-tuned LLaMA 3.2-3B model. We constructed a dataset of arithmetic expressions with three operands and two operators, varying the order and placement of parentheses. Using this dataset, we trace whether intermediate results appear in the residual stream of the instruction-tuned LLaMA 3.2-3B model. We apply interpretability techniques such as logit lens, linear classification probes, and UMAP geometric visualization. Our results show that intermediate computations are present in the residual stream, particularly after MLP blocks. We also find that the model linearly encodes precedence in each operator's embeddings post attention layer. We introduce partial embedding swap, a technique that modifies operator precedence by exchanging high-impact embedding dimensions between operators.
academic

Interpretation der latenten Struktur von Operatorpriorität in Sprachmodellen

Grundinformationen

  • Paper-ID: 2510.13908
  • Titel: Interpreting the Latent Structure of Operator Precedence in Language Models
  • Autoren: Dharunish Yugeswardeenoo, Harshil Nukala, Cole Blondin, Sean O'Brien, Vasu Sharma, Kevin Zhu
  • Klassifizierung: cs.CL (Computerlinguistik)
  • Veröffentlichungszeit/Konferenz: COLM 2025
  • Paper-Link: https://arxiv.org/abs/2510.13908

Zusammenfassung

Große Sprachmodelle (LLMs) zeigen hervorragende Fähigkeiten beim logischen Denken, haben aber weiterhin Schwierigkeiten bei arithmetischen Aufgaben. Frühere Forschungen konzentrierten sich hauptsächlich auf Ausgabe- oder Prompt-Strategien und vernachlässigten die interne Struktur, mit der Modelle arithmetische Berechnungen durchführen. Diese Studie untersucht anhand des Open-Source-Instruction-Tuned-Modells LLaMA 3.2-3B, ob LLMs Operatorpriorität in ihren internen Darstellungen kodieren. Die Forschung konstruiert einen Datensatz arithmetischer Ausdrücke mit drei Operanden und zwei Operatoren, variiert die Berechnungsreihenfolge und Klammerplatzierung. Mit diesem Datensatz wird verfolgt, ob Zwischenergebnisse im Residualstrom des Modells erscheinen, und es werden Interpretierungstechniken wie Logit Lens, lineare Klassifizierungssonden und UMAP-Geometrievisualisierung angewendet. Die Ergebnisse zeigen, dass Zwischenberechnungen im Residualstrom vorhanden sind, besonders nach MLP-Blöcken. Die Studie zeigt auch, dass das Modell Prioritätsinformationen in Operatoreinbettungen nach Aufmerksamkeitsschichten linear kodiert. Das Paper führt eine partielle Einbettungsaustauschmethode ein, die Operatorpriorität durch Austausch hocheinflussreicher Einbettungsdimensionen zwischen Operatoren modifiziert.

Forschungshintergrund und Motivation

Problemdefinition

Das Kernproblem dieser Forschung ist: Kodieren große Sprachmodelle Operatorprioritätsregeln in ihren internen Darstellungen, wenn sie arithmetische Ausdrücke verarbeiten, und wenn ja, wie? Konkret: Wenn ein Modell auf einen Ausdruck wie „1 + 1 × 2" trifft, berechnet es die Multiplikation zuerst gemäß mathematischer Prioritätsregeln oder verarbeitet es einfach von links nach rechts?

Bedeutung

  1. Theoretische Bedeutung: Das Verständnis des arithmetischen Denkmechanismus in LLMs hat großen Wert für die Interpretierbarkeitsforschung im maschinellen Lernen
  2. Praktischer Wert: Verbesserung der Modellleistung bei mathematischen Denkaufgaben, besonders für kleinere Modelle
  3. Methodologischer Beitrag: Neue technische Mittel zur Analyse interner Darstellungen neuronaler Netze

Einschränkungen bestehender Methoden

  • Die meisten Studien konzentrieren sich auf natürlichsprachliche Prompts und endgültige Ausgabeergebnisse
  • Mangelnde tiefgreifende Analyse der Operatorpriorität und Zwischenberechnungsschritte
  • Unzureichendes Verständnis der arithmetischen Berechnungsstruktur innerhalb von Modellen

Forschungsmotivation

Durch mechanistische Interpretierungsmethoden wird untersucht, wie LLMs arithmetische Ausdrücke intern verarbeiten, mit besonderem Fokus auf die Verarbeitungsmechanismen der Berechnungsreihenfolge.

Kernbeiträge

  1. Konstruktion eines systematischen Datensatzes arithmetischer Ausdrücke: Enthält Ausdrücke mit drei Operanden und zwei Operatoren, testet systematisch syntaktische und semantische Priorität
  2. Nachweis von Zwischenberechnungen: Durch Logit-Lens-Technik werden Zwischenberechnungen in tieferen Netzwerkschichten nachgewiesen
  3. Offenlegung der linearen Kodierung von Operatorpriorität: Nachweis, dass das Modell Operatorprioritätsinformationen nach Aufmerksamkeitsschichten linear kodiert
  4. Einführung der partiellen Einbettungsaustauschmethode: Eine neue Methode zur Modifizierung von Operatorpriorität durch Austausch hocheinflussreicher Einbettungsdimensionen
  5. Geometrische Visualisierungsanalyse: Darstellung der Organisationsstruktur von Operatordarstellungen durch UMAP

Methodische Details

Aufgabendefinition

Eingabe: Arithmetische Ausdrücke mit drei Operanden und zwei Operatoren, z.B. „a o1 b o2 c" Ausgabe: Berechnungsergebnis des Ausdrucks durch das Modell Einschränkungen:

  • Operanden a, b, c ∈ {1, 2, ..., 9}
  • Operatorpaare (o1, o2) aus gemischter Prioritätsmenge: {(+, *), (-, *), (+, /), (-, /)}
  • Alle Berechnungsergebnisse sind positive ganze Zahlen

Datensatzkonstruktion

Für jede Operanden- und Operatorkombination werden sechs strukturelle Varianten generiert:

  1. Linke Klammer: (a o1 b) o2 c
  2. Rechte Klammer: a o1 (b o2 c)
  3. Umgekehrte linke Klammer: (a o2 b) o1 c
  4. Umgekehrte rechte Klammer: a o2 (b o1 c)
  5. Keine Klammer (natürliche Reihenfolge): a o1 b o2 c
  6. Keine Klammer (umgekehrt): a o2 b o1 c

Insgesamt werden 8547 Prompts generiert, von denen das Modell 4401 korrekt beantwortet.

Schlüsseltechnische Methoden

1. Logit-Lens-Analyse

  • Zweck: Verfolgung, ob Zwischenberechnungen im Residualstrom erscheinen
  • Methode: Projektion des Residualstroms jeder Schicht durch die Unembedding-Matrix auf das Vokabular zur Gewinnung von Logits
  • Analyse: Überprüfung, ob die Top-10-Tokens das erwartete Zwischenergebnis enthalten

2. Lineare Sondentechnik

  • Zwischenberechnungssonde: Training einer linearen Sonde zur direkten Vorhersage von Zwischenwerten aus Modellaktivierungen
  • Prioritätssonde: Verwendung eines logistischen Regressionsklassifizierers zur Vorhersage der Berechnungsreihenfolge von Operatoren (erste oder zweite Berechnung)

3. Partieller Einbettungsaustausch

Algorithmusablauf:

  1. Identifikation einflussreicher Dimensionen: Schrittweiser Austausch einzelner Dimensionen der verborgenen Darstellungen von „+" und „*"-Operatoren
  2. Messung des Störungseffekts: Wenn der Austausch die Modellvorhersage von der korrekten Antwort (z.B. 23) zu einer falschen Antwort (z.B. 35) ändert, kodiert diese Dimension Prioritätsinformationen
  3. Sortierung und Auswahl: Sortierung der Dimensionen nach Einfluss, Bestimmung der minimalen Dimensionsuntermenge zur Änderung der Vorhersage

4. UMAP-Geometrievisualisierung

  • Projektion von Aktivierungsvektoren des Operator-Tokens in einen niedrigdimensionalen Raum
  • Beschriftungsformat: [Position][Operator]Priorität, z.B. „1m2" bedeutet Multiplikationssymbol an Position 1 mit Berechnungspriorität 2

Experimentelle Einrichtung

Modellauswahl

Verwendung des Open-Source-Instruction-Tuned-Modells LLaMA 3.2-3B mit 28-schichtiger Transformer-Struktur.

Datensatzstatistiken

  • Gesamtzahl der Prompts: 8547
  • Korrekt beantwortete Prompts durch das Modell: 4401 (51,5%)
  • Nur Stichproben, die das Modell korrekt vorhersagt, werden für die Analyse verwendet

Bewertungsmetriken

  • Erkennungsrate für Zwischenberechnungen: Anteil der Zwischenergebnisse, die in Top-Logits erscheinen
  • Genauigkeit der linearen Sonde: R²-Score und Klassifizierungsgenauigkeit
  • Erfolgsquote des Prioritätsaustauschs: Anteil der Fälle, in denen die Modellvorhersage erfolgreich geändert wird

Experimentelle Ergebnisse

Hauptergebnisse

1. Existenz von Zwischenberechnungen

  • Erkennungsrate: In 4401 Prompts werden 2799 Mal (63,6%) Zwischenberechnungen in Top-Logits erkannt
  • Erscheinungsschichten: Hauptsächlich in Schichten 16-27, Spitzenwert in Schichten 18-19
  • Schlüsselkomponenten: MLP-Blöcke sind die Schlüsselkomponenten für die Einführung von Zwischenlogits, nicht Aufmerksamkeitsblöcke

2. Evidenz für lineare Kodierung

  • Lineare Sonden können bereits nach Schicht 0 Zwischenberechnungen mit hoher Genauigkeit vorhersagen (hohe R²-Scores)
  • Prioritätsklassifizierungssonden erreichen 100% Genauigkeit auf dem Testdatensatz
  • Der Aufmerksamkeitsmechanismus verstärkt die lineare Dekodierbarkeit von Operatorpriorität erheblich

3. Ergebnisse des partiellen Einbettungsaustauschs

  • Erfolgreicher Austausch spezifischer Dimensionen zur Änderung der höchsten Logit-Vorhersage des Modells in mehreren Instanzen
  • Nachweis der spärlichen lokalen Lokalisierung von Operatorprioritätsinformationen in spezifischen Einbettungsdimensionen

4. Geometrische Strukturanalyse

UMAP-Visualisierung zeigt:

  • Deutliche Trennung von Operatoreinbettungen vor und nach Aufmerksamkeit
  • Clustering von Operatoren mit gleicher Position und Priorität
  • Der Aufmerksamkeitsmechanismus kodiert Operatorprioritätsinformationen

Quantitative Ergebnisse

MetrikWert
Erkennungsrate für Zwischenberechnungen63,6% (2799/4401)
Genauigkeit der Prioritätssonde100%
Haupterkennungsschichtbereich16-27
Erkennungsspitzenschicht18-19

Verwandte Arbeiten

Arithmetische Denkforschung

  • Mirzadeh et al. (2024) und Bubeck et al. (2023) weisen auf anhaltende Schwierigkeiten von LLMs bei arithmetischen Aufgaben hin
  • Lewkowycz et al. (2022) erforschen Prompt-Strategien wie Chain-of-Thought-Reasoning
  • Boye & Moell (2025) bewerten arithmetische Berechnungen mehrerer Modelle und finden häufige Inkonsistenzen

Mechanistische Interpretierbarkeit

  • Zhang et al. (2024) untersuchen die interne Struktur von LLMs bei arithmetischen Aufgaben
  • Stolfo et al. (2023) verwenden einen kausalen Mediationsrahmen zur Verfolgung interner Komponentenbeiträge zu arithmetischen Vorhersagen
  • Nainani et al. (2024) führen das Konzept von „Schaltkreisen" ein, um aufgabenspezifisches Modellverhalten zu erklären

Technische Methoden

  • nostalgebraist (2020) führt die Logit-Lens-Technik ein
  • Alain & Bengio (2018) entwickeln die lineare Sondenmethode
  • McInnes et al. (2020) entwickeln die UMAP-Dimensionsreduktion

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Zwischenberechnungen existieren tatsächlich: Das LLaMA 3.2-3B-Modell führt Zwischenberechnungen intern durch, und diese Informationen werden in tieferen Netzwerkschichten linear dekodierbar
  2. Lineare Kodierung von Priorität: Operatorprioritätsinformationen werden nach Aufmerksamkeitsschichten in spezifischen Einbettungsdimensionen linear kodiert
  3. Schlüsselrolle von MLP: MLP-Blöcke, nicht Aufmerksamkeitsblöcke, sind für die Erzeugung von Zwischenberechnungsergebnissen verantwortlich
  4. Geometrische Organisationsstruktur: Das Modell organisiert Operatordarstellungen basierend auf Position und Berechnungspriorität

Einschränkungen

  1. Modellgrößenbeschränkung: Experimente nur auf dem 3B-Parameter-LLaMA-Modell, Ergebnisse möglicherweise nicht auf größere Modelle übertragbar
  2. Aufgabenkomplexität: Nur einfache Ausdrücke mit drei Operanden und zwei Operatoren berücksichtigt
  3. Operatortypen: Nur grundlegende arithmetische Operationen, keine komplexeren mathematischen Operationen
  4. Erfolgsbeschränkung: Modell kann nur etwa 51,5% der arithmetischen Aufgaben korrekt beantworten

Zukünftige Richtungen

  1. Erweiterung auf größere Sprachmodelle
  2. Untersuchung komplexerer mathematischer Ausdrücke und Operationstypen
  3. Erforschung interner Darstellungen anderer mathematischer Konzepte (z.B. Funktionen, Gleichungen)
  4. Entwicklung von Modellverbesserungsmethoden basierend auf diesen Erkenntnissen

Tiefgreifende Bewertung

Stärken

  1. Methodische Innovation: Der partielle Einbettungsaustausch ist eine neuartige und effektive Interventionstechnik
  2. Experimentelle Umfassendheit: Kombination mehrerer Interpretierungstechniken (Logit Lens, lineare Sonden, UMAP, Interventionsexperimente)
  3. Bedeutung der Erkenntnisse: Erstmaliger systematischer Nachweis des Kodierungsmechanismus von Operatorpriorität in LLMs
  4. Technische Strenge: Angemessenes Experimentdesign, Verwendung nur von Stichproben, die das Modell korrekt beantwortet

Mängel

  1. Skalierungsbeschränkung: Experimente nur auf 3B-Parameter-Modell, Verallgemeinerbarkeit zu überprüfen
  2. Aufgabenvereinfachung: Arithmetische Ausdrücke sind relativ einfach, Komplexität in praktischen Anwendungen nicht vollständig berücksichtigt
  3. Theoretische Tiefe: Mangelnde theoretische Erklärung, warum diese Mechanismen entstehen
  4. Praktische Anwendbarkeit: Obwohl wichtige Erkenntnisse vorhanden sind, ist unklar, wie diese zur Verbesserung der Modellleistung genutzt werden können

Einfluss

  1. Akademischer Wert: Wichtiger Beitrag zum mechanistischen Verständnis arithmetischen Denkens in LLMs
  2. Methodologische Bedeutung: Die partielle Einbettungsaustauschmethode kann auf die Analyse anderer Aufgaben angewendet werden
  3. Praktisches Potenzial: Bietet Richtung zur Verbesserung arithmetischer Fähigkeiten kleinerer Modelle
  4. Reproduzierbarkeit: Verwendung von Open-Source-Modellen, Experimente relativ leicht zu reproduzieren

Anwendungsszenarien

  1. Modellanalyse: Anwendbar zur Analyse interner Mechanismen anderer Sprachmodelle
  2. Bildungsanwendungen: Hilft zu verstehen, wie KI mathematische Konzepte verarbeitet
  3. Modellverbesserung: Bietet Richtung zur Entwicklung besserer arithmetischer Denkmodelle
  4. Interpretierbarkeitsforschung: Bietet Methodenreferenz für mechanistische Analyse anderer kognitiver Aufgaben

Literaturverzeichnis

Dieses Paper zitiert wichtige Literatur aus den Bereichen mechanistische Interpretierbarkeit, arithmetisches Denken und neuronale Netzwerkanalyse, einschließlich:

  • nostalgebraist (2020) - Logit-Lens-Technik
  • Alain & Bengio (2018) - Lineare Sondenmethode
  • Zhang et al. (2024) - Interne Struktur arithmetischen Denkens in LLMs
  • Stolfo et al. (2023) - Kausales Mediationsanalyseverfahren
  • McInnes et al. (2020) - UMAP-Dimensionsreduktion

Diese Forschung bietet wichtige Erkenntnisse zum Verständnis des internen arithmetischen Denkmechanismus großer Sprachmodelle, besonders bezüglich der Verarbeitung von Operatorpriorität. Obwohl es einige Einschränkungen gibt, machen die methodische Innovation und die Bedeutung der Erkenntnisse dies zu einem wertvollen Beitrag im Bereich der mechanistischen Interpretierbarkeit.