2025-11-18T03:04:13.779328

Interpreting the Latent Structure of Operator Precedence in Language Models

Yugeswardeenoo, Nukala, Blondin et al.

Large Language Models (LLMs) have demonstrated impressive reasoning capabilities but continue to struggle with arithmetic tasks. Prior works largely focus on outputs or prompting strategies, leaving the open question of the internal structure through which models do arithmetic computation. In this work, we investigate whether LLMs encode operator precedence in their internal representations via the open-source instruction-tuned LLaMA 3.2-3B model. We constructed a dataset of arithmetic expressions with three operands and two operators, varying the order and placement of parentheses. Using this dataset, we trace whether intermediate results appear in the residual stream of the instruction-tuned LLaMA 3.2-3B model. We apply interpretability techniques such as logit lens, linear classification probes, and UMAP geometric visualization. Our results show that intermediate computations are present in the residual stream, particularly after MLP blocks. We also find that the model linearly encodes precedence in each operator's embeddings post attention layer. We introduce partial embedding swap, a technique that modifies operator precedence by exchanging high-impact embedding dimensions between operators.

academic

Interpretation der latenten Struktur von Operatorpriorität in Sprachmodellen

Grundinformationen

Paper-ID: 2510.13908
Titel: Interpreting the Latent Structure of Operator Precedence in Language Models
Autoren: Dharunish Yugeswardeenoo, Harshil Nukala, Cole Blondin, Sean O'Brien, Vasu Sharma, Kevin Zhu
Klassifizierung: cs.CL (Computerlinguistik)
Veröffentlichungszeit/Konferenz: COLM 2025
Paper-Link: https://arxiv.org/abs/2510.13908

Zusammenfassung

Große Sprachmodelle (LLMs) zeigen hervorragende Fähigkeiten beim logischen Denken, haben aber weiterhin Schwierigkeiten bei arithmetischen Aufgaben. Frühere Forschungen konzentrierten sich hauptsächlich auf Ausgabe- oder Prompt-Strategien und vernachlässigten die interne Struktur, mit der Modelle arithmetische Berechnungen durchführen. Diese Studie untersucht anhand des Open-Source-Instruction-Tuned-Modells LLaMA 3.2-3B, ob LLMs Operatorpriorität in ihren internen Darstellungen kodieren. Die Forschung konstruiert einen Datensatz arithmetischer Ausdrücke mit drei Operanden und zwei Operatoren, variiert die Berechnungsreihenfolge und Klammerplatzierung. Mit diesem Datensatz wird verfolgt, ob Zwischenergebnisse im Residualstrom des Modells erscheinen, und es werden Interpretierungstechniken wie Logit Lens, lineare Klassifizierungssonden und UMAP-Geometrievisualisierung angewendet. Die Ergebnisse zeigen, dass Zwischenberechnungen im Residualstrom vorhanden sind, besonders nach MLP-Blöcken. Die Studie zeigt auch, dass das Modell Prioritätsinformationen in Operatoreinbettungen nach Aufmerksamkeitsschichten linear kodiert. Das Paper führt eine partielle Einbettungsaustauschmethode ein, die Operatorpriorität durch Austausch hocheinflussreicher Einbettungsdimensionen zwischen Operatoren modifiziert.

Forschungshintergrund und Motivation

Problemdefinition

Das Kernproblem dieser Forschung ist: Kodieren große Sprachmodelle Operatorprioritätsregeln in ihren internen Darstellungen, wenn sie arithmetische Ausdrücke verarbeiten, und wenn ja, wie? Konkret: Wenn ein Modell auf einen Ausdruck wie „1 + 1 × 2" trifft, berechnet es die Multiplikation zuerst gemäß mathematischer Prioritätsregeln oder verarbeitet es einfach von links nach rechts?

Bedeutung

Theoretische Bedeutung: Das Verständnis des arithmetischen Denkmechanismus in LLMs hat großen Wert für die Interpretierbarkeitsforschung im maschinellen Lernen
Praktischer Wert: Verbesserung der Modellleistung bei mathematischen Denkaufgaben, besonders für kleinere Modelle
Methodologischer Beitrag: Neue technische Mittel zur Analyse interner Darstellungen neuronaler Netze

Einschränkungen bestehender Methoden

Die meisten Studien konzentrieren sich auf natürlichsprachliche Prompts und endgültige Ausgabeergebnisse
Mangelnde tiefgreifende Analyse der Operatorpriorität und Zwischenberechnungsschritte
Unzureichendes Verständnis der arithmetischen Berechnungsstruktur innerhalb von Modellen

Forschungsmotivation

Durch mechanistische Interpretierungsmethoden wird untersucht, wie LLMs arithmetische Ausdrücke intern verarbeiten, mit besonderem Fokus auf die Verarbeitungsmechanismen der Berechnungsreihenfolge.

Kernbeiträge

Konstruktion eines systematischen Datensatzes arithmetischer Ausdrücke: Enthält Ausdrücke mit drei Operanden und zwei Operatoren, testet systematisch syntaktische und semantische Priorität
Nachweis von Zwischenberechnungen: Durch Logit-Lens-Technik werden Zwischenberechnungen in tieferen Netzwerkschichten nachgewiesen
Offenlegung der linearen Kodierung von Operatorpriorität: Nachweis, dass das Modell Operatorprioritätsinformationen nach Aufmerksamkeitsschichten linear kodiert
Einführung der partiellen Einbettungsaustauschmethode: Eine neue Methode zur Modifizierung von Operatorpriorität durch Austausch hocheinflussreicher Einbettungsdimensionen
Geometrische Visualisierungsanalyse: Darstellung der Organisationsstruktur von Operatordarstellungen durch UMAP

Methodische Details

Aufgabendefinition

Eingabe: Arithmetische Ausdrücke mit drei Operanden und zwei Operatoren, z.B. „a o1 b o2 c" Ausgabe: Berechnungsergebnis des Ausdrucks durch das Modell Einschränkungen:

Operanden a, b, c ∈ {1, 2, ..., 9}
Operatorpaare (o1, o2) aus gemischter Prioritätsmenge: {(+, *), (-, *), (+, /), (-, /)}
Alle Berechnungsergebnisse sind positive ganze Zahlen

Datensatzkonstruktion

Für jede Operanden- und Operatorkombination werden sechs strukturelle Varianten generiert:

Linke Klammer: (a o1 b) o2 c
Rechte Klammer: a o1 (b o2 c)
Umgekehrte linke Klammer: (a o2 b) o1 c
Umgekehrte rechte Klammer: a o2 (b o1 c)
Keine Klammer (natürliche Reihenfolge): a o1 b o2 c
Keine Klammer (umgekehrt): a o2 b o1 c

Insgesamt werden 8547 Prompts generiert, von denen das Modell 4401 korrekt beantwortet.

Schlüsseltechnische Methoden

1. Logit-Lens-Analyse

Zweck: Verfolgung, ob Zwischenberechnungen im Residualstrom erscheinen
Methode: Projektion des Residualstroms jeder Schicht durch die Unembedding-Matrix auf das Vokabular zur Gewinnung von Logits
Analyse: Überprüfung, ob die Top-10-Tokens das erwartete Zwischenergebnis enthalten

2. Lineare Sondentechnik

Zwischenberechnungssonde: Training einer linearen Sonde zur direkten Vorhersage von Zwischenwerten aus Modellaktivierungen
Prioritätssonde: Verwendung eines logistischen Regressionsklassifizierers zur Vorhersage der Berechnungsreihenfolge von Operatoren (erste oder zweite Berechnung)

3. Partieller Einbettungsaustausch

Algorithmusablauf:

Identifikation einflussreicher Dimensionen: Schrittweiser Austausch einzelner Dimensionen der verborgenen Darstellungen von „+" und „*"-Operatoren
Messung des Störungseffekts: Wenn der Austausch die Modellvorhersage von der korrekten Antwort (z.B. 23) zu einer falschen Antwort (z.B. 35) ändert, kodiert diese Dimension Prioritätsinformationen
Sortierung und Auswahl: Sortierung der Dimensionen nach Einfluss, Bestimmung der minimalen Dimensionsuntermenge zur Änderung der Vorhersage

4. UMAP-Geometrievisualisierung

Projektion von Aktivierungsvektoren des Operator-Tokens in einen niedrigdimensionalen Raum
Beschriftungsformat: [Position][Operator]Priorität, z.B. „1m2" bedeutet Multiplikationssymbol an Position 1 mit Berechnungspriorität 2

Experimentelle Einrichtung

Modellauswahl

Verwendung des Open-Source-Instruction-Tuned-Modells LLaMA 3.2-3B mit 28-schichtiger Transformer-Struktur.

Datensatzstatistiken

Gesamtzahl der Prompts: 8547
Korrekt beantwortete Prompts durch das Modell: 4401 (51,5%)
Nur Stichproben, die das Modell korrekt vorhersagt, werden für die Analyse verwendet

Bewertungsmetriken

Erkennungsrate für Zwischenberechnungen: Anteil der Zwischenergebnisse, die in Top-Logits erscheinen
Genauigkeit der linearen Sonde: R²-Score und Klassifizierungsgenauigkeit
Erfolgsquote des Prioritätsaustauschs: Anteil der Fälle, in denen die Modellvorhersage erfolgreich geändert wird

Experimentelle Ergebnisse

Hauptergebnisse

1. Existenz von Zwischenberechnungen

Erkennungsrate: In 4401 Prompts werden 2799 Mal (63,6%) Zwischenberechnungen in Top-Logits erkannt
Erscheinungsschichten: Hauptsächlich in Schichten 16-27, Spitzenwert in Schichten 18-19
Schlüsselkomponenten: MLP-Blöcke sind die Schlüsselkomponenten für die Einführung von Zwischenlogits, nicht Aufmerksamkeitsblöcke

2. Evidenz für lineare Kodierung

Lineare Sonden können bereits nach Schicht 0 Zwischenberechnungen mit hoher Genauigkeit vorhersagen (hohe R²-Scores)
Prioritätsklassifizierungssonden erreichen 100% Genauigkeit auf dem Testdatensatz
Der Aufmerksamkeitsmechanismus verstärkt die lineare Dekodierbarkeit von Operatorpriorität erheblich

3. Ergebnisse des partiellen Einbettungsaustauschs

Erfolgreicher Austausch spezifischer Dimensionen zur Änderung der höchsten Logit-Vorhersage des Modells in mehreren Instanzen
Nachweis der spärlichen lokalen Lokalisierung von Operatorprioritätsinformationen in spezifischen Einbettungsdimensionen

4. Geometrische Strukturanalyse

UMAP-Visualisierung zeigt:

Deutliche Trennung von Operatoreinbettungen vor und nach Aufmerksamkeit
Clustering von Operatoren mit gleicher Position und Priorität
Der Aufmerksamkeitsmechanismus kodiert Operatorprioritätsinformationen

Quantitative Ergebnisse

Metrik	Wert
Erkennungsrate für Zwischenberechnungen	63,6% (2799/4401)
Genauigkeit der Prioritätssonde	100%
Haupterkennungsschichtbereich	16-27
Erkennungsspitzenschicht	18-19

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Zwischenberechnungen existieren tatsächlich: Das LLaMA 3.2-3B-Modell führt Zwischenberechnungen intern durch, und diese Informationen werden in tieferen Netzwerkschichten linear dekodierbar
Lineare Kodierung von Priorität: Operatorprioritätsinformationen werden nach Aufmerksamkeitsschichten in spezifischen Einbettungsdimensionen linear kodiert
Schlüsselrolle von MLP: MLP-Blöcke, nicht Aufmerksamkeitsblöcke, sind für die Erzeugung von Zwischenberechnungsergebnissen verantwortlich
Geometrische Organisationsstruktur: Das Modell organisiert Operatordarstellungen basierend auf Position und Berechnungspriorität

Einschränkungen

Modellgrößenbeschränkung: Experimente nur auf dem 3B-Parameter-LLaMA-Modell, Ergebnisse möglicherweise nicht auf größere Modelle übertragbar
Aufgabenkomplexität: Nur einfache Ausdrücke mit drei Operanden und zwei Operatoren berücksichtigt
Operatortypen: Nur grundlegende arithmetische Operationen, keine komplexeren mathematischen Operationen
Erfolgsbeschränkung: Modell kann nur etwa 51,5% der arithmetischen Aufgaben korrekt beantworten

Zukünftige Richtungen

Erweiterung auf größere Sprachmodelle
Untersuchung komplexerer mathematischer Ausdrücke und Operationstypen
Erforschung interner Darstellungen anderer mathematischer Konzepte (z.B. Funktionen, Gleichungen)
Entwicklung von Modellverbesserungsmethoden basierend auf diesen Erkenntnissen

Tiefgreifende Bewertung

Stärken

Methodische Innovation: Der partielle Einbettungsaustausch ist eine neuartige und effektive Interventionstechnik
Experimentelle Umfassendheit: Kombination mehrerer Interpretierungstechniken (Logit Lens, lineare Sonden, UMAP, Interventionsexperimente)
Bedeutung der Erkenntnisse: Erstmaliger systematischer Nachweis des Kodierungsmechanismus von Operatorpriorität in LLMs
Technische Strenge: Angemessenes Experimentdesign, Verwendung nur von Stichproben, die das Modell korrekt beantwortet

Mängel

Skalierungsbeschränkung: Experimente nur auf 3B-Parameter-Modell, Verallgemeinerbarkeit zu überprüfen
Aufgabenvereinfachung: Arithmetische Ausdrücke sind relativ einfach, Komplexität in praktischen Anwendungen nicht vollständig berücksichtigt
Theoretische Tiefe: Mangelnde theoretische Erklärung, warum diese Mechanismen entstehen
Praktische Anwendbarkeit: Obwohl wichtige Erkenntnisse vorhanden sind, ist unklar, wie diese zur Verbesserung der Modellleistung genutzt werden können

Einfluss

Akademischer Wert: Wichtiger Beitrag zum mechanistischen Verständnis arithmetischen Denkens in LLMs
Methodologische Bedeutung: Die partielle Einbettungsaustauschmethode kann auf die Analyse anderer Aufgaben angewendet werden
Praktisches Potenzial: Bietet Richtung zur Verbesserung arithmetischer Fähigkeiten kleinerer Modelle
Reproduzierbarkeit: Verwendung von Open-Source-Modellen, Experimente relativ leicht zu reproduzieren

Anwendungsszenarien

Modellanalyse: Anwendbar zur Analyse interner Mechanismen anderer Sprachmodelle
Bildungsanwendungen: Hilft zu verstehen, wie KI mathematische Konzepte verarbeitet
Modellverbesserung: Bietet Richtung zur Entwicklung besserer arithmetischer Denkmodelle
Interpretierbarkeitsforschung: Bietet Methodenreferenz für mechanistische Analyse anderer kognitiver Aufgaben

Literaturverzeichnis

Dieses Paper zitiert wichtige Literatur aus den Bereichen mechanistische Interpretierbarkeit, arithmetisches Denken und neuronale Netzwerkanalyse, einschließlich:

nostalgebraist (2020) - Logit-Lens-Technik
Alain & Bengio (2018) - Lineare Sondenmethode
Zhang et al. (2024) - Interne Struktur arithmetischen Denkens in LLMs
Stolfo et al. (2023) - Kausales Mediationsanalyseverfahren
McInnes et al. (2020) - UMAP-Dimensionsreduktion

Diese Forschung bietet wichtige Erkenntnisse zum Verständnis des internen arithmetischen Denkmechanismus großer Sprachmodelle, besonders bezüglich der Verarbeitung von Operatorpriorität. Obwohl es einige Einschränkungen gibt, machen die methodische Innovation und die Bedeutung der Erkenntnisse dies zu einem wertvollen Beitrag im Bereich der mechanistischen Interpretierbarkeit.