Large Language Models (LLMs) have demonstrated impressive reasoning capabilities but continue to struggle with arithmetic tasks. Prior works largely focus on outputs or prompting strategies, leaving the open question of the internal structure through which models do arithmetic computation. In this work, we investigate whether LLMs encode operator precedence in their internal representations via the open-source instruction-tuned LLaMA 3.2-3B model. We constructed a dataset of arithmetic expressions with three operands and two operators, varying the order and placement of parentheses. Using this dataset, we trace whether intermediate results appear in the residual stream of the instruction-tuned LLaMA 3.2-3B model. We apply interpretability techniques such as logit lens, linear classification probes, and UMAP geometric visualization. Our results show that intermediate computations are present in the residual stream, particularly after MLP blocks. We also find that the model linearly encodes precedence in each operator's embeddings post attention layer. We introduce partial embedding swap, a technique that modifies operator precedence by exchanging high-impact embedding dimensions between operators.
- Paper-ID: 2510.13908
- Titel: Interpreting the Latent Structure of Operator Precedence in Language Models
- Autoren: Dharunish Yugeswardeenoo, Harshil Nukala, Cole Blondin, Sean O'Brien, Vasu Sharma, Kevin Zhu
- Klassifizierung: cs.CL (Computerlinguistik)
- Veröffentlichungszeit/Konferenz: COLM 2025
- Paper-Link: https://arxiv.org/abs/2510.13908
Große Sprachmodelle (LLMs) zeigen hervorragende Fähigkeiten beim logischen Denken, haben aber weiterhin Schwierigkeiten bei arithmetischen Aufgaben. Frühere Forschungen konzentrierten sich hauptsächlich auf Ausgabe- oder Prompt-Strategien und vernachlässigten die interne Struktur, mit der Modelle arithmetische Berechnungen durchführen. Diese Studie untersucht anhand des Open-Source-Instruction-Tuned-Modells LLaMA 3.2-3B, ob LLMs Operatorpriorität in ihren internen Darstellungen kodieren. Die Forschung konstruiert einen Datensatz arithmetischer Ausdrücke mit drei Operanden und zwei Operatoren, variiert die Berechnungsreihenfolge und Klammerplatzierung. Mit diesem Datensatz wird verfolgt, ob Zwischenergebnisse im Residualstrom des Modells erscheinen, und es werden Interpretierungstechniken wie Logit Lens, lineare Klassifizierungssonden und UMAP-Geometrievisualisierung angewendet. Die Ergebnisse zeigen, dass Zwischenberechnungen im Residualstrom vorhanden sind, besonders nach MLP-Blöcken. Die Studie zeigt auch, dass das Modell Prioritätsinformationen in Operatoreinbettungen nach Aufmerksamkeitsschichten linear kodiert. Das Paper führt eine partielle Einbettungsaustauschmethode ein, die Operatorpriorität durch Austausch hocheinflussreicher Einbettungsdimensionen zwischen Operatoren modifiziert.
Das Kernproblem dieser Forschung ist: Kodieren große Sprachmodelle Operatorprioritätsregeln in ihren internen Darstellungen, wenn sie arithmetische Ausdrücke verarbeiten, und wenn ja, wie? Konkret: Wenn ein Modell auf einen Ausdruck wie „1 + 1 × 2" trifft, berechnet es die Multiplikation zuerst gemäß mathematischer Prioritätsregeln oder verarbeitet es einfach von links nach rechts?
- Theoretische Bedeutung: Das Verständnis des arithmetischen Denkmechanismus in LLMs hat großen Wert für die Interpretierbarkeitsforschung im maschinellen Lernen
- Praktischer Wert: Verbesserung der Modellleistung bei mathematischen Denkaufgaben, besonders für kleinere Modelle
- Methodologischer Beitrag: Neue technische Mittel zur Analyse interner Darstellungen neuronaler Netze
- Die meisten Studien konzentrieren sich auf natürlichsprachliche Prompts und endgültige Ausgabeergebnisse
- Mangelnde tiefgreifende Analyse der Operatorpriorität und Zwischenberechnungsschritte
- Unzureichendes Verständnis der arithmetischen Berechnungsstruktur innerhalb von Modellen
Durch mechanistische Interpretierungsmethoden wird untersucht, wie LLMs arithmetische Ausdrücke intern verarbeiten, mit besonderem Fokus auf die Verarbeitungsmechanismen der Berechnungsreihenfolge.
- Konstruktion eines systematischen Datensatzes arithmetischer Ausdrücke: Enthält Ausdrücke mit drei Operanden und zwei Operatoren, testet systematisch syntaktische und semantische Priorität
- Nachweis von Zwischenberechnungen: Durch Logit-Lens-Technik werden Zwischenberechnungen in tieferen Netzwerkschichten nachgewiesen
- Offenlegung der linearen Kodierung von Operatorpriorität: Nachweis, dass das Modell Operatorprioritätsinformationen nach Aufmerksamkeitsschichten linear kodiert
- Einführung der partiellen Einbettungsaustauschmethode: Eine neue Methode zur Modifizierung von Operatorpriorität durch Austausch hocheinflussreicher Einbettungsdimensionen
- Geometrische Visualisierungsanalyse: Darstellung der Organisationsstruktur von Operatordarstellungen durch UMAP
Eingabe: Arithmetische Ausdrücke mit drei Operanden und zwei Operatoren, z.B. „a o1 b o2 c"
Ausgabe: Berechnungsergebnis des Ausdrucks durch das Modell
Einschränkungen:
- Operanden a, b, c ∈ {1, 2, ..., 9}
- Operatorpaare (o1, o2) aus gemischter Prioritätsmenge: {(+, *), (-, *), (+, /), (-, /)}
- Alle Berechnungsergebnisse sind positive ganze Zahlen
Für jede Operanden- und Operatorkombination werden sechs strukturelle Varianten generiert:
- Linke Klammer: (a o1 b) o2 c
- Rechte Klammer: a o1 (b o2 c)
- Umgekehrte linke Klammer: (a o2 b) o1 c
- Umgekehrte rechte Klammer: a o2 (b o1 c)
- Keine Klammer (natürliche Reihenfolge): a o1 b o2 c
- Keine Klammer (umgekehrt): a o2 b o1 c
Insgesamt werden 8547 Prompts generiert, von denen das Modell 4401 korrekt beantwortet.
- Zweck: Verfolgung, ob Zwischenberechnungen im Residualstrom erscheinen
- Methode: Projektion des Residualstroms jeder Schicht durch die Unembedding-Matrix auf das Vokabular zur Gewinnung von Logits
- Analyse: Überprüfung, ob die Top-10-Tokens das erwartete Zwischenergebnis enthalten
- Zwischenberechnungssonde: Training einer linearen Sonde zur direkten Vorhersage von Zwischenwerten aus Modellaktivierungen
- Prioritätssonde: Verwendung eines logistischen Regressionsklassifizierers zur Vorhersage der Berechnungsreihenfolge von Operatoren (erste oder zweite Berechnung)
Algorithmusablauf:
- Identifikation einflussreicher Dimensionen: Schrittweiser Austausch einzelner Dimensionen der verborgenen Darstellungen von „+" und „*"-Operatoren
- Messung des Störungseffekts: Wenn der Austausch die Modellvorhersage von der korrekten Antwort (z.B. 23) zu einer falschen Antwort (z.B. 35) ändert, kodiert diese Dimension Prioritätsinformationen
- Sortierung und Auswahl: Sortierung der Dimensionen nach Einfluss, Bestimmung der minimalen Dimensionsuntermenge zur Änderung der Vorhersage
- Projektion von Aktivierungsvektoren des Operator-Tokens in einen niedrigdimensionalen Raum
- Beschriftungsformat: [Position][Operator]Priorität, z.B. „1m2" bedeutet Multiplikationssymbol an Position 1 mit Berechnungspriorität 2
Verwendung des Open-Source-Instruction-Tuned-Modells LLaMA 3.2-3B mit 28-schichtiger Transformer-Struktur.
- Gesamtzahl der Prompts: 8547
- Korrekt beantwortete Prompts durch das Modell: 4401 (51,5%)
- Nur Stichproben, die das Modell korrekt vorhersagt, werden für die Analyse verwendet
- Erkennungsrate für Zwischenberechnungen: Anteil der Zwischenergebnisse, die in Top-Logits erscheinen
- Genauigkeit der linearen Sonde: R²-Score und Klassifizierungsgenauigkeit
- Erfolgsquote des Prioritätsaustauschs: Anteil der Fälle, in denen die Modellvorhersage erfolgreich geändert wird
- Erkennungsrate: In 4401 Prompts werden 2799 Mal (63,6%) Zwischenberechnungen in Top-Logits erkannt
- Erscheinungsschichten: Hauptsächlich in Schichten 16-27, Spitzenwert in Schichten 18-19
- Schlüsselkomponenten: MLP-Blöcke sind die Schlüsselkomponenten für die Einführung von Zwischenlogits, nicht Aufmerksamkeitsblöcke
- Lineare Sonden können bereits nach Schicht 0 Zwischenberechnungen mit hoher Genauigkeit vorhersagen (hohe R²-Scores)
- Prioritätsklassifizierungssonden erreichen 100% Genauigkeit auf dem Testdatensatz
- Der Aufmerksamkeitsmechanismus verstärkt die lineare Dekodierbarkeit von Operatorpriorität erheblich
- Erfolgreicher Austausch spezifischer Dimensionen zur Änderung der höchsten Logit-Vorhersage des Modells in mehreren Instanzen
- Nachweis der spärlichen lokalen Lokalisierung von Operatorprioritätsinformationen in spezifischen Einbettungsdimensionen
UMAP-Visualisierung zeigt:
- Deutliche Trennung von Operatoreinbettungen vor und nach Aufmerksamkeit
- Clustering von Operatoren mit gleicher Position und Priorität
- Der Aufmerksamkeitsmechanismus kodiert Operatorprioritätsinformationen
| Metrik | Wert |
|---|
| Erkennungsrate für Zwischenberechnungen | 63,6% (2799/4401) |
| Genauigkeit der Prioritätssonde | 100% |
| Haupterkennungsschichtbereich | 16-27 |
| Erkennungsspitzenschicht | 18-19 |
- Mirzadeh et al. (2024) und Bubeck et al. (2023) weisen auf anhaltende Schwierigkeiten von LLMs bei arithmetischen Aufgaben hin
- Lewkowycz et al. (2022) erforschen Prompt-Strategien wie Chain-of-Thought-Reasoning
- Boye & Moell (2025) bewerten arithmetische Berechnungen mehrerer Modelle und finden häufige Inkonsistenzen
- Zhang et al. (2024) untersuchen die interne Struktur von LLMs bei arithmetischen Aufgaben
- Stolfo et al. (2023) verwenden einen kausalen Mediationsrahmen zur Verfolgung interner Komponentenbeiträge zu arithmetischen Vorhersagen
- Nainani et al. (2024) führen das Konzept von „Schaltkreisen" ein, um aufgabenspezifisches Modellverhalten zu erklären
- nostalgebraist (2020) führt die Logit-Lens-Technik ein
- Alain & Bengio (2018) entwickeln die lineare Sondenmethode
- McInnes et al. (2020) entwickeln die UMAP-Dimensionsreduktion
- Zwischenberechnungen existieren tatsächlich: Das LLaMA 3.2-3B-Modell führt Zwischenberechnungen intern durch, und diese Informationen werden in tieferen Netzwerkschichten linear dekodierbar
- Lineare Kodierung von Priorität: Operatorprioritätsinformationen werden nach Aufmerksamkeitsschichten in spezifischen Einbettungsdimensionen linear kodiert
- Schlüsselrolle von MLP: MLP-Blöcke, nicht Aufmerksamkeitsblöcke, sind für die Erzeugung von Zwischenberechnungsergebnissen verantwortlich
- Geometrische Organisationsstruktur: Das Modell organisiert Operatordarstellungen basierend auf Position und Berechnungspriorität
- Modellgrößenbeschränkung: Experimente nur auf dem 3B-Parameter-LLaMA-Modell, Ergebnisse möglicherweise nicht auf größere Modelle übertragbar
- Aufgabenkomplexität: Nur einfache Ausdrücke mit drei Operanden und zwei Operatoren berücksichtigt
- Operatortypen: Nur grundlegende arithmetische Operationen, keine komplexeren mathematischen Operationen
- Erfolgsbeschränkung: Modell kann nur etwa 51,5% der arithmetischen Aufgaben korrekt beantworten
- Erweiterung auf größere Sprachmodelle
- Untersuchung komplexerer mathematischer Ausdrücke und Operationstypen
- Erforschung interner Darstellungen anderer mathematischer Konzepte (z.B. Funktionen, Gleichungen)
- Entwicklung von Modellverbesserungsmethoden basierend auf diesen Erkenntnissen
- Methodische Innovation: Der partielle Einbettungsaustausch ist eine neuartige und effektive Interventionstechnik
- Experimentelle Umfassendheit: Kombination mehrerer Interpretierungstechniken (Logit Lens, lineare Sonden, UMAP, Interventionsexperimente)
- Bedeutung der Erkenntnisse: Erstmaliger systematischer Nachweis des Kodierungsmechanismus von Operatorpriorität in LLMs
- Technische Strenge: Angemessenes Experimentdesign, Verwendung nur von Stichproben, die das Modell korrekt beantwortet
- Skalierungsbeschränkung: Experimente nur auf 3B-Parameter-Modell, Verallgemeinerbarkeit zu überprüfen
- Aufgabenvereinfachung: Arithmetische Ausdrücke sind relativ einfach, Komplexität in praktischen Anwendungen nicht vollständig berücksichtigt
- Theoretische Tiefe: Mangelnde theoretische Erklärung, warum diese Mechanismen entstehen
- Praktische Anwendbarkeit: Obwohl wichtige Erkenntnisse vorhanden sind, ist unklar, wie diese zur Verbesserung der Modellleistung genutzt werden können
- Akademischer Wert: Wichtiger Beitrag zum mechanistischen Verständnis arithmetischen Denkens in LLMs
- Methodologische Bedeutung: Die partielle Einbettungsaustauschmethode kann auf die Analyse anderer Aufgaben angewendet werden
- Praktisches Potenzial: Bietet Richtung zur Verbesserung arithmetischer Fähigkeiten kleinerer Modelle
- Reproduzierbarkeit: Verwendung von Open-Source-Modellen, Experimente relativ leicht zu reproduzieren
- Modellanalyse: Anwendbar zur Analyse interner Mechanismen anderer Sprachmodelle
- Bildungsanwendungen: Hilft zu verstehen, wie KI mathematische Konzepte verarbeitet
- Modellverbesserung: Bietet Richtung zur Entwicklung besserer arithmetischer Denkmodelle
- Interpretierbarkeitsforschung: Bietet Methodenreferenz für mechanistische Analyse anderer kognitiver Aufgaben
Dieses Paper zitiert wichtige Literatur aus den Bereichen mechanistische Interpretierbarkeit, arithmetisches Denken und neuronale Netzwerkanalyse, einschließlich:
- nostalgebraist (2020) - Logit-Lens-Technik
- Alain & Bengio (2018) - Lineare Sondenmethode
- Zhang et al. (2024) - Interne Struktur arithmetischen Denkens in LLMs
- Stolfo et al. (2023) - Kausales Mediationsanalyseverfahren
- McInnes et al. (2020) - UMAP-Dimensionsreduktion
Diese Forschung bietet wichtige Erkenntnisse zum Verständnis des internen arithmetischen Denkmechanismus großer Sprachmodelle, besonders bezüglich der Verarbeitung von Operatorpriorität. Obwohl es einige Einschränkungen gibt, machen die methodische Innovation und die Bedeutung der Erkenntnisse dies zu einem wertvollen Beitrag im Bereich der mechanistischen Interpretierbarkeit.