2025-11-16T07:28:12.353949

Representation in large language models

Yetman

The extraordinary success of recent Large Language Models (LLMs) on a diverse array of tasks has led to an explosion of scientific and philosophical theorizing aimed at explaining how they do what they do. Unfortunately, disagreement over fundamental theoretical issues has led to stalemate, with entrenched camps of LLM optimists and pessimists often committed to very different views of how these systems work. Overcoming stalemate requires agreement on fundamental questions, and the goal of this paper is to address one such question, namely: is LLM behavior driven partly by representation-based information processing of the sort implicated in biological cognition, or is it driven entirely by processes of memorization and stochastic table look-up? This is a question about what kind of algorithm LLMs implement, and the answer carries serious implications for higher level questions about whether these systems have beliefs, intentions, concepts, knowledge, and understanding. I argue that LLM behavior is partially driven by representation-based information processing, and then I describe and defend a series of practical techniques for investigating these representations and developing explanations on their basis. The resulting account provides a groundwork for future theorizing about language models and their successors.

academic

Repräsentation in großen Sprachmodellen

Grundinformationen

Paper-ID: 2501.00885
Titel: Representation in large language models
Autor: Cameron C. Yetman (University of Toronto)
Klassifizierung: cs.CL cs.AI cs.LG
Veröffentlichungsdatum: 1. Januar 2025 (Entwurfsversion)
Paper-Link: https://arxiv.org/abs/2501.00885

Zusammenfassung

Der außergewöhnliche Erfolg großer Sprachmodelle (LLMs) bei verschiedenen Aufgaben hat zu umfangreicher wissenschaftlicher und philosophischer Theoretisierung über ihre Funktionsweise geführt. Allerdings haben Meinungsverschiedenheiten über grundlegende theoretische Fragen zu einer Sackgasse geführt, wobei sich optimistische und pessimistische Lager oft völlig unterschiedliche Ansichten über die Funktionsweise dieser Systeme vertreten. Um diese Sackgasse zu überwinden, ist eine Einigung auf grundlegende Fragen erforderlich. Ziel dieses Papers ist es, eine dieser Grundfragen zu adressieren: Wird das Verhalten von LLMs teilweise durch informationsverarbeitende Prozesse auf Basis von Repräsentationen angetrieben – ähnlich wie in der biologischen Kognition – oder vollständig durch Memorisierung und stochastische Tabellensuche? Dies ist eine Frage darüber, welche Algorithmen LLMs implementieren, und die Antwort hat wichtige Auswirkungen auf höherrangige Fragen, wie etwa ob diese Systeme Überzeugungen, Absichten, Konzepte, Wissen und Verständnis besitzen. Der Autor argumentiert, dass LLM-Verhalten teilweise durch repräsentationsbasierte Informationsverarbeitung angetrieben wird, und beschreibt sowie verteidigt eine Reihe praktischer Techniken zur Untersuchung dieser Repräsentationen und zur Entwicklung von Erklärungen auf dieser Grundlage.

Forschungshintergrund und Motivation

Kernfrage

Die zentrale Forschungsfrage lautet: Wird das Verhalten großer Sprachmodelle durch repräsentationsbasierte Informationsverarbeitung angetrieben oder hängt es vollständig von Memorisierung und stochastischer Tabellensuche ab?

Bedeutung der Frage

Überwindung theoretischer Divergenzen: Im LLM-Forschungsfeld bestehen erhebliche theoretische Meinungsverschiedenheiten, wobei Optimisten LLMs kognitive Fähigkeiten zuschreiben und Pessimisten sie als komplexe Mustererkennung betrachten
Kognitionswissenschaftliche Grundlagen: Diese Frage bezieht sich direkt darauf, ob LLMs als kognitive Modelle verwendet werden können und ob sie selbst kognitive Systeme sind
Grundlagen höherstufiger Fähigkeiten: Die Antwort beeinflusst unsere Beurteilung, ob LLMs höherstufige kognitive Fähigkeiten wie Überzeugungen, Absichten, Konzepte, Wissen und Verständnis besitzen

Grenzen bestehender Ansätze

Missbrauch von Terminologie: Der Begriff "Repräsentation" wird in der Praxis des maschinellen Lernens zu breit verwendet und verliert seinen theoretischen Wert
Grenzen verhaltensorientierter Ansätze: Die Bestimmung der Existenz von Repräsentationen nur anhand von Verhaltensergebnissen ist grundsätzlich unsicher
Mangel an systematischen Methoden: Es fehlt eine systematische Methode zur Identifizierung und Validierung von Repräsentationen in LLMs

Forschungsmotivation

Der Autor argumentiert, dass die Lösung dieser grundlegenden Frage entscheidend ist, um die aktuelle theoretische Sackgasse zu durchbrechen und eine solide Grundlage für zukünftige LLM-Theoretisierung zu schaffen.

Kernbeiträge

Vier-Bedingungen-Charakterisierung von Repräsentation: Bietet eine substanzielle, operationalisierbare Definition des Konzepts "Repräsentation", einschließlich vier Bedingungen: Information (INFORMATION), Ausnutzbarkeit (EXPLOITABILITY), Verhalten (BEHAVIOR) und Rolle (ROLE)
Widerlegung der Lookup-Table-Erklärung: Durch Analyse von Fällen wie Othello-GPT und Farbmodellen wird nachgewiesen, dass LLMs nicht vollständig durch endliche Automaten oder Lookup-Tabellen erklärt werden können
Etablierung eines Mechanismus-Interpretierbarkeits-Rahmens: Systematische Beschreibung, wie Probing- und Interventions-Techniken zur Überprüfung der Existenz von Repräsentationen verwendet werden
Bereitstellung praktischer Forschungsmethoden: Konkrete technische Werkzeuge und methodologische Anleitung für die Untersuchung von LLM-Repräsentationen

Methodische Details

Vier-Bedingungen-Definition von Repräsentation

Der Autor schlägt eine operationalisierbare Definition von Repräsentation vor. System S hat eine Repräsentation R des Merkmals z dann und nur dann, wenn die folgenden vier Bedingungen erfüllt sind:

REPRESENTATION

INFORMATION: R trägt Information über z
EXPLOITABILITY: Die von R über z getragene Information ist für S ausnutzbar
BEHAVIOR: S nutzt die von R über z getragene Information, um robustes z-bezogenes Verhalten zu erzeugen
ROLE: R spielt eine mechanistische Rolle in S's robustem z-bezogenem Verhalten

Technische Details

Informationsbedingung (INFORMATION)
- Definition durch gegenseitige Information: $I(X,Y) = H(X) - H(X|Y)$
- Bedingung erfüllt wenn $I(R,z) > 0$
- Informationsbeziehung kann durch kausal erzeugte Korrelation oder strukturelle Entsprechung etabliert werden
Ausnutzbarkeitsbedingung (EXPLOITABILITY)
- S muss in inhaltlich relevanter Weise sein z-bezogenes Verhalten basierend auf R-Aktivierungen modulieren können
- Verifizierung durch Tests und Interventionen an R
Verhaltensbedingung (BEHAVIOR)
- "Robust" bedeutet unempfindlich gegenüber leichten Störungen der Umgebungsbedingungen
- Repräsentation ermöglicht robustes Verhalten, erfordert aber Einbettung in geeignete Algorithmen
Rollenbedingung (ROLE)
- R muss eine kausale Rolle im Mechanismus spielen, der Verhalten antreibt
- Vermeidung des Panrepräsentationalismus-Problems

Kritik der Lookup-Table-Hypothese

Der Autor analysiert die Sichtweise, LLMs als Lookup-Tabellen zu betrachten:

Endliche-Automaten-Perspektive: LLMs werden als endliche Automaten betrachtet, die großflächige Lookup-Tabellen kodieren
Nicht-produktive Charakteristika: Lookup-Table-Systeme sind charakteristisch nicht-produktiv – „können nur bereits eingegebene Inhalte zurückgeben"
Gegenbeweise:
- Othello-GPT: Trainiert auf Daten mit 25% fehlendem Spielbaum, erreicht dennoch 99,98% legale Züge auf vollständigem Datensatz
- Farbmodell: Vergleichbare Leistung auf rotierten Farbkodierungen (36% vs. 34% Top-3-Genauigkeit)

Experimentelle Einrichtung und Ergebnisse

Fallstudie 1: Othello-GPT

Experimentelles Design:

GPT-Modell auf Millionen von Othello-Spielaufzeichnungen trainiert
Aufzeichnungen enthalten nur Zugfolgen, keine Spielregeln oder Bretteigenschaften
Kontrollgruppe: Trainiert auf vollständigem Datensatz
Experimentalgruppe: Trainiert auf verzerrtem Datensatz mit 25% fehlendem Spielbaum

Ergebnisse:

Kontrollgruppe: 99,99% legale Züge Erfolgsquote
Experimentalgruppe: 99,98% legale Züge Erfolgsquote
Schlüsselerkenntnis: Modell erfolgreich bei ungesehenen Brettstellungen, deutet auf mehr als einfache Lookup-Tabelle hin

Fallstudie 2: Farbmodell

Experimentelles Design:

Verwendung vortrainierter GPT zur Prüfung struktureller Eigenschaften in Farb- und Raumbereichen
In-Context-Learning-Paradigma: 60 Trainingsbeispiele
Kontrollgruppe: RGB-Codes mit Farbnamen gekoppelt aus begrenztem Spektralteil
Experimentalgruppe: Systematisch angeordnete "rotierte" Bedingung, strukturelle Beziehungen erhalten

Ergebnisse:

Kontrollgruppe: 34% Top-3-Genauigkeit
Rotierte Gruppe: 36% Top-3-Genauigkeit
Schlüsselerkenntnis: Vergleichbare Leistung, wenn strukturelle Beziehungen erhalten bleiben, aber konkrete Paarungen völlig neu sind

Mechanismus-Interpretierbarkeits-Validierung

Probing-Techniken

Verwendung kleiner linearer MLPs als Sonden
Dekodierung spezifischer Informationen aus verborgenen Schichtaktivierungen
Validierung der INFORMATION- und EXPLOITABILITY-Bedingungen

Interventions-Techniken

Aktivierungsmodifikation: Änderung spezifischer Aktivierungswerte zur Beobachtung von Verhaltensänderungen
Merkmalssteuerung: Fixierung spezifischer Merkmale auf anomal hohe/niedrige Werte
Validierung der BEHAVIOR- und ROLE-Bedingungen

Othello-GPT-Validierungsergebnisse:

Lineare Sonde erfolgreich bei Klassifizierung von Brettstellungen ("mein"/"dein"/"leer")
Aktivierungsmodifikation (Umkehrung des Spielsteinzustands) führt zu Modellvorhersagen konsistent mit modifiziertem Brett

Claude 3 Sonnet-Validierungsergebnisse:

Verwendung spärlicher Autoencoder zur Identifizierung interpretierbarer Merkmale (z.B. Golden Gate Bridge, Hirnwissenschaft)
Merkmalssteuerergeperimente: 10-fache Aktivierung des Golden-Gate-Bridge-Merkmals führt zu Modellerwähnung dieser Brücke

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

LLMs besitzen substanzielle Repräsentationen: In bestimmten Fällen wird LLM-Verhalten durch Repräsentationen angetrieben, die die Vier-Bedingungen-Definition erfüllen
Lookup-Table-Erklärung unzureichend: Reine Memorisierung und Tabellensuche können die Verallgemeinerungsfähigkeit von LLMs nicht erklären
Mechanismus-Interpretierbarkeits-Methoden wirksam: Probing- und Interventions-Techniken bieten praktikable Wege zur Untersuchung von LLM-Repräsentationen

Einschränkungen

Kontextabhängigkeit der Bedingungsanwendung: Die Robustheits-Bewertung von Repräsentationen hängt von spezifischen Aufgaben und Umgebungen ab
Inhaltsbestimmungsproblem ungelöst: Systematische Lösung der Frage, wie Repräsentationsinhalte bestimmt werden, steht aus
Höherstufige kognitive Fähigkeiten ungeklärt: Frage, ob LLMs Überzeugungen, Wissen, Verständnis besitzen, wird nicht direkt adressiert

Zukünftige Richtungen

Systematische Repräsentationskartographie: Etablierung systematischer Darstellung, wann LLMs auf Repräsentationen vs. andere Mechanismen angewiesen sind
Inhaltsbestimmungstheorie: Entwicklung theoretischer Rahmenbedingungen für Inhaltsbestimmung von LLM-Repräsentationen
Bewertung kognitiver Fähigkeiten: Bewertung höherstufiger kognitiver Fähigkeiten von LLMs basierend auf Repräsentationsanalyse

Tiefgreifende Bewertung

Stärken

Herausragende theoretische Beiträge: Bietet strikte Repräsentationsdefinition und füllt wichtige theoretische Lücke
Methodologische Innovation: Organische Kombination von kognitionswissenschaftlicher Repräsentationstheorie mit Interpretierbarkeits-Techniken des maschinellen Lernens
Ausreichende empirische Evidenz: Kernargumente durch mehrere Fallstudien und technische Validierungen gestützt
Klare und strenge Schreibweise: Logische Argumentation und genaue technische Beschreibungen

Mängel

Begrenztheit der Fälle: Hauptsächlich auf wenigen Fällen basierend, erfordert breitere Validierung
Vage Robustheits-Standards: Definition von "robustem Verhalten" bleibt relativ subjektiv
Praktische Herausforderungen: Anwendung der vorgeschlagenen Methoden auf großflächige LLMs sieht sich noch technischen Herausforderungen gegenüber

Auswirkungen

Theoretische Auswirkungen: Bietet wichtige theoretische Grundlagen für LLM-Kognitionsfähigkeitsforschung
Methodische Auswirkungen: Förderung der Anwendung von Mechanismus-Interpretierbarkeit in LLM-Forschung
Praktischer Wert: Bietet neue Werkzeuge für KI-Sicherheits- und Interpretierbarkeitsforschung

Anwendungsszenarien

LLM-Fähigkeitsbewertung: Bewertung, ob spezifische LLMs echte kognitive Fähigkeiten besitzen
Modellverbesserung: Verbesserung von Modellarchitektur und Trainingsmethoden basierend auf Repräsentationsanalyse
KI-Sicherheitsforschung: Verständnis interner LLM-Mechanismen zur Verbesserung der Systemsicherheit

Literaturverzeichnis

Das Paper zitiert umfangreiche interdisziplinäre Literatur, hauptsächlich einschließlich:

Kognitionswissenschaftliche Grundlagenliteratur: Fodor (1975), Marr (1982), Shea (2018)
Interpretierbarkeit des maschinellen Lernens: Olah et al. (2018), Elhage et al. (2021)
Kritische LLM-Forschung: Bender & Koller (2020), Marcus & Davis (2020)
Technische Methodenliteratur: Li et al. (2023), Templeton et al. (2024)

Zusammenfassung: Dieses Paper leistet wichtige theoretische und methodologische Beiträge im Bereich der LLM-Repräsentationsforschung. Durch strikte konzeptionelle Analyse, empirische Forschung und technologische Innovation bietet es neue Perspektiven zum Verständnis der internen Mechanismen von LLMs. Obwohl noch einige Einschränkungen bestehen, legt es eine solide Grundlage für zukünftige LLM-Kognitionsfähigkeitsforschung.