2025-11-16T07:28:12.353949

Representation in large language models

Yetman
The extraordinary success of recent Large Language Models (LLMs) on a diverse array of tasks has led to an explosion of scientific and philosophical theorizing aimed at explaining how they do what they do. Unfortunately, disagreement over fundamental theoretical issues has led to stalemate, with entrenched camps of LLM optimists and pessimists often committed to very different views of how these systems work. Overcoming stalemate requires agreement on fundamental questions, and the goal of this paper is to address one such question, namely: is LLM behavior driven partly by representation-based information processing of the sort implicated in biological cognition, or is it driven entirely by processes of memorization and stochastic table look-up? This is a question about what kind of algorithm LLMs implement, and the answer carries serious implications for higher level questions about whether these systems have beliefs, intentions, concepts, knowledge, and understanding. I argue that LLM behavior is partially driven by representation-based information processing, and then I describe and defend a series of practical techniques for investigating these representations and developing explanations on their basis. The resulting account provides a groundwork for future theorizing about language models and their successors.
academic

Repräsentation in großen Sprachmodellen

Grundinformationen

  • Paper-ID: 2501.00885
  • Titel: Representation in large language models
  • Autor: Cameron C. Yetman (University of Toronto)
  • Klassifizierung: cs.CL cs.AI cs.LG
  • Veröffentlichungsdatum: 1. Januar 2025 (Entwurfsversion)
  • Paper-Link: https://arxiv.org/abs/2501.00885

Zusammenfassung

Der außergewöhnliche Erfolg großer Sprachmodelle (LLMs) bei verschiedenen Aufgaben hat zu umfangreicher wissenschaftlicher und philosophischer Theoretisierung über ihre Funktionsweise geführt. Allerdings haben Meinungsverschiedenheiten über grundlegende theoretische Fragen zu einer Sackgasse geführt, wobei sich optimistische und pessimistische Lager oft völlig unterschiedliche Ansichten über die Funktionsweise dieser Systeme vertreten. Um diese Sackgasse zu überwinden, ist eine Einigung auf grundlegende Fragen erforderlich. Ziel dieses Papers ist es, eine dieser Grundfragen zu adressieren: Wird das Verhalten von LLMs teilweise durch informationsverarbeitende Prozesse auf Basis von Repräsentationen angetrieben – ähnlich wie in der biologischen Kognition – oder vollständig durch Memorisierung und stochastische Tabellensuche? Dies ist eine Frage darüber, welche Algorithmen LLMs implementieren, und die Antwort hat wichtige Auswirkungen auf höherrangige Fragen, wie etwa ob diese Systeme Überzeugungen, Absichten, Konzepte, Wissen und Verständnis besitzen. Der Autor argumentiert, dass LLM-Verhalten teilweise durch repräsentationsbasierte Informationsverarbeitung angetrieben wird, und beschreibt sowie verteidigt eine Reihe praktischer Techniken zur Untersuchung dieser Repräsentationen und zur Entwicklung von Erklärungen auf dieser Grundlage.

Forschungshintergrund und Motivation

Kernfrage

Die zentrale Forschungsfrage lautet: Wird das Verhalten großer Sprachmodelle durch repräsentationsbasierte Informationsverarbeitung angetrieben oder hängt es vollständig von Memorisierung und stochastischer Tabellensuche ab?

Bedeutung der Frage

  1. Überwindung theoretischer Divergenzen: Im LLM-Forschungsfeld bestehen erhebliche theoretische Meinungsverschiedenheiten, wobei Optimisten LLMs kognitive Fähigkeiten zuschreiben und Pessimisten sie als komplexe Mustererkennung betrachten
  2. Kognitionswissenschaftliche Grundlagen: Diese Frage bezieht sich direkt darauf, ob LLMs als kognitive Modelle verwendet werden können und ob sie selbst kognitive Systeme sind
  3. Grundlagen höherstufiger Fähigkeiten: Die Antwort beeinflusst unsere Beurteilung, ob LLMs höherstufige kognitive Fähigkeiten wie Überzeugungen, Absichten, Konzepte, Wissen und Verständnis besitzen

Grenzen bestehender Ansätze

  1. Missbrauch von Terminologie: Der Begriff "Repräsentation" wird in der Praxis des maschinellen Lernens zu breit verwendet und verliert seinen theoretischen Wert
  2. Grenzen verhaltensorientierter Ansätze: Die Bestimmung der Existenz von Repräsentationen nur anhand von Verhaltensergebnissen ist grundsätzlich unsicher
  3. Mangel an systematischen Methoden: Es fehlt eine systematische Methode zur Identifizierung und Validierung von Repräsentationen in LLMs

Forschungsmotivation

Der Autor argumentiert, dass die Lösung dieser grundlegenden Frage entscheidend ist, um die aktuelle theoretische Sackgasse zu durchbrechen und eine solide Grundlage für zukünftige LLM-Theoretisierung zu schaffen.

Kernbeiträge

  1. Vier-Bedingungen-Charakterisierung von Repräsentation: Bietet eine substanzielle, operationalisierbare Definition des Konzepts "Repräsentation", einschließlich vier Bedingungen: Information (INFORMATION), Ausnutzbarkeit (EXPLOITABILITY), Verhalten (BEHAVIOR) und Rolle (ROLE)
  2. Widerlegung der Lookup-Table-Erklärung: Durch Analyse von Fällen wie Othello-GPT und Farbmodellen wird nachgewiesen, dass LLMs nicht vollständig durch endliche Automaten oder Lookup-Tabellen erklärt werden können
  3. Etablierung eines Mechanismus-Interpretierbarkeits-Rahmens: Systematische Beschreibung, wie Probing- und Interventions-Techniken zur Überprüfung der Existenz von Repräsentationen verwendet werden
  4. Bereitstellung praktischer Forschungsmethoden: Konkrete technische Werkzeuge und methodologische Anleitung für die Untersuchung von LLM-Repräsentationen

Methodische Details

Vier-Bedingungen-Definition von Repräsentation

Der Autor schlägt eine operationalisierbare Definition von Repräsentation vor. System S hat eine Repräsentation R des Merkmals z dann und nur dann, wenn die folgenden vier Bedingungen erfüllt sind:

REPRESENTATION

  • INFORMATION: R trägt Information über z
  • EXPLOITABILITY: Die von R über z getragene Information ist für S ausnutzbar
  • BEHAVIOR: S nutzt die von R über z getragene Information, um robustes z-bezogenes Verhalten zu erzeugen
  • ROLE: R spielt eine mechanistische Rolle in S's robustem z-bezogenem Verhalten

Technische Details

  1. Informationsbedingung (INFORMATION)
    • Definition durch gegenseitige Information: I(X,Y)=H(X)H(XY)I(X,Y) = H(X) - H(X|Y)
    • Bedingung erfüllt wenn I(R,z)>0I(R,z) > 0
    • Informationsbeziehung kann durch kausal erzeugte Korrelation oder strukturelle Entsprechung etabliert werden
  2. Ausnutzbarkeitsbedingung (EXPLOITABILITY)
    • S muss in inhaltlich relevanter Weise sein z-bezogenes Verhalten basierend auf R-Aktivierungen modulieren können
    • Verifizierung durch Tests und Interventionen an R
  3. Verhaltensbedingung (BEHAVIOR)
    • "Robust" bedeutet unempfindlich gegenüber leichten Störungen der Umgebungsbedingungen
    • Repräsentation ermöglicht robustes Verhalten, erfordert aber Einbettung in geeignete Algorithmen
  4. Rollenbedingung (ROLE)
    • R muss eine kausale Rolle im Mechanismus spielen, der Verhalten antreibt
    • Vermeidung des Panrepräsentationalismus-Problems

Kritik der Lookup-Table-Hypothese

Der Autor analysiert die Sichtweise, LLMs als Lookup-Tabellen zu betrachten:

  1. Endliche-Automaten-Perspektive: LLMs werden als endliche Automaten betrachtet, die großflächige Lookup-Tabellen kodieren
  2. Nicht-produktive Charakteristika: Lookup-Table-Systeme sind charakteristisch nicht-produktiv – „können nur bereits eingegebene Inhalte zurückgeben"
  3. Gegenbeweise:
    • Othello-GPT: Trainiert auf Daten mit 25% fehlendem Spielbaum, erreicht dennoch 99,98% legale Züge auf vollständigem Datensatz
    • Farbmodell: Vergleichbare Leistung auf rotierten Farbkodierungen (36% vs. 34% Top-3-Genauigkeit)

Experimentelle Einrichtung und Ergebnisse

Fallstudie 1: Othello-GPT

Experimentelles Design:

  • GPT-Modell auf Millionen von Othello-Spielaufzeichnungen trainiert
  • Aufzeichnungen enthalten nur Zugfolgen, keine Spielregeln oder Bretteigenschaften
  • Kontrollgruppe: Trainiert auf vollständigem Datensatz
  • Experimentalgruppe: Trainiert auf verzerrtem Datensatz mit 25% fehlendem Spielbaum

Ergebnisse:

  • Kontrollgruppe: 99,99% legale Züge Erfolgsquote
  • Experimentalgruppe: 99,98% legale Züge Erfolgsquote
  • Schlüsselerkenntnis: Modell erfolgreich bei ungesehenen Brettstellungen, deutet auf mehr als einfache Lookup-Tabelle hin

Fallstudie 2: Farbmodell

Experimentelles Design:

  • Verwendung vortrainierter GPT zur Prüfung struktureller Eigenschaften in Farb- und Raumbereichen
  • In-Context-Learning-Paradigma: 60 Trainingsbeispiele
  • Kontrollgruppe: RGB-Codes mit Farbnamen gekoppelt aus begrenztem Spektralteil
  • Experimentalgruppe: Systematisch angeordnete "rotierte" Bedingung, strukturelle Beziehungen erhalten

Ergebnisse:

  • Kontrollgruppe: 34% Top-3-Genauigkeit
  • Rotierte Gruppe: 36% Top-3-Genauigkeit
  • Schlüsselerkenntnis: Vergleichbare Leistung, wenn strukturelle Beziehungen erhalten bleiben, aber konkrete Paarungen völlig neu sind

Mechanismus-Interpretierbarkeits-Validierung

Probing-Techniken

  • Verwendung kleiner linearer MLPs als Sonden
  • Dekodierung spezifischer Informationen aus verborgenen Schichtaktivierungen
  • Validierung der INFORMATION- und EXPLOITABILITY-Bedingungen

Interventions-Techniken

  • Aktivierungsmodifikation: Änderung spezifischer Aktivierungswerte zur Beobachtung von Verhaltensänderungen
  • Merkmalssteuerung: Fixierung spezifischer Merkmale auf anomal hohe/niedrige Werte
  • Validierung der BEHAVIOR- und ROLE-Bedingungen

Othello-GPT-Validierungsergebnisse:

  • Lineare Sonde erfolgreich bei Klassifizierung von Brettstellungen ("mein"/"dein"/"leer")
  • Aktivierungsmodifikation (Umkehrung des Spielsteinzustands) führt zu Modellvorhersagen konsistent mit modifiziertem Brett

Claude 3 Sonnet-Validierungsergebnisse:

  • Verwendung spärlicher Autoencoder zur Identifizierung interpretierbarer Merkmale (z.B. Golden Gate Bridge, Hirnwissenschaft)
  • Merkmalssteuerergeperimente: 10-fache Aktivierung des Golden-Gate-Bridge-Merkmals führt zu Modellerwähnung dieser Brücke

Verwandte Arbeiten

Theoretische Grundlagen der Repräsentation

  • Kognitionswissenschaftliche Tradition: Theoretische Grundlagen von Fodor (1975), Sterelny (1991), Shea (2018)
  • Rechenschichten: Basierend auf Marrs (1982) Rahmen der algorithmischen Ebenenanalyse

Repräsentation im maschinellen Lernen

  • Repräsentationslernens: Repräsentationslernrahmen von Bengio et al. (2014)
  • Verallgemeinerungsproblem von Terminologie: Von Ramsey (2017) identifiziertes Verallgemeinerungsproblem des Konzepts "Repräsentation"

LLM-Interpretationsmethoden

  • Schaltkreisanalyse: Rechenpfadanalyse von Elhage et al. (2021), Dunefsky et al. (2024)
  • Kausale Abstraktion: Kausale Modellausrichtungsmethode von Geiger et al. (2021)
  • Mechanismus-Interpretierbarkeit: MI-Forschungstradition von Olah et al. (2018, 2020)

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. LLMs besitzen substanzielle Repräsentationen: In bestimmten Fällen wird LLM-Verhalten durch Repräsentationen angetrieben, die die Vier-Bedingungen-Definition erfüllen
  2. Lookup-Table-Erklärung unzureichend: Reine Memorisierung und Tabellensuche können die Verallgemeinerungsfähigkeit von LLMs nicht erklären
  3. Mechanismus-Interpretierbarkeits-Methoden wirksam: Probing- und Interventions-Techniken bieten praktikable Wege zur Untersuchung von LLM-Repräsentationen

Einschränkungen

  1. Kontextabhängigkeit der Bedingungsanwendung: Die Robustheits-Bewertung von Repräsentationen hängt von spezifischen Aufgaben und Umgebungen ab
  2. Inhaltsbestimmungsproblem ungelöst: Systematische Lösung der Frage, wie Repräsentationsinhalte bestimmt werden, steht aus
  3. Höherstufige kognitive Fähigkeiten ungeklärt: Frage, ob LLMs Überzeugungen, Wissen, Verständnis besitzen, wird nicht direkt adressiert

Zukünftige Richtungen

  1. Systematische Repräsentationskartographie: Etablierung systematischer Darstellung, wann LLMs auf Repräsentationen vs. andere Mechanismen angewiesen sind
  2. Inhaltsbestimmungstheorie: Entwicklung theoretischer Rahmenbedingungen für Inhaltsbestimmung von LLM-Repräsentationen
  3. Bewertung kognitiver Fähigkeiten: Bewertung höherstufiger kognitiver Fähigkeiten von LLMs basierend auf Repräsentationsanalyse

Tiefgreifende Bewertung

Stärken

  1. Herausragende theoretische Beiträge: Bietet strikte Repräsentationsdefinition und füllt wichtige theoretische Lücke
  2. Methodologische Innovation: Organische Kombination von kognitionswissenschaftlicher Repräsentationstheorie mit Interpretierbarkeits-Techniken des maschinellen Lernens
  3. Ausreichende empirische Evidenz: Kernargumente durch mehrere Fallstudien und technische Validierungen gestützt
  4. Klare und strenge Schreibweise: Logische Argumentation und genaue technische Beschreibungen

Mängel

  1. Begrenztheit der Fälle: Hauptsächlich auf wenigen Fällen basierend, erfordert breitere Validierung
  2. Vage Robustheits-Standards: Definition von "robustem Verhalten" bleibt relativ subjektiv
  3. Praktische Herausforderungen: Anwendung der vorgeschlagenen Methoden auf großflächige LLMs sieht sich noch technischen Herausforderungen gegenüber

Auswirkungen

  1. Theoretische Auswirkungen: Bietet wichtige theoretische Grundlagen für LLM-Kognitionsfähigkeitsforschung
  2. Methodische Auswirkungen: Förderung der Anwendung von Mechanismus-Interpretierbarkeit in LLM-Forschung
  3. Praktischer Wert: Bietet neue Werkzeuge für KI-Sicherheits- und Interpretierbarkeitsforschung

Anwendungsszenarien

  1. LLM-Fähigkeitsbewertung: Bewertung, ob spezifische LLMs echte kognitive Fähigkeiten besitzen
  2. Modellverbesserung: Verbesserung von Modellarchitektur und Trainingsmethoden basierend auf Repräsentationsanalyse
  3. KI-Sicherheitsforschung: Verständnis interner LLM-Mechanismen zur Verbesserung der Systemsicherheit

Literaturverzeichnis

Das Paper zitiert umfangreiche interdisziplinäre Literatur, hauptsächlich einschließlich:

  1. Kognitionswissenschaftliche Grundlagenliteratur: Fodor (1975), Marr (1982), Shea (2018)
  2. Interpretierbarkeit des maschinellen Lernens: Olah et al. (2018), Elhage et al. (2021)
  3. Kritische LLM-Forschung: Bender & Koller (2020), Marcus & Davis (2020)
  4. Technische Methodenliteratur: Li et al. (2023), Templeton et al. (2024)

Zusammenfassung: Dieses Paper leistet wichtige theoretische und methodologische Beiträge im Bereich der LLM-Repräsentationsforschung. Durch strikte konzeptionelle Analyse, empirische Forschung und technologische Innovation bietet es neue Perspektiven zum Verständnis der internen Mechanismen von LLMs. Obwohl noch einige Einschränkungen bestehen, legt es eine solide Grundlage für zukünftige LLM-Kognitionsfähigkeitsforschung.