2025-11-16T07:07:12.103832

The Mechanistic Emergence of Symbol Grounding in Language Models

Wu, Ma, Luo et al.
Symbol grounding (Harnad, 1990) describes how symbols such as words acquire their meanings by connecting to real-world sensorimotor experiences. Recent work has shown preliminary evidence that grounding may emerge in (vision-)language models trained at scale without using explicit grounding objectives. Yet, the specific loci of this emergence and the mechanisms that drive it remain largely unexplored. To address this problem, we introduce a controlled evaluation framework that systematically traces how symbol grounding arises within the internal computations through mechanistic and causal analysis. Our findings show that grounding concentrates in middle-layer computations and is implemented through the aggregate mechanism, where attention heads aggregate the environmental ground to support the prediction of linguistic forms. This phenomenon replicates in multimodal dialogue and across architectures (Transformers and state-space models), but not in unidirectional LSTMs. Our results provide behavioral and mechanistic evidence that symbol grounding can emerge in language models, with practical implications for predicting and potentially controlling the reliability of generation.
academic

Die mechanistische Entstehung von Symbolgrundfestigung in Sprachmodellen

Grundinformationen

  • Paper-ID: 2510.13796
  • Titel: The Mechanistic Emergence of Symbol Grounding in Language Models
  • Autoren: Shuyu Wu, Ziqiao Ma, Xiaoxi Luo, Yidong Huang, Josue Torres-Fonseca, Freda Shi, Joyce Chai
  • Klassifizierung: cs.CL (Computerlinguistik), cs.CV (Computersehen)
  • Veröffentlichungsdatum: 15. Oktober 2025 (arXiv-Preprint)
  • Paper-Link: https://arxiv.org/abs/2510.13796

Zusammenfassung

Symbolgrundfestigung (Symbol grounding) beschreibt, wie Symbole (wie Wörter) durch die Verbindung mit sensomotorischen Erfahrungen der realen Welt Bedeutung erlangen. Neuere Forschungen deuten darauf hin, dass Grundfestigungsfähigkeiten in großflächig trainierten (visuellen) Sprachmodellen spontan entstehen können, ohne explizite Grundfestigungsziele zu verwenden. Die spezifischen Orte und treibenden Mechanismen dieser Entstehung bleiben jedoch grundlegend unerforsch. Um dieses Problem zu adressieren, führt dieses Paper ein kontrolliertes Evaluierungsrahmenwerk ein, das durch mechanistische und kausale Analysen systematisch verfolgt, wie Symbolgrundfestigung in internen Berechnungen entsteht. Die Forschung zeigt, dass die Grundfestigung in Berechnungen mittlerer Schichten konzentriert ist und durch Aggregationsmechanismen realisiert wird, bei denen Aufmerksamkeitsköpfe Umgebungsgrundlagen aggregieren, um die Vorhersage von Sprachformen zu unterstützen. Dieses Phänomen wird in multimodalen Dialogen und verschiedenen Architekturen (Transformers und Zustandsraummodelle) repliziert, tritt aber in unidirektionalen LSTMs nicht auf.

Forschungshintergrund und Motivation

Kernproblematik

Die Kernfrage dieser Forschung lautet: Wie entsteht Symbolgrundfestigung mechanistisch in Sprachmodellen? Dies umfasst konkret:

  1. Wann und wo entsteht Symbolgrundfestigung während des Trainings?
  2. Welche Mechanismen treiben diese Entstehung an?
  3. Besitzt dieser Mechanismus Universalität?

Bedeutung des Problems

Die Symbolgrundfestigung ist eines der grundlegenden Probleme der Kognitionswissenschaft und künstlichen Intelligenz. Das Verständnis, wie Sprachmodelle lernen, abstrakte Symbole mit der realen Welt zu verbinden, ist bedeutsam für:

  • Die Verbesserung der Zuverlässigkeit und Interpretierbarkeit von Modellen
  • Die Verringerung von Halluzinationen
  • Die Konstruktion besserer multimodaler KI-Systeme

Limitierungen bestehender Methoden

Bestehende Forschung weist hauptsächlich folgende Limitierungen auf:

  1. Mangel an mechanistischer Analyse: Die meisten Studien konzentrieren sich nur auf Korrelationsanalysen der Endleistung, ohne die internen Mechanismen tiefgreifend zu erforschen
  2. Vernachlässigung von Trainingsdynamiken: Mangel an systematischer Forschung zur Entwicklungstrajektorie der Grundfestigungsfähigkeit während des Trainings
  3. Vage Definitionen: Gleichsetzung von Grundfestigung mit statistischen Korrelationen zwischen visuellen und textuellen Signalen, abweichend von Harnads (1990) klassischer Definition kausaler Verknüpfungen

Forschungsinnovationen

Dieses Paper untersucht systematisch die Entstehungsmechanismen der Symbolgrundfestigung durch die Konstruktion einer minimalisierten Testplattform mit kausalen Interventionen und mechanistischen Analysemethoden.

Kernbeiträge

  1. Konstruktion eines kontrollierten Evaluierungsrahmens: Entwurf einer Testplattform mit getrennten Umgebungs-Tokens (⟨ENV⟩) und Sprach-Tokens (⟨LAN⟩), die sicherstellt, dass entsprechende Beziehungen durch Lernen erworben werden müssen
  2. Entdeckung der mechanistischen Realisierung von Grundfestigung: Nachweis, dass Symbolgrundfestigung durch Aggregationsmechanismen in mittleren Schichten realisiert wird
  3. Bereitstellung von Universalitätsevidenzen über Architekturen hinweg: Beobachtung der Grundfestigungsentstehung in Transformers und Zustandsraummodellen, aber nicht in unidirektionalen LSTMs
  4. Etablierung von kausalen Verifikationsmethoden: Verifikation der Schlüsselrolle von Aggregationsköpfen in der Symbolgrundfestigung durch Aufmerksamkeitskopf-Interventionsexperimente
  5. Offenlegung von Lernen jenseits von Koexistenzstatistiken: Nachweis, dass die vom Modell erlernte Grundfestigungsbeziehung nicht vollständig durch oberflächliche Koexistenzstatistiken erklärt werden kann

Methodische Details

Aufgabendefinition

Eingabe: Sequenzen mit Umgebungs-Tokens (⟨ENV⟩) und Sprach-Tokens (⟨LAN⟩) Ausgabe: Vorhersage des entsprechenden Sprach-Tokens unter gegebenem Umgebungskontext Beschränkungen: Umgebungs-Tokens und Sprach-Tokens verwenden unterschiedliche Vokabularindizes; das Modell muss die Entsprechung zwischen ihnen erlernen

Datensatzkonstruktion

1. Kindergerichtete Sprache (CHILDES)

  • Umgebungs-Token-Quelle: Umgebungsbeschreibungen, Aktionsebene, Situationsebenen-Annotationen
  • Sprach-Token-Quelle: Transkriptionen gesprochener Äußerungen
  • Beispiel:
    Training: ⟨CHI⟩ takes book⟨ENV⟩ from mother ⟨CHI⟩ what's that ⟨MOT⟩ a book⟨LAN⟩ in it
    Test: ⟨CHI⟩ asked for a new book⟨ENV⟩ ⟨CHI⟩ I love this [Vorhersage: book⟨LAN⟩]
    

2. Untertitel-Grundfestigungs-Dialog (Visual Dialog)

  • Umgebungs-Tokens: MSCOCO-Bilduntertitel
  • Sprach-Tokens: Mehrrunden-Frage-Antwort-Paare

3. Bild-Grundfestigungs-Dialog

  • Umgebungs-Tokens: Bild-Patch-Embeddings extrahiert durch gefrorenes DINOv2 ViT
  • Sprach-Tokens: Dialog-Transkriptionen

Evaluierungsprotokoll

Grundfestigungs-Informationsgewinn (Grounding Information Gain)

Definiert als Differenz der Überraschung zwischen Übereinstimmungs- und Nichtübereinstimmungsbedingungen:

Gθ(v)=1Nn=1N1Muv[sθ(vLANcn(uENV))sθ(vLANcn(vENV))]G_\theta(v) = \frac{1}{N}\sum_{n=1}^{N} \frac{1}{M}\sum_{u \neq v} [s_\theta(v^{\langle LAN \rangle} | c_n(u^{\langle ENV \rangle})) - s_\theta(v^{\langle LAN \rangle} | c_n(v^{\langle ENV \rangle}))]

wobei sθ(wc)=logPθ(wc)s_\theta(w|c) = -\log P_\theta(w|c) die Überraschung ist.

Mechanistische Analysemethoden

1. Salienz-Fluss-Analyse (Saliency Flow Analysis)

Berechnung der Salienzmatrix jeder Schicht: I=hAh,LAh,I_\ell = |\sum_h A_{h,\ell} \odot \frac{\partial L}{\partial A_{h,\ell}}|

2. Abgestimmte Linsen-Sondierung (Tuned Lens Probing)

Training von affinen Projektoren zur Abbildung von Aktivierungen mittlerer Schichten auf den Vorhersageraum der finalen Schicht.

3. Kausale Interventionsexperimente

  • Aggregationskopf-Identifikation: Aufmerksamkeitsköpfe mit mindestens 30% Salienz, die vom Umgebungs-Token zum Vorhersage-Ort fließt
  • Interventionsmethode: Nullsetzen der Ausgabe identifizierter Aufmerksamkeitsköpfe und Beobachtung von Leistungsveränderungen

Experimentelle Einrichtung

Modellarchitekturen

  • Transformers: 4-schichtige, 12-schichtige, 18-schichtige GPT-2-ähnliche Modelle
  • Zustandsraummodelle: 4-schichtige, 12-schichtige Mamba-2-Modelle
  • Vergleichsmodelle: 4-schichtiges unidirektionales LSTM
  • Multimodale Modelle: Visuell-sprachliche Modelle basierend auf DINOv2

Trainingsdetails

  • Initialisierung: Zufällige Initialisierung (um Vorwissen auszuschließen)
  • Zielfunktion: Standardmäßige kausale Sprachmodellierung
  • Wiederholte Experimente: 5 zufällige Seeds
  • Kontrollpunkte: Dichte Stichprobennahme früher Trainingsschritte

Vokabularauswahl

Auswahl von 100 hochfrequenten Nomen aus der MacArthur-Bates Communicative Development Inventory, wobei jedes Wort in der Korpus mindestens 100-mal in ⟨ENV⟩- und ⟨LAN⟩-Formen vorkommt.

Experimentelle Ergebnisse

Hauptfunde

1. Verhaltensebenen-Evidenzen

  • Transformers und Mamba-2: Überraschung unter Übereinstimmungsbedingungen signifikant niedriger als unter Nichtübereinstimmungsbedingungen
  • LSTM: Keine signifikanten Unterschiede zwischen den beiden Bedingungen
  • Visueller Dialog: Grundfestigungseffekte in Untertitel- und Bildgrundungs-Einstellungen beobachtet

2. Jenseits von Koexistenzstatistiken

  • Grundfestigungs-Informationsgewinn zeigt R²-Wert mit Koexistenzstatistiken, der früh im Training ansteigt und dann abfällt
  • Deutet darauf hin, dass die vom Modell erlernte Grundfestigungsbeziehung einfache statistische Koexistenz übersteigt

3. Mechanistische Lokalisierung

  • Mittlere Schicht-Konzentration: Grundfestigungseffekte treten hauptsächlich in Schichten 7-9 auf
  • Aggregationsmechanismus: Spezifische Aufmerksamkeitsköpfe realisieren Informationsaggregation vom Umgebungs-Token zum Sprach-Token

Kausale Verifikationsergebnisse

KontrollpunktAggregationsköpfeDurchschnittliche SchichtInterventions-ÜberraschungKontroll-ÜberraschungUrsprüngliche Überraschung
50002.287.386.51***6.396.38
100005.097.285.86***5.295.30
200006.717.525.62***4.764.77

***zeigt Signifikanz bei p < 0.001

Querschnitts-Modalitäts-Verallgemeinerung

Ähnliche Muster von Aggregations-Aufmerksamkeitsköpfen wurden auch in großflächigen VLMs wie LLaVA-1.5-7B gefunden, was die Universalität der Erkenntnisse belegt.

Verwandte Arbeiten

Sprachgrundungs-Forschung

  • Frühe Arbeiten: Fokus auf Lernmechanismen der Wort-Symbol-Zuordnung
  • Visuelle Grundung: Von Objektkategorien bis zu pixelgenauer Grundung
  • Moderne VLMs: Regions- und pixelgenauer Grundung unter großflächiger gepaarter Überwachung

Forschung zu Entstehungsfähigkeiten

  • Skalierungseffekte: Kontroversen über plötzliche Fähigkeiten in großen Modellen
  • Entwicklungsanalyse: Systematische Forschung zur Fähigkeitsakquisition während des Modelltrainings
  • Psychologische Perspektive: Vergleichende Forschung zwischen maschinellem und menschlichem Spracherwerb

Mechanistische Interpretierbarkeit

  • Aufmerksamkeitskopf-Analyse: Entdeckung spezialisierter Köpfe wie Induktionsköpfe und Abrufköpfe
  • Schaltkreis-Analyse: Interne Mechanismen von Aufgaben wie Faktenabruf und kontextuellem Lernen
  • Aggregationsmechanismen: Koordinierte Mechanismen der Informationserfassung und Aggregation

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Symbolgrundfestigung kann in Sprachmodellen spontan entstehen, ohne explizite Überwachung
  2. Aggregationsmechanismen mittlerer Schichten sind der Schlüssel zur Realisierung von Grundfestigung, wobei spezifische Aufmerksamkeitsköpfe für Informationsaggregation verantwortlich sind
  3. Architektur-Abhängigkeit: Transformers und SSMs unterstützen die Entstehung von Grundfestigung, aber LSTMs nicht
  4. Jenseits oberflächlicher Statistiken: Die vom Modell erlernte Grundfestigungsbeziehung besitzt tiefe semantische Merkmale

Theoretische Beiträge

Überprüfung der philosophischen Wurzeln der Symbolgrundfestigung und Bereitstellung mechanistischer Evidenzen vom Übergang von Korrelation zu Kausalität, was die Ansicht herausfordert, dass "konnektionistische Systeme keine inhärente Symbolstruktur haben".

Praktischer Anwendungswert

  • Halluzinations-Erkennung: Vorhersage der Modellzuverlässigkeit durch Überwachung der Aggregationskopf-Aktivität
  • Aufmerksamkeits-Kontrolle: Bereitstellung von Dekodierungs-Zeit-Strategien zur Linderung von Halluzinationen
  • Modelldesign: Anleitung zur Konstruktion zuverlässigerer multimodaler Systeme

Limitierungen

  1. Skalierungs-Limitierungen: Systematische Erkennung und Intervention von Aggregationsköpfen in großflächigen VLMs bleibt herausfordernd
  2. Rechenkomplexität: Die große Anzahl visueller Tokens erhöht die Analysekomplexität erheblich
  3. Verallgemeinerbarkeit: Validierung der Universalität der Erkenntnisse über mehr Aufgaben und Domänen erforderlich

Zukünftige Richtungen

  1. Entwicklung automatischer Erkennungsmethoden für Aggregationsköpfe in großflächigen VLMs
  2. Entwurf rechnerisch machbarer kausaler Interventionsverifikationsschemata
  3. Erforschung der Rolle von Grundfestigungsmechanismen in anderen kognitiven Fähigkeiten

Tiefgreifende Bewertung

Stärken

  1. Starke Methodische Innovativität: Das experimentelle Design mit Umgebungs-Sprach-Token-Trennung ist elegant und gewährleistet die Validität der Kausalinferenz
  2. Ausreichende Analysentiefe: Mehrschichtige Analyse von Verhalten bis zu Mechanismen bietet eine vollständige Beweiskette
  3. Architekturübergreifende Validierung: Validierung der Erkenntnisse über mehrere Modellarchitekturen hinweg erhöht die Universalität der Schlussfolgerungen
  4. Strenge kausale Verifikation: Interventionsexperimente bieten starke kausale Evidenzen

Mängel

  1. Begrenzte Vokabularreichweite: Beschränkung auf 100 Nomen könnte nicht ausreichend sein, um vollständige Sprachphänomene zu repräsentieren
  2. Vereinfachte Aufgaben: Experimentelle Aufgaben sind relativ einfach und unterscheiden sich von echtem Sprachverständnis
  3. Unzureichende großflächige Validierung: Validierung auf wirklich großflächigen Modellen ist begrenzt

Einschätzung der Auswirkungen

  • Akademischer Wert: Bietet neue mechanistische Perspektiven auf die Symbolgrundfestigungsforschung
  • Praktischer Wert: Bietet konkrete technische Wege zur Verbesserung der Modellzuverlässigkeit
  • Reproduzierbarkeit: Bietet detaillierte Implementierungsdetails und Code-Links

Anwendbare Szenarien

  • Interpretierbarkeitsanalyse multimodaler KI-Systeme
  • Halluzinations-Erkennung und -Mitigation in Sprachmodellen
  • Computationale Modellierung von Symbolgrundfestigungsmechanismen in der Kognitionswissenschaft
  • Mechanismusforschung des Konzeptlernens in Bildungs-KI

Literaturverzeichnis

  • Harnad, S. (1990). The symbol grounding problem. Physica D, 42(1-3), 335-346.
  • Bick, A., Xing, E. P., & Gu, A. (2025). Understanding the skill gap in recurrent models: The role of the gather-and-aggregate mechanism.
  • Wang, L., et al. (2023). Label words are anchors: An information flow perspective for understanding in-context learning.
  • Belrose, N., et al. (2023). Eliciting latent predictions from transformers with the tuned lens.

Dieses Paper trägt durch strenge experimentelle Gestaltung und tiefgreifende mechanistische Analyse wesentlich zum Verständnis der Entstehungsmechanismen von Symbolgrundfestigung in Sprachmodellen bei. Seine Erkenntnisse besitzen nicht nur theoretischen Wert, sondern bieten auch praktische Orientierung für die Konstruktion zuverlässigerer KI-Systeme.