2025-11-16T07:07:12.103832

The Mechanistic Emergence of Symbol Grounding in Language Models

Wu, Ma, Luo et al.

Symbol grounding (Harnad, 1990) describes how symbols such as words acquire their meanings by connecting to real-world sensorimotor experiences. Recent work has shown preliminary evidence that grounding may emerge in (vision-)language models trained at scale without using explicit grounding objectives. Yet, the specific loci of this emergence and the mechanisms that drive it remain largely unexplored. To address this problem, we introduce a controlled evaluation framework that systematically traces how symbol grounding arises within the internal computations through mechanistic and causal analysis. Our findings show that grounding concentrates in middle-layer computations and is implemented through the aggregate mechanism, where attention heads aggregate the environmental ground to support the prediction of linguistic forms. This phenomenon replicates in multimodal dialogue and across architectures (Transformers and state-space models), but not in unidirectional LSTMs. Our results provide behavioral and mechanistic evidence that symbol grounding can emerge in language models, with practical implications for predicting and potentially controlling the reliability of generation.

academic

Die mechanistische Entstehung von Symbolgrundfestigung in Sprachmodellen

Grundinformationen

Paper-ID: 2510.13796
Titel: The Mechanistic Emergence of Symbol Grounding in Language Models
Autoren: Shuyu Wu, Ziqiao Ma, Xiaoxi Luo, Yidong Huang, Josue Torres-Fonseca, Freda Shi, Joyce Chai
Klassifizierung: cs.CL (Computerlinguistik), cs.CV (Computersehen)
Veröffentlichungsdatum: 15. Oktober 2025 (arXiv-Preprint)
Paper-Link: https://arxiv.org/abs/2510.13796

Zusammenfassung

Symbolgrundfestigung (Symbol grounding) beschreibt, wie Symbole (wie Wörter) durch die Verbindung mit sensomotorischen Erfahrungen der realen Welt Bedeutung erlangen. Neuere Forschungen deuten darauf hin, dass Grundfestigungsfähigkeiten in großflächig trainierten (visuellen) Sprachmodellen spontan entstehen können, ohne explizite Grundfestigungsziele zu verwenden. Die spezifischen Orte und treibenden Mechanismen dieser Entstehung bleiben jedoch grundlegend unerforsch. Um dieses Problem zu adressieren, führt dieses Paper ein kontrolliertes Evaluierungsrahmenwerk ein, das durch mechanistische und kausale Analysen systematisch verfolgt, wie Symbolgrundfestigung in internen Berechnungen entsteht. Die Forschung zeigt, dass die Grundfestigung in Berechnungen mittlerer Schichten konzentriert ist und durch Aggregationsmechanismen realisiert wird, bei denen Aufmerksamkeitsköpfe Umgebungsgrundlagen aggregieren, um die Vorhersage von Sprachformen zu unterstützen. Dieses Phänomen wird in multimodalen Dialogen und verschiedenen Architekturen (Transformers und Zustandsraummodelle) repliziert, tritt aber in unidirektionalen LSTMs nicht auf.

Forschungshintergrund und Motivation

Kernproblematik

Die Kernfrage dieser Forschung lautet: Wie entsteht Symbolgrundfestigung mechanistisch in Sprachmodellen? Dies umfasst konkret:

Wann und wo entsteht Symbolgrundfestigung während des Trainings?
Welche Mechanismen treiben diese Entstehung an?
Besitzt dieser Mechanismus Universalität?

Bedeutung des Problems

Die Symbolgrundfestigung ist eines der grundlegenden Probleme der Kognitionswissenschaft und künstlichen Intelligenz. Das Verständnis, wie Sprachmodelle lernen, abstrakte Symbole mit der realen Welt zu verbinden, ist bedeutsam für:

Die Verbesserung der Zuverlässigkeit und Interpretierbarkeit von Modellen
Die Verringerung von Halluzinationen
Die Konstruktion besserer multimodaler KI-Systeme

Limitierungen bestehender Methoden

Bestehende Forschung weist hauptsächlich folgende Limitierungen auf:

Mangel an mechanistischer Analyse: Die meisten Studien konzentrieren sich nur auf Korrelationsanalysen der Endleistung, ohne die internen Mechanismen tiefgreifend zu erforschen
Vernachlässigung von Trainingsdynamiken: Mangel an systematischer Forschung zur Entwicklungstrajektorie der Grundfestigungsfähigkeit während des Trainings
Vage Definitionen: Gleichsetzung von Grundfestigung mit statistischen Korrelationen zwischen visuellen und textuellen Signalen, abweichend von Harnads (1990) klassischer Definition kausaler Verknüpfungen

Forschungsinnovationen

Dieses Paper untersucht systematisch die Entstehungsmechanismen der Symbolgrundfestigung durch die Konstruktion einer minimalisierten Testplattform mit kausalen Interventionen und mechanistischen Analysemethoden.

Kernbeiträge

Konstruktion eines kontrollierten Evaluierungsrahmens: Entwurf einer Testplattform mit getrennten Umgebungs-Tokens (⟨ENV⟩) und Sprach-Tokens (⟨LAN⟩), die sicherstellt, dass entsprechende Beziehungen durch Lernen erworben werden müssen
Entdeckung der mechanistischen Realisierung von Grundfestigung: Nachweis, dass Symbolgrundfestigung durch Aggregationsmechanismen in mittleren Schichten realisiert wird
Bereitstellung von Universalitätsevidenzen über Architekturen hinweg: Beobachtung der Grundfestigungsentstehung in Transformers und Zustandsraummodellen, aber nicht in unidirektionalen LSTMs
Etablierung von kausalen Verifikationsmethoden: Verifikation der Schlüsselrolle von Aggregationsköpfen in der Symbolgrundfestigung durch Aufmerksamkeitskopf-Interventionsexperimente
Offenlegung von Lernen jenseits von Koexistenzstatistiken: Nachweis, dass die vom Modell erlernte Grundfestigungsbeziehung nicht vollständig durch oberflächliche Koexistenzstatistiken erklärt werden kann

Methodische Details

Aufgabendefinition

Eingabe: Sequenzen mit Umgebungs-Tokens (⟨ENV⟩) und Sprach-Tokens (⟨LAN⟩) Ausgabe: Vorhersage des entsprechenden Sprach-Tokens unter gegebenem Umgebungskontext Beschränkungen: Umgebungs-Tokens und Sprach-Tokens verwenden unterschiedliche Vokabularindizes; das Modell muss die Entsprechung zwischen ihnen erlernen

Datensatzkonstruktion

1. Kindergerichtete Sprache (CHILDES)

Umgebungs-Token-Quelle: Umgebungsbeschreibungen, Aktionsebene, Situationsebenen-Annotationen
Sprach-Token-Quelle: Transkriptionen gesprochener Äußerungen

Beispiel:

Training: ⟨CHI⟩ takes book⟨ENV⟩ from mother ⟨CHI⟩ what's that ⟨MOT⟩ a book⟨LAN⟩ in it
Test: ⟨CHI⟩ asked for a new book⟨ENV⟩ ⟨CHI⟩ I love this [Vorhersage: book⟨LAN⟩]

2. Untertitel-Grundfestigungs-Dialog (Visual Dialog)

Umgebungs-Tokens: MSCOCO-Bilduntertitel
Sprach-Tokens: Mehrrunden-Frage-Antwort-Paare

3. Bild-Grundfestigungs-Dialog

Umgebungs-Tokens: Bild-Patch-Embeddings extrahiert durch gefrorenes DINOv2 ViT
Sprach-Tokens: Dialog-Transkriptionen

Evaluierungsprotokoll

Grundfestigungs-Informationsgewinn (Grounding Information Gain)

Definiert als Differenz der Überraschung zwischen Übereinstimmungs- und Nichtübereinstimmungsbedingungen:

$G_\theta(v) = \frac{1}{N}\sum_{n=1}^{N} \frac{1}{M}\sum_{u \neq v} [s_\theta(v^{\langle LAN \rangle} | c_n(u^{\langle ENV \rangle})) - s_\theta(v^{\langle LAN \rangle} | c_n(v^{\langle ENV \rangle}))]$

wobei $s_\theta(w|c) = -\log P_\theta(w|c)$ die Überraschung ist.

Mechanistische Analysemethoden

1. Salienz-Fluss-Analyse (Saliency Flow Analysis)

Berechnung der Salienzmatrix jeder Schicht: $I_\ell = |\sum_h A_{h,\ell} \odot \frac{\partial L}{\partial A_{h,\ell}}|$

2. Abgestimmte Linsen-Sondierung (Tuned Lens Probing)

Training von affinen Projektoren zur Abbildung von Aktivierungen mittlerer Schichten auf den Vorhersageraum der finalen Schicht.

3. Kausale Interventionsexperimente

Aggregationskopf-Identifikation: Aufmerksamkeitsköpfe mit mindestens 30% Salienz, die vom Umgebungs-Token zum Vorhersage-Ort fließt
Interventionsmethode: Nullsetzen der Ausgabe identifizierter Aufmerksamkeitsköpfe und Beobachtung von Leistungsveränderungen

Experimentelle Einrichtung

Modellarchitekturen

Transformers: 4-schichtige, 12-schichtige, 18-schichtige GPT-2-ähnliche Modelle
Zustandsraummodelle: 4-schichtige, 12-schichtige Mamba-2-Modelle
Vergleichsmodelle: 4-schichtiges unidirektionales LSTM
Multimodale Modelle: Visuell-sprachliche Modelle basierend auf DINOv2

Trainingsdetails

Initialisierung: Zufällige Initialisierung (um Vorwissen auszuschließen)
Zielfunktion: Standardmäßige kausale Sprachmodellierung
Wiederholte Experimente: 5 zufällige Seeds
Kontrollpunkte: Dichte Stichprobennahme früher Trainingsschritte

Vokabularauswahl

Auswahl von 100 hochfrequenten Nomen aus der MacArthur-Bates Communicative Development Inventory, wobei jedes Wort in der Korpus mindestens 100-mal in ⟨ENV⟩- und ⟨LAN⟩-Formen vorkommt.

Experimentelle Ergebnisse

Hauptfunde

1. Verhaltensebenen-Evidenzen

Transformers und Mamba-2: Überraschung unter Übereinstimmungsbedingungen signifikant niedriger als unter Nichtübereinstimmungsbedingungen
LSTM: Keine signifikanten Unterschiede zwischen den beiden Bedingungen
Visueller Dialog: Grundfestigungseffekte in Untertitel- und Bildgrundungs-Einstellungen beobachtet

2. Jenseits von Koexistenzstatistiken

Grundfestigungs-Informationsgewinn zeigt R²-Wert mit Koexistenzstatistiken, der früh im Training ansteigt und dann abfällt
Deutet darauf hin, dass die vom Modell erlernte Grundfestigungsbeziehung einfache statistische Koexistenz übersteigt

3. Mechanistische Lokalisierung

Mittlere Schicht-Konzentration: Grundfestigungseffekte treten hauptsächlich in Schichten 7-9 auf
Aggregationsmechanismus: Spezifische Aufmerksamkeitsköpfe realisieren Informationsaggregation vom Umgebungs-Token zum Sprach-Token

Kausale Verifikationsergebnisse

Kontrollpunkt	Aggregationsköpfe	Durchschnittliche Schicht	Interventions-Überraschung	Kontroll-Überraschung	Ursprüngliche Überraschung
5000	2.28	7.38	6.51***	6.39	6.38
10000	5.09	7.28	5.86***	5.29	5.30
20000	6.71	7.52	5.62***	4.76	4.77

***zeigt Signifikanz bei p < 0.001

Querschnitts-Modalitäts-Verallgemeinerung

Ähnliche Muster von Aggregations-Aufmerksamkeitsköpfen wurden auch in großflächigen VLMs wie LLaVA-1.5-7B gefunden, was die Universalität der Erkenntnisse belegt.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Symbolgrundfestigung kann in Sprachmodellen spontan entstehen, ohne explizite Überwachung
Aggregationsmechanismen mittlerer Schichten sind der Schlüssel zur Realisierung von Grundfestigung, wobei spezifische Aufmerksamkeitsköpfe für Informationsaggregation verantwortlich sind
Architektur-Abhängigkeit: Transformers und SSMs unterstützen die Entstehung von Grundfestigung, aber LSTMs nicht
Jenseits oberflächlicher Statistiken: Die vom Modell erlernte Grundfestigungsbeziehung besitzt tiefe semantische Merkmale

Theoretische Beiträge

Überprüfung der philosophischen Wurzeln der Symbolgrundfestigung und Bereitstellung mechanistischer Evidenzen vom Übergang von Korrelation zu Kausalität, was die Ansicht herausfordert, dass "konnektionistische Systeme keine inhärente Symbolstruktur haben".

Praktischer Anwendungswert

Halluzinations-Erkennung: Vorhersage der Modellzuverlässigkeit durch Überwachung der Aggregationskopf-Aktivität
Aufmerksamkeits-Kontrolle: Bereitstellung von Dekodierungs-Zeit-Strategien zur Linderung von Halluzinationen
Modelldesign: Anleitung zur Konstruktion zuverlässigerer multimodaler Systeme

Limitierungen

Skalierungs-Limitierungen: Systematische Erkennung und Intervention von Aggregationsköpfen in großflächigen VLMs bleibt herausfordernd
Rechenkomplexität: Die große Anzahl visueller Tokens erhöht die Analysekomplexität erheblich
Verallgemeinerbarkeit: Validierung der Universalität der Erkenntnisse über mehr Aufgaben und Domänen erforderlich

Zukünftige Richtungen

Entwicklung automatischer Erkennungsmethoden für Aggregationsköpfe in großflächigen VLMs
Entwurf rechnerisch machbarer kausaler Interventionsverifikationsschemata
Erforschung der Rolle von Grundfestigungsmechanismen in anderen kognitiven Fähigkeiten

Tiefgreifende Bewertung

Stärken

Starke Methodische Innovativität: Das experimentelle Design mit Umgebungs-Sprach-Token-Trennung ist elegant und gewährleistet die Validität der Kausalinferenz
Ausreichende Analysentiefe: Mehrschichtige Analyse von Verhalten bis zu Mechanismen bietet eine vollständige Beweiskette
Architekturübergreifende Validierung: Validierung der Erkenntnisse über mehrere Modellarchitekturen hinweg erhöht die Universalität der Schlussfolgerungen
Strenge kausale Verifikation: Interventionsexperimente bieten starke kausale Evidenzen

Mängel

Begrenzte Vokabularreichweite: Beschränkung auf 100 Nomen könnte nicht ausreichend sein, um vollständige Sprachphänomene zu repräsentieren
Vereinfachte Aufgaben: Experimentelle Aufgaben sind relativ einfach und unterscheiden sich von echtem Sprachverständnis
Unzureichende großflächige Validierung: Validierung auf wirklich großflächigen Modellen ist begrenzt

Einschätzung der Auswirkungen

Akademischer Wert: Bietet neue mechanistische Perspektiven auf die Symbolgrundfestigungsforschung
Praktischer Wert: Bietet konkrete technische Wege zur Verbesserung der Modellzuverlässigkeit
Reproduzierbarkeit: Bietet detaillierte Implementierungsdetails und Code-Links

Anwendbare Szenarien

Interpretierbarkeitsanalyse multimodaler KI-Systeme
Halluzinations-Erkennung und -Mitigation in Sprachmodellen
Computationale Modellierung von Symbolgrundfestigungsmechanismen in der Kognitionswissenschaft
Mechanismusforschung des Konzeptlernens in Bildungs-KI

Literaturverzeichnis

Harnad, S. (1990). The symbol grounding problem. Physica D, 42(1-3), 335-346.
Bick, A., Xing, E. P., & Gu, A. (2025). Understanding the skill gap in recurrent models: The role of the gather-and-aggregate mechanism.
Wang, L., et al. (2023). Label words are anchors: An information flow perspective for understanding in-context learning.
Belrose, N., et al. (2023). Eliciting latent predictions from transformers with the tuned lens.

Dieses Paper trägt durch strenge experimentelle Gestaltung und tiefgreifende mechanistische Analyse wesentlich zum Verständnis der Entstehungsmechanismen von Symbolgrundfestigung in Sprachmodellen bei. Seine Erkenntnisse besitzen nicht nur theoretischen Wert, sondern bieten auch praktische Orientierung für die Konstruktion zuverlässigerer KI-Systeme.