The Mechanistic Emergence of Symbol Grounding in Language Models
Wu, Ma, Luo et al.
Symbol grounding (Harnad, 1990) describes how symbols such as words acquire their meanings by connecting to real-world sensorimotor experiences. Recent work has shown preliminary evidence that grounding may emerge in (vision-)language models trained at scale without using explicit grounding objectives. Yet, the specific loci of this emergence and the mechanisms that drive it remain largely unexplored. To address this problem, we introduce a controlled evaluation framework that systematically traces how symbol grounding arises within the internal computations through mechanistic and causal analysis. Our findings show that grounding concentrates in middle-layer computations and is implemented through the aggregate mechanism, where attention heads aggregate the environmental ground to support the prediction of linguistic forms. This phenomenon replicates in multimodal dialogue and across architectures (Transformers and state-space models), but not in unidirectional LSTMs. Our results provide behavioral and mechanistic evidence that symbol grounding can emerge in language models, with practical implications for predicting and potentially controlling the reliability of generation.
academic
Die mechanistische Entstehung von Symbolgrundfestigung in Sprachmodellen
Symbolgrundfestigung (Symbol grounding) beschreibt, wie Symbole (wie Wörter) durch die Verbindung mit sensomotorischen Erfahrungen der realen Welt Bedeutung erlangen. Neuere Forschungen deuten darauf hin, dass Grundfestigungsfähigkeiten in großflächig trainierten (visuellen) Sprachmodellen spontan entstehen können, ohne explizite Grundfestigungsziele zu verwenden. Die spezifischen Orte und treibenden Mechanismen dieser Entstehung bleiben jedoch grundlegend unerforsch. Um dieses Problem zu adressieren, führt dieses Paper ein kontrolliertes Evaluierungsrahmenwerk ein, das durch mechanistische und kausale Analysen systematisch verfolgt, wie Symbolgrundfestigung in internen Berechnungen entsteht. Die Forschung zeigt, dass die Grundfestigung in Berechnungen mittlerer Schichten konzentriert ist und durch Aggregationsmechanismen realisiert wird, bei denen Aufmerksamkeitsköpfe Umgebungsgrundlagen aggregieren, um die Vorhersage von Sprachformen zu unterstützen. Dieses Phänomen wird in multimodalen Dialogen und verschiedenen Architekturen (Transformers und Zustandsraummodelle) repliziert, tritt aber in unidirektionalen LSTMs nicht auf.
Die Symbolgrundfestigung ist eines der grundlegenden Probleme der Kognitionswissenschaft und künstlichen Intelligenz. Das Verständnis, wie Sprachmodelle lernen, abstrakte Symbole mit der realen Welt zu verbinden, ist bedeutsam für:
Die Verbesserung der Zuverlässigkeit und Interpretierbarkeit von Modellen
Bestehende Forschung weist hauptsächlich folgende Limitierungen auf:
Mangel an mechanistischer Analyse: Die meisten Studien konzentrieren sich nur auf Korrelationsanalysen der Endleistung, ohne die internen Mechanismen tiefgreifend zu erforschen
Vernachlässigung von Trainingsdynamiken: Mangel an systematischer Forschung zur Entwicklungstrajektorie der Grundfestigungsfähigkeit während des Trainings
Vage Definitionen: Gleichsetzung von Grundfestigung mit statistischen Korrelationen zwischen visuellen und textuellen Signalen, abweichend von Harnads (1990) klassischer Definition kausaler Verknüpfungen
Dieses Paper untersucht systematisch die Entstehungsmechanismen der Symbolgrundfestigung durch die Konstruktion einer minimalisierten Testplattform mit kausalen Interventionen und mechanistischen Analysemethoden.
Konstruktion eines kontrollierten Evaluierungsrahmens: Entwurf einer Testplattform mit getrennten Umgebungs-Tokens (⟨ENV⟩) und Sprach-Tokens (⟨LAN⟩), die sicherstellt, dass entsprechende Beziehungen durch Lernen erworben werden müssen
Entdeckung der mechanistischen Realisierung von Grundfestigung: Nachweis, dass Symbolgrundfestigung durch Aggregationsmechanismen in mittleren Schichten realisiert wird
Bereitstellung von Universalitätsevidenzen über Architekturen hinweg: Beobachtung der Grundfestigungsentstehung in Transformers und Zustandsraummodellen, aber nicht in unidirektionalen LSTMs
Etablierung von kausalen Verifikationsmethoden: Verifikation der Schlüsselrolle von Aggregationsköpfen in der Symbolgrundfestigung durch Aufmerksamkeitskopf-Interventionsexperimente
Offenlegung von Lernen jenseits von Koexistenzstatistiken: Nachweis, dass die vom Modell erlernte Grundfestigungsbeziehung nicht vollständig durch oberflächliche Koexistenzstatistiken erklärt werden kann
Eingabe: Sequenzen mit Umgebungs-Tokens (⟨ENV⟩) und Sprach-Tokens (⟨LAN⟩)
Ausgabe: Vorhersage des entsprechenden Sprach-Tokens unter gegebenem Umgebungskontext
Beschränkungen: Umgebungs-Tokens und Sprach-Tokens verwenden unterschiedliche Vokabularindizes; das Modell muss die Entsprechung zwischen ihnen erlernen
Training: ⟨CHI⟩ takes book⟨ENV⟩ from mother ⟨CHI⟩ what's that ⟨MOT⟩ a book⟨LAN⟩ in it
Test: ⟨CHI⟩ asked for a new book⟨ENV⟩ ⟨CHI⟩ I love this [Vorhersage: book⟨LAN⟩]
Auswahl von 100 hochfrequenten Nomen aus der MacArthur-Bates Communicative Development Inventory, wobei jedes Wort in der Korpus mindestens 100-mal in ⟨ENV⟩- und ⟨LAN⟩-Formen vorkommt.
Ähnliche Muster von Aggregations-Aufmerksamkeitsköpfen wurden auch in großflächigen VLMs wie LLaVA-1.5-7B gefunden, was die Universalität der Erkenntnisse belegt.
Symbolgrundfestigung kann in Sprachmodellen spontan entstehen, ohne explizite Überwachung
Aggregationsmechanismen mittlerer Schichten sind der Schlüssel zur Realisierung von Grundfestigung, wobei spezifische Aufmerksamkeitsköpfe für Informationsaggregation verantwortlich sind
Architektur-Abhängigkeit: Transformers und SSMs unterstützen die Entstehung von Grundfestigung, aber LSTMs nicht
Jenseits oberflächlicher Statistiken: Die vom Modell erlernte Grundfestigungsbeziehung besitzt tiefe semantische Merkmale
Überprüfung der philosophischen Wurzeln der Symbolgrundfestigung und Bereitstellung mechanistischer Evidenzen vom Übergang von Korrelation zu Kausalität, was die Ansicht herausfordert, dass "konnektionistische Systeme keine inhärente Symbolstruktur haben".
Starke Methodische Innovativität: Das experimentelle Design mit Umgebungs-Sprach-Token-Trennung ist elegant und gewährleistet die Validität der Kausalinferenz
Ausreichende Analysentiefe: Mehrschichtige Analyse von Verhalten bis zu Mechanismen bietet eine vollständige Beweiskette
Architekturübergreifende Validierung: Validierung der Erkenntnisse über mehrere Modellarchitekturen hinweg erhöht die Universalität der Schlussfolgerungen
Harnad, S. (1990). The symbol grounding problem. Physica D, 42(1-3), 335-346.
Bick, A., Xing, E. P., & Gu, A. (2025). Understanding the skill gap in recurrent models: The role of the gather-and-aggregate mechanism.
Wang, L., et al. (2023). Label words are anchors: An information flow perspective for understanding in-context learning.
Belrose, N., et al. (2023). Eliciting latent predictions from transformers with the tuned lens.
Dieses Paper trägt durch strenge experimentelle Gestaltung und tiefgreifende mechanistische Analyse wesentlich zum Verständnis der Entstehungsmechanismen von Symbolgrundfestigung in Sprachmodellen bei. Seine Erkenntnisse besitzen nicht nur theoretischen Wert, sondern bieten auch praktische Orientierung für die Konstruktion zuverlässigerer KI-Systeme.