The Mechanistic Emergence of Symbol Grounding in Language Models
Wu, Ma, Luo et al.
Symbol grounding (Harnad, 1990) describes how symbols such as words acquire their meanings by connecting to real-world sensorimotor experiences. Recent work has shown preliminary evidence that grounding may emerge in (vision-)language models trained at scale without using explicit grounding objectives. Yet, the specific loci of this emergence and the mechanisms that drive it remain largely unexplored. To address this problem, we introduce a controlled evaluation framework that systematically traces how symbol grounding arises within the internal computations through mechanistic and causal analysis. Our findings show that grounding concentrates in middle-layer computations and is implemented through the aggregate mechanism, where attention heads aggregate the environmental ground to support the prediction of linguistic forms. This phenomenon replicates in multimodal dialogue and across architectures (Transformers and state-space models), but not in unidirectional LSTMs. Our results provide behavioral and mechanistic evidence that symbol grounding can emerge in language models, with practical implications for predicting and potentially controlling the reliability of generation.
academic
L'Émergence Mécanistique de l'Ancrage Symbolique dans les Modèles de Langage
L'ancrage symbolique (Symbol grounding) décrit comment les symboles (tels que les mots) acquièrent une signification en établissant des connexions avec les expériences sensorimotrices du monde réel. Des recherches récentes indiquent que dans les modèles de langage (vision-)linguistiques entraînés à grande échelle, la capacité d'ancrage peut émerger spontanément sans recourir à des objectifs d'ancrage explicites. Cependant, la localisation spécifique et les mécanismes moteurs de cette émergence restent largement inexplorés. Pour résoudre ce problème, cet article introduit un cadre d'évaluation contrôlée qui trace systématiquement comment l'ancrage symbolique émerge dans les calculs internes par le biais d'analyses mécanistiques et causales. Les résultats montrent que l'ancrage se concentre dans les calculs des couches intermédiaires et est réalisé par un mécanisme d'agrégation, où les têtes d'attention agrègent les bases environnementales pour soutenir la prédiction des formes linguistiques. Ce phénomène est reproduit dans les dialogues multimodaux et dans différentes architectures (Transformers et modèles d'espace d'état), mais n'apparaît pas dans les LSTM unidirectionnels.
La question centrale que cette recherche aborde est: Comment l'ancrage symbolique émerge-t-il mécanistiquement dans les modèles de langage? Cela inclut spécifiquement:
Quand et où l'ancrage symbolique émerge-t-il au cours de l'entraînement?
La question de l'ancrage symbolique est l'une des questions fondamentales des sciences cognitives et de l'intelligence artificielle. Comprendre comment les modèles de langage apprennent à établir des connexions entre les symboles abstraits et le monde réel est crucial pour:
Améliorer la fiabilité et l'interprétabilité des modèles
Les recherches existantes présentent principalement les limitations suivantes:
Manque d'analyse mécanistique: La plupart des études se concentrent sur l'analyse de corrélation des performances finales sans explorer en profondeur les mécanismes internes
Négligence de la dynamique d'entraînement: Absence d'études systématiques sur la trajectoire de développement de la capacité d'ancrage au cours de l'entraînement
Définition floue: Assimilation de l'ancrage à la corrélation statistique entre signaux visuels et textuels, s'écartant de la définition classique de Harnad (1990) concernant les chaînes causales
Cet article étudie systématiquement le mécanisme d'émergence de l'ancrage symbolique en construisant une plateforme de test minimale et en utilisant des méthodes d'intervention causale et d'analyse mécanistique.
Construction d'un cadre d'évaluation contrôlée: Conception d'une plateforme de test avec séparation des tokens environnementaux (⟨ENV⟩) et des tokens linguistiques (⟨LAN⟩), garantissant que les correspondances doivent être apprises
Découverte de la réalisation mécanistique de l'ancrage: Démonstration que l'ancrage symbolique est réalisé par un mécanisme d'agrégation dans les couches intermédiaires
Fourniture de preuves d'universalité inter-architectures: Observation de l'émergence de l'ancrage dans les Transformers et les modèles d'espace d'état, mais pas dans les LSTM unidirectionnels
Établissement de méthodes de vérification causale: Vérification du rôle critique des têtes d'agrégation dans l'ancrage symbolique par des expériences d'intervention sur l'attention
Révélation d'apprentissage au-delà des statistiques de co-occurrence: Démonstration que les relations d'ancrage apprises par le modèle ne peuvent pas être entièrement expliquées par les statistiques de co-occurrence superficielles
Entrée: Séquences contenant des tokens environnementaux (⟨ENV⟩) et des tokens linguistiques (⟨LAN⟩)
Sortie: Prédiction du token linguistique correspondant dans un contexte environnemental donné
Contraintes: Les tokens environnementaux et linguistiques utilisent des indices de vocabulaire différents; le modèle doit apprendre les correspondances entre eux
Source des tokens environnementaux: Descriptions environnementales, couches d'action, annotations situationnelles
Source des tokens linguistiques: Transcriptions de discours oral
Exemple:
Entraînement: ⟨CHI⟩ takes book⟨ENV⟩ from mother ⟨CHI⟩ what's that ⟨MOT⟩ a book⟨LAN⟩ in it
Test: ⟨CHI⟩ asked for a new book⟨ENV⟩ ⟨CHI⟩ I love this [prédiction: book⟨LAN⟩]
Identification des têtes d'agrégation: Têtes d'attention avec au moins 30% de saillance s'écoulant du token environnemental vers la position de prédiction
Méthode d'intervention: Mise à zéro de la sortie des têtes d'attention identifiées, observation des changements de performance
Sélection de 100 noms à haute fréquence à partir de l'Échelle de Communication MacArthur-Bates, avec une fréquence ≥100 pour les formes ⟨ENV⟩ et ⟨LAN⟩ de chaque mot dans le corpus.
Des motifs de têtes d'attention d'agrégation similaires ont également été découverts dans les grands VLM tels que LLaVA-1.5-7B, confirmant l'universalité des découvertes.
L'ancrage symbolique peut émerger spontanément dans les modèles de langage sans supervision explicite
Le mécanisme d'agrégation des couches intermédiaires est la clé de la réalisation de l'ancrage, avec des têtes d'attention spécifiques responsables de l'agrégation d'informations
Dépendance architecturale: Les Transformers et les SSM soutiennent l'émergence de l'ancrage, mais pas les LSTM
Au-delà des statistiques superficielles: Les relations d'ancrage apprises par le modèle possèdent des caractéristiques sémantiques profondes
Réexamen des racines philosophiques de l'ancrage symbolique, fournissant des preuves mécanistiques passant de la corrélation à la causalité, remettant en question le point de vue selon lequel "les systèmes connexionnistes n'ont pas de structure symbolique intrinsèque".
Forte innovativité méthodologique: La conception expérimentale avec séparation des tokens environnement-langage est ingénieuse, garantissant la validité de l'inférence causale
Profondeur d'analyse suffisante: Analyse multi-niveaux du comportement au mécanisme, fournissant une chaîne de preuves complète
Vérification inter-architectures: Validation des découvertes dans plusieurs architectures de modèles, renforçant l'universalité des conclusions
Vérification causale rigoureuse: Fourniture de preuves causales solides par des expériences d'intervention
Harnad, S. (1990). The symbol grounding problem. Physica D, 42(1-3), 335-346.
Bick, A., Xing, E. P., & Gu, A. (2025). Understanding the skill gap in recurrent models: The role of the gather-and-aggregate mechanism.
Wang, L., et al. (2023). Label words are anchors: An information flow perspective for understanding in-context learning.
Belrose, N., et al. (2023). Eliciting latent predictions from transformers with the tuned lens.
Cet article contribue de manière importante à la compréhension du mécanisme d'émergence de l'ancrage symbolique dans les modèles de langage grâce à une conception expérimentale rigoureuse et une analyse mécanistique approfondie. Ses découvertes possèdent non seulement une valeur théorique, mais fournissent également des orientations pratiques pour la construction de systèmes d'IA plus fiables.