2025-11-16T07:07:12.103832

The Mechanistic Emergence of Symbol Grounding in Language Models

Wu, Ma, Luo et al.
Symbol grounding (Harnad, 1990) describes how symbols such as words acquire their meanings by connecting to real-world sensorimotor experiences. Recent work has shown preliminary evidence that grounding may emerge in (vision-)language models trained at scale without using explicit grounding objectives. Yet, the specific loci of this emergence and the mechanisms that drive it remain largely unexplored. To address this problem, we introduce a controlled evaluation framework that systematically traces how symbol grounding arises within the internal computations through mechanistic and causal analysis. Our findings show that grounding concentrates in middle-layer computations and is implemented through the aggregate mechanism, where attention heads aggregate the environmental ground to support the prediction of linguistic forms. This phenomenon replicates in multimodal dialogue and across architectures (Transformers and state-space models), but not in unidirectional LSTMs. Our results provide behavioral and mechanistic evidence that symbol grounding can emerge in language models, with practical implications for predicting and potentially controlling the reliability of generation.
academic

L'Émergence Mécanistique de l'Ancrage Symbolique dans les Modèles de Langage

Informations Fondamentales

  • ID de l'article: 2510.13796
  • Titre: The Mechanistic Emergence of Symbol Grounding in Language Models
  • Auteurs: Shuyu Wu, Ziqiao Ma, Xiaoxi Luo, Yidong Huang, Josue Torres-Fonseca, Freda Shi, Joyce Chai
  • Classification: cs.CL (Linguistique Computationnelle), cs.CV (Vision par Ordinateur)
  • Date de publication: 15 octobre 2025 (prépublication arXiv)
  • Lien de l'article: https://arxiv.org/abs/2510.13796

Résumé

L'ancrage symbolique (Symbol grounding) décrit comment les symboles (tels que les mots) acquièrent une signification en établissant des connexions avec les expériences sensorimotrices du monde réel. Des recherches récentes indiquent que dans les modèles de langage (vision-)linguistiques entraînés à grande échelle, la capacité d'ancrage peut émerger spontanément sans recourir à des objectifs d'ancrage explicites. Cependant, la localisation spécifique et les mécanismes moteurs de cette émergence restent largement inexplorés. Pour résoudre ce problème, cet article introduit un cadre d'évaluation contrôlée qui trace systématiquement comment l'ancrage symbolique émerge dans les calculs internes par le biais d'analyses mécanistiques et causales. Les résultats montrent que l'ancrage se concentre dans les calculs des couches intermédiaires et est réalisé par un mécanisme d'agrégation, où les têtes d'attention agrègent les bases environnementales pour soutenir la prédiction des formes linguistiques. Ce phénomène est reproduit dans les dialogues multimodaux et dans différentes architectures (Transformers et modèles d'espace d'état), mais n'apparaît pas dans les LSTM unidirectionnels.

Contexte et Motivation de la Recherche

Problème Central

La question centrale que cette recherche aborde est: Comment l'ancrage symbolique émerge-t-il mécanistiquement dans les modèles de langage? Cela inclut spécifiquement:

  1. Quand et où l'ancrage symbolique émerge-t-il au cours de l'entraînement?
  2. Quel mécanisme pilote cette émergence?
  3. Ce mécanisme possède-t-il une universalité?

Importance du Problème

La question de l'ancrage symbolique est l'une des questions fondamentales des sciences cognitives et de l'intelligence artificielle. Comprendre comment les modèles de langage apprennent à établir des connexions entre les symboles abstraits et le monde réel est crucial pour:

  • Améliorer la fiabilité et l'interprétabilité des modèles
  • Réduire les phénomènes d'hallucination
  • Construire de meilleurs systèmes d'IA multimodaux

Limitations des Approches Existantes

Les recherches existantes présentent principalement les limitations suivantes:

  1. Manque d'analyse mécanistique: La plupart des études se concentrent sur l'analyse de corrélation des performances finales sans explorer en profondeur les mécanismes internes
  2. Négligence de la dynamique d'entraînement: Absence d'études systématiques sur la trajectoire de développement de la capacité d'ancrage au cours de l'entraînement
  3. Définition floue: Assimilation de l'ancrage à la corrélation statistique entre signaux visuels et textuels, s'écartant de la définition classique de Harnad (1990) concernant les chaînes causales

Points Novateurs de la Recherche

Cet article étudie systématiquement le mécanisme d'émergence de l'ancrage symbolique en construisant une plateforme de test minimale et en utilisant des méthodes d'intervention causale et d'analyse mécanistique.

Contributions Principales

  1. Construction d'un cadre d'évaluation contrôlée: Conception d'une plateforme de test avec séparation des tokens environnementaux (⟨ENV⟩) et des tokens linguistiques (⟨LAN⟩), garantissant que les correspondances doivent être apprises
  2. Découverte de la réalisation mécanistique de l'ancrage: Démonstration que l'ancrage symbolique est réalisé par un mécanisme d'agrégation dans les couches intermédiaires
  3. Fourniture de preuves d'universalité inter-architectures: Observation de l'émergence de l'ancrage dans les Transformers et les modèles d'espace d'état, mais pas dans les LSTM unidirectionnels
  4. Établissement de méthodes de vérification causale: Vérification du rôle critique des têtes d'agrégation dans l'ancrage symbolique par des expériences d'intervention sur l'attention
  5. Révélation d'apprentissage au-delà des statistiques de co-occurrence: Démonstration que les relations d'ancrage apprises par le modèle ne peuvent pas être entièrement expliquées par les statistiques de co-occurrence superficielles

Détails Méthodologiques

Définition de la Tâche

Entrée: Séquences contenant des tokens environnementaux (⟨ENV⟩) et des tokens linguistiques (⟨LAN⟩) Sortie: Prédiction du token linguistique correspondant dans un contexte environnemental donné Contraintes: Les tokens environnementaux et linguistiques utilisent des indices de vocabulaire différents; le modèle doit apprendre les correspondances entre eux

Construction des Ensembles de Données

1. Discours Orienté vers l'Enfant (CHILDES)

  • Source des tokens environnementaux: Descriptions environnementales, couches d'action, annotations situationnelles
  • Source des tokens linguistiques: Transcriptions de discours oral
  • Exemple:
    Entraînement: ⟨CHI⟩ takes book⟨ENV⟩ from mother ⟨CHI⟩ what's that ⟨MOT⟩ a book⟨LAN⟩ in it
    Test: ⟨CHI⟩ asked for a new book⟨ENV⟩ ⟨CHI⟩ I love this [prédiction: book⟨LAN⟩]
    

2. Dialogue d'Ancrage par Sous-titres (Visual Dialog)

  • Tokens environnementaux: Sous-titres d'images MSCOCO
  • Tokens linguistiques: Paires de questions-réponses multi-tours

3. Dialogue d'Ancrage d'Images

  • Tokens environnementaux: Embeddings de patches d'images extraits via ViT DINOv2 gelé
  • Tokens linguistiques: Transcriptions de dialogues

Protocole d'Évaluation

Gain d'Information d'Ancrage (Grounding Information Gain)

Défini comme la différence de surprise entre les conditions appariées et non appariées:

Gθ(v)=1Nn=1N1Muv[sθ(vLANcn(uENV))sθ(vLANcn(vENV))]G_\theta(v) = \frac{1}{N}\sum_{n=1}^{N} \frac{1}{M}\sum_{u \neq v} [s_\theta(v^{\langle LAN \rangle} | c_n(u^{\langle ENV \rangle})) - s_\theta(v^{\langle LAN \rangle} | c_n(v^{\langle ENV \rangle}))]

sθ(wc)=logPθ(wc)s_\theta(w|c) = -\log P_\theta(w|c) est la surprise.

Méthodes d'Analyse Mécanistique

1. Analyse du Flux de Saillance (Saliency Flow Analysis)

Calcul de la matrice de saillance pour chaque couche: I=hAh,LAh,I_\ell = |\sum_h A_{h,\ell} \odot \frac{\partial L}{\partial A_{h,\ell}}|

2. Sondage par Lentille Accordée (Tuned Lens Probing)

Entraînement d'un projecteur affine pour mapper les activations des couches intermédiaires vers l'espace de prédiction final.

3. Expériences d'Intervention Causale

  • Identification des têtes d'agrégation: Têtes d'attention avec au moins 30% de saillance s'écoulant du token environnemental vers la position de prédiction
  • Méthode d'intervention: Mise à zéro de la sortie des têtes d'attention identifiées, observation des changements de performance

Configuration Expérimentale

Architectures de Modèles

  • Transformers: Modèles de style GPT-2 à 4, 12 et 18 couches
  • Modèles d'Espace d'État: Modèles Mamba-2 à 4 et 12 couches
  • Modèles de Contraste: LSTM unidirectionnel à 4 couches
  • Modèles Multimodaux: Modèles vision-langage basés sur DINOv2

Détails d'Entraînement

  • Initialisation: Initialisation aléatoire (garantissant l'absence de connaissances préalables)
  • Fonction Objectif: Modélisation causale du langage standard
  • Expériences Répétées: 5 graines aléatoires
  • Points de Contrôle: Échantillonnage dense des étapes d'entraînement précoces

Sélection du Vocabulaire

Sélection de 100 noms à haute fréquence à partir de l'Échelle de Communication MacArthur-Bates, avec une fréquence ≥100 pour les formes ⟨ENV⟩ et ⟨LAN⟩ de chaque mot dans le corpus.

Résultats Expérimentaux

Principales Découvertes

1. Preuves au Niveau du Comportement

  • Transformers et Mamba-2: La surprise dans les conditions appariées est significativement inférieure aux conditions non appariées
  • LSTM: Aucune différence significative de surprise entre les deux conditions
  • Dialogue Visuel: Effet d'ancrage observé dans les paramètres d'ancrage par sous-titres et par images

2. Au-delà des Statistiques de Co-occurrence

  • Le gain d'information d'ancrage par rapport aux statistiques de co-occurrence montre une valeur R² qui augmente puis diminue en début d'entraînement
  • Indiquant que les relations d'ancrage apprises par le modèle dépassent la simple co-occurrence statistique

3. Localisation Mécanistique

  • Concentration dans les couches intermédiaires: L'effet d'ancrage apparaît principalement dans les couches 7-9
  • Mécanisme d'agrégation: Des têtes d'attention spécifiques réalisent l'agrégation d'informations du token environnemental vers le token linguistique

Résultats de Vérification Causale

Point de ContrôleNombre de Têtes d'AgrégationCouche MoyenneSurprise d'InterventionSurprise de ContrôleSurprise Originale
50002.287.386.51***6.396.38
100005.097.285.86***5.295.30
200006.717.525.62***4.764.77

***indique une différence significative avec p < 0.001

Généralisation Inter-Modale

Des motifs de têtes d'attention d'agrégation similaires ont également été découverts dans les grands VLM tels que LLaVA-1.5-7B, confirmant l'universalité des découvertes.

Travaux Connexes

Recherche sur l'Ancrage Linguistique

  • Travaux précoces: Concentration sur les mécanismes d'apprentissage de la cartographie mot-symbole
  • Ancrage visuel: De l'ancrage au niveau des catégories d'objets à l'ancrage au niveau des pixels
  • VLM modernes: Ancrage au niveau des régions et des pixels sous supervision appariée à grande échelle

Recherche sur les Capacités Émergentes

  • Effets d'échelle: Débats sur les capacités soudaines dans les grands modèles
  • Analyse développementale: Études systématiques de l'acquisition de capacités au cours de l'entraînement des modèles
  • Perspective psychologique: Études comparatives de l'apprentissage du langage machine et humain

Interprétabilité Mécanistique

  • Analyse des têtes d'attention: Découverte de têtes spécialisées telles que les têtes d'induction et les têtes de récupération
  • Analyse de circuits: Mécanismes internes pour des tâches telles que le rappel de faits et l'apprentissage en contexte
  • Mécanismes d'agrégation: Mécanismes de coordination pour la collecte et l'agrégation d'informations

Conclusion et Discussion

Conclusions Principales

  1. L'ancrage symbolique peut émerger spontanément dans les modèles de langage sans supervision explicite
  2. Le mécanisme d'agrégation des couches intermédiaires est la clé de la réalisation de l'ancrage, avec des têtes d'attention spécifiques responsables de l'agrégation d'informations
  3. Dépendance architecturale: Les Transformers et les SSM soutiennent l'émergence de l'ancrage, mais pas les LSTM
  4. Au-delà des statistiques superficielles: Les relations d'ancrage apprises par le modèle possèdent des caractéristiques sémantiques profondes

Contributions Théoriques

Réexamen des racines philosophiques de l'ancrage symbolique, fournissant des preuves mécanistiques passant de la corrélation à la causalité, remettant en question le point de vue selon lequel "les systèmes connexionnistes n'ont pas de structure symbolique intrinsèque".

Valeur Pratique d'Application

  • Détection d'hallucination: Prédiction de la fiabilité du modèle par surveillance de l'activité des têtes d'agrégation
  • Contrôle d'attention: Fourniture de stratégies de décodage pour atténuer les hallucinations
  • Conception de modèles: Orientation pour la construction de systèmes multimodaux plus fiables

Limitations

  1. Limitation d'échelle: La détection et l'intervention systématiques des têtes d'agrégation dans les grands VLM restent difficiles
  2. Complexité Computationnelle: L'augmentation du nombre de tokens visuels augmente considérablement la complexité analytique
  3. Généralité: Nécessité de valider les découvertes dans davantage de tâches et de domaines

Directions Futures

  1. Développement de méthodes de détection automatique des têtes d'agrégation dans les grands VLM
  2. Conception de schémas de vérification d'intervention causale computationnellement réalisables
  3. Exploration du rôle des mécanismes d'ancrage dans d'autres capacités cognitives

Évaluation Approfondie

Points Forts

  1. Forte innovativité méthodologique: La conception expérimentale avec séparation des tokens environnement-langage est ingénieuse, garantissant la validité de l'inférence causale
  2. Profondeur d'analyse suffisante: Analyse multi-niveaux du comportement au mécanisme, fournissant une chaîne de preuves complète
  3. Vérification inter-architectures: Validation des découvertes dans plusieurs architectures de modèles, renforçant l'universalité des conclusions
  4. Vérification causale rigoureuse: Fourniture de preuves causales solides par des expériences d'intervention

Insuffisances

  1. Portée de vocabulaire limitée: Limitation à 100 noms, potentiellement insuffisante pour représenter les phénomènes linguistiques complets
  2. Simplification des tâches: Les tâches expérimentales sont relativement simples, avec un écart par rapport à la compréhension du langage réel
  3. Vérification à grande échelle insuffisante: Vérification limitée sur les véritables modèles à grande échelle

Évaluation de l'Impact

  • Valeur académique: Fourniture d'une nouvelle perspective mécanistique pour la recherche sur l'ancrage symbolique
  • Valeur pratique: Fourniture d'un chemin technique concret pour améliorer la fiabilité des modèles
  • Reproductibilité: Fourniture de détails d'implémentation détaillés et de liens de code

Scénarios d'Application

  • Analyse d'interprétabilité des systèmes d'IA multimodaux
  • Détection et atténuation des hallucinations des modèles de langage
  • Modélisation computationnelle des mécanismes d'ancrage symbolique en sciences cognitives
  • Recherche sur les mécanismes d'apprentissage de concepts dans l'IA éducative

Références

  • Harnad, S. (1990). The symbol grounding problem. Physica D, 42(1-3), 335-346.
  • Bick, A., Xing, E. P., & Gu, A. (2025). Understanding the skill gap in recurrent models: The role of the gather-and-aggregate mechanism.
  • Wang, L., et al. (2023). Label words are anchors: An information flow perspective for understanding in-context learning.
  • Belrose, N., et al. (2023). Eliciting latent predictions from transformers with the tuned lens.

Cet article contribue de manière importante à la compréhension du mécanisme d'émergence de l'ancrage symbolique dans les modèles de langage grâce à une conception expérimentale rigoureuse et une analyse mécanistique approfondie. Ses découvertes possèdent non seulement une valeur théorique, mais fournissent également des orientations pratiques pour la construction de systèmes d'IA plus fiables.