2025-11-16T07:07:12.103832

The Mechanistic Emergence of Symbol Grounding in Language Models

Wu, Ma, Luo et al.

Symbol grounding (Harnad, 1990) describes how symbols such as words acquire their meanings by connecting to real-world sensorimotor experiences. Recent work has shown preliminary evidence that grounding may emerge in (vision-)language models trained at scale without using explicit grounding objectives. Yet, the specific loci of this emergence and the mechanisms that drive it remain largely unexplored. To address this problem, we introduce a controlled evaluation framework that systematically traces how symbol grounding arises within the internal computations through mechanistic and causal analysis. Our findings show that grounding concentrates in middle-layer computations and is implemented through the aggregate mechanism, where attention heads aggregate the environmental ground to support the prediction of linguistic forms. This phenomenon replicates in multimodal dialogue and across architectures (Transformers and state-space models), but not in unidirectional LSTMs. Our results provide behavioral and mechanistic evidence that symbol grounding can emerge in language models, with practical implications for predicting and potentially controlling the reliability of generation.

academic

L'Émergence Mécanistique de l'Ancrage Symbolique dans les Modèles de Langage

Informations Fondamentales

ID de l'article: 2510.13796
Titre: The Mechanistic Emergence of Symbol Grounding in Language Models
Auteurs: Shuyu Wu, Ziqiao Ma, Xiaoxi Luo, Yidong Huang, Josue Torres-Fonseca, Freda Shi, Joyce Chai
Classification: cs.CL (Linguistique Computationnelle), cs.CV (Vision par Ordinateur)
Date de publication: 15 octobre 2025 (prépublication arXiv)
Lien de l'article: https://arxiv.org/abs/2510.13796

Résumé

L'ancrage symbolique (Symbol grounding) décrit comment les symboles (tels que les mots) acquièrent une signification en établissant des connexions avec les expériences sensorimotrices du monde réel. Des recherches récentes indiquent que dans les modèles de langage (vision-)linguistiques entraînés à grande échelle, la capacité d'ancrage peut émerger spontanément sans recourir à des objectifs d'ancrage explicites. Cependant, la localisation spécifique et les mécanismes moteurs de cette émergence restent largement inexplorés. Pour résoudre ce problème, cet article introduit un cadre d'évaluation contrôlée qui trace systématiquement comment l'ancrage symbolique émerge dans les calculs internes par le biais d'analyses mécanistiques et causales. Les résultats montrent que l'ancrage se concentre dans les calculs des couches intermédiaires et est réalisé par un mécanisme d'agrégation, où les têtes d'attention agrègent les bases environnementales pour soutenir la prédiction des formes linguistiques. Ce phénomène est reproduit dans les dialogues multimodaux et dans différentes architectures (Transformers et modèles d'espace d'état), mais n'apparaît pas dans les LSTM unidirectionnels.

Contexte et Motivation de la Recherche

Problème Central

La question centrale que cette recherche aborde est: Comment l'ancrage symbolique émerge-t-il mécanistiquement dans les modèles de langage? Cela inclut spécifiquement:

Quand et où l'ancrage symbolique émerge-t-il au cours de l'entraînement?
Quel mécanisme pilote cette émergence?
Ce mécanisme possède-t-il une universalité?

Importance du Problème

La question de l'ancrage symbolique est l'une des questions fondamentales des sciences cognitives et de l'intelligence artificielle. Comprendre comment les modèles de langage apprennent à établir des connexions entre les symboles abstraits et le monde réel est crucial pour:

Améliorer la fiabilité et l'interprétabilité des modèles
Réduire les phénomènes d'hallucination
Construire de meilleurs systèmes d'IA multimodaux

Limitations des Approches Existantes

Les recherches existantes présentent principalement les limitations suivantes:

Manque d'analyse mécanistique: La plupart des études se concentrent sur l'analyse de corrélation des performances finales sans explorer en profondeur les mécanismes internes
Négligence de la dynamique d'entraînement: Absence d'études systématiques sur la trajectoire de développement de la capacité d'ancrage au cours de l'entraînement
Définition floue: Assimilation de l'ancrage à la corrélation statistique entre signaux visuels et textuels, s'écartant de la définition classique de Harnad (1990) concernant les chaînes causales

Points Novateurs de la Recherche

Cet article étudie systématiquement le mécanisme d'émergence de l'ancrage symbolique en construisant une plateforme de test minimale et en utilisant des méthodes d'intervention causale et d'analyse mécanistique.

Contributions Principales

Construction d'un cadre d'évaluation contrôlée: Conception d'une plateforme de test avec séparation des tokens environnementaux (⟨ENV⟩) et des tokens linguistiques (⟨LAN⟩), garantissant que les correspondances doivent être apprises
Découverte de la réalisation mécanistique de l'ancrage: Démonstration que l'ancrage symbolique est réalisé par un mécanisme d'agrégation dans les couches intermédiaires
Fourniture de preuves d'universalité inter-architectures: Observation de l'émergence de l'ancrage dans les Transformers et les modèles d'espace d'état, mais pas dans les LSTM unidirectionnels
Établissement de méthodes de vérification causale: Vérification du rôle critique des têtes d'agrégation dans l'ancrage symbolique par des expériences d'intervention sur l'attention
Révélation d'apprentissage au-delà des statistiques de co-occurrence: Démonstration que les relations d'ancrage apprises par le modèle ne peuvent pas être entièrement expliquées par les statistiques de co-occurrence superficielles

Détails Méthodologiques

Définition de la Tâche

Entrée: Séquences contenant des tokens environnementaux (⟨ENV⟩) et des tokens linguistiques (⟨LAN⟩) Sortie: Prédiction du token linguistique correspondant dans un contexte environnemental donné Contraintes: Les tokens environnementaux et linguistiques utilisent des indices de vocabulaire différents; le modèle doit apprendre les correspondances entre eux

Construction des Ensembles de Données

1. Discours Orienté vers l'Enfant (CHILDES)

Source des tokens environnementaux: Descriptions environnementales, couches d'action, annotations situationnelles
Source des tokens linguistiques: Transcriptions de discours oral

Exemple:

Entraînement: ⟨CHI⟩ takes book⟨ENV⟩ from mother ⟨CHI⟩ what's that ⟨MOT⟩ a book⟨LAN⟩ in it
Test: ⟨CHI⟩ asked for a new book⟨ENV⟩ ⟨CHI⟩ I love this [prédiction: book⟨LAN⟩]

2. Dialogue d'Ancrage par Sous-titres (Visual Dialog)

Tokens environnementaux: Sous-titres d'images MSCOCO
Tokens linguistiques: Paires de questions-réponses multi-tours

3. Dialogue d'Ancrage d'Images

Tokens environnementaux: Embeddings de patches d'images extraits via ViT DINOv2 gelé
Tokens linguistiques: Transcriptions de dialogues

Protocole d'Évaluation

Gain d'Information d'Ancrage (Grounding Information Gain)

Défini comme la différence de surprise entre les conditions appariées et non appariées:

$G_\theta(v) = \frac{1}{N}\sum_{n=1}^{N} \frac{1}{M}\sum_{u \neq v} [s_\theta(v^{\langle LAN \rangle} | c_n(u^{\langle ENV \rangle})) - s_\theta(v^{\langle LAN \rangle} | c_n(v^{\langle ENV \rangle}))]$

où $s_\theta(w|c) = -\log P_\theta(w|c)$ est la surprise.

Méthodes d'Analyse Mécanistique

1. Analyse du Flux de Saillance (Saliency Flow Analysis)

Calcul de la matrice de saillance pour chaque couche: $I_\ell = |\sum_h A_{h,\ell} \odot \frac{\partial L}{\partial A_{h,\ell}}|$

2. Sondage par Lentille Accordée (Tuned Lens Probing)

Entraînement d'un projecteur affine pour mapper les activations des couches intermédiaires vers l'espace de prédiction final.

3. Expériences d'Intervention Causale

Identification des têtes d'agrégation: Têtes d'attention avec au moins 30% de saillance s'écoulant du token environnemental vers la position de prédiction
Méthode d'intervention: Mise à zéro de la sortie des têtes d'attention identifiées, observation des changements de performance

Configuration Expérimentale

Architectures de Modèles

Transformers: Modèles de style GPT-2 à 4, 12 et 18 couches
Modèles d'Espace d'État: Modèles Mamba-2 à 4 et 12 couches
Modèles de Contraste: LSTM unidirectionnel à 4 couches
Modèles Multimodaux: Modèles vision-langage basés sur DINOv2

Détails d'Entraînement

Initialisation: Initialisation aléatoire (garantissant l'absence de connaissances préalables)
Fonction Objectif: Modélisation causale du langage standard
Expériences Répétées: 5 graines aléatoires
Points de Contrôle: Échantillonnage dense des étapes d'entraînement précoces

Sélection du Vocabulaire

Sélection de 100 noms à haute fréquence à partir de l'Échelle de Communication MacArthur-Bates, avec une fréquence ≥100 pour les formes ⟨ENV⟩ et ⟨LAN⟩ de chaque mot dans le corpus.

Résultats Expérimentaux

Principales Découvertes

1. Preuves au Niveau du Comportement

Transformers et Mamba-2: La surprise dans les conditions appariées est significativement inférieure aux conditions non appariées
LSTM: Aucune différence significative de surprise entre les deux conditions
Dialogue Visuel: Effet d'ancrage observé dans les paramètres d'ancrage par sous-titres et par images

2. Au-delà des Statistiques de Co-occurrence

Le gain d'information d'ancrage par rapport aux statistiques de co-occurrence montre une valeur R² qui augmente puis diminue en début d'entraînement
Indiquant que les relations d'ancrage apprises par le modèle dépassent la simple co-occurrence statistique

3. Localisation Mécanistique

Concentration dans les couches intermédiaires: L'effet d'ancrage apparaît principalement dans les couches 7-9
Mécanisme d'agrégation: Des têtes d'attention spécifiques réalisent l'agrégation d'informations du token environnemental vers le token linguistique

Résultats de Vérification Causale

Point de Contrôle	Nombre de Têtes d'Agrégation	Couche Moyenne	Surprise d'Intervention	Surprise de Contrôle	Surprise Originale
5000	2.28	7.38	6.51***	6.39	6.38
10000	5.09	7.28	5.86***	5.29	5.30
20000	6.71	7.52	5.62***	4.76	4.77

***indique une différence significative avec p < 0.001

Généralisation Inter-Modale

Des motifs de têtes d'attention d'agrégation similaires ont également été découverts dans les grands VLM tels que LLaVA-1.5-7B, confirmant l'universalité des découvertes.

Travaux Connexes

Recherche sur l'Ancrage Linguistique

Travaux précoces: Concentration sur les mécanismes d'apprentissage de la cartographie mot-symbole
Ancrage visuel: De l'ancrage au niveau des catégories d'objets à l'ancrage au niveau des pixels
VLM modernes: Ancrage au niveau des régions et des pixels sous supervision appariée à grande échelle

Recherche sur les Capacités Émergentes

Effets d'échelle: Débats sur les capacités soudaines dans les grands modèles
Analyse développementale: Études systématiques de l'acquisition de capacités au cours de l'entraînement des modèles
Perspective psychologique: Études comparatives de l'apprentissage du langage machine et humain

Interprétabilité Mécanistique

Analyse des têtes d'attention: Découverte de têtes spécialisées telles que les têtes d'induction et les têtes de récupération
Analyse de circuits: Mécanismes internes pour des tâches telles que le rappel de faits et l'apprentissage en contexte
Mécanismes d'agrégation: Mécanismes de coordination pour la collecte et l'agrégation d'informations

Conclusion et Discussion

Conclusions Principales

L'ancrage symbolique peut émerger spontanément dans les modèles de langage sans supervision explicite
Le mécanisme d'agrégation des couches intermédiaires est la clé de la réalisation de l'ancrage, avec des têtes d'attention spécifiques responsables de l'agrégation d'informations
Dépendance architecturale: Les Transformers et les SSM soutiennent l'émergence de l'ancrage, mais pas les LSTM
Au-delà des statistiques superficielles: Les relations d'ancrage apprises par le modèle possèdent des caractéristiques sémantiques profondes

Contributions Théoriques

Réexamen des racines philosophiques de l'ancrage symbolique, fournissant des preuves mécanistiques passant de la corrélation à la causalité, remettant en question le point de vue selon lequel "les systèmes connexionnistes n'ont pas de structure symbolique intrinsèque".

Valeur Pratique d'Application

Détection d'hallucination: Prédiction de la fiabilité du modèle par surveillance de l'activité des têtes d'agrégation
Contrôle d'attention: Fourniture de stratégies de décodage pour atténuer les hallucinations
Conception de modèles: Orientation pour la construction de systèmes multimodaux plus fiables

Limitations

Limitation d'échelle: La détection et l'intervention systématiques des têtes d'agrégation dans les grands VLM restent difficiles
Complexité Computationnelle: L'augmentation du nombre de tokens visuels augmente considérablement la complexité analytique
Généralité: Nécessité de valider les découvertes dans davantage de tâches et de domaines

Directions Futures

Développement de méthodes de détection automatique des têtes d'agrégation dans les grands VLM
Conception de schémas de vérification d'intervention causale computationnellement réalisables
Exploration du rôle des mécanismes d'ancrage dans d'autres capacités cognitives

Évaluation Approfondie

Points Forts

Forte innovativité méthodologique: La conception expérimentale avec séparation des tokens environnement-langage est ingénieuse, garantissant la validité de l'inférence causale
Profondeur d'analyse suffisante: Analyse multi-niveaux du comportement au mécanisme, fournissant une chaîne de preuves complète
Vérification inter-architectures: Validation des découvertes dans plusieurs architectures de modèles, renforçant l'universalité des conclusions
Vérification causale rigoureuse: Fourniture de preuves causales solides par des expériences d'intervention

Insuffisances

Portée de vocabulaire limitée: Limitation à 100 noms, potentiellement insuffisante pour représenter les phénomènes linguistiques complets
Simplification des tâches: Les tâches expérimentales sont relativement simples, avec un écart par rapport à la compréhension du langage réel
Vérification à grande échelle insuffisante: Vérification limitée sur les véritables modèles à grande échelle

Évaluation de l'Impact

Valeur académique: Fourniture d'une nouvelle perspective mécanistique pour la recherche sur l'ancrage symbolique
Valeur pratique: Fourniture d'un chemin technique concret pour améliorer la fiabilité des modèles
Reproductibilité: Fourniture de détails d'implémentation détaillés et de liens de code

Scénarios d'Application

Analyse d'interprétabilité des systèmes d'IA multimodaux
Détection et atténuation des hallucinations des modèles de langage
Modélisation computationnelle des mécanismes d'ancrage symbolique en sciences cognitives
Recherche sur les mécanismes d'apprentissage de concepts dans l'IA éducative

Références

Harnad, S. (1990). The symbol grounding problem. Physica D, 42(1-3), 335-346.
Bick, A., Xing, E. P., & Gu, A. (2025). Understanding the skill gap in recurrent models: The role of the gather-and-aggregate mechanism.
Wang, L., et al. (2023). Label words are anchors: An information flow perspective for understanding in-context learning.
Belrose, N., et al. (2023). Eliciting latent predictions from transformers with the tuned lens.

Cet article contribue de manière importante à la compréhension du mécanisme d'émergence de l'ancrage symbolique dans les modèles de langage grâce à une conception expérimentale rigoureuse et une analyse mécanistique approfondie. Ses découvertes possèdent non seulement une valeur théorique, mais fournissent également des orientations pratiques pour la construction de systèmes d'IA plus fiables.