Symbol grounding (Harnad, 1990) describes how symbols such as words acquire their meanings by connecting to real-world sensorimotor experiences. Recent work has shown preliminary evidence that grounding may emerge in (vision-)language models trained at scale without using explicit grounding objectives. Yet, the specific loci of this emergence and the mechanisms that drive it remain largely unexplored. To address this problem, we introduce a controlled evaluation framework that systematically traces how symbol grounding arises within the internal computations through mechanistic and causal analysis. Our findings show that grounding concentrates in middle-layer computations and is implemented through the aggregate mechanism, where attention heads aggregate the environmental ground to support the prediction of linguistic forms. This phenomenon replicates in multimodal dialogue and across architectures (Transformers and state-space models), but not in unidirectional LSTMs. Our results provide behavioral and mechanistic evidence that symbol grounding can emerge in language models, with practical implications for predicting and potentially controlling the reliability of generation.
論文ID : 2510.13796タイトル : The Mechanistic Emergence of Symbol Grounding in Language Models著者 : Shuyu Wu, Ziqiao Ma, Xiaoxi Luo, Yidong Huang, Josue Torres-Fonseca, Freda Shi, Joyce Chai分類 : cs.CL(計算言語学)、cs.CV(コンピュータビジョン)発表日 : 2025年10月15日(arXivプレプリント)論文リンク : https://arxiv.org/abs/2510.13796 シンボルグラウンディング(Symbol grounding)は、語彙などのシンボルが現実世界の感覚運動経験と結びつくことによって意味を獲得するプロセスを記述しています。最近の研究により、大規模に訓練された(視覚)言語モデルでは、明示的なグラウンディング目標を使用することなく、グラウンディング能力が自発的に出現する可能性があることが示されています。しかし、この出現の具体的な位置と駆動メカニズムは、基本的にまだ未探索のままです。この問題に対処するため、本論文は制御された評価フレームワークを導入し、機制的および因果分析を通じてシンボルグラウンディングが内部計算においていかに出現するかを体系的に追跡しています。研究結果から、グラウンディングは中間層の計算に集中しており、集約メカニズムを通じて実現されることが判明しました。このメカニズムでは、注意ヘッドが環境基盤を集約して言語形式の予測をサポートしています。この現象は、マルチモーダル対話および異なるアーキテクチャ(Transformersおよび状態空間モデル)で再現されていますが、単方向LSTMでは出現していません。
本研究が解決しようとしている核心的な問題は、言語モデルにおけるシンボルグラウンディングはいかに機制的に出現するのか です。具体的には以下を含みます:
シンボルグラウンディングは訓練過程においていつ、どこで出現するのか? この出現を駆動するメカニズムは何か? このメカニズムは普遍的な性質を持つのか? シンボルグラウンディング問題は、認知科学と人工知能の基礎的な問題の一つです。言語モデルが抽象的なシンボルと現実世界の結びつきを学習する方法を理解することは、以下の点で重要です:
モデルの信頼性と解釈可能性の向上 幻覚現象の削減 より優れたマルチモーダルAIシステムの構築 既存研究には主に以下の限界があります:
機制的分析の欠如 :ほとんどの研究は最終的なパフォーマンスの相関分析に焦点を当てており、内部メカニズムの深い探索が不足しています訓練ダイナミクスの無視 :訓練過程におけるグラウンディング能力の発展軌跡に関する体系的な研究が不足しています定義の曖昧性 :グラウンディングを視覚-テキスト信号の統計的相関と同一視しており、Harnad(1990)による因果的結合に関する古典的定義から逸脱しています本論文は最小化されたテストプラットフォームを構築し、因果介入と機制的分析手法を使用して、シンボルグラウンディングの出現メカニズムを体系的に研究しています。
制御された評価フレームワークの構築 :環境トークン(⟨ENV⟩)と言語トークン(⟨LAN⟩)を分離したテストプラットフォームを設計し、対応関係が学習を通じてのみ獲得されることを保証していますグラウンディングの機制的実装の発見 :シンボルグラウンディングが中間層の集約メカニズム(aggregate mechanism)を通じて実現されることを証明していますアーキテクチャ横断的な普遍性の証拠提供 :Transformersおよび状態空間モデルでグラウンディング出現が観察されていますが、単方向LSTMでは観察されていません因果検証手法の確立 :注意ヘッド介入実験を通じて、集約ヘッドがシンボルグラウンディングにおける重要な役割を検証しています共起統計を超えた学習の解明 :モデルが学習したグラウンディング関係が表面的な共起統計では完全には説明できないことを証明しています入力 :環境トークン(⟨ENV⟩)と言語トークン(⟨LAN⟩)を含むシーケンス
出力 :与えられた環境コンテキストの下で対応する言語トークンを予測
制約 :環境トークンと言語トークンは異なる語彙表インデックスを使用し、モデルはそれらの間の対応関係を学習する必要があります
環境トークンの出典 :環境記述、アクション層、状況層注釈言語トークンの出典 :口頭発話の転写例 :
訓練:⟨CHI⟩ takes book⟨ENV⟩ from mother ⟨CHI⟩ what's that ⟨MOT⟩ a book⟨LAN⟩ in it
テスト:⟨CHI⟩ asked for a new book⟨ENV⟩ ⟨CHI⟩ I love this [予測: book⟨LAN⟩]
環境トークン :MSCOCOイメージキャプション言語トークン :複数ターンの質問応答対話環境トークン :凍結されたDINOv2 ViTで抽出された画像パッチ埋め込み言語トークン :対話転写マッチング条件と非マッチング条件下での驚き度の差として定義されます:
G θ ( v ) = 1 N ∑ n = 1 N 1 M ∑ u ≠ v [ s θ ( v ⟨ L A N ⟩ ∣ c n ( u ⟨ E N V ⟩ ) ) − s θ ( v ⟨ L A N ⟩ ∣ c n ( v ⟨ E N V ⟩ ) ) ] G_\theta(v) = \frac{1}{N}\sum_{n=1}^{N} \frac{1}{M}\sum_{u \neq v} [s_\theta(v^{\langle LAN \rangle} | c_n(u^{\langle ENV \rangle})) - s_\theta(v^{\langle LAN \rangle} | c_n(v^{\langle ENV \rangle}))] G θ ( v ) = N 1 ∑ n = 1 N M 1 ∑ u = v [ s θ ( v ⟨ L A N ⟩ ∣ c n ( u ⟨ EN V ⟩ )) − s θ ( v ⟨ L A N ⟩ ∣ c n ( v ⟨ EN V ⟩ ))]
ここでs θ ( w ∣ c ) = − log P θ ( w ∣ c ) s_\theta(w|c) = -\log P_\theta(w|c) s θ ( w ∣ c ) = − log P θ ( w ∣ c ) は驚き度です。
各層の顕著性行列を計算します:I ℓ = ∣ ∑ h A h , ℓ ⊙ ∂ L ∂ A h , ℓ ∣ I_\ell = |\sum_h A_{h,\ell} \odot \frac{\partial L}{\partial A_{h,\ell}}| I ℓ = ∣ ∑ h A h , ℓ ⊙ ∂ A h , ℓ ∂ L ∣
中間層の活性化を最終予測空間にマッピングするアフィン投影器を訓練します。
集約ヘッドの識別 :環境トークンから予測位置への顕著性フローが30%以上である注意ヘッド介入方法 :識別された注意ヘッドの出力をゼロに設定し、パフォーマンスの変化を観察Transformers :4層、12層、18層のGPT-2スタイルモデル状態空間モデル :4層、12層のMamba-2モデル対比モデル :4層の単方向LSTMマルチモーダルモデル :DINOv2ベースの視覚-言語モデル初期化 :ランダム初期化(事前知識がないことを保証)目的関数 :標準的な因果言語モデリング実験の繰り返し :5つのランダムシードチェックポイント :早期訓練ステップの密集サンプリングMacArthur-Bates Communication Development Inventoryから100個の高頻度名詞を選択し、各単語のコーパス内での⟨ENV⟩および⟨LAN⟩形式の出現頻度が≥100です。
TransformersおよびMamba-2 :マッチング条件下の驚き度は非マッチング条件下よりも有意に低いLSTM :両条件下の驚き度に有意な差がない視覚対話 :キャプションおよび画像グラウンディング設定の両方でグラウンディング効果が観察されましたグラウンディング情報ゲインと共起統計のR²値は訓練初期に上昇した後に低下 モデルが学習したグラウンディング関係が単純な統計的共起を超えていることを示唆しています 中間層への集中 :グラウンディング効果は主に第7-9層に出現集約メカニズム :特定の注意ヘッドが環境トークンから言語トークンへの情報集約を実装チェックポイント 集約ヘッド数 平均層 介入驚き度 制御驚き度 元の驚き度 5000 2.28 7.38 6.51*** 6.39 6.38 10000 5.09 7.28 5.86*** 5.29 5.30 20000 6.71 7.52 5.62*** 4.76 4.77
***はp < 0.001の有意差を示します
LLaVA-1.5-7Bなどの大規模VLMでも同様の集約注意ヘッドパターンが発見され、発見の普遍性が証明されています。
初期の研究 :語彙-シンボルマッピング学習メカニズムに焦点視覚グラウンディング :オブジェクトカテゴリからピクセルレベルまでの細粒度グラウンディング現代的VLM :大規模ペアリング監督下での領域レベルおよびピクセルレベルグラウンディングスケール効果 :大規模モデルにおける突現能力に関する議論発展分析 :モデル訓練過程における能力獲得の体系的研究心理学的視点 :機械と人間の言語学習の比較研究注意ヘッド分析 :帰納ヘッド、検索ヘッドなどの特殊化ヘッドの発見回路分析 :事実想起、文脈内学習などのタスクの内部メカニズム集約メカニズム :情報収集と集約の協調メカニズムシンボルグラウンディングは言語モデルで自発的に出現する可能性があります 。明示的な監督は不要です中間層集約メカニズム がグラウンディング実現の鍵であり、特定の注意ヘッドが情報集約を担当していますアーキテクチャ依存性 :TransformersおよびSSMはグラウンディング出現をサポートしていますが、LSTMはサポートしていません表面統計を超えた現象 :モデルが学習したグラウンディング関係は深層的な意味特性を持ちますシンボルグラウンディングの哲学的根源を再検討し、相関性から因果性への機制的証拠を提供し、「結合主義システムは内在的なシンボル構造を持たない」という見方に異議を唱えています。
幻覚検出 :集約ヘッド活動の監視を通じたモデル信頼性の予測注意制御 :幻覚軽減のためのデコード時戦略モデル設計 :より信頼性の高いマルチモーダルシステム構築のための指針スケール制限 :大規模VLMにおける集約ヘッドの体系的検出と介入は依然として課題です計算複雑性 :視覚トークン数の大幅な増加が分析複雑性を増加させます汎化性 :より多くのタスクと領域で発見の普遍性を検証する必要があります大規模VLMにおける集約ヘッドの自動検出方法の開発 計算可能な因果介入検証スキームの設計 グラウンディングメカニズムが他の認知能力に果たす役割の探索 方法の革新性が強い :環境-言語トークン分離の実験設計は巧妙で、因果推論の有効性を保証しています分析の深さが十分 :行動からメカニズムまでの多層的分析が完全な証拠チェーンを提供していますアーキテクチャ横断的検証 :複数のモデルアーキテクチャでの発見検証が結論の普遍性を強化しています因果検証が厳密 :介入実験を通じた強力な因果証拠を提供しています語彙範囲が限定的 :100個の名詞のみに限定されており、完全な言語現象を代表するには不十分な可能性がありますタスクの単純化 :実験タスクは比較的単純で、実際の言語理解との間に差があります大規模検証の不足 :真に大規模なモデルでの検証が限定的です学術的価値 :シンボルグラウンディング研究に新しい機制的視点を提供しています実用的価値 :モデル信頼性向上のための具体的な技術パスを提供しています再現可能性 :詳細な実装詳細とコードリンクを提供していますマルチモーダルAIシステムの解釈可能性分析 言語モデル幻覚検出と緩和 認知科学におけるシンボルグラウンディングメカニズムの計算モデリング 教育AIにおける概念学習メカニズム研究 Harnad, S. (1990). The symbol grounding problem. Physica D, 42(1-3), 335-346. Bick, A., Xing, E. P., & Gu, A. (2025). Understanding the skill gap in recurrent models: The role of the gather-and-aggregate mechanism. Wang, L., et al. (2023). Label words are anchors: An information flow perspective for understanding in-context learning. Belrose, N., et al. (2023). Eliciting latent predictions from transformers with the tuned lens. 本論文は、厳密な実験設計と深い機制的分析を通じて、言語モデルにおけるシンボルグラウンディングの出現メカニズムの理解に重要な貢献をしています。その発見は理論的価値を持つだけでなく、より信頼性の高いAIシステム構築のための実用的な指針も提供しています。