2025-11-16T07:07:12.103832

The Mechanistic Emergence of Symbol Grounding in Language Models

Wu, Ma, Luo et al.

Symbol grounding (Harnad, 1990) describes how symbols such as words acquire their meanings by connecting to real-world sensorimotor experiences. Recent work has shown preliminary evidence that grounding may emerge in (vision-)language models trained at scale without using explicit grounding objectives. Yet, the specific loci of this emergence and the mechanisms that drive it remain largely unexplored. To address this problem, we introduce a controlled evaluation framework that systematically traces how symbol grounding arises within the internal computations through mechanistic and causal analysis. Our findings show that grounding concentrates in middle-layer computations and is implemented through the aggregate mechanism, where attention heads aggregate the environmental ground to support the prediction of linguistic forms. This phenomenon replicates in multimodal dialogue and across architectures (Transformers and state-space models), but not in unidirectional LSTMs. Our results provide behavioral and mechanistic evidence that symbol grounding can emerge in language models, with practical implications for predicting and potentially controlling the reliability of generation.

academic

The Mechanistic Emergence of Symbol Grounding in Language Models

基本信息

论文ID: 2510.13796
标题: The Mechanistic Emergence of Symbol Grounding in Language Models
作者: Shuyu Wu, Ziqiao Ma, Xiaoxi Luo, Yidong Huang, Josue Torres-Fonseca, Freda Shi, Joyce Chai
分类: cs.CL (Computational Linguistics), cs.CV (Computer Vision)
发表时间: 2025年10月15日 (arXiv预印本)
论文链接: https://arxiv.org/abs/2510.13796

摘要

符号接地（Symbol grounding）描述了符号（如词汇）如何通过连接现实世界的感觉运动经验来获得意义。近期研究表明，在大规模训练的（视觉）语言模型中，接地能力可能会自发涌现，而无需使用显式的接地目标。然而，这种涌现的具体位置和驱动机制仍然基本未被探索。为了解决这个问题，本文引入了一个受控评估框架，通过机制性和因果分析系统性地追踪符号接地如何在内部计算中产生。研究发现，接地集中在中间层计算中，并通过聚合机制实现，其中注意力头聚合环境基础来支持语言形式的预测。这一现象在多模态对话和不同架构（Transformers和状态空间模型）中都有复现，但在单向LSTM中没有出现。

研究背景与动机

核心问题

本研究要解决的核心问题是：符号接地如何在语言模型中机制性地涌现？ 具体包括：

符号接地在训练过程中何时、何地涌现？
什么机制驱动了这种涌现？
这种机制是否具有普遍性？

问题重要性

符号接地问题是认知科学和人工智能的基础问题之一。理解语言模型如何学会将抽象符号与现实世界建立联系，对于：

提升模型的可靠性和可解释性
减少幻觉现象
构建更好的多模态AI系统具有重要意义。

现有方法局限性

现有研究主要存在以下局限：

缺乏机制性分析：多数研究仅关注最终性能的相关性分析，未深入探索内部机制
忽视训练动态：缺乏对训练过程中接地能力发展轨迹的系统研究
定义模糊：将接地等同于视觉-文本信号的统计相关性，偏离了Harnad (1990)关于因果链接的经典定义

研究创新点

本文通过构建最小化测试平台，使用因果干预和机制性分析方法，系统性地研究符号接地的涌现机制。

核心贡献

构建了受控评估框架：设计了环境token（⟨ENV⟩）和语言token（⟨LAN⟩）分离的测试平台，确保对应关系必须通过学习获得
发现了接地的机制性实现：证明符号接地通过中间层的聚合机制（aggregate mechanism）实现
提供了跨架构的普遍性证据：在Transformers和状态空间模型中观察到接地涌现，但在单向LSTM中未观察到
建立了因果验证方法：通过注意力头干预实验验证了聚合头在符号接地中的关键作用
揭示了超越共现统计的学习：证明模型学到的接地关系不能完全由表面共现统计解释

方法详解

任务定义

输入：包含环境token（⟨ENV⟩）和语言token（⟨LAN⟩）的序列输出：在给定环境上下文下预测对应的语言token 约束：环境token和语言token使用不同的词汇表索引，模型必须学习它们之间的对应关系

数据集构建

1. 儿童导向语音（CHILDES）

环境token来源：环境描述、动作层、情境层注释
语言token来源：口语话语转录

示例：

训练：⟨CHI⟩ takes book⟨ENV⟩ from mother ⟨CHI⟩ what's that ⟨MOT⟩ a book⟨LAN⟩ in it
测试：⟨CHI⟩ asked for a new book⟨ENV⟩ ⟨CHI⟩ I love this [预测: book⟨LAN⟩]

2. 字幕接地对话（Visual Dialog）

环境token：MSCOCO图像字幕
语言token：多轮问答对话

3. 图像接地对话

环境token：通过冻结的DINOv2 ViT提取的图像patch embeddings
语言token：对话转录

评估协议

接地信息增益（Grounding Information Gain）

定义为匹配条件与不匹配条件下的惊讶度差异：

$G_\theta(v) = \frac{1}{N}\sum_{n=1}^{N} \frac{1}{M}\sum_{u \neq v} [s_\theta(v^{\langle LAN \rangle} | c_n(u^{\langle ENV \rangle})) - s_\theta(v^{\langle LAN \rangle} | c_n(v^{\langle ENV \rangle}))]$

其中 $s_\theta(w|c) = -\log P_\theta(w|c)$ 是惊讶度。

聚合头识别：至少30%显著性从环境token流向预测位置的注意力头
干预方法：将识别的注意力头输出置零，观察性能变化

实验设置

模型架构

Transformers：4层、12层、18层GPT-2风格模型
状态空间模型：4层、12层Mamba-2模型
对比模型：4层单向LSTM
多模态模型：基于DINOv2的视觉-语言模型

训练细节

初始化：随机初始化（确保无先验知识）
目标函数：标准因果语言建模
重复实验：5个随机种子
检查点：密集采样早期训练步骤

Transformers和Mamba-2：匹配条件下惊讶度显著低于不匹配条件
LSTM：两种条件下惊讶度无显著差异
视觉对话：在字幕和图像接地设置中都观察到接地效应

2. 超越共现统计

接地信息增益与共现统计的R²值在训练初期上升后下降
表明模型学到的接地关系超越了简单的统计共现

3. 机制性定位

中间层集中：接地效应主要出现在第7-9层
聚合机制：特定注意力头实现从环境token到语言token的信息聚合

因果验证结果

检查点	聚合头数量	平均层数	干预惊讶度	控制惊讶度	原始惊讶度
5000	2.28	7.38	6.51***	6.39	6.38
10000	5.09	7.28	5.86***	5.29	5.30
20000	6.71	7.52	5.62***	4.76	4.77

***表示p < 0.001的显著性差异

符号接地可以在语言模型中自发涌现，无需显式监督
中间层聚合机制是实现接地的关键，特定注意力头负责信息聚合
架构依赖性：Transformers和SSM支持接地涌现，但LSTM不支持
超越表面统计：模型学到的接地关系具有深层语义特征

理论贡献

重新审视了符号接地的哲学根源，提供了从相关性到因果性的机制性证据，挑战了"连接主义系统无内在符号结构"的观点。

实际应用价值

幻觉检测：通过监控聚合头活动预测模型可靠性
注意力控制：为减轻幻觉提供解码时策略
模型设计：为构建更可靠的多模态系统提供指导

局限性

规模限制：在大规模VLM中系统性检测和干预聚合头仍具挑战性
计算复杂性：视觉token数量大幅增加了分析复杂度
泛化性：需要在更多任务和领域验证发现的普遍性

未来方向

开发大规模VLM中聚合头的自动检测方法
设计计算可行的因果干预验证方案
探索接地机制在其他认知能力中的作用

深度评价

优点

方法创新性强：环境-语言token分离的实验设计巧妙，确保了因果推断的有效性
分析深度充分：从行为到机制的多层次分析，提供了完整的证据链
跨架构验证：在多种模型架构中验证发现，增强了结论的普遍性
因果验证严谨：通过干预实验提供了强有力的因果证据

不足

词汇范围有限：仅限于100个名词，可能不足以代表完整的语言现象
任务简化：实验任务相对简单，与真实语言理解存在差距
大规模验证不足：在真正大规模模型上的验证有限

影响力评估

学术价值：为符号接地研究提供了新的机制性视角
实用价值：为提升模型可靠性提供了具体的技术路径
可复现性：提供了详细的实现细节和代码链接

适用场景

多模态AI系统的可解释性分析
语言模型幻觉检测与缓解
认知科学中符号接地机制的计算建模
教育AI中概念学习的机制研究

参考文献

Harnad, S. (1990). The symbol grounding problem. Physica D, 42(1-3), 335-346.
Bick, A., Xing, E. P., & Gu, A. (2025). Understanding the skill gap in recurrent models: The role of the gather-and-aggregate mechanism.
Wang, L., et al. (2023). Label words are anchors: An information flow perspective for understanding in-context learning.
Belrose, N., et al. (2023). Eliciting latent predictions from transformers with the tuned lens.

这篇论文通过严谨的实验设计和深入的机制性分析，为理解语言模型中符号接地的涌现机制提供了重要贡献。其发现不仅具有理论价值，也为构建更可靠的AI系统提供了实用指导。