2025-11-16T07:07:12.103832

The Mechanistic Emergence of Symbol Grounding in Language Models

Wu, Ma, Luo et al.
Symbol grounding (Harnad, 1990) describes how symbols such as words acquire their meanings by connecting to real-world sensorimotor experiences. Recent work has shown preliminary evidence that grounding may emerge in (vision-)language models trained at scale without using explicit grounding objectives. Yet, the specific loci of this emergence and the mechanisms that drive it remain largely unexplored. To address this problem, we introduce a controlled evaluation framework that systematically traces how symbol grounding arises within the internal computations through mechanistic and causal analysis. Our findings show that grounding concentrates in middle-layer computations and is implemented through the aggregate mechanism, where attention heads aggregate the environmental ground to support the prediction of linguistic forms. This phenomenon replicates in multimodal dialogue and across architectures (Transformers and state-space models), but not in unidirectional LSTMs. Our results provide behavioral and mechanistic evidence that symbol grounding can emerge in language models, with practical implications for predicting and potentially controlling the reliability of generation.
academic

The Mechanistic Emergence of Symbol Grounding in Language Models

基本信息

  • 论文ID: 2510.13796
  • 标题: The Mechanistic Emergence of Symbol Grounding in Language Models
  • 作者: Shuyu Wu, Ziqiao Ma, Xiaoxi Luo, Yidong Huang, Josue Torres-Fonseca, Freda Shi, Joyce Chai
  • 分类: cs.CL (Computational Linguistics), cs.CV (Computer Vision)
  • 发表时间: 2025年10月15日 (arXiv预印本)
  • 论文链接: https://arxiv.org/abs/2510.13796

摘要

符号接地(Symbol grounding)描述了符号(如词汇)如何通过连接现实世界的感觉运动经验来获得意义。近期研究表明,在大规模训练的(视觉)语言模型中,接地能力可能会自发涌现,而无需使用显式的接地目标。然而,这种涌现的具体位置和驱动机制仍然基本未被探索。为了解决这个问题,本文引入了一个受控评估框架,通过机制性和因果分析系统性地追踪符号接地如何在内部计算中产生。研究发现,接地集中在中间层计算中,并通过聚合机制实现,其中注意力头聚合环境基础来支持语言形式的预测。这一现象在多模态对话和不同架构(Transformers和状态空间模型)中都有复现,但在单向LSTM中没有出现。

研究背景与动机

核心问题

本研究要解决的核心问题是:符号接地如何在语言模型中机制性地涌现? 具体包括:

  1. 符号接地在训练过程中何时、何地涌现?
  2. 什么机制驱动了这种涌现?
  3. 这种机制是否具有普遍性?

问题重要性

符号接地问题是认知科学和人工智能的基础问题之一。理解语言模型如何学会将抽象符号与现实世界建立联系,对于:

  • 提升模型的可靠性和可解释性
  • 减少幻觉现象
  • 构建更好的多模态AI系统 具有重要意义。

现有方法局限性

现有研究主要存在以下局限:

  1. 缺乏机制性分析:多数研究仅关注最终性能的相关性分析,未深入探索内部机制
  2. 忽视训练动态:缺乏对训练过程中接地能力发展轨迹的系统研究
  3. 定义模糊:将接地等同于视觉-文本信号的统计相关性,偏离了Harnad (1990)关于因果链接的经典定义

研究创新点

本文通过构建最小化测试平台,使用因果干预和机制性分析方法,系统性地研究符号接地的涌现机制。

核心贡献

  1. 构建了受控评估框架:设计了环境token(⟨ENV⟩)和语言token(⟨LAN⟩)分离的测试平台,确保对应关系必须通过学习获得
  2. 发现了接地的机制性实现:证明符号接地通过中间层的聚合机制(aggregate mechanism)实现
  3. 提供了跨架构的普遍性证据:在Transformers和状态空间模型中观察到接地涌现,但在单向LSTM中未观察到
  4. 建立了因果验证方法:通过注意力头干预实验验证了聚合头在符号接地中的关键作用
  5. 揭示了超越共现统计的学习:证明模型学到的接地关系不能完全由表面共现统计解释

方法详解

任务定义

输入:包含环境token(⟨ENV⟩)和语言token(⟨LAN⟩)的序列 输出:在给定环境上下文下预测对应的语言token 约束:环境token和语言token使用不同的词汇表索引,模型必须学习它们之间的对应关系

数据集构建

1. 儿童导向语音(CHILDES)

  • 环境token来源:环境描述、动作层、情境层注释
  • 语言token来源:口语话语转录
  • 示例
    训练:⟨CHI⟩ takes book⟨ENV⟩ from mother ⟨CHI⟩ what's that ⟨MOT⟩ a book⟨LAN⟩ in it
    测试:⟨CHI⟩ asked for a new book⟨ENV⟩ ⟨CHI⟩ I love this [预测: book⟨LAN⟩]
    

2. 字幕接地对话(Visual Dialog)

  • 环境token:MSCOCO图像字幕
  • 语言token:多轮问答对话

3. 图像接地对话

  • 环境token:通过冻结的DINOv2 ViT提取的图像patch embeddings
  • 语言token:对话转录

评估协议

接地信息增益(Grounding Information Gain)

定义为匹配条件与不匹配条件下的惊讶度差异:

Gθ(v)=1Nn=1N1Muv[sθ(vLANcn(uENV))sθ(vLANcn(vENV))]G_\theta(v) = \frac{1}{N}\sum_{n=1}^{N} \frac{1}{M}\sum_{u \neq v} [s_\theta(v^{\langle LAN \rangle} | c_n(u^{\langle ENV \rangle})) - s_\theta(v^{\langle LAN \rangle} | c_n(v^{\langle ENV \rangle}))]

其中sθ(wc)=logPθ(wc)s_\theta(w|c) = -\log P_\theta(w|c)是惊讶度。

机制性分析方法

1. 显著性流分析(Saliency Flow Analysis)

计算每层的显著性矩阵:I=hAh,LAh,I_\ell = |\sum_h A_{h,\ell} \odot \frac{\partial L}{\partial A_{h,\ell}}|

2. 调谐透镜探测(Tuned Lens Probing)

训练仿射投影器将中间层激活映射到最终预测空间。

3. 因果干预实验

  • 聚合头识别:至少30%显著性从环境token流向预测位置的注意力头
  • 干预方法:将识别的注意力头输出置零,观察性能变化

实验设置

模型架构

  • Transformers:4层、12层、18层GPT-2风格模型
  • 状态空间模型:4层、12层Mamba-2模型
  • 对比模型:4层单向LSTM
  • 多模态模型:基于DINOv2的视觉-语言模型

训练细节

  • 初始化:随机初始化(确保无先验知识)
  • 目标函数:标准因果语言建模
  • 重复实验:5个随机种子
  • 检查点:密集采样早期训练步骤

词汇选择

从MacArthur-Bates交流发展量表中选择100个高频名词,每个词在语料中的⟨ENV⟩和⟨LAN⟩形式频次均≥100。

实验结果

主要发现

1. 行为层面证据

  • Transformers和Mamba-2:匹配条件下惊讶度显著低于不匹配条件
  • LSTM:两种条件下惊讶度无显著差异
  • 视觉对话:在字幕和图像接地设置中都观察到接地效应

2. 超越共现统计

  • 接地信息增益与共现统计的R²值在训练初期上升后下降
  • 表明模型学到的接地关系超越了简单的统计共现

3. 机制性定位

  • 中间层集中:接地效应主要出现在第7-9层
  • 聚合机制:特定注意力头实现从环境token到语言token的信息聚合

因果验证结果

检查点聚合头数量平均层数干预惊讶度控制惊讶度原始惊讶度
50002.287.386.51***6.396.38
100005.097.285.86***5.295.30
200006.717.525.62***4.764.77

***表示p < 0.001的显著性差异

跨模态泛化

在LLaVA-1.5-7B等大规模VLM中也发现了类似的聚合注意力头模式,证明了发现的普遍性。

相关工作

语言接地研究

  • 早期工作:关注词汇-符号映射的学习机制
  • 视觉接地:从对象类别到像素级的细粒度接地
  • 现代VLM:大规模配对监督下的区域级和像素级接地

涌现能力研究

  • 规模效应:大模型中突现能力的争议
  • 发展分析:模型训练过程中能力获得的系统性研究
  • 心理学视角:机器与人类语言学习的对比研究

机制性可解释性

  • 注意力头分析:归纳头、检索头等专门化头的发现
  • 电路分析:事实回忆、上下文学习等任务的内部机制
  • 聚合机制:信息收集与聚合的协调机制

结论与讨论

主要结论

  1. 符号接地可以在语言模型中自发涌现,无需显式监督
  2. 中间层聚合机制是实现接地的关键,特定注意力头负责信息聚合
  3. 架构依赖性:Transformers和SSM支持接地涌现,但LSTM不支持
  4. 超越表面统计:模型学到的接地关系具有深层语义特征

理论贡献

重新审视了符号接地的哲学根源,提供了从相关性到因果性的机制性证据,挑战了"连接主义系统无内在符号结构"的观点。

实际应用价值

  • 幻觉检测:通过监控聚合头活动预测模型可靠性
  • 注意力控制:为减轻幻觉提供解码时策略
  • 模型设计:为构建更可靠的多模态系统提供指导

局限性

  1. 规模限制:在大规模VLM中系统性检测和干预聚合头仍具挑战性
  2. 计算复杂性:视觉token数量大幅增加了分析复杂度
  3. 泛化性:需要在更多任务和领域验证发现的普遍性

未来方向

  1. 开发大规模VLM中聚合头的自动检测方法
  2. 设计计算可行的因果干预验证方案
  3. 探索接地机制在其他认知能力中的作用

深度评价

优点

  1. 方法创新性强:环境-语言token分离的实验设计巧妙,确保了因果推断的有效性
  2. 分析深度充分:从行为到机制的多层次分析,提供了完整的证据链
  3. 跨架构验证:在多种模型架构中验证发现,增强了结论的普遍性
  4. 因果验证严谨:通过干预实验提供了强有力的因果证据

不足

  1. 词汇范围有限:仅限于100个名词,可能不足以代表完整的语言现象
  2. 任务简化:实验任务相对简单,与真实语言理解存在差距
  3. 大规模验证不足:在真正大规模模型上的验证有限

影响力评估

  • 学术价值:为符号接地研究提供了新的机制性视角
  • 实用价值:为提升模型可靠性提供了具体的技术路径
  • 可复现性:提供了详细的实现细节和代码链接

适用场景

  • 多模态AI系统的可解释性分析
  • 语言模型幻觉检测与缓解
  • 认知科学中符号接地机制的计算建模
  • 教育AI中概念学习的机制研究

参考文献

  • Harnad, S. (1990). The symbol grounding problem. Physica D, 42(1-3), 335-346.
  • Bick, A., Xing, E. P., & Gu, A. (2025). Understanding the skill gap in recurrent models: The role of the gather-and-aggregate mechanism.
  • Wang, L., et al. (2023). Label words are anchors: An information flow perspective for understanding in-context learning.
  • Belrose, N., et al. (2023). Eliciting latent predictions from transformers with the tuned lens.

这篇论文通过严谨的实验设计和深入的机制性分析,为理解语言模型中符号接地的涌现机制提供了重要贡献。其发现不仅具有理论价值,也为构建更可靠的AI系统提供了实用指导。