2025-11-16T07:28:12.353949

Representation in large language models

Yetman
The extraordinary success of recent Large Language Models (LLMs) on a diverse array of tasks has led to an explosion of scientific and philosophical theorizing aimed at explaining how they do what they do. Unfortunately, disagreement over fundamental theoretical issues has led to stalemate, with entrenched camps of LLM optimists and pessimists often committed to very different views of how these systems work. Overcoming stalemate requires agreement on fundamental questions, and the goal of this paper is to address one such question, namely: is LLM behavior driven partly by representation-based information processing of the sort implicated in biological cognition, or is it driven entirely by processes of memorization and stochastic table look-up? This is a question about what kind of algorithm LLMs implement, and the answer carries serious implications for higher level questions about whether these systems have beliefs, intentions, concepts, knowledge, and understanding. I argue that LLM behavior is partially driven by representation-based information processing, and then I describe and defend a series of practical techniques for investigating these representations and developing explanations on their basis. The resulting account provides a groundwork for future theorizing about language models and their successors.
academic

Representation in large language models

基本信息

  • 论文ID: 2501.00885
  • 标题: Representation in large language models
  • 作者: Cameron C. Yetman (University of Toronto)
  • 分类: cs.CL cs.AI cs.LG
  • 发表时间: 2025年1月1日(草稿版本)
  • 论文链接: https://arxiv.org/abs/2501.00885

摘要

大型语言模型(LLMs)在各种任务上的卓越成功引发了大量旨在解释其工作原理的科学和哲学理论化。然而,对基本理论问题的分歧已导致僵局,LLM乐观主义者和悲观主义者的对立阵营往往对这些系统的工作方式持有截然不同的观点。克服僵局需要在基本问题上达成一致,本文的目标是解决其中一个根本问题:LLM的行为是部分由类似于生物认知中的基于表征的信息处理驱动,还是完全由记忆化和随机表查找过程驱动?这是一个关于LLMs实现何种算法的问题,答案对更高层次的问题具有重要影响,如这些系统是否具有信念、意图、概念、知识和理解。作者论证LLM行为部分由基于表征的信息处理驱动,并描述和辩护了一系列用于研究这些表征并在此基础上发展解释的实用技术。

研究背景与动机

核心问题

本研究要解决的核心问题是:大型语言模型的行为是由基于表征的信息处理驱动,还是完全依赖于记忆化和随机表查找?

问题重要性

  1. 理论分歧的调和:当前LLM研究领域存在严重的理论分歧,乐观派认为LLMs具有类似认知的能力,悲观派认为它们只是复杂的模式匹配系统
  2. 认知科学基础:这个问题直接关系到LLMs是否可以作为认知模型使用,以及是否本身就是认知系统
  3. 高层次能力的基础:答案将影响我们对LLMs是否具有信念、意图、概念、知识和理解等高层次认知能力的判断

现有方法局限性

  1. 术语滥用:机器学习实践中"表征"一词使用过于宽泛,失去了理论价值
  2. 行为导向的局限:仅从行为表现判断表征存在性存在根本性的不确定性
  3. 缺乏系统方法:缺乏系统性的方法来识别和验证LLMs中的表征

研究动机

作者认为解决这个基础问题对于打破当前理论僵局至关重要,并为未来的LLM理论化提供坚实基础。

核心贡献

  1. 提出了表征的四条件特征化:为"表征"概念提供了实质性的、可操作的定义,包括信息(INFORMATION)、可利用性(EXPLOITABILITY)、行为(BEHAVIOR)和作用(ROLE)四个条件
  2. 驳斥了查找表解释:通过分析Othello-GPT和颜色空间模型等案例,证明了LLMs不能完全用有限状态自动机或查找表来解释
  3. 建立了机制可解释性框架:系统性地描述了如何使用探测(probing)和干预(intervention)技术来检验表征的存在
  4. 提供了实用的研究方法:为研究LLM表征提供了具体的技术工具和方法论指导

方法详解

表征的四条件定义

作者提出了表征的操作性定义,系统S对特征z具有表征R当且仅当满足以下四个条件:

REPRESENTATION

  • INFORMATION: R携带关于z的信息
  • EXPLOITABILITY: R携带的关于z的信息对S是可利用的
  • BEHAVIOR: S利用R携带的关于z的信息使得S能够产生稳健的z相关行为
  • ROLE: R在S的稳健z相关行为中发挥机制性作用

技术细节

  1. 信息条件(INFORMATION)
    • 使用互信息定义:I(X,Y)=H(X)H(XY)I(X,Y) = H(X) - H(X|Y)
    • I(R,z)>0I(R,z) > 0时满足条件
    • 信息关系可通过因果生成的相关性或结构对应关系建立
  2. 可利用性条件(EXPLOITABILITY)
    • S必须能够以内容相关的方式基于R的激活来调节其z相关行为
    • 通过对R的测试和干预来验证
  3. 行为条件(BEHAVIOR)
    • "稳健"指对周围条件的轻微扰动不敏感
    • 表征使能稳健行为,但需要嵌入适当的算法中
  4. 作用条件(ROLE)
    • R必须在驱动行为的机制中发挥因果作用
    • 避免泛表征主义问题

查找表假说的批判

作者分析了将LLMs视为查找表的观点:

  1. 有限状态自动机观点:LLMs被视为编码大规模查找表的有限状态自动机
  2. 非生产性特征:查找表系统特征性地非生产性——"只能返回已经输入的内容"
  3. 反驳证据
    • Othello-GPT:在缺失25%游戏树的数据上训练,仍能在完整数据集上达到99.98%的合法移动率
    • 颜色空间模型:在旋转的颜色编码对上表现与原始数据相当(36% vs 34% Top-3准确率)

实验设置与结果

案例研究1:Othello-GPT

实验设计

  • 在数百万个奥赛罗游戏记录上训练GPT模型
  • 记录仅包含移动序列,无游戏规则或棋盘属性信息
  • 对照组:完整数据集训练
  • 实验组:缺失25%游戏树的倾斜数据集训练

结果

  • 对照组:99.99%合法移动成功率
  • 实验组:99.98%合法移动成功率
  • 关键发现:模型在未见过的棋盘配置上仍能成功,表明不是简单的查找表

案例研究2:颜色空间模型

实验设计

  • 使用预训练GPT测试颜色和空间领域的结构属性推理
  • 上下文学习范式:60个训练样例
  • 对照组:RGB码与颜色名称配对的有限光谱部分
  • 实验组:系统排列的"旋转"条件,保持结构关系不变

结果

  • 对照组:34% Top-3准确率
  • 旋转组:36% Top-3准确率
  • 关键发现:在结构关系保持但具体配对全新的情况下表现相当

机制可解释性验证

探测技术(Probing)

  • 使用小型线性MLP作为探测器
  • 从目标网络的隐藏层激活中解码特定信息
  • 验证INFORMATION和EXPLOITABILITY条件

干预技术(Intervention)

  • 激活修补:修改特定激活值观察行为变化
  • 特征引导:钳制特定特征到异常高/低值
  • 验证BEHAVIOR和ROLE条件

Othello-GPT验证结果

  • 线性探测成功分类棋盘状态("我的"/"你的"/"空")
  • 激活干预(翻转棋子状态)导致模型预测与修改后的棋盘状态一致

Claude 3 Sonnet验证结果

  • 使用稀疏自编码器识别可解释特征(如金门大桥、大脑科学)
  • 特征引导实验:激活金门大桥特征10倍导致模型提及该桥梁

相关工作

表征理论基础

  • 认知科学传统:Fodor (1975), Sterelny (1991), Shea (2018)等建立的表征理论基础
  • 计算层次:基于Marr (1982)的算法层次分析框架

机器学习中的表征

  • 表征学习:Bengio et al. (2014)的表征学习框架
  • 术语泛化问题:Ramsey (2017)指出的"表征"概念泛化问题

LLM解释方法

  • 电路分析:Elhage et al. (2021), Dunefsky et al. (2024)的计算路径分析
  • 因果抽象:Geiger et al. (2021)的因果模型对齐方法
  • 机制可解释性:Olah et al. (2018, 2020)建立的MI研究传统

结论与讨论

主要结论

  1. LLM具有实质性表征:在某些情况下,LLM行为由满足四条件定义的表征驱动
  2. 查找表解释不充分:纯粹的记忆化和查找表无法解释LLMs的泛化能力
  3. 机制可解释性方法有效:探测和干预技术提供了研究LLM表征的可行途径

局限性

  1. 条件应用的情境依赖性:表征的稳健性评估依赖于具体任务和环境
  2. 内容确定问题未解决:未系统解决表征内容如何确定的问题
  3. 高层次认知能力待定:未直接解决LLMs是否具有信念、知识、理解等问题

未来方向

  1. 系统性表征图谱:建立何时期望LLMs依赖表征vs其他机制的系统账户
  2. 内容确定理论:发展LLM表征内容确定的理论框架
  3. 认知能力评估:基于表征分析评估LLMs的高层次认知能力

深度评价

优点

  1. 理论贡献突出:提供了严格的表征定义,填补了重要理论空白
  2. 方法论创新:将认知科学的表征理论与机器学习的可解释性技术有机结合
  3. 实证证据充分:通过多个案例研究和技术验证支持核心论点
  4. 写作清晰严谨:论证逻辑清晰,技术细节描述准确

不足

  1. 案例有限性:主要基于少数几个案例,需要更广泛的验证
  2. 稳健性标准模糊:对"稳健行为"的界定仍然相对主观
  3. 实用性挑战:提出的方法在大规模LLM上的应用仍面临技术挑战

影响力

  1. 理论影响:为LLM认知能力研究提供了重要理论基础
  2. 方法影响:推动机制可解释性在LLM研究中的应用
  3. 实践价值:为AI安全和可解释性研究提供新工具

适用场景

  1. LLM能力评估:评估特定LLM是否具有真正的认知能力
  2. 模型改进:基于表征分析改进模型架构和训练方法
  3. AI安全研究:理解LLM内部机制以提高系统安全性

参考文献

论文引用了丰富的跨学科文献,主要包括:

  1. 认知科学基础文献:Fodor (1975), Marr (1982), Shea (2018)
  2. 机器学习可解释性:Olah et al. (2018), Elhage et al. (2021)
  3. LLM批判性研究:Bender & Koller (2020), Marcus & Davis (2020)
  4. 技术方法文献:Li et al. (2023), Templeton et al. (2024)

总结:本文在LLM表征研究领域做出了重要的理论和方法论贡献。通过严格的概念分析、实证研究和技术创新,为理解LLM的内部机制提供了新的视角。虽然仍存在一些局限性,但为未来的LLM认知能力研究奠定了坚实基础。