2025-11-16T07:28:12.353949

Representation in large language models

Yetman

The extraordinary success of recent Large Language Models (LLMs) on a diverse array of tasks has led to an explosion of scientific and philosophical theorizing aimed at explaining how they do what they do. Unfortunately, disagreement over fundamental theoretical issues has led to stalemate, with entrenched camps of LLM optimists and pessimists often committed to very different views of how these systems work. Overcoming stalemate requires agreement on fundamental questions, and the goal of this paper is to address one such question, namely: is LLM behavior driven partly by representation-based information processing of the sort implicated in biological cognition, or is it driven entirely by processes of memorization and stochastic table look-up? This is a question about what kind of algorithm LLMs implement, and the answer carries serious implications for higher level questions about whether these systems have beliefs, intentions, concepts, knowledge, and understanding. I argue that LLM behavior is partially driven by representation-based information processing, and then I describe and defend a series of practical techniques for investigating these representations and developing explanations on their basis. The resulting account provides a groundwork for future theorizing about language models and their successors.

academic

Representation in large language models

基本信息

论文ID: 2501.00885
标题: Representation in large language models
作者: Cameron C. Yetman (University of Toronto)
分类: cs.CL cs.AI cs.LG
发表时间: 2025年1月1日（草稿版本）
论文链接: https://arxiv.org/abs/2501.00885

摘要

大型语言模型（LLMs）在各种任务上的卓越成功引发了大量旨在解释其工作原理的科学和哲学理论化。然而，对基本理论问题的分歧已导致僵局，LLM乐观主义者和悲观主义者的对立阵营往往对这些系统的工作方式持有截然不同的观点。克服僵局需要在基本问题上达成一致，本文的目标是解决其中一个根本问题：LLM的行为是部分由类似于生物认知中的基于表征的信息处理驱动，还是完全由记忆化和随机表查找过程驱动？这是一个关于LLMs实现何种算法的问题，答案对更高层次的问题具有重要影响，如这些系统是否具有信念、意图、概念、知识和理解。作者论证LLM行为部分由基于表征的信息处理驱动，并描述和辩护了一系列用于研究这些表征并在此基础上发展解释的实用技术。

研究背景与动机

核心问题

本研究要解决的核心问题是：大型语言模型的行为是由基于表征的信息处理驱动，还是完全依赖于记忆化和随机表查找？

问题重要性

理论分歧的调和：当前LLM研究领域存在严重的理论分歧，乐观派认为LLMs具有类似认知的能力，悲观派认为它们只是复杂的模式匹配系统
认知科学基础：这个问题直接关系到LLMs是否可以作为认知模型使用，以及是否本身就是认知系统
高层次能力的基础：答案将影响我们对LLMs是否具有信念、意图、概念、知识和理解等高层次认知能力的判断

现有方法局限性

术语滥用：机器学习实践中"表征"一词使用过于宽泛，失去了理论价值
行为导向的局限：仅从行为表现判断表征存在性存在根本性的不确定性
缺乏系统方法：缺乏系统性的方法来识别和验证LLMs中的表征

研究动机

作者认为解决这个基础问题对于打破当前理论僵局至关重要，并为未来的LLM理论化提供坚实基础。

核心贡献

提出了表征的四条件特征化：为"表征"概念提供了实质性的、可操作的定义，包括信息（INFORMATION）、可利用性（EXPLOITABILITY）、行为（BEHAVIOR）和作用（ROLE）四个条件
驳斥了查找表解释：通过分析Othello-GPT和颜色空间模型等案例，证明了LLMs不能完全用有限状态自动机或查找表来解释
建立了机制可解释性框架：系统性地描述了如何使用探测（probing）和干预（intervention）技术来检验表征的存在
提供了实用的研究方法：为研究LLM表征提供了具体的技术工具和方法论指导

方法详解

表征的四条件定义

作者提出了表征的操作性定义，系统S对特征z具有表征R当且仅当满足以下四个条件：

REPRESENTATION

INFORMATION: R携带关于z的信息
EXPLOITABILITY: R携带的关于z的信息对S是可利用的
BEHAVIOR: S利用R携带的关于z的信息使得S能够产生稳健的z相关行为
ROLE: R在S的稳健z相关行为中发挥机制性作用

技术细节

信息条件（INFORMATION）
- 使用互信息定义： $I(X,Y) = H(X) - H(X|Y)$
- 当 $I(R,z) > 0$ 时满足条件
- 信息关系可通过因果生成的相关性或结构对应关系建立
可利用性条件（EXPLOITABILITY）
- S必须能够以内容相关的方式基于R的激活来调节其z相关行为
- 通过对R的测试和干预来验证
行为条件（BEHAVIOR）
- "稳健"指对周围条件的轻微扰动不敏感
- 表征使能稳健行为，但需要嵌入适当的算法中
作用条件（ROLE）
- R必须在驱动行为的机制中发挥因果作用
- 避免泛表征主义问题

查找表假说的批判

作者分析了将LLMs视为查找表的观点：

有限状态自动机观点：LLMs被视为编码大规模查找表的有限状态自动机
非生产性特征：查找表系统特征性地非生产性——"只能返回已经输入的内容"
反驳证据：
- Othello-GPT：在缺失25%游戏树的数据上训练，仍能在完整数据集上达到99.98%的合法移动率
- 颜色空间模型：在旋转的颜色编码对上表现与原始数据相当（36% vs 34% Top-3准确率）