2025-11-18T03:04:13.779328

Interpreting the Latent Structure of Operator Precedence in Language Models

Yugeswardeenoo, Nukala, Blondin et al.
Large Language Models (LLMs) have demonstrated impressive reasoning capabilities but continue to struggle with arithmetic tasks. Prior works largely focus on outputs or prompting strategies, leaving the open question of the internal structure through which models do arithmetic computation. In this work, we investigate whether LLMs encode operator precedence in their internal representations via the open-source instruction-tuned LLaMA 3.2-3B model. We constructed a dataset of arithmetic expressions with three operands and two operators, varying the order and placement of parentheses. Using this dataset, we trace whether intermediate results appear in the residual stream of the instruction-tuned LLaMA 3.2-3B model. We apply interpretability techniques such as logit lens, linear classification probes, and UMAP geometric visualization. Our results show that intermediate computations are present in the residual stream, particularly after MLP blocks. We also find that the model linearly encodes precedence in each operator's embeddings post attention layer. We introduce partial embedding swap, a technique that modifies operator precedence by exchanging high-impact embedding dimensions between operators.
academic

Interpreting the Latent Structure of Operator Precedence in Language Models

基本信息

  • 论文ID: 2510.13908
  • 标题: Interpreting the Latent Structure of Operator Precedence in Language Models
  • 作者: Dharunish Yugeswardeenoo, Harshil Nukala, Cole Blondin, Sean O'Brien, Vasu Sharma, Kevin Zhu
  • 分类: cs.CL (计算语言学)
  • 发表时间/会议: COLM 2025
  • 论文链接: https://arxiv.org/abs/2510.13908

摘要

大型语言模型(LLMs)在推理能力方面表现出色,但在算术任务上仍存在困难。以往研究主要关注输出或提示策略,而忽略了模型进行算术计算的内部结构。本研究通过开源指令调优的LLaMA 3.2-3B模型,探究LLMs是否在其内部表示中编码了运算符优先级。研究构建了包含三个操作数和两个运算符的算术表达式数据集,变化运算顺序和括号位置。使用该数据集追踪中间结果是否出现在模型的残差流中,并应用logit lens、线性分类探针和UMAP几何可视化等可解释性技术。结果表明,中间计算存在于残差流中,特别是在MLP块之后。研究还发现模型在注意力层后的运算符嵌入中线性编码了优先级信息。论文引入了部分嵌入交换技术,通过交换运算符间的高影响力嵌入维度来修改运算符优先级。

研究背景与动机

问题定义

该研究要解决的核心问题是:大型语言模型在处理算术表达式时,是否以及如何在其内部表示中编码运算符优先级规则。具体而言,当模型面对如"1 + 1 × 2"这样的表达式时,它是否会按照数学优先级规则先计算乘法,还是简单地按照从左到右的顺序处理。

重要性

  1. 理论意义:理解LLMs内部算术推理机制对于机器学习可解释性研究具有重要价值
  2. 实用价值:改进模型在数学推理任务上的表现,特别是对于较小规模的模型
  3. 方法论贡献:为分析神经网络内部表示提供新的技术手段

现有方法局限性

  • 大多数研究聚焦于自然语言提示和最终输出结果
  • 缺乏对运算符优先级处理和中间计算步骤的深入分析
  • 对模型内部算术计算结构的理解不足

研究动机

通过机制性可解释性方法,深入探究LLMs如何在内部处理算术表达式,特别关注运算顺序的处理机制。

核心贡献

  1. 构建了系统性的算术表达式数据集:包含三操作数、二运算符的表达式,系统性地测试语法和语义优先级
  2. 发现了中间计算的存在证据:通过logit lens技术发现模型在深层网络中进行中间计算
  3. 揭示了运算符优先级的线性编码:证明模型在注意力层后线性编码运算符优先级信息
  4. 提出了部分嵌入交换技术:一种通过交换高影响力嵌入维度来修改运算符优先级的新方法
  5. 提供了几何可视化分析:通过UMAP展示了运算符表示的组织结构

方法详解

任务定义

输入:包含三个操作数和两个运算符的算术表达式,如"a o1 b o2 c" 输出:模型对表达式的计算结果 约束条件

  • 操作数a, b, c ∈ {1, 2, ..., 9}
  • 运算符对(o1, o2)来自混合优先级集合:{(+, *), (-, *), (+, /), (-, /)}
  • 所有计算结果为正整数

数据集构建

针对每个操作数和运算符组合,生成六种结构变体:

  1. 左括号:(a o1 b) o2 c
  2. 右括号:a o1 (b o2 c)
  3. 翻转左括号:(a o2 b) o1 c
  4. 翻转右括号:a o2 (b o1 c)
  5. 无括号(自然顺序):a o1 b o2 c
  6. 无括号(翻转):a o2 b o1 c

总计生成8547个提示,其中模型能正确回答4401个。

关键技术方法

1. Logit Lens分析

  • 目的:追踪中间计算是否出现在残差流中
  • 方法:将每层的残差流通过unembedding矩阵投影到词汇表上获得logits
  • 分析:检查top-10 tokens中是否包含期望的中间结果

2. 线性探针技术

  • 中间计算探针:训练线性探针从模型激活中直接预测中间值
  • 优先级探针:使用逻辑回归分类器预测运算符的计算顺序(第一个或第二个被计算)

3. 部分嵌入交换

算法流程

  1. 识别影响力维度:逐个交换"+"和"*"运算符隐藏表示的各个维度
  2. 测量扰动效果:如果交换使模型预测从正确答案(如23)变为错误答案(如35),则该维度编码优先级信息
  3. 排序和选择:按影响力对维度排序,确定改变预测所需的最小维度子集

4. UMAP几何可视化

  • 将运算符token的激活向量投影到低维空间
  • 标记格式:[位置][运算符]优先级,如"1m2"表示乘法符号在表达式中位置为1但计算优先级为2

实验设置

模型选择

使用开源指令调优的LLaMA 3.2-3B模型,该模型具有28层transformer结构。

数据集统计

  • 总提示数:8547个
  • 模型正确回答:4401个(51.5%)
  • 仅使用模型能正确预测的样本进行分析

评价指标

  • 中间计算检测率:中间结果出现在top logits中的比例
  • 线性探针准确率:R²分数和分类准确率
  • 优先级交换成功率:成功改变模型预测的案例比例

实验结果

主要发现

1. 中间计算的存在

  • 检测率:在4401个提示中,2799次(63.6%)检测到中间计算出现在top logit中
  • 出现层次:主要在第16-27层,峰值在第18-19层
  • 关键组件:MLP块是引入中间logit的关键组件,而非注意力块

2. 线性编码证据

  • 线性探针在第0层后就能高精度预测中间计算(高R²分数)
  • 优先级分类探针在测试集上达到100%准确率
  • 注意力机制显著增强了运算符优先级的线性可解码性

3. 部分嵌入交换结果

  • 成功在多个实例中通过交换特定维度改变模型的最高logit预测
  • 证明了运算符优先级信息在特定嵌入维度中的稀疏局部化

4. 几何结构分析

UMAP可视化显示:

  • 注意力前后的运算符嵌入发生明显分离
  • 相同位置和优先级的运算符聚集在一起
  • 注意力机制编码了运算符优先级信息

定量结果

指标数值
中间计算检测率63.6% (2799/4401)
优先级探针准确率100%
主要检测层范围16-27层
检测峰值层18-19层

相关工作

算术推理研究

  • Mirzadeh et al. (2024)和Bubeck et al. (2023)指出LLMs在算术任务上的持续困难
  • Lewkowycz et al. (2022)探索了思维链推理等提示策略
  • Boye & Moell (2025)评估了多模型的算术计算,发现频繁的不一致性

机制性可解释性

  • Zhang et al. (2024)研究了LLMs在算术任务中的内部结构
  • Stolfo et al. (2023)采用因果中介框架追踪算术预测的内部组件贡献
  • Nainani et al. (2024)提出了"电路"概念来解释特定任务的模型行为

技术方法

  • nostalgebraist (2020)提出logit lens技术
  • Alain & Bengio (2018)发展了线性探针方法
  • McInnes et al. (2020)开发了UMAP降维技术

结论与讨论

主要结论

  1. 中间计算确实存在:LLaMA 3.2-3B模型在内部进行中间计算,这些信息在深层网络中变得线性可解码
  2. 优先级线性编码:运算符优先级信息在注意力层后被线性编码在特定嵌入维度中
  3. MLP的关键作用:MLP块而非注意力块负责产生中间计算结果
  4. 几何组织结构:模型根据运算符的位置和计算优先级组织运算符表示

局限性

  1. 模型规模限制:仅在3B参数的LLaMA模型上进行实验,结果可能不适用于更大规模模型
  2. 任务复杂度:仅考虑三操作数、二运算符的简单表达式
  3. 运算符类型:只涉及基本四则运算,未涵盖更复杂的数学运算
  4. 成功率限制:模型仅能正确回答约51.5%的算术题目

未来方向

  1. 扩展到更大规模的语言模型
  2. 研究更复杂的数学表达式和运算类型
  3. 探索其他数学概念(如函数、方程)的内部表示
  4. 开发基于这些发现的模型改进方法

深度评价

优点

  1. 方法创新性:部分嵌入交换是一个新颖且有效的干预技术
  2. 实验全面性:结合多种可解释性技术(logit lens、线性探针、UMAP、干预实验)
  3. 发现重要性:首次系统性地证明了LLMs内部运算符优先级的编码机制
  4. 技术严谨性:实验设计合理,仅使用模型能正确回答的样本进行分析

不足

  1. 规模局限:实验仅限于3B参数模型,泛化性有待验证
  2. 任务简化:算术表达式相对简单,实际应用中的复杂性未充分考虑
  3. 理论深度:缺乏对为什么这些机制会出现的理论解释
  4. 实用性:虽然提供了重要洞察,但如何利用这些发现改进模型性能尚不明确

影响力

  1. 学术价值:为LLMs算术推理的机制性理解提供了重要贡献
  2. 方法论意义:部分嵌入交换技术可应用于其他任务的分析
  3. 实用潜力:为改进小规模模型的算术能力提供了方向
  4. 可复现性:使用开源模型,实验相对容易复现

适用场景

  1. 模型分析:适用于分析其他语言模型的内部机制
  2. 教育应用:帮助理解AI如何处理数学概念
  3. 模型改进:为开发更好的算术推理模型提供指导
  4. 可解释性研究:为其他认知任务的机制性分析提供方法参考

参考文献

本文引用了机制性可解释性、算术推理和神经网络分析等领域的重要文献,包括:

  • nostalgebraist (2020) - Logit lens技术
  • Alain & Bengio (2018) - 线性探针方法
  • Zhang et al. (2024) - LLMs算术推理的内部结构
  • Stolfo et al. (2023) - 因果中介分析框架
  • McInnes et al. (2020) - UMAP降维技术

这项研究为理解大型语言模型的内部算术推理机制提供了重要洞察,特别是在运算符优先级处理方面。虽然存在一些局限性,但其方法创新和发现的重要性使其成为机制性可解释性领域的有价值贡献。