2025-11-23T12:04:17.035274

Discursive Circuits: How Do Language Models Understand Discourse Relations?

Miao, Kan
Which components in transformer language models are responsible for discourse understanding? We hypothesize that sparse computational graphs, termed as discursive circuits, control how models process discourse relations. Unlike simpler tasks, discourse relations involve longer spans and complex reasoning. To make circuit discovery feasible, we introduce a task called Completion under Discourse Relation (CuDR), where a model completes a discourse given a specified relation. To support this task, we construct a corpus of minimal contrastive pairs tailored for activation patching in circuit discovery. Experiments show that sparse circuits ($\approx 0.2\%$ of a full GPT-2 model) recover discourse understanding in the English PDTB-based CuDR task. These circuits generalize well to unseen discourse frameworks such as RST and SDRT. Further analysis shows lower layers capture linguistic features such as lexical semantics and coreference, while upper layers encode discourse-level abstractions. Feature utility is consistent across frameworks (e.g., coreference supports Expansion-like relations).
academic

Discursive Circuits: How Do Language Models Understand Discourse Relations?

基本信息

  • 论文ID: 2510.11210
  • 标题: Discursive Circuits: How Do Language Models Understand Discourse Relations?
  • 作者: Yisong Miao, Min-Yen Kan (National University of Singapore)
  • 分类: cs.CL (Computational Linguistics), cs.LG (Machine Learning)
  • 发表时间: 2025年10月13日 (arXiv预印本)
  • 论文链接: https://arxiv.org/abs/2510.11210

摘要

本文探讨了transformer语言模型中哪些组件负责话语理解。作者假设稀疏计算图(称为话语回路)控制着模型处理话语关系的方式。与简单任务不同,话语关系涉及更长的文本跨度和复杂推理。为使回路发现变得可行,作者引入了"话语关系下的完成"(CUDR)任务,让模型在指定关系下完成话语。实验表明,稀疏回路(约占GPT-2模型的0.2%)能在基于PDTB的CUDR任务中恢复话语理解能力,且能很好地泛化到RST和SDRT等未见过的话语框架。

研究背景与动机

问题定义

话语结构对于确保语言模型安全和道德行为至关重要,但人们对语言模型内部如何处理话语知之甚少,这限制了我们保证模型可靠性和无害输出的能力。

研究重要性

  1. 安全性需求: 话语理解对模型的安全和道德行为至关重要
  2. 可解释性缺失: 现有方法缺乏对话语处理机制的深入理解
  3. 复杂性挑战: 话语关系比简单任务涉及更长上下文和复杂推理

现有方法局限性

  1. 注意力可视化理由生成等方法缺乏机制性解释
  2. 现有回路发现方法主要关注简单任务(如数值比较),难以直接适应话语关系
  3. 缺乏跨框架的统一理解:不同话语框架间缺乏机制层面的比较

研究动机

通过桥接话语的语言学结构和回路发现的要求,开辟理解复杂语言任务机制的新路径。

核心贡献

  1. 提出CUDR任务:设计了适合回路发现的话语关系完成任务
  2. 构建多框架数据集:涵盖PDTB、RST、SDRT等主要话语框架,共27,754个实例
  3. 发现话语回路:识别出仅占模型0.2%连接但能达到90%忠实度的稀疏回路
  4. 跨框架泛化:证明从PDTB学到的回路能很好泛化到其他话语框架
  5. 构建回路层次结构:首次基于神经回路组件构建话语层次结构
  6. 语言特征分析:揭示不同层次捕获的语言特征及其跨框架一致性

方法详解

任务定义:CUDR (Completion under Discourse Relations)

CUDR任务创建了一个受控环境来测试模型的话语行为:

输入格式

  • 原始话语:dori=(Arg1,Arg2,R,Conn)d_{ori} = (Arg1, Arg2, R, Conn)
  • 反事实话语:dcf=(Arg1,Arg2,R,Conn)d_{cf} = (Arg1, Arg'_2, R', Conn')

任务设置

请选择以下两个选项之一来完成话语:
选项1: "he goes to the canteen" 
选项2: "the canteen is closed"

待完成: [Bob is hungry]_{Arg1} [so]_{Conn} → [he goes to the canteen]_{Arg2}

通过改变话语连接词(从"so"到"but"),模型的预测应相应改变。

回路发现方法

激活修补 (Activation Patching)

定义边ee的影响为: g(e)=L(xcfdo(E=eori))L(xcf)g(e) = L(x_{cf}|do(E = e_{ori})) - L(x_{cf})

其中LL是评价指标,xcfx_{cf}是反事实输入,eorie_{ori}是原始运行中的激活。

边归因修补 (Edge Attribution Patching)

使用一阶泰勒近似加速计算: g(e)(zuorizucf)TvL(xcf)g(e) \approx (z^{ori}_u - z^{cf}_u)^T \nabla_v L(x_{cf})

其中zuoriz^{ori}_uzucfz^{cf}_u分别是原始和反事实运行中节点uu的激活,vL(xcf)\nabla_v L(x_{cf})是节点vv处的梯度。

话语回路构建

  1. 对给定话语关系的样本集应用归因修补
  2. 计算每条边的平均g(e)g(e)
  3. 选择绝对值最高的前1000条边构成回路

数据集构建

多框架覆盖

话语框架关系数量CUDR数据量
PDTB1311,843
GDTB125,253
GUM-RST176,805
SDRT103,853
总计5227,754

反事实生成策略

使用GPT-4o-mini生成反事实Arg2Arg'_2,确保:

  1. 与原始Arg1Arg1和反事实连接词ConnConn'一致
  2. 长度匹配原始Arg2Arg2
  3. 关系表达清晰显著

实验设置

模型选择

  • 主要模型: GPT-2 medium (遵循现有回路发现研究的标准选择)
  • 扩展验证: GPT-2 large

评价指标

  • 忠实度分数: ΔLpatchΔLfull\frac{\Delta L_{patch}}{\Delta L_{full}} (标准化忠实度)
  • 逻辑差异: ΔL=L(Arg2)L(Arg2)\Delta L = L(Arg2) - L(Arg'_2)

基线方法

  1. 随机回路: 随机采样的transformer边
  2. IOI回路: 间接对象识别回路(代表通用语言建模能力)

回路层次结构

构建PDTB风格的回路层次:

  • L3: 叶节点关系(1000条边)
  • L2: 合并多个L3回路(500+条边)
  • L1: 顶层类别回路(200-500条边)
  • L0: 元回路(137条边)

实验结果

主要结果

RQ1: 话语回路的忠实度

  • 强忠实度: L3和L1回路仅用约200条边就达到90%忠实度
  • 优于基线: 显著超越随机基线和IOI基线
  • 层次效应: 细粒度回路(L3)在早期阶段更有效,但方差更大

RQ2: 跨框架泛化能力

  • 良好泛化: PDTB回路能有效泛化到GDTB、RST、SDRT
  • 性能排序: Own > L3 > L1 ≈ L0 > IOI > Random(一致趋势)
  • 回路重叠: 框架间回路重叠与性能呈正相关(如PDTB→GDTB: r=0.44)

RQ3: 语言特征分析

发现五个关键语言特征的使用模式:

  1. 模态性 (modality): 使用最广泛
  2. 同义性 (synonymy): 比反义性更常用
  3. 否定 (negation): 跨框架一致使用
  4. 反义性 (antonymy): 在因果和时间关系中较弱
  5. 共指 (coreference): 在扩展类关系中最活跃

层次分析

  • 低层: 捕获语言特征(词汇语义、共指)
  • 高层: 编码话语级抽象
  • 话语专用区域: 源层8-16,目标层10-20包含话语专用边

案例分析

错误案例分析揭示PDTB回路在处理感叹词("yay!!")和主语省略等现象时的不足,而SDRT回路能更好处理这些情况。

相关工作

话语建模

  • 框架发展: PDTB、RST、SDRT三大主流框架
  • 统一努力: DISRPT基准、自动框架转换等
  • 评估方法: 问答式评估、合成数据生成

机制可解释性

  • 回路发现: 主要应用于简单任务(IOI、数值比较、主谓一致等)
  • 方法局限: 现有方法难以处理复杂话语现象
  • 本文贡献: 首次将回路发现应用于话语理解

结论与讨论

主要结论

  1. 稀疏有效性: 仅0.2%的模型连接就能实现话语理解
  2. 跨框架一致性: 语言模型可能编码了共享的话语关系表示
  3. 层次化处理: 低层处理语言特征,高层处理话语抽象
  4. 特征一致性: 语言特征效用跨框架保持一致

局限性

  1. 语言限制: 仅研究英语语料
  2. 模型范围: 主要关注单一transformer模型
  3. 人脑对比: 未与人类话语处理机制比较
  4. 数据质量: 生成的反事实数据相对简单直接

未来方向

  1. 多语言扩展: 探索跨语言话语回路的一致性
  2. 复杂场景: 扩展到更复杂的话语风格和模糊场景
  3. 应用导向: 用于偏见检测和模型引导
  4. 架构扩展: 适应更大规模的语言模型

深度评价

优点

  1. 创新性强: 首次将回路发现应用于复杂话语理解任务
  2. 方法严谨: CUDR任务设计巧妙,能有效支持激活修补
  3. 覆盖全面: 涵盖多个主流话语框架,数据集规模可观
  4. 分析深入: 从回路层次到语言特征的多维度分析
  5. 泛化性好: 跨框架泛化结果令人信服

不足

  1. 计算复杂: 回路发现过程计算密集,难以扩展到更大模型
  2. 数据依赖: 依赖LLM生成反事实数据,可能引入偏见
  3. 评估局限: 主要基于单一模型架构,泛化性有待验证
  4. 理论深度: 缺乏对为什么这些回路有效的理论解释

影响力

  1. 学术价值: 为话语理解的机制研究开辟新方向
  2. 实用潜力: 可用于模型调试、偏见检测等应用
  3. 方法论贡献: CUDR范式可推广到其他复杂NLP任务
  4. 跨学科意义: 连接计算语言学和机制可解释性研究

适用场景

  1. 模型分析: 理解大型语言模型的话语处理机制
  2. 安全检测: 识别模型在话语理解中的潜在偏见
  3. 模型改进: 指导话语理解能力的针对性提升
  4. 教育研究: 为话语理论提供计算视角的验证

参考文献

论文引用了丰富的相关工作,包括:

  • 话语理论经典文献:Mann & Thompson (1987), Asher & Lascarides (2003)
  • 回路发现方法:Wang et al. (2023), Conmy et al. (2023)
  • 话语数据集:Webber et al. (2019), Liu et al. (2024b)
  • 机制可解释性:Zhang & Nanda (2024), Miller et al. (2024)

总体评价: 这是一篇高质量的研究论文,在方法创新、实验设计和分析深度方面都表现出色。通过巧妙的CUDR任务设计,成功将回路发现技术应用于复杂的话语理解任务,为理解语言模型的内部机制提供了新的视角。尽管存在一些局限性,但其开创性的工作和丰富的发现使其具有重要的学术价值和实用潜力。