Which components in transformer language models are responsible for discourse understanding? We hypothesize that sparse computational graphs, termed as discursive circuits, control how models process discourse relations. Unlike simpler tasks, discourse relations involve longer spans and complex reasoning. To make circuit discovery feasible, we introduce a task called Completion under Discourse Relation (CuDR), where a model completes a discourse given a specified relation. To support this task, we construct a corpus of minimal contrastive pairs tailored for activation patching in circuit discovery. Experiments show that sparse circuits ($\approx 0.2\%$ of a full GPT-2 model) recover discourse understanding in the English PDTB-based CuDR task. These circuits generalize well to unseen discourse frameworks such as RST and SDRT. Further analysis shows lower layers capture linguistic features such as lexical semantics and coreference, while upper layers encode discourse-level abstractions. Feature utility is consistent across frameworks (e.g., coreference supports Expansion-like relations).
Discursive Circuits: How Do Language Models Understand Discourse Relations? 论文ID : 2510.11210标题 : Discursive Circuits: How Do Language Models Understand Discourse Relations?作者 : Yisong Miao, Min-Yen Kan (National University of Singapore)分类 : cs.CL (Computational Linguistics), cs.LG (Machine Learning)发表时间 : 2025年10月13日 (arXiv预印本)论文链接 : https://arxiv.org/abs/2510.11210 本文探讨了transformer语言模型中哪些组件负责话语理解。作者假设稀疏计算图(称为话语回路)控制着模型处理话语关系的方式。与简单任务不同,话语关系涉及更长的文本跨度和复杂推理。为使回路发现变得可行,作者引入了"话语关系下的完成"(CUDR)任务,让模型在指定关系下完成话语。实验表明,稀疏回路(约占GPT-2模型的0.2%)能在基于PDTB的CUDR任务中恢复话语理解能力,且能很好地泛化到RST和SDRT等未见过的话语框架。
话语结构对于确保语言模型安全和道德行为至关重要,但人们对语言模型内部如何处理话语知之甚少,这限制了我们保证模型可靠性和无害输出的能力。
安全性需求 : 话语理解对模型的安全和道德行为至关重要可解释性缺失 : 现有方法缺乏对话语处理机制的深入理解复杂性挑战 : 话语关系比简单任务涉及更长上下文和复杂推理注意力可视化 和理由生成 等方法缺乏机制性解释现有回路发现方法 主要关注简单任务(如数值比较),难以直接适应话语关系缺乏跨框架的统一理解 :不同话语框架间缺乏机制层面的比较通过桥接话语的语言学结构和回路发现的要求,开辟理解复杂语言任务机制的新路径。
提出CUDR任务 :设计了适合回路发现的话语关系完成任务构建多框架数据集 :涵盖PDTB、RST、SDRT等主要话语框架,共27,754个实例发现话语回路 :识别出仅占模型0.2%连接但能达到90%忠实度的稀疏回路跨框架泛化 :证明从PDTB学到的回路能很好泛化到其他话语框架构建回路层次结构 :首次基于神经回路组件构建话语层次结构语言特征分析 :揭示不同层次捕获的语言特征及其跨框架一致性CUDR任务创建了一个受控环境来测试模型的话语行为:
输入格式 :
原始话语:d o r i = ( A r g 1 , A r g 2 , R , C o n n ) d_{ori} = (Arg1, Arg2, R, Conn) d or i = ( A r g 1 , A r g 2 , R , C o nn ) 反事实话语:d c f = ( A r g 1 , A r g 2 ′ , R ′ , C o n n ′ ) d_{cf} = (Arg1, Arg'_2, R', Conn') d c f = ( A r g 1 , A r g 2 ′ , R ′ , C o n n ′ ) 任务设置 :
请选择以下两个选项之一来完成话语:
选项1: "he goes to the canteen"
选项2: "the canteen is closed"
待完成: [Bob is hungry]_{Arg1} [so]_{Conn} → [he goes to the canteen]_{Arg2}
通过改变话语连接词(从"so"到"but"),模型的预测应相应改变。
定义边e e e 的影响为:
g ( e ) = L ( x c f ∣ d o ( E = e o r i ) ) − L ( x c f ) g(e) = L(x_{cf}|do(E = e_{ori})) - L(x_{cf}) g ( e ) = L ( x c f ∣ d o ( E = e or i )) − L ( x c f )
其中L L L 是评价指标,x c f x_{cf} x c f 是反事实输入,e o r i e_{ori} e or i 是原始运行中的激活。
使用一阶泰勒近似加速计算:
g ( e ) ≈ ( z u o r i − z u c f ) T ∇ v L ( x c f ) g(e) \approx (z^{ori}_u - z^{cf}_u)^T \nabla_v L(x_{cf}) g ( e ) ≈ ( z u or i − z u c f ) T ∇ v L ( x c f )
其中z u o r i z^{ori}_u z u or i 和z u c f z^{cf}_u z u c f 分别是原始和反事实运行中节点u u u 的激活,∇ v L ( x c f ) \nabla_v L(x_{cf}) ∇ v L ( x c f ) 是节点v v v 处的梯度。
对给定话语关系的样本集应用归因修补 计算每条边的平均g ( e ) g(e) g ( e ) 值 选择绝对值最高的前1000条边构成回路 话语框架 关系数量 CUDR数据量 PDTB 13 11,843 GDTB 12 5,253 GUM-RST 17 6,805 SDRT 10 3,853 总计 52 27,754
使用GPT-4o-mini生成反事实A r g 2 ′ Arg'_2 A r g 2 ′ ,确保:
与原始A r g 1 Arg1 A r g 1 和反事实连接词C o n n ′ Conn' C o n n ′ 一致 长度匹配原始A r g 2 Arg2 A r g 2 关系表达清晰显著 主要模型 : GPT-2 medium (遵循现有回路发现研究的标准选择)扩展验证 : GPT-2 large忠实度分数 : Δ L p a t c h Δ L f u l l \frac{\Delta L_{patch}}{\Delta L_{full}} Δ L f u ll Δ L p a t c h (标准化忠实度)逻辑差异 : Δ L = L ( A r g 2 ) − L ( A r g 2 ′ ) \Delta L = L(Arg2) - L(Arg'_2) Δ L = L ( A r g 2 ) − L ( A r g 2 ′ ) 随机回路 : 随机采样的transformer边IOI回路 : 间接对象识别回路(代表通用语言建模能力)构建PDTB风格的回路层次:
L3 : 叶节点关系(1000条边)L2 : 合并多个L3回路(500+条边)L1 : 顶层类别回路(200-500条边)L0 : 元回路(137条边)强忠实度 : L3和L1回路仅用约200条边就达到90%忠实度优于基线 : 显著超越随机基线和IOI基线层次效应 : 细粒度回路(L3)在早期阶段更有效,但方差更大良好泛化 : PDTB回路能有效泛化到GDTB、RST、SDRT性能排序 : Own > L3 > L1 ≈ L0 > IOI > Random(一致趋势)回路重叠 : 框架间回路重叠与性能呈正相关(如PDTB→GDTB: r=0.44)发现五个关键语言特征的使用模式:
模态性 (modality): 使用最广泛同义性 (synonymy): 比反义性更常用否定 (negation): 跨框架一致使用反义性 (antonymy): 在因果和时间关系中较弱共指 (coreference): 在扩展类关系中最活跃低层 : 捕获语言特征(词汇语义、共指)高层 : 编码话语级抽象话语专用区域 : 源层8-16,目标层10-20包含话语专用边错误案例分析揭示PDTB回路在处理感叹词("yay!!")和主语省略等现象时的不足,而SDRT回路能更好处理这些情况。
框架发展 : PDTB、RST、SDRT三大主流框架统一努力 : DISRPT基准、自动框架转换等评估方法 : 问答式评估、合成数据生成回路发现 : 主要应用于简单任务(IOI、数值比较、主谓一致等)方法局限 : 现有方法难以处理复杂话语现象本文贡献 : 首次将回路发现应用于话语理解稀疏有效性 : 仅0.2%的模型连接就能实现话语理解跨框架一致性 : 语言模型可能编码了共享的话语关系表示层次化处理 : 低层处理语言特征,高层处理话语抽象特征一致性 : 语言特征效用跨框架保持一致语言限制 : 仅研究英语语料模型范围 : 主要关注单一transformer模型人脑对比 : 未与人类话语处理机制比较数据质量 : 生成的反事实数据相对简单直接多语言扩展 : 探索跨语言话语回路的一致性复杂场景 : 扩展到更复杂的话语风格和模糊场景应用导向 : 用于偏见检测和模型引导架构扩展 : 适应更大规模的语言模型创新性强 : 首次将回路发现应用于复杂话语理解任务方法严谨 : CUDR任务设计巧妙,能有效支持激活修补覆盖全面 : 涵盖多个主流话语框架,数据集规模可观分析深入 : 从回路层次到语言特征的多维度分析泛化性好 : 跨框架泛化结果令人信服计算复杂 : 回路发现过程计算密集,难以扩展到更大模型数据依赖 : 依赖LLM生成反事实数据,可能引入偏见评估局限 : 主要基于单一模型架构,泛化性有待验证理论深度 : 缺乏对为什么这些回路有效的理论解释学术价值 : 为话语理解的机制研究开辟新方向实用潜力 : 可用于模型调试、偏见检测等应用方法论贡献 : CUDR范式可推广到其他复杂NLP任务跨学科意义 : 连接计算语言学和机制可解释性研究模型分析 : 理解大型语言模型的话语处理机制安全检测 : 识别模型在话语理解中的潜在偏见模型改进 : 指导话语理解能力的针对性提升教育研究 : 为话语理论提供计算视角的验证论文引用了丰富的相关工作,包括:
话语理论经典文献:Mann & Thompson (1987), Asher & Lascarides (2003) 回路发现方法:Wang et al. (2023), Conmy et al. (2023) 话语数据集:Webber et al. (2019), Liu et al. (2024b) 机制可解释性:Zhang & Nanda (2024), Miller et al. (2024) 总体评价 : 这是一篇高质量的研究论文,在方法创新、实验设计和分析深度方面都表现出色。通过巧妙的CUDR任务设计,成功将回路发现技术应用于复杂的话语理解任务,为理解语言模型的内部机制提供了新的视角。尽管存在一些局限性,但其开创性的工作和丰富的发现使其具有重要的学术价值和实用潜力。