Which components in transformer language models are responsible for discourse understanding? We hypothesize that sparse computational graphs, termed as discursive circuits, control how models process discourse relations. Unlike simpler tasks, discourse relations involve longer spans and complex reasoning. To make circuit discovery feasible, we introduce a task called Completion under Discourse Relation (CuDR), where a model completes a discourse given a specified relation. To support this task, we construct a corpus of minimal contrastive pairs tailored for activation patching in circuit discovery. Experiments show that sparse circuits ($\approx 0.2\%$ of a full GPT-2 model) recover discourse understanding in the English PDTB-based CuDR task. These circuits generalize well to unseen discourse frameworks such as RST and SDRT. Further analysis shows lower layers capture linguistic features such as lexical semantics and coreference, while upper layers encode discourse-level abstractions. Feature utility is consistent across frameworks (e.g., coreference supports Expansion-like relations).
論文ID : 2510.11210タイトル : Discursive Circuits: How Do Language Models Understand Discourse Relations?著者 : Yisong Miao, Min-Yen Kan(シンガポール国立大学)分類 : cs.CL(計算言語学)、cs.LG(機械学習)発表日 : 2025年10月13日(arXiv プレプリント)論文リンク : https://arxiv.org/abs/2510.11210 本論文は、Transformerベースの言語モデルにおいて、どのコンポーネントが談話理解を担当しているかを探究している。著者らは、スパース計算グラフ(「談話回路」と呼ばれる)がモデルの談話関係処理方法を制御するという仮説を立てている。単純なタスクと異なり、談話関係はより長いテキストスパンと複雑な推論を含む。回路発見を実行可能にするため、著者らは「談話関係下での完成」(CUDR)タスクを導入し、モデルが指定された関係下で談話を完成させるようにしている。実験結果は、スパース回路(GPT-2モデルの約0.2%)がPDTBベースのCUDRタスクで談話理解能力を回復でき、RSTやSDRTなどの未見の談話フレームワークにも良好に一般化することを示している。
談話構造は言語モデルの安全性と倫理的行動を確保するために重要であるが、言語モデル内部がどのように談話を処理するかについての理解は限定的であり、これはモデルの信頼性と無害な出力を保証する能力を制限している。
安全性の要件 : 談話理解はモデルの安全性と倫理的行動に不可欠である解釈可能性の欠落 : 既存の方法は談話処理メカニズムの深い理解に欠ける複雑性の課題 : 談話関係は単純なタスクよりも長いコンテキストと複雑な推論を含む注意メカニズムの可視化 と根拠生成 などの手法は機構的説明に欠ける既存の回路発見手法 は主に単純なタスク(数値比較など)に焦点を当てており、談話関係への直接的な適応が困難であるフレームワーク間の統一的理解の欠落 : 異なる談話フレームワーク間で機構レベルの比較が不足している談話の言語学的構造と回路発見の要件を橋渡しすることで、複雑な言語タスクのメカニズムを理解する新しい道を開く。
CUDRタスクの提案 : 回路発見に適した談話関係完成タスクを設計マルチフレームワークデータセットの構築 : PDTB、RST、SDRTなどの主要な談話フレームワークを含む27,754個のインスタンス談話回路の発見 : モデルの0.2%の接続のみで90%の忠実度を達成するスパース回路を特定フレームワーク間の一般化 : PDTBから学習した回路が他の談話フレームワークに良好に一般化することを証明回路階層構造の構築 : ニューラル回路コンポーネントに基づいて初めて談話階層構造を構築言語特性分析 : 異なるレベルで捉えられた言語特性とそのフレームワーク間の一貫性を明らかにするCUDRタスクはモデルの談話行動をテストするための制御環境を作成する:
入力形式 :
元の談話:d o r i = ( A r g 1 , A r g 2 , R , C o n n ) d_{ori} = (Arg1, Arg2, R, Conn) d or i = ( A r g 1 , A r g 2 , R , C o nn ) 反事実談話:d c f = ( A r g 1 , A r g 2 ′ , R ′ , C o n n ′ ) d_{cf} = (Arg1, Arg'_2, R', Conn') d c f = ( A r g 1 , A r g 2 ′ , R ′ , C o n n ′ ) タスク設定 :
以下の2つのオプションのいずれかを選択して談話を完成させてください:
オプション1: 「彼は食堂に行く」
オプション2: 「食堂は閉まっている」
完成対象: [ボブはお腹が空いている]_{Arg1} [だから]_{Conn} → [彼は食堂に行く]_{Arg2}
談話接続詞を「だから」から「しかし」に変更することで、モデルの予測は相応に変わるべきである。
辺e e e の影響を以下のように定義する:
g ( e ) = L ( x c f ∣ d o ( E = e o r i ) ) − L ( x c f ) g(e) = L(x_{cf}|do(E = e_{ori})) - L(x_{cf}) g ( e ) = L ( x c f ∣ d o ( E = e or i )) − L ( x c f )
ここでL L L は評価指標、x c f x_{cf} x c f は反事実入力、e o r i e_{ori} e or i は元の実行における活性化である。
一次テイラー近似を使用して計算を高速化する:
g ( e ) ≈ ( z u o r i − z u c f ) T ∇ v L ( x c f ) g(e) \approx (z^{ori}_u - z^{cf}_u)^T \nabla_v L(x_{cf}) g ( e ) ≈ ( z u or i − z u c f ) T ∇ v L ( x c f )
ここでz u o r i z^{ori}_u z u or i とz u c f z^{cf}_u z u c f はそれぞれ元の実行と反事実実行におけるノードu u u の活性化、∇ v L ( x c f ) \nabla_v L(x_{cf}) ∇ v L ( x c f ) はノードv v v における勾配である。
与えられた談話関係のサンプルセットに帰属パッチングを適用 各辺の平均g ( e ) g(e) g ( e ) 値を計算 絶対値が最も高い上位1000辺を選択して回路を構成 談話フレームワーク 関係数 CUDRデータ量 PDTB 13 11,843 GDTB 12 5,253 GUM-RST 17 6,805 SDRT 10 3,853 合計 52 27,754
GPT-4o-miniを使用して反事実A r g 2 ′ Arg'_2 A r g 2 ′ を生成し、以下を確保する:
元のA r g 1 Arg1 A r g 1 と反事実接続詞C o n n ′ Conn' C o n n ′ との一貫性 元のA r g 2 Arg2 A r g 2 との長さの一致 関係表現の明確で顕著な表現 主要モデル : GPT-2 medium(既存の回路発見研究の標準的選択に従う)拡張検証 : GPT-2 large忠実度スコア : Δ L p a t c h Δ L f u l l \frac{\Delta L_{patch}}{\Delta L_{full}} Δ L f u ll Δ L p a t c h (正規化忠実度)論理的差異 : Δ L = L ( A r g 2 ) − L ( A r g 2 ′ ) \Delta L = L(Arg2) - L(Arg'_2) Δ L = L ( A r g 2 ) − L ( A r g 2 ′ ) ランダム回路 : ランダムにサンプリングされたTransformer辺IOI回路 : 間接目的語識別回路(一般的な言語モデリング能力の代表)PDTBスタイルの回路階層を構築:
L3 : リーフノード関係(1000辺)L2 : 複数のL3回路の統合(500以上の辺)L1 : トップレベルカテゴリ回路(200~500辺)L0 : メタ回路(137辺)強い忠実度 : L3およびL1回路は約200辺のみで90%の忠実度を達成ベースラインを上回る : ランダムベースラインおよびIOIベースラインを大幅に上回る階層効果 : 細粒度回路(L3)は初期段階でより効果的だが、分散が大きい良好な一般化 : PDTB回路はGDTB、RST、SDRTに効果的に一般化性能順序 : Own > L3 > L1 ≈ L0 > IOI > Random(一貫した傾向)回路重複 : フレームワーク間の回路重複と性能は正の相関(例:PDTB→GDTB: r=0.44)5つの重要な言語特性の使用パターンを発見:
モダリティ (modality): 最も広く使用される同義性 (synonymy): 反義性より頻繁に使用される否定 (negation): フレームワーク間で一貫して使用される反義性 (antonymy): 因果および時間関係では比較的弱い共参照 (coreference): 拡張クラス関係で最も活発低層 : 言語特性を捉える(語彙意味論、共参照)高層 : 談話レベルの抽象化をエンコード談話専用領域 : ソース層8~16、ターゲット層10~20に談話専用辺が含まれるエラーケース分析は、感動詞(「yay!!」)や主語省略などの現象を処理する際のPDTB回路の不足を明らかにし、SDRT回路がこれらの状況をより良く処理できることを示している。
フレームワーク発展 : PDTB、RST、SDRT 3つの主流フレームワーク統一の取り組み : DISRPTベンチマーク、自動フレームワーク変換など評価手法 : 質問応答式評価、合成データ生成回路発見 : 主に単純なタスク(IOI、数値比較、主述一致など)への応用手法の限界 : 既存手法は複雑な談話現象の処理が困難本論文の貢献 : 談話理解への回路発見の初めての応用スパースの有効性 : モデル接続の0.2%のみで談話理解を実現フレームワーク間の一貫性 : 言語モデルは共有された談話関係表現をエンコードしている可能性がある階層的処理 : 低層は言語特性を処理し、高層は談話抽象化を処理特性の一貫性 : 言語特性の有用性はフレームワーク間で保持される言語の制限 : 英語コーパスのみを研究対象モデル範囲 : 主に単一のTransformerモデルに焦点人間の脳との比較 : 人間の談話処理メカニズムとの比較がないデータ品質 : 生成された反事実データは比較的単純で直接的多言語拡張 : 言語間談話回路の一貫性を探究複雑なシナリオ : より複雑な談話スタイルと曖昧なシナリオへの拡張応用指向 : バイアス検出とモデルガイダンスへの使用アーキテクチャ拡張 : より大規模な言語モデルへの適応革新性が高い : 複雑な談話理解タスクへの回路発見の初めての応用方法が厳密 : CUDRタスク設計は巧妙で、活性化パッチングを効果的に支援カバレッジが包括的 : 複数の主流談話フレームワークを含み、データセット規模は相応分析が深い : 回路階層から言語特性までの多次元分析一般化性が良好 : フレームワーク間の一般化結果は説得力がある計算の複雑性 : 回路発見プロセスは計算集約的で、より大規模なモデルへのスケーリングが困難データへの依存 : LLMが生成した反事実データに依存し、バイアスが導入される可能性がある評価の限界 : 主に単一のモデルアーキテクチャに基づいており、一般化性の検証が必要理論的深さの不足 : これらの回路が有効である理由についての理論的説明に欠ける学術的価値 : 談話理解の機構研究に新しい方向を開く実用的可能性 : モデルデバッグ、バイアス検出などの応用に使用可能方法論的貢献 : CUDRパラダイムは他の複雑なNLPタスクに一般化可能学際的意義 : 計算言語学と機構的解釈可能性研究を結びつけるモデル分析 : 大規模言語モデルの談話処理メカニズムの理解安全性検出 : モデルの談話理解における潜在的バイアスの特定モデル改善 : 談話理解能力の向上に対する的を絞った指導教育研究 : 談話理論に対する計算的視点からの検証論文は豊富な関連研究を引用している:
談話理論の古典文献:Mann & Thompson (1987)、Asher & Lascarides (2003) 回路発見手法:Wang et al. (2023)、Conmy et al. (2023) 談話データセット:Webber et al. (2019)、Liu et al. (2024b) 機構的解釈可能性:Zhang & Nanda (2024)、Miller et al. (2024) 総合評価 : これは方法の革新性、実験設計、分析の深さにおいて優れた高品質の研究論文である。巧妙なCUDRタスク設計を通じて、回路発見技術を複雑な談話理解タスクに成功裏に適用し、言語モデルの内部メカニズムを理解するための新しい視点を提供している。いくつかの限界は存在するが、その開拓的な業績と豊富な発見は、重要な学術的価値と実用的可能性を持つ。