2025-11-23T12:04:17.035274

Discursive Circuits: How Do Language Models Understand Discourse Relations?

Miao, Kan
Which components in transformer language models are responsible for discourse understanding? We hypothesize that sparse computational graphs, termed as discursive circuits, control how models process discourse relations. Unlike simpler tasks, discourse relations involve longer spans and complex reasoning. To make circuit discovery feasible, we introduce a task called Completion under Discourse Relation (CuDR), where a model completes a discourse given a specified relation. To support this task, we construct a corpus of minimal contrastive pairs tailored for activation patching in circuit discovery. Experiments show that sparse circuits ($\approx 0.2\%$ of a full GPT-2 model) recover discourse understanding in the English PDTB-based CuDR task. These circuits generalize well to unseen discourse frameworks such as RST and SDRT. Further analysis shows lower layers capture linguistic features such as lexical semantics and coreference, while upper layers encode discourse-level abstractions. Feature utility is consistent across frameworks (e.g., coreference supports Expansion-like relations).
academic

談話回路:言語モデルは談話関係をどのように理解するのか

基本情報

  • 論文ID: 2510.11210
  • タイトル: Discursive Circuits: How Do Language Models Understand Discourse Relations?
  • 著者: Yisong Miao, Min-Yen Kan(シンガポール国立大学)
  • 分類: cs.CL(計算言語学)、cs.LG(機械学習)
  • 発表日: 2025年10月13日(arXiv プレプリント)
  • 論文リンク: https://arxiv.org/abs/2510.11210

要約

本論文は、Transformerベースの言語モデルにおいて、どのコンポーネントが談話理解を担当しているかを探究している。著者らは、スパース計算グラフ(「談話回路」と呼ばれる)がモデルの談話関係処理方法を制御するという仮説を立てている。単純なタスクと異なり、談話関係はより長いテキストスパンと複雑な推論を含む。回路発見を実行可能にするため、著者らは「談話関係下での完成」(CUDR)タスクを導入し、モデルが指定された関係下で談話を完成させるようにしている。実験結果は、スパース回路(GPT-2モデルの約0.2%)がPDTBベースのCUDRタスクで談話理解能力を回復でき、RSTやSDRTなどの未見の談話フレームワークにも良好に一般化することを示している。

研究背景と動機

問題定義

談話構造は言語モデルの安全性と倫理的行動を確保するために重要であるが、言語モデル内部がどのように談話を処理するかについての理解は限定的であり、これはモデルの信頼性と無害な出力を保証する能力を制限している。

研究の重要性

  1. 安全性の要件: 談話理解はモデルの安全性と倫理的行動に不可欠である
  2. 解釈可能性の欠落: 既存の方法は談話処理メカニズムの深い理解に欠ける
  3. 複雑性の課題: 談話関係は単純なタスクよりも長いコンテキストと複雑な推論を含む

既存手法の限界

  1. 注意メカニズムの可視化根拠生成などの手法は機構的説明に欠ける
  2. 既存の回路発見手法は主に単純なタスク(数値比較など)に焦点を当てており、談話関係への直接的な適応が困難である
  3. フレームワーク間の統一的理解の欠落: 異なる談話フレームワーク間で機構レベルの比較が不足している

研究の動機

談話の言語学的構造と回路発見の要件を橋渡しすることで、複雑な言語タスクのメカニズムを理解する新しい道を開く。

核心的貢献

  1. CUDRタスクの提案: 回路発見に適した談話関係完成タスクを設計
  2. マルチフレームワークデータセットの構築: PDTB、RST、SDRTなどの主要な談話フレームワークを含む27,754個のインスタンス
  3. 談話回路の発見: モデルの0.2%の接続のみで90%の忠実度を達成するスパース回路を特定
  4. フレームワーク間の一般化: PDTBから学習した回路が他の談話フレームワークに良好に一般化することを証明
  5. 回路階層構造の構築: ニューラル回路コンポーネントに基づいて初めて談話階層構造を構築
  6. 言語特性分析: 異なるレベルで捉えられた言語特性とそのフレームワーク間の一貫性を明らかにする

方法の詳細

タスク定義:CUDR(談話関係下での完成)

CUDRタスクはモデルの談話行動をテストするための制御環境を作成する:

入力形式

  • 元の談話:dori=(Arg1,Arg2,R,Conn)d_{ori} = (Arg1, Arg2, R, Conn)
  • 反事実談話:dcf=(Arg1,Arg2,R,Conn)d_{cf} = (Arg1, Arg'_2, R', Conn')

タスク設定

以下の2つのオプションのいずれかを選択して談話を完成させてください:
オプション1: 「彼は食堂に行く」
オプション2: 「食堂は閉まっている」

完成対象: [ボブはお腹が空いている]_{Arg1} [だから]_{Conn} → [彼は食堂に行く]_{Arg2}

談話接続詞を「だから」から「しかし」に変更することで、モデルの予測は相応に変わるべきである。

回路発見方法

活性化パッチング(Activation Patching)

eeの影響を以下のように定義する: g(e)=L(xcfdo(E=eori))L(xcf)g(e) = L(x_{cf}|do(E = e_{ori})) - L(x_{cf})

ここでLLは評価指標、xcfx_{cf}は反事実入力、eorie_{ori}は元の実行における活性化である。

辺帰属パッチング(Edge Attribution Patching)

一次テイラー近似を使用して計算を高速化する: g(e)(zuorizucf)TvL(xcf)g(e) \approx (z^{ori}_u - z^{cf}_u)^T \nabla_v L(x_{cf})

ここでzuoriz^{ori}_uzucfz^{cf}_uはそれぞれ元の実行と反事実実行におけるノードuuの活性化、vL(xcf)\nabla_v L(x_{cf})はノードvvにおける勾配である。

談話回路の構築

  1. 与えられた談話関係のサンプルセットに帰属パッチングを適用
  2. 各辺の平均g(e)g(e)値を計算
  3. 絶対値が最も高い上位1000辺を選択して回路を構成

データセット構築

マルチフレームワークカバレッジ

談話フレームワーク関係数CUDRデータ量
PDTB1311,843
GDTB125,253
GUM-RST176,805
SDRT103,853
合計5227,754

反事実生成戦略

GPT-4o-miniを使用して反事実Arg2Arg'_2を生成し、以下を確保する:

  1. 元のArg1Arg1と反事実接続詞ConnConn'との一貫性
  2. 元のArg2Arg2との長さの一致
  3. 関係表現の明確で顕著な表現

実験設定

モデル選択

  • 主要モデル: GPT-2 medium(既存の回路発見研究の標準的選択に従う)
  • 拡張検証: GPT-2 large

評価指標

  • 忠実度スコア: ΔLpatchΔLfull\frac{\Delta L_{patch}}{\Delta L_{full}}(正規化忠実度)
  • 論理的差異: ΔL=L(Arg2)L(Arg2)\Delta L = L(Arg2) - L(Arg'_2)

ベースライン手法

  1. ランダム回路: ランダムにサンプリングされたTransformer辺
  2. IOI回路: 間接目的語識別回路(一般的な言語モデリング能力の代表)

回路階層構造

PDTBスタイルの回路階層を構築:

  • L3: リーフノード関係(1000辺)
  • L2: 複数のL3回路の統合(500以上の辺)
  • L1: トップレベルカテゴリ回路(200~500辺)
  • L0: メタ回路(137辺)

実験結果

主要結果

RQ1: 談話回路の忠実度

  • 強い忠実度: L3およびL1回路は約200辺のみで90%の忠実度を達成
  • ベースラインを上回る: ランダムベースラインおよびIOIベースラインを大幅に上回る
  • 階層効果: 細粒度回路(L3)は初期段階でより効果的だが、分散が大きい

RQ2: フレームワーク間の一般化能力

  • 良好な一般化: PDTB回路はGDTB、RST、SDRTに効果的に一般化
  • 性能順序: Own > L3 > L1 ≈ L0 > IOI > Random(一貫した傾向)
  • 回路重複: フレームワーク間の回路重複と性能は正の相関(例:PDTB→GDTB: r=0.44)

RQ3: 言語特性分析

5つの重要な言語特性の使用パターンを発見:

  1. モダリティ(modality): 最も広く使用される
  2. 同義性(synonymy): 反義性より頻繁に使用される
  3. 否定(negation): フレームワーク間で一貫して使用される
  4. 反義性(antonymy): 因果および時間関係では比較的弱い
  5. 共参照(coreference): 拡張クラス関係で最も活発

階層分析

  • 低層: 言語特性を捉える(語彙意味論、共参照)
  • 高層: 談話レベルの抽象化をエンコード
  • 談話専用領域: ソース層8~16、ターゲット層10~20に談話専用辺が含まれる

ケーススタディ

エラーケース分析は、感動詞(「yay!!」)や主語省略などの現象を処理する際のPDTB回路の不足を明らかにし、SDRT回路がこれらの状況をより良く処理できることを示している。

関連研究

談話モデリング

  • フレームワーク発展: PDTB、RST、SDRT 3つの主流フレームワーク
  • 統一の取り組み: DISRPTベンチマーク、自動フレームワーク変換など
  • 評価手法: 質問応答式評価、合成データ生成

機構的解釈可能性

  • 回路発見: 主に単純なタスク(IOI、数値比較、主述一致など)への応用
  • 手法の限界: 既存手法は複雑な談話現象の処理が困難
  • 本論文の貢献: 談話理解への回路発見の初めての応用

結論と考察

主要な結論

  1. スパースの有効性: モデル接続の0.2%のみで談話理解を実現
  2. フレームワーク間の一貫性: 言語モデルは共有された談話関係表現をエンコードしている可能性がある
  3. 階層的処理: 低層は言語特性を処理し、高層は談話抽象化を処理
  4. 特性の一貫性: 言語特性の有用性はフレームワーク間で保持される

限界

  1. 言語の制限: 英語コーパスのみを研究対象
  2. モデル範囲: 主に単一のTransformerモデルに焦点
  3. 人間の脳との比較: 人間の談話処理メカニズムとの比較がない
  4. データ品質: 生成された反事実データは比較的単純で直接的

今後の方向性

  1. 多言語拡張: 言語間談話回路の一貫性を探究
  2. 複雑なシナリオ: より複雑な談話スタイルと曖昧なシナリオへの拡張
  3. 応用指向: バイアス検出とモデルガイダンスへの使用
  4. アーキテクチャ拡張: より大規模な言語モデルへの適応

深度評価

利点

  1. 革新性が高い: 複雑な談話理解タスクへの回路発見の初めての応用
  2. 方法が厳密: CUDRタスク設計は巧妙で、活性化パッチングを効果的に支援
  3. カバレッジが包括的: 複数の主流談話フレームワークを含み、データセット規模は相応
  4. 分析が深い: 回路階層から言語特性までの多次元分析
  5. 一般化性が良好: フレームワーク間の一般化結果は説得力がある

不足

  1. 計算の複雑性: 回路発見プロセスは計算集約的で、より大規模なモデルへのスケーリングが困難
  2. データへの依存: LLMが生成した反事実データに依存し、バイアスが導入される可能性がある
  3. 評価の限界: 主に単一のモデルアーキテクチャに基づいており、一般化性の検証が必要
  4. 理論的深さの不足: これらの回路が有効である理由についての理論的説明に欠ける

影響力

  1. 学術的価値: 談話理解の機構研究に新しい方向を開く
  2. 実用的可能性: モデルデバッグ、バイアス検出などの応用に使用可能
  3. 方法論的貢献: CUDRパラダイムは他の複雑なNLPタスクに一般化可能
  4. 学際的意義: 計算言語学と機構的解釈可能性研究を結びつける

適用シーン

  1. モデル分析: 大規模言語モデルの談話処理メカニズムの理解
  2. 安全性検出: モデルの談話理解における潜在的バイアスの特定
  3. モデル改善: 談話理解能力の向上に対する的を絞った指導
  4. 教育研究: 談話理論に対する計算的視点からの検証

参考文献

論文は豊富な関連研究を引用している:

  • 談話理論の古典文献:Mann & Thompson (1987)、Asher & Lascarides (2003)
  • 回路発見手法:Wang et al. (2023)、Conmy et al. (2023)
  • 談話データセット:Webber et al. (2019)、Liu et al. (2024b)
  • 機構的解釈可能性:Zhang & Nanda (2024)、Miller et al. (2024)

総合評価: これは方法の革新性、実験設計、分析の深さにおいて優れた高品質の研究論文である。巧妙なCUDRタスク設計を通じて、回路発見技術を複雑な談話理解タスクに成功裏に適用し、言語モデルの内部メカニズムを理解するための新しい視点を提供している。いくつかの限界は存在するが、その開拓的な業績と豊富な発見は、重要な学術的価値と実用的可能性を持つ。