Discursive Circuits: How Do Language Models Understand Discourse Relations?
Miao, Kan
Which components in transformer language models are responsible for discourse understanding? We hypothesize that sparse computational graphs, termed as discursive circuits, control how models process discourse relations. Unlike simpler tasks, discourse relations involve longer spans and complex reasoning. To make circuit discovery feasible, we introduce a task called Completion under Discourse Relation (CuDR), where a model completes a discourse given a specified relation. To support this task, we construct a corpus of minimal contrastive pairs tailored for activation patching in circuit discovery. Experiments show that sparse circuits ($\approx 0.2\%$ of a full GPT-2 model) recover discourse understanding in the English PDTB-based CuDR task. These circuits generalize well to unseen discourse frameworks such as RST and SDRT. Further analysis shows lower layers capture linguistic features such as lexical semantics and coreference, while upper layers encode discourse-level abstractions. Feature utility is consistent across frameworks (e.g., coreference supports Expansion-like relations).
본 논문은 트랜스포머 언어 모델에서 어떤 구성 요소가 담화 이해를 담당하는지 탐구합니다. 저자들은 희소 계산 그래프(담화 회로라고 불림)가 모델의 담화 관계 처리 방식을 제어한다고 가정합니다. 단순한 작업과 달리, 담화 관계는 더 긴 텍스트 범위와 복잡한 추론을 포함합니다. 회로 발견을 실현 가능하게 하기 위해 저자들은 "담화 관계 하에서의 완성"(CUDR) 작업을 도입하여 모델이 지정된 관계 하에서 담화를 완성하도록 합니다. 실험 결과, 희소 회로(GPT-2 모델의 약 0.2%)가 PDTB 기반 CUDR 작업에서 담화 이해 능력을 회복할 수 있으며, RST 및 SDRT 등 미학습 담화 프레임워크로 잘 일반화됨을 보여줍니다.
다음 두 옵션 중 하나를 선택하여 담화를 완성하세요:
옵션 1: "he goes to the canteen"
옵션 2: "the canteen is closed"
완성 대기: [Bob is hungry]_{Arg1} [so]_{Conn} → [he goes to the canteen]_{Arg2}
담화 연결사를 변경함으로써("so"에서 "but"로), 모델의 예측이 그에 따라 변경되어야 합니다.
담화 이론 고전 문헌: Mann & Thompson (1987), Asher & Lascarides (2003)
회로 발견 방법: Wang et al. (2023), Conmy et al. (2023)
담화 데이터셋: Webber et al. (2019), Liu et al. (2024b)
메커니즘 해석 가능성: Zhang & Nanda (2024), Miller et al. (2024)
종합 평가: 이는 방법론적 혁신, 실험 설계 및 분석 깊이 측면에서 우수한 고품질 연구 논문입니다. 정교한 CUDR 작업 설계를 통해 회로 발견 기술을 복잡한 담화 이해 작업에 성공적으로 적용하여 언어 모델의 내부 메커니즘을 이해하기 위한 새로운 관점을 제공합니다. 일부 한계가 있지만, 개척적인 작업과 풍부한 발견으로 인해 중요한 학술적 가치와 실용적 잠재력을 갖추고 있습니다.