2025-11-23T12:04:17.035274

Discursive Circuits: How Do Language Models Understand Discourse Relations?

Miao, Kan
Which components in transformer language models are responsible for discourse understanding? We hypothesize that sparse computational graphs, termed as discursive circuits, control how models process discourse relations. Unlike simpler tasks, discourse relations involve longer spans and complex reasoning. To make circuit discovery feasible, we introduce a task called Completion under Discourse Relation (CuDR), where a model completes a discourse given a specified relation. To support this task, we construct a corpus of minimal contrastive pairs tailored for activation patching in circuit discovery. Experiments show that sparse circuits ($\approx 0.2\%$ of a full GPT-2 model) recover discourse understanding in the English PDTB-based CuDR task. These circuits generalize well to unseen discourse frameworks such as RST and SDRT. Further analysis shows lower layers capture linguistic features such as lexical semantics and coreference, while upper layers encode discourse-level abstractions. Feature utility is consistent across frameworks (e.g., coreference supports Expansion-like relations).
academic

담화 회로: 언어 모델은 어떻게 담화 관계를 이해하는가?

기본 정보

  • 논문 ID: 2510.11210
  • 제목: Discursive Circuits: How Do Language Models Understand Discourse Relations?
  • 저자: Yisong Miao, Min-Yen Kan (싱가포르 국립대학교)
  • 분류: cs.CL (계산 언어학), cs.LG (기계학습)
  • 발표 시간: 2025년 10월 13일 (arXiv 사전인쇄본)
  • 논문 링크: https://arxiv.org/abs/2510.11210

초록

본 논문은 트랜스포머 언어 모델에서 어떤 구성 요소가 담화 이해를 담당하는지 탐구합니다. 저자들은 희소 계산 그래프(담화 회로라고 불림)가 모델의 담화 관계 처리 방식을 제어한다고 가정합니다. 단순한 작업과 달리, 담화 관계는 더 긴 텍스트 범위와 복잡한 추론을 포함합니다. 회로 발견을 실현 가능하게 하기 위해 저자들은 "담화 관계 하에서의 완성"(CUDR) 작업을 도입하여 모델이 지정된 관계 하에서 담화를 완성하도록 합니다. 실험 결과, 희소 회로(GPT-2 모델의 약 0.2%)가 PDTB 기반 CUDR 작업에서 담화 이해 능력을 회복할 수 있으며, RST 및 SDRT 등 미학습 담화 프레임워크로 잘 일반화됨을 보여줍니다.

연구 배경 및 동기

문제 정의

담화 구조는 언어 모델의 안전성과 윤리적 행동을 보장하는 데 중요하지만, 언어 모델 내부에서 담화를 어떻게 처리하는지에 대해 알려진 바가 거의 없으며, 이는 모델의 신뢰성과 무해한 출력을 보장하는 능력을 제한합니다.

연구의 중요성

  1. 안전성 요구: 담화 이해는 모델의 안전성과 윤리적 행동에 필수적
  2. 해석 가능성 부족: 기존 방법은 담화 처리 메커니즘에 대한 심층적 이해 부족
  3. 복잡성 도전: 담화 관계는 단순한 작업보다 더 긴 맥락과 복잡한 추론 포함

기존 방법의 한계

  1. 주의 시각화근거 생성 등의 방법은 메커니즘적 설명 부족
  2. 기존 회로 발견 방법은 주로 단순한 작업(예: 수치 비교)에 초점을 맞추며, 담화 관계에 직접 적용하기 어려움
  3. 프레임워크 간 통일된 이해 부족: 서로 다른 담화 프레임워크 간 메커니즘 수준의 비교 부족

연구 동기

담화의 언어학적 구조와 회로 발견의 요구 사항을 연결하여 복잡한 언어 작업의 메커니즘을 이해하는 새로운 경로를 개척합니다.

핵심 기여

  1. CUDR 작업 제안: 회로 발견에 적합한 담화 관계 완성 작업 설계
  2. 다중 프레임워크 데이터셋 구축: PDTB, RST, SDRT 등 주요 담화 프레임워크를 포함하며 총 27,754개 인스턴스
  3. 담화 회로 발견: 모델의 0.2%만 차지하지만 90% 충실도를 달성하는 희소 회로 식별
  4. 프레임워크 간 일반화: PDTB에서 학습한 회로가 다른 담화 프레임워크로 잘 일반화됨을 증명
  5. 회로 계층 구조 구축: 신경 회로 구성 요소를 기반으로 담화 계층 구조를 처음으로 구축
  6. 언어 특징 분석: 서로 다른 계층에서 포착된 언어 특징과 프레임워크 간 일관성 규명

방법론 상세 설명

작업 정의: CUDR (담화 관계 하에서의 완성)

CUDR 작업은 모델의 담화 행동을 테스트하기 위한 제어된 환경을 만듭니다:

입력 형식:

  • 원본 담화: dori=(Arg1,Arg2,R,Conn)d_{ori} = (Arg1, Arg2, R, Conn)
  • 반사실적 담화: dcf=(Arg1,Arg2,R,Conn)d_{cf} = (Arg1, Arg'_2, R', Conn')

작업 설정:

다음 두 옵션 중 하나를 선택하여 담화를 완성하세요:
옵션 1: "he goes to the canteen" 
옵션 2: "the canteen is closed"

완성 대기: [Bob is hungry]_{Arg1} [so]_{Conn} → [he goes to the canteen]_{Arg2}

담화 연결사를 변경함으로써("so"에서 "but"로), 모델의 예측이 그에 따라 변경되어야 합니다.

회로 발견 방법

활성화 패칭 (Activation Patching)

간선 ee의 영향을 다음과 같이 정의합니다: g(e)=L(xcfdo(E=eori))L(xcf)g(e) = L(x_{cf}|do(E = e_{ori})) - L(x_{cf})

여기서 LL은 평가 지표, xcfx_{cf}는 반사실적 입력, eorie_{ori}는 원본 실행의 활성화입니다.

간선 귀인 패칭 (Edge Attribution Patching)

1차 테일러 근사를 사용하여 계산을 가속화합니다: g(e)(zuorizucf)TvL(xcf)g(e) \approx (z^{ori}_u - z^{cf}_u)^T \nabla_v L(x_{cf})

여기서 zuoriz^{ori}_uzucfz^{cf}_u는 각각 원본 및 반사실적 실행에서 노드 uu의 활성화이고, vL(xcf)\nabla_v L(x_{cf})는 노드 vv에서의 기울기입니다.

담화 회로 구축

  1. 주어진 담화 관계의 샘플 집합에 귀인 패칭 적용
  2. 각 간선의 평균 g(e)g(e) 값 계산
  3. 절댓값이 가장 높은 상위 1000개 간선을 선택하여 회로 구성

데이터셋 구축

다중 프레임워크 커버리지

담화 프레임워크관계 수량CUDR 데이터
PDTB1311,843
GDTB125,253
GUM-RST176,805
SDRT103,853
총계5227,754

반사실적 생성 전략

GPT-4o-mini를 사용하여 반사실적 Arg2Arg'_2를 생성하며, 다음을 보장합니다:

  1. 원본 Arg1Arg1과 반사실적 연결사 ConnConn'과의 일관성
  2. 원본 Arg2Arg2와의 길이 일치
  3. 관계 표현의 명확한 현저성

실험 설정

모델 선택

  • 주요 모델: GPT-2 medium (기존 회로 발견 연구의 표준 선택 준수)
  • 확장 검증: GPT-2 large

평가 지표

  • 충실도 점수: ΔLpatchΔLfull\frac{\Delta L_{patch}}{\Delta L_{full}} (정규화된 충실도)
  • 논리적 차이: ΔL=L(Arg2)L(Arg2)\Delta L = L(Arg2) - L(Arg'_2)

기준 방법

  1. 무작위 회로: 무작위로 샘플링된 트랜스포머 간선
  2. IOI 회로: 간접 대상 식별 회로(일반적인 언어 모델링 능력 대표)

회로 계층 구조

PDTB 스타일의 회로 계층 구축:

  • L3: 리프 노드 관계(1000개 간선)
  • L2: 여러 L3 회로 병합(500+ 간선)
  • L1: 최상위 범주 회로(200-500개 간선)
  • L0: 메타 회로(137개 간선)

실험 결과

주요 결과

RQ1: 담화 회로의 충실도

  • 강한 충실도: L3 및 L1 회로는 약 200개 간선만으로 90% 충실도 달성
  • 기준 초과: 무작위 기준 및 IOI 기준을 크게 초과
  • 계층 효과: 세분화된 회로(L3)는 초기 단계에서 더 효과적이지만 분산이 더 큼

RQ2: 프레임워크 간 일반화 능력

  • 양호한 일반화: PDTB 회로가 GDTB, RST, SDRT로 효과적으로 일반화
  • 성능 순서: Own > L3 > L1 ≈ L0 > IOI > Random (일관된 추세)
  • 회로 중복: 프레임워크 간 회로 중복이 성능과 양의 상관관계(예: PDTB→GDTB: r=0.44)

RQ3: 언어 특징 분석

다섯 가지 주요 언어 특징의 사용 패턴 발견:

  1. 양태성 (modality): 가장 광범위하게 사용
  2. 동의어성 (synonymy): 반의어성보다 더 자주 사용
  3. 부정 (negation): 프레임워크 간 일관되게 사용
  4. 반의어성 (antonymy): 인과 및 시간 관계에서 더 약함
  5. 공지시 (coreference): 확장 클래스 관계에서 가장 활발

계층 분석

  • 저층: 언어 특징 포착(어휘 의미론, 공지시)
  • 고층: 담화 수준 추상화 인코딩
  • 담화 전용 영역: 소스 계층 8-16, 목표 계층 10-20에 담화 전용 간선 포함

사례 분석

오류 사례 분석은 감탄사("yay!!")와 주어 생략 등의 현상을 처리할 때 PDTB 회로의 부족함을 드러내며, SDRT 회로가 이러한 경우를 더 잘 처리할 수 있음을 보여줍니다.

관련 연구

담화 모델링

  • 프레임워크 발전: PDTB, RST, SDRT 세 가지 주류 프레임워크
  • 통일 노력: DISRPT 벤치마크, 자동 프레임워크 변환 등
  • 평가 방법: 질의응답식 평가, 합성 데이터 생성

메커니즘 해석 가능성

  • 회로 발견: 주로 단순한 작업에 적용(IOI, 수치 비교, 주술 일치 등)
  • 방법 한계: 기존 방법은 복잡한 담화 현상을 처리하기 어려움
  • 본 논문의 기여: 회로 발견을 담화 이해에 처음으로 적용

결론 및 논의

주요 결론

  1. 희소성의 효율성: 모델 연결의 0.2%만으로 담화 이해 실현 가능
  2. 프레임워크 간 일관성: 언어 모델이 공유된 담화 관계 표현을 인코딩할 수 있음
  3. 계층화된 처리: 저층은 언어 특징 처리, 고층은 담화 추상화 처리
  4. 특징 일관성: 언어 특징의 유용성이 프레임워크 간 유지됨

한계

  1. 언어 제한: 영어 말뭉치만 연구
  2. 모델 범위: 주로 단일 트랜스포머 모델에 초점
  3. 인간 뇌 비교: 인간의 담화 처리 메커니즘과의 비교 부재
  4. 데이터 품질: 생성된 반사실적 데이터가 상대적으로 단순하고 직관적

향후 방향

  1. 다국어 확장: 언어 간 담화 회로의 일관성 탐구
  2. 복잡한 시나리오: 더 복잡한 담화 스타일 및 모호한 경우로 확장
  3. 응용 지향: 편향 탐지 및 모델 유도에 활용
  4. 아키텍처 확장: 더 큰 규모의 언어 모델에 적응

심층 평가

장점

  1. 높은 혁신성: 회로 발견을 복잡한 담화 이해 작업에 처음으로 적용
  2. 엄밀한 방법론: CUDR 작업 설계가 정교하며 활성화 패칭을 효과적으로 지원
  3. 포괄적 커버리지: 여러 주류 담화 프레임워크를 포함하며 데이터셋 규모 상당
  4. 심층 분석: 회로 계층에서 언어 특징까지의 다차원 분석
  5. 우수한 일반화: 프레임워크 간 일반화 결과가 설득력 있음

부족한 점

  1. 계산 복잡성: 회로 발견 과정이 계산 집약적이며 더 큰 모델로의 확장 어려움
  2. 데이터 의존성: LLM 생성 반사실적 데이터에 의존하며 편향 도입 가능성
  3. 평가 한계: 주로 단일 모델 아키텍처 기반이며 일반화 가능성 검증 필요
  4. 이론적 깊이: 이러한 회로가 효과적인 이유에 대한 이론적 설명 부족

영향력

  1. 학술적 가치: 담화 이해의 메커니즘 연구에 새로운 방향 개척
  2. 실용적 잠재력: 모델 디버깅, 편향 탐지 등 응용에 활용 가능
  3. 방법론적 기여: CUDR 패러다임을 다른 복잡한 NLP 작업으로 확대 가능
  4. 학제 간 의의: 계산 언어학과 메커니즘 해석 가능성 연구 연결

적용 시나리오

  1. 모델 분석: 대규모 언어 모델의 담화 처리 메커니즘 이해
  2. 안전성 검사: 담화 이해에서 모델의 잠재적 편향 식별
  3. 모델 개선: 담화 이해 능력의 목표 지향적 향상 지도
  4. 교육 연구: 담화 이론에 대한 계산 관점의 검증 제공

참고문헌

논문은 풍부한 관련 연구를 인용하며, 다음을 포함합니다:

  • 담화 이론 고전 문헌: Mann & Thompson (1987), Asher & Lascarides (2003)
  • 회로 발견 방법: Wang et al. (2023), Conmy et al. (2023)
  • 담화 데이터셋: Webber et al. (2019), Liu et al. (2024b)
  • 메커니즘 해석 가능성: Zhang & Nanda (2024), Miller et al. (2024)

종합 평가: 이는 방법론적 혁신, 실험 설계 및 분석 깊이 측면에서 우수한 고품질 연구 논문입니다. 정교한 CUDR 작업 설계를 통해 회로 발견 기술을 복잡한 담화 이해 작업에 성공적으로 적용하여 언어 모델의 내부 메커니즘을 이해하기 위한 새로운 관점을 제공합니다. 일부 한계가 있지만, 개척적인 작업과 풍부한 발견으로 인해 중요한 학술적 가치와 실용적 잠재력을 갖추고 있습니다.