2025-11-18T13:37:13.426950

Why is Your Language Model a Poor Implicit Reward Model?

Razin, Lin, Yao et al.

Reward models are key to language model post-training and inference pipelines. Conveniently, recent work showed that every language model defines an implicit reward model (IM-RM), without requiring any architectural changes. However, such IM-RMs tend to generalize worse, especially out-of-distribution, compared to explicit reward models (EX-RMs) that apply a dedicated linear head over the hidden representations of a language model. The existence of a generalization gap is puzzling, as EX-RMs and IM-RMs are nearly identical. They can be trained using the same data, loss function, and language model, and differ only in how the reward is computed. Toward a fundamental understanding of the implicit biases underlying different reward model types, we investigate the root cause of this gap. Our main finding, backed by theory and experiments, is that IM-RMs rely more heavily on superficial token-level cues. Consequently, they often generalize worse than EX-RMs under token-level distribution shifts, as well as in-distribution. Furthermore, we provide evidence against alternative hypotheses for the generalization gap. Most notably, we challenge the intuitive claim that IM-RMs struggle in tasks where generation is harder than verification because they can operate both as a verifier and a generator. Taken together, our results highlight that seemingly minor design choices can substantially impact the generalization behavior of reward models.

academic

당신의 언어 모델이 왜 형편없는 암묵적 보상 모델인가?

기본 정보

논문 ID: 2507.07981
제목: Why is Your Language Model a Poor Implicit Reward Model?
저자: Noam Razin†, Yong Lin†, Jiarui Yao‡, Sanjeev Arora† (†프린스턴 대학교, ‡일리노이 대학교 어바나-샴페인)
분류: cs.CL cs.AI cs.LG stat.ML
발표 시간/학회: arXiv 사전인쇄본 (2025년 10월 16일 업데이트)
논문 링크: https://arxiv.org/abs/2507.07981v2

초록

보상 모델은 언어 모델 후훈련 및 추론 파이프라인의 핵심 구성 요소입니다. 최근 연구에 따르면 모든 언어 모델은 아키텍처 변경 없이 암묵적 보상 모델(IM-RM)을 정의합니다. 그러나 언어 모델의 숨겨진 표현에 전용 선형 헤드를 적용하는 명시적 보상 모델(EX-RM)과 비교할 때, IM-RM의 일반화 능력은 특히 분포 외 상황에서 종종 더 나쁩니다. 이러한 일반화 격차는 EX-RM과 IM-RM이 거의 동일하기 때문에 혼란스럽습니다. 즉, 동일한 데이터, 손실 함수 및 언어 모델로 훈련될 수 있으며, 보상 계산 방식에서만 다릅니다. 본 논문은 이 격차의 근본 원인을 심층 조사하여 IM-RM이 표면적 토큰 수준 단서에 더 많이 의존하므로 토큰 수준 분포 편이와 분포 내 상황 모두에서 EX-RM보다 일반화 능력이 떨어진다는 것을 발견했습니다.

연구 배경 및 동기

문제 정의

보상 모델은 현대 언어 모델 생태계에서 핵심 역할을 하며, 강화학습 훈련, 직접 정렬 알고리즘, 거부 샘플링, 데이터 필터링 및 추론 시간 확장 등 광범위한 응용에 사용됩니다. 현재 두 가지 주요 보상 모델 유형이 존재합니다:

명시적 보상 모델(EX-RM): 언어 모델의 숨겨진 표현에 선형 헤드를 적용하여 보상을 계산
암묵적 보상 모델(IM-RM): 언어 모델의 로그 확률을 통해 암묵적으로 보상을 정의

연구 동기

EX-RM과 IM-RM이 아키텍처상 거의 동일함에도 불구하고, 이전 연구에서는 IM-RM의 일반화 능력이 종종 더 나쁘다는 것을 관찰했으며, 특히 분포 외 시나리오에서 그렇습니다. 이 현상은 혼란스러운데, 두 모델이 동일한 언어 모델을 기반으로 동일한 데이터와 손실 함수를 사용하여 훈련될 수 있고, 보상 계산 방식에서만 미미한 차이가 있기 때문입니다.

중요성

다양한 보상 모델 유형의 암묵적 편향을 이해하는 것은 다음에 중요합니다:

적절한 보상 모델 아키텍처 선택
보상 모델의 견고성 향상
언어 모델의 후훈련 프로세스 최적화

핵심 기여

이론 분석: 학습 동역학 분석을 통해 IM-RM이 토큰 수준 단서에 더 많이 의존하고 EX-RM은 주로 숨겨진 표현을 통해 일반화한다는 것을 밝혀냄
직관적 가정 반박: IM-RM의 일반화 문제가 생성-검증 격차에서 비롯되지 않으며, 검증 학습이 생성 학습을 필요로 하지 않음을 증명
실증적 검증: 제어 실험 및 실제 시나리오에서 IM-RM이 토큰 수준 분포 편이 하에서 더 나쁜 성능을 보이지만 도메인 편이 하에서는 동등하거나 더 나을 수 있음을 검증
이론적 보장: 단순화된 설정에서 IM-RM이 미확인 토큰으로 일반화할 수 없지만 EX-RM은 잘 구조화된 숨겨진 표현을 통해 성공적으로 일반화할 수 있음을 증명

방법론 상세 설명

작업 정의

선호도 데이터에 대한 보상 모델의 순위 정확도를 연구합니다. 즉, 프롬프트-응답 쌍(x,y+,y-)이 주어졌을 때(y+는 선호 응답, y-는 거부 응답), 보상 모델이 올바르게 순위를 매길 수 있는지 평가합니다: r(x,y+) > r(x,y-).

모델 아키텍처

명시적 보상 모델(EX-RM)

r^EX_θ(x,y) = ⟨u, h_{x,y}⟩

여기서 u는 선형 헤드 매개변수이고, h_{x,y}는 언어 모델이 프롬프트-응답 쌍(x,y)에 대해 생성한 숨겨진 표현입니다.

암묵적 보상 모델(IM-RM)

r^IM_θ(x,y) = β ln(π_θ(y|x)/π_ref(y|x))

여기서 β는 고정 계수이고, π_ref는 참조 분포(일반적으로 초기화된 언어 모델)입니다.

기술적 혁신점

1. 학습 동역학 분석

그래디언트 업데이트가 보상 할당에 어떻게 영향을 미치는지 분석하여 다음을 발견했습니다:

EX-RM 동역학:

Δr^EX_θ(x̄,ȳ) = ⟨h_{x̄,ȳ}, h_{x,y+} - h_{x,y-}⟩ · ηg(θ_EX)

IM-RM 동역학:

Δr^IM_θ(x̄,ȳ) = (∑∑ ρ_{k,l}(y+)⟨h_{x̄,ȳ<k}, h_{x,y+<l}⟩ - ∑∑ ρ_{k,l}(y-)⟨h_{x̄,ȳ<k}, h_{x,y-<l}⟩) · ηg(θ_IM)β²

핵심 발견: EX-RM의 변화는 숨겨진 표현에만 의존하지만, IM-RM의 변화는 특정 토큰에 의존하며, 계수 ρ_{k,l}은 토큰 겹침을 반영합니다.

2. 일반화 격차 이론

정리 2: 단순화된 설정(단일 토큰 응답)에서 IM-RM은 미확인 토큰으로 일반화할 수 없지만(정확도는 0.5 유지), EX-RM은 숨겨진 표현의 최대 마진 분리자를 통해 일반화할 수 있습니다.

실험 설정

데이터셋

제어 실험:
- Persona 데이터셋: 동의/불동의 작업
- 해밀턴 회로 검증: 합성 그래프 이론 작업
실제 시나리오:
- UltraFeedback: 일반 대화 데이터
- RewardMATH: 수학 추론 데이터
- RewardBench: 다중 도메인 평가 벤치마크

평가 지표

정확도: 선호도 데이터에 대한 순위 정확도
절대 보상 마진: |r(x,y+) - r(x,y-)|의 정규화된 값

비교 방법

명시적 보상 모델(EX-RM)
암묵적 보상 모델(IM-RM)
명시적 생성 보상 모델(EX-GRM)

구현 세부 사항

언어 모델: Pythia, Gemma-2, Qwen-2.5, Llama-3 시리즈(1B-8B 매개변수)
최적화기: Adam
학습률: 1e-6
β 계수: 0.01(IM-RM용)
손실 함수: Bradley-Terry 로그 우도 손실

실험 결과

주요 결과

1. 토큰 수준 분포 편이

UltraFeedback 훈련: EX-RM이 토큰 수준 편이에서 83.4% 승률, IM-RM 16.6% 승률
RewardMATH 훈련: EX-RM이 토큰 수준 편이에서 100% 승률, IM-RM 0% 승률

2. 도메인 편이

UltraFeedback 훈련: 도메인 편이 하에서 IM-RM 66.7% 승률, EX-RM 33.3% 승률
RewardMATH 훈련: 도메인 편이 하에서 IM-RM 33.4% 승률, EX-RM 66.6% 승률

3. 제어 실험 결과

Persona 데이터셋의 의역 작업에서:

EX-RM이 원본 및 의역 응답 모두에서 100% 정확도 달성
IM-RM이 원본 응답에서 100% 정확도이지만 의역 응답에서는 2.2% 정확도만 달성

제거 실험

1. 생성-검증 가설 검증

해밀턴 회로 실험에서:

IM-RM 훈련 정확도: 100%, 테스트 정확도: 99.3%
IM-RM 정확한 생성 수: 0(올바른 해밀턴 회로 생성 불가)
검증 학습이 생성 학습을 필요로 하지 않음을 증명

2. 대체 가설 검증

모든 숨겨진 표현을 기반으로 한 EX-RM 변형 테스트
참조 분포 없는 IM-RM 변형 테스트
결과는 일반화 격차가 여전히 존재함을 보여줌

실험 발견

토큰 민감성: IM-RM이 표면적 토큰 변화에 극도로 민감하며, 의미가 동일해도 실패
숨겨진 표현 일반화: EX-RM이 의미론적으로 풍부한 숨겨진 표현을 통해 성공적으로 일반화
보상 마진: EX-RM이 지속적으로 더 높은 절대 보상 마진을 생성하여 강화학습 최적화에 유리
도메인 적응성: IM-RM이 특정 도메인 편이 시나리오에서 더 나은 성능 발휘

결론 및 토론

주요 결론

근본 원인: IM-RM의 일반화 문제는 생성-검증 격차가 아닌 표면적 토큰 수준 단서에 대한 과도한 의존에서 비롯됨
설계 영향: 보상 계산 방식과 같은 미미한 설계 선택이 일반화 행동에 상당한 영향을 미칠 수 있음
응용 지침: 토큰 수준 분포 편이 시나리오에서는 EX-RM을 우선적으로 선택하고, 도메인 편이 시나리오에서는 IM-RM을 고려할 수 있음

제한 사항

이론적 가정: 이론 분석은 고정 숨겨진 표현 및 단일 토큰 응답의 단순화된 가정을 기반으로 함
평가 지표: 주로 정확도에 초점을 맞추며, 보상 모델 효과성의 모든 차원을 포함하지 않음
모델 범위: 주로 세 가지 보상 모델 유형을 연구했으며, 모든 가능한 변형을 포함하지 않음

향후 방향

이론 확장: 현재 이론 분석의 제한적 가정 완화
요인 탐색: 다양한 보상 모델 유형의 일반화에 영향을 미치는 다른 요인 연구
평가 확장: 보상 모델 평가를 위한 더 포괄적인 기준 개발
새로운 아키텍처: 다른 보상 모델 유형의 암묵적 편향 탐색

심층 평가

장점

이론적 깊이: 학습 동역학 관점에서 일반화 격차를 설명하는 엄격한 수학적 분석 제공
실험의 포괄성: 제어 실험과 실제 시나리오를 결합하여 여러 언어 모델 및 데이터셋 포함
가설 검증: 직관적이지만 잘못된 설명을 체계적으로 검증 및 반박
실용적 가치: 실제 응용에서 보상 모델 선택을 위한 명확한 지침 제공

부족한 점

가정 제한: 이론 분석의 단순화된 가정이 결론의 보편성을 제한할 수 있음
메커니즘 이해: IM-RM이 도메인 편이 하에서 더 나은 성능을 보이는 메커니즘에 대한 심층 분석 부족
규모 검증: 실험은 주로 중소 규모 모델에서 수행되었으며, 대규모 모델의 결론은 추가 검증 필요

영향력

이론적 기여: 다양한 보상 모델 유형의 행동을 이해하기 위한 중요한 이론적 기초 제공
실무 지침: RLHF 및 DPO 등 기술의 응용에 직접적인 지침 제공
연구 영감: 보상 모델의 암묵적 편향에 대한 추가 연구를 위한 새로운 방향 개척

적용 시나리오

높은 품질 요구: 분포 편이 하에서 안정적인 성능 유지가 필요한 응용
토큰 민감 작업: 의역, 번역 등 토큰 수준 변화가 포함된 시나리오
견고성 중요: 보상 모델 견고성에 대한 엄격한 요구 사항이 있는 시스템

참고 문헌

논문은 다음을 포함한 대량의 관련 연구를 인용합니다:

Ouyang et al. (2022): Training language models to follow instructions with human feedback
Rafailov et al. (2023): Direct preference optimization: Your language model is secretly a reward model
Lin et al. (2024): On the limited generalization capability of the implicit reward model induced by direct preference optimization
Lambert et al. (2025): Rewardbench: Evaluating reward models for language modeling

종합 평가: 이것은 엄격한 이론 분석과 포괄적인 실험 검증을 통해 다양한 보상 모델 유형의 일반화 능력 차이의 근본 원인을 심층 규명하는 고품질 연구 논문입니다. 논문은 중요한 이론적 가치를 가질 뿐만 아니라 실제 응용에 가치 있는 지침을 제공합니다. 연구 방법은 과학적이고 엄밀하며, 결론은 설득력 있으며, 보상 모델 연구 분야에 중요한 기여입니다.