Why is Your Language Model a Poor Implicit Reward Model?
Razin, Lin, Yao et al.
Reward models are key to language model post-training and inference pipelines. Conveniently, recent work showed that every language model defines an implicit reward model (IM-RM), without requiring any architectural changes. However, such IM-RMs tend to generalize worse, especially out-of-distribution, compared to explicit reward models (EX-RMs) that apply a dedicated linear head over the hidden representations of a language model. The existence of a generalization gap is puzzling, as EX-RMs and IM-RMs are nearly identical. They can be trained using the same data, loss function, and language model, and differ only in how the reward is computed. Toward a fundamental understanding of the implicit biases underlying different reward model types, we investigate the root cause of this gap. Our main finding, backed by theory and experiments, is that IM-RMs rely more heavily on superficial token-level cues. Consequently, they often generalize worse than EX-RMs under token-level distribution shifts, as well as in-distribution. Furthermore, we provide evidence against alternative hypotheses for the generalization gap. Most notably, we challenge the intuitive claim that IM-RMs struggle in tasks where generation is harder than verification because they can operate both as a verifier and a generator. Taken together, our results highlight that seemingly minor design choices can substantially impact the generalization behavior of reward models.
보상 모델은 언어 모델 후훈련 및 추론 파이프라인의 핵심 구성 요소입니다. 최근 연구에 따르면 모든 언어 모델은 아키텍처 변경 없이 암묵적 보상 모델(IM-RM)을 정의합니다. 그러나 언어 모델의 숨겨진 표현에 전용 선형 헤드를 적용하는 명시적 보상 모델(EX-RM)과 비교할 때, IM-RM의 일반화 능력은 특히 분포 외 상황에서 종종 더 나쁩니다. 이러한 일반화 격차는 EX-RM과 IM-RM이 거의 동일하기 때문에 혼란스럽습니다. 즉, 동일한 데이터, 손실 함수 및 언어 모델로 훈련될 수 있으며, 보상 계산 방식에서만 다릅니다. 본 논문은 이 격차의 근본 원인을 심층 조사하여 IM-RM이 표면적 토큰 수준 단서에 더 많이 의존하므로 토큰 수준 분포 편이와 분포 내 상황 모두에서 EX-RM보다 일반화 능력이 떨어진다는 것을 발견했습니다.
EX-RM과 IM-RM이 아키텍처상 거의 동일함에도 불구하고, 이전 연구에서는 IM-RM의 일반화 능력이 종종 더 나쁘다는 것을 관찰했으며, 특히 분포 외 시나리오에서 그렇습니다. 이 현상은 혼란스러운데, 두 모델이 동일한 언어 모델을 기반으로 동일한 데이터와 손실 함수를 사용하여 훈련될 수 있고, 보상 계산 방식에서만 미미한 차이가 있기 때문입니다.
Ouyang et al. (2022): Training language models to follow instructions with human feedback
Rafailov et al. (2023): Direct preference optimization: Your language model is secretly a reward model
Lin et al. (2024): On the limited generalization capability of the implicit reward model induced by direct preference optimization
Lambert et al. (2025): Rewardbench: Evaluating reward models for language modeling
종합 평가: 이것은 엄격한 이론 분석과 포괄적인 실험 검증을 통해 다양한 보상 모델 유형의 일반화 능력 차이의 근본 원인을 심층 규명하는 고품질 연구 논문입니다. 논문은 중요한 이론적 가치를 가질 뿐만 아니라 실제 응용에 가치 있는 지침을 제공합니다. 연구 방법은 과학적이고 엄밀하며, 결론은 설득력 있으며, 보상 모델 연구 분야에 중요한 기여입니다.