2025-11-18T13:37:13.426950

Why is Your Language Model a Poor Implicit Reward Model?

Razin, Lin, Yao et al.

Reward models are key to language model post-training and inference pipelines. Conveniently, recent work showed that every language model defines an implicit reward model (IM-RM), without requiring any architectural changes. However, such IM-RMs tend to generalize worse, especially out-of-distribution, compared to explicit reward models (EX-RMs) that apply a dedicated linear head over the hidden representations of a language model. The existence of a generalization gap is puzzling, as EX-RMs and IM-RMs are nearly identical. They can be trained using the same data, loss function, and language model, and differ only in how the reward is computed. Toward a fundamental understanding of the implicit biases underlying different reward model types, we investigate the root cause of this gap. Our main finding, backed by theory and experiments, is that IM-RMs rely more heavily on superficial token-level cues. Consequently, they often generalize worse than EX-RMs under token-level distribution shifts, as well as in-distribution. Furthermore, we provide evidence against alternative hypotheses for the generalization gap. Most notably, we challenge the intuitive claim that IM-RMs struggle in tasks where generation is harder than verification because they can operate both as a verifier and a generator. Taken together, our results highlight that seemingly minor design choices can substantially impact the generalization behavior of reward models.

academic

Why is Your Language Model a Poor Implicit Reward Model?

基本信息

论文ID: 2507.07981
标题: Why is Your Language Model a Poor Implicit Reward Model?
作者: Noam Razin†, Yong Lin†, Jiarui Yao‡, Sanjeev Arora† (†Princeton University, ‡University of Illinois Urbana-Champaign)
分类: cs.CL cs.AI cs.LG stat.ML
发表时间/会议: arXiv preprint (2025年10月16日更新)
论文链接: https://arxiv.org/abs/2507.07981v2

摘要

奖励模型是语言模型后训练和推理流水线的关键组件。最近的研究表明，每个语言模型都定义了一个隐式奖励模型（IM-RM），无需任何架构改变。然而，与在语言模型隐藏表示上应用专用线性头的显式奖励模型（EX-RM）相比，IM-RM的泛化能力往往更差，特别是在分布外情况下。这种泛化差距令人困惑，因为EX-RM和IM-RM几乎相同——它们可以使用相同的数据、损失函数和语言模型进行训练，仅在奖励计算方式上有所不同。本文深入研究了这种差距的根本原因，发现IM-RM更多地依赖于表面的token级线索，因此在token级分布偏移和分布内情况下的泛化能力都不如EX-RM。

研究背景与动机

问题定义

奖励模型在现代语言模型生态系统中发挥着核心作用，广泛应用于强化学习训练、直接对齐算法、拒绝采样、数据过滤和推理时扩展等场景。目前存在两种主要的奖励模型类型：

显式奖励模型（EX-RM）：在语言模型的隐藏表示上应用线性头来计算奖励
隐式奖励模型（IM-RM）：通过语言模型的对数概率隐式定义奖励

研究动机

尽管EX-RM和IM-RM在架构上几乎相同，但先前研究观察到IM-RM的泛化能力往往更差，特别是在分布外场景下。这种现象令人困惑，因为两种模型可以基于相同的语言模型、使用相同的数据和损失函数进行训练，仅在奖励计算方式上存在微小差异。

重要性

理解不同奖励模型类型的隐式偏差对于：

选择合适的奖励模型架构
提高奖励模型的鲁棒性
优化语言模型的后训练流程具有重要意义。

核心贡献

理论分析：通过学习动力学分析，揭示了IM-RM更多依赖token级线索，而EX-RM主要通过隐藏表示泛化
反驳直觉假设：证明了IM-RM的泛化问题并非源于生成-验证差距，学习验证并不需要学习生成
实证验证：在控制实验和真实场景中验证了IM-RM在token级分布偏移下表现更差，但在领域偏移下可能表现相当或更好
理论保证：在简化设置下证明了IM-RM无法泛化到未见token，而EX-RM可以通过良好结构的隐藏表示成功泛化

方法详解

任务定义

研究奖励模型在偏好数据上的排序准确率，即给定提示-回答对(x,y+,y-)，其中y+是首选回答，y-是拒绝回答，评估奖励模型是否能正确排序：r(x,y+) > r(x,y-)。

模型架构

显式奖励模型（EX-RM）

r^EX_θ(x,y) = ⟨u, h_{x,y}⟩

其中u是线性头参数，h_{x,y}是语言模型为提示-回答对(x,y)产生的隐藏表示。

隐式奖励模型（IM-RM）

r^IM_θ(x,y) = β ln(π_θ(y|x)/π_ref(y|x))

其中β是固定系数，π_ref是参考分布（通常是初始化的语言模型）。

技术创新点

1. 学习动力学分析

通过分析梯度更新如何影响奖励分配，发现：

EX-RM动力学：

Δr^EX_θ(x̄,ȳ) = ⟨h_{x̄,ȳ}, h_{x,y+} - h_{x,y-}⟩ · ηg(θ_EX)

IM-RM动力学：

Δr^IM_θ(x̄,ȳ) = (∑∑ ρ_{k,l}(y+)⟨h_{x̄,ȳ<k}, h_{x,y+<l}⟩ - ∑∑ ρ_{k,l}(y-)⟨h_{x̄,ȳ<k}, h_{x,y-<l}⟩) · ηg(θ_IM)β²

关键发现：EX-RM的变化仅依赖于隐藏表示，而IM-RM的变化依赖于具体的token，系数ρ_{k,l}反映了token重叠情况。

2. 泛化差距理论

定理2：在简化设置下（单token回答），IM-RM无法泛化到未见token（准确率保持在0.5），而EX-RM可以通过隐藏表示的最大边界分离器泛化。

实验设置

数据集

控制实验：
- Persona数据集：同意/不同意任务
- 汉密尔顿回路验证：合成图论任务
真实场景：
- UltraFeedback：通用对话数据
- RewardMATH：数学推理数据
- RewardBench：多领域评估基准

评价指标

准确率：在偏好数据上的排序准确率
绝对奖励边界：|r(x,y+) - r(x,y-)|的标准化值

对比方法

显式奖励模型（EX-RM）
隐式奖励模型（IM-RM）
显式生成奖励模型（EX-GRM）

实现细节

语言模型：Pythia、Gemma-2、Qwen-2.5、Llama-3系列（1B-8B参数）
优化器：Adam
学习率：1e-6
β系数：0.01（用于IM-RM）
损失函数：Bradley-Terry对数似然损失

实验结果

主要结果

1. Token级分布偏移

UltraFeedback训练：EX-RM在token级偏移下胜率83.4%，IM-RM胜率16.6%
RewardMATH训练：EX-RM在token级偏移下胜率100%，IM-RM胜率0%

2. 领域偏移

UltraFeedback训练：在领域偏移下，IM-RM胜率66.7%，EX-RM胜率33.3%
RewardMATH训练：在领域偏移下，IM-RM胜率33.4%，EX-RM胜率66.6%

3. 控制实验结果

在Persona数据集的释义任务中：

EX-RM在原始和释义回答上都达到100%准确率
IM-RM在原始回答上100%准确率，但在释义回答上仅2.2%准确率

消融实验

1. 生成-验证假设验证

汉密尔顿回路实验显示：

IM-RM训练准确率：100%，测试准确率：99.3%
IM-RM正确生成数：0（无法生成任何正确的汉密尔顿回路）
证明学习验证不需要学习生成

2. 替代假设检验

测试了基于所有隐藏表示的EX-RM变体
测试了无参考分布的IM-RM变体
结果显示泛化差距仍然存在

实验发现

Token敏感性：IM-RM对表面token变化极其敏感，即使语义相同也会失败
隐藏表示泛化：EX-RM能够通过语义丰富的隐藏表示成功泛化
奖励边界：EX-RM consistently产生更高的绝对奖励边界，有利于强化学习优化
领域适应性：IM-RM在某些领域偏移场景下表现更好

结论与讨论

主要结论

根本原因：IM-RM的泛化问题源于对表面token级线索的过度依赖，而非生成-验证差距
设计影响：看似微小的设计选择（如何计算奖励）可能对泛化行为产生重大影响
应用指导：在token级分布偏移场景下应优先选择EX-RM，在领域偏移场景下可考虑IM-RM

局限性

理论假设：理论分析基于固定隐藏表示和单token回答的简化假设
评估指标：主要关注准确率，未涵盖奖励模型有效性的所有维度
模型范围：主要研究了三种奖励模型类型，未涵盖所有可能的变体

未来方向

理论扩展：放宽当前理论分析的限制性假设
因素探索：研究影响不同奖励模型类型泛化的其他因素
评估扩展：开发更全面的奖励模型评估标准
新型架构：探索其他奖励模型类型的隐式偏差

深度评价

优点

理论深度：提供了严格的数学分析，从学习动力学角度解释了泛化差距
实验全面：结合控制实验和真实场景，涵盖多个语言模型和数据集
假设检验：系统性地检验和反驳了直观但错误的解释
实用价值：为实际应用中的奖励模型选择提供了明确指导

不足

假设限制：理论分析的简化假设可能限制结论的普适性
机制理解：对IM-RM在领域偏移下表现更好的机制缺乏深入分析
规模验证：实验主要在中小规模模型上进行，大规模模型的结论需要进一步验证

影响力

理论贡献：为理解不同奖励模型类型的行为提供了重要理论基础
实践指导：对RLHF和DPO等技术的应用具有直接指导意义
研究启发：为进一步研究奖励模型的隐式偏差开辟了新方向

适用场景

高质量要求：需要在分布偏移下保持稳定性能的应用
Token敏感任务：涉及释义、翻译等token级变化的场景
鲁棒性关键：对奖励模型鲁棒性有严格要求的系统

参考文献

论文引用了大量相关工作，包括：

Ouyang et al. (2022): Training language models to follow instructions with human feedback
Rafailov et al. (2023): Direct preference optimization: Your language model is secretly a reward model
Lin et al. (2024): On the limited generalization capability of the implicit reward model induced by direct preference optimization
Lambert et al. (2025): Rewardbench: Evaluating reward models for language modeling

总体评价：这是一篇高质量的研究论文，通过严格的理论分析和全面的实验验证，深入揭示了不同奖励模型类型泛化能力差异的根本原因。论文不仅具有重要的理论价值，也为实际应用提供了有价值的指导。研究方法科学严谨，结论令人信服，是奖励模型研究领域的重要贡献。