2025-11-18T13:37:13.426950

Why is Your Language Model a Poor Implicit Reward Model?

Razin, Lin, Yao et al.
Reward models are key to language model post-training and inference pipelines. Conveniently, recent work showed that every language model defines an implicit reward model (IM-RM), without requiring any architectural changes. However, such IM-RMs tend to generalize worse, especially out-of-distribution, compared to explicit reward models (EX-RMs) that apply a dedicated linear head over the hidden representations of a language model. The existence of a generalization gap is puzzling, as EX-RMs and IM-RMs are nearly identical. They can be trained using the same data, loss function, and language model, and differ only in how the reward is computed. Toward a fundamental understanding of the implicit biases underlying different reward model types, we investigate the root cause of this gap. Our main finding, backed by theory and experiments, is that IM-RMs rely more heavily on superficial token-level cues. Consequently, they often generalize worse than EX-RMs under token-level distribution shifts, as well as in-distribution. Furthermore, we provide evidence against alternative hypotheses for the generalization gap. Most notably, we challenge the intuitive claim that IM-RMs struggle in tasks where generation is harder than verification because they can operate both as a verifier and a generator. Taken together, our results highlight that seemingly minor design choices can substantially impact the generalization behavior of reward models.
academic

Why is Your Language Model a Poor Implicit Reward Model?

基本信息

  • 论文ID: 2507.07981
  • 标题: Why is Your Language Model a Poor Implicit Reward Model?
  • 作者: Noam Razin†, Yong Lin†, Jiarui Yao‡, Sanjeev Arora† (†Princeton University, ‡University of Illinois Urbana-Champaign)
  • 分类: cs.CL cs.AI cs.LG stat.ML
  • 发表时间/会议: arXiv preprint (2025年10月16日更新)
  • 论文链接: https://arxiv.org/abs/2507.07981v2

摘要

奖励模型是语言模型后训练和推理流水线的关键组件。最近的研究表明,每个语言模型都定义了一个隐式奖励模型(IM-RM),无需任何架构改变。然而,与在语言模型隐藏表示上应用专用线性头的显式奖励模型(EX-RM)相比,IM-RM的泛化能力往往更差,特别是在分布外情况下。这种泛化差距令人困惑,因为EX-RM和IM-RM几乎相同——它们可以使用相同的数据、损失函数和语言模型进行训练,仅在奖励计算方式上有所不同。本文深入研究了这种差距的根本原因,发现IM-RM更多地依赖于表面的token级线索,因此在token级分布偏移和分布内情况下的泛化能力都不如EX-RM。

研究背景与动机

问题定义

奖励模型在现代语言模型生态系统中发挥着核心作用,广泛应用于强化学习训练、直接对齐算法、拒绝采样、数据过滤和推理时扩展等场景。目前存在两种主要的奖励模型类型:

  1. 显式奖励模型(EX-RM):在语言模型的隐藏表示上应用线性头来计算奖励
  2. 隐式奖励模型(IM-RM):通过语言模型的对数概率隐式定义奖励

研究动机

尽管EX-RM和IM-RM在架构上几乎相同,但先前研究观察到IM-RM的泛化能力往往更差,特别是在分布外场景下。这种现象令人困惑,因为两种模型可以基于相同的语言模型、使用相同的数据和损失函数进行训练,仅在奖励计算方式上存在微小差异。

重要性

理解不同奖励模型类型的隐式偏差对于:

  • 选择合适的奖励模型架构
  • 提高奖励模型的鲁棒性
  • 优化语言模型的后训练流程 具有重要意义。

核心贡献

  1. 理论分析:通过学习动力学分析,揭示了IM-RM更多依赖token级线索,而EX-RM主要通过隐藏表示泛化
  2. 反驳直觉假设:证明了IM-RM的泛化问题并非源于生成-验证差距,学习验证并不需要学习生成
  3. 实证验证:在控制实验和真实场景中验证了IM-RM在token级分布偏移下表现更差,但在领域偏移下可能表现相当或更好
  4. 理论保证:在简化设置下证明了IM-RM无法泛化到未见token,而EX-RM可以通过良好结构的隐藏表示成功泛化

方法详解

任务定义

研究奖励模型在偏好数据上的排序准确率,即给定提示-回答对(x,y+,y-),其中y+是首选回答,y-是拒绝回答,评估奖励模型是否能正确排序:r(x,y+) > r(x,y-)。

模型架构

显式奖励模型(EX-RM)

r^EX_θ(x,y) = ⟨u, h_{x,y}⟩

其中u是线性头参数,h_{x,y}是语言模型为提示-回答对(x,y)产生的隐藏表示。

隐式奖励模型(IM-RM)

r^IM_θ(x,y) = β ln(π_θ(y|x)/π_ref(y|x))

其中β是固定系数,π_ref是参考分布(通常是初始化的语言模型)。

技术创新点

1. 学习动力学分析

通过分析梯度更新如何影响奖励分配,发现:

EX-RM动力学

Δr^EX_θ(x̄,ȳ) = ⟨h_{x̄,ȳ}, h_{x,y+} - h_{x,y-}⟩ · ηg(θ_EX)

IM-RM动力学

Δr^IM_θ(x̄,ȳ) = (∑∑ ρ_{k,l}(y+)⟨h_{x̄,ȳ<k}, h_{x,y+<l}⟩ - ∑∑ ρ_{k,l}(y-)⟨h_{x̄,ȳ<k}, h_{x,y-<l}⟩) · ηg(θ_IM)β²

关键发现:EX-RM的变化仅依赖于隐藏表示,而IM-RM的变化依赖于具体的token,系数ρ_{k,l}反映了token重叠情况。

2. 泛化差距理论

定理2:在简化设置下(单token回答),IM-RM无法泛化到未见token(准确率保持在0.5),而EX-RM可以通过隐藏表示的最大边界分离器泛化。

实验设置

数据集

  1. 控制实验
    • Persona数据集:同意/不同意任务
    • 汉密尔顿回路验证:合成图论任务
  2. 真实场景
    • UltraFeedback:通用对话数据
    • RewardMATH:数学推理数据
    • RewardBench:多领域评估基准

评价指标

  • 准确率:在偏好数据上的排序准确率
  • 绝对奖励边界:|r(x,y+) - r(x,y-)|的标准化值

对比方法

  • 显式奖励模型(EX-RM)
  • 隐式奖励模型(IM-RM)
  • 显式生成奖励模型(EX-GRM)

实现细节

  • 语言模型:Pythia、Gemma-2、Qwen-2.5、Llama-3系列(1B-8B参数)
  • 优化器:Adam
  • 学习率:1e-6
  • β系数:0.01(用于IM-RM)
  • 损失函数:Bradley-Terry对数似然损失

实验结果

主要结果

1. Token级分布偏移

  • UltraFeedback训练:EX-RM在token级偏移下胜率83.4%,IM-RM胜率16.6%
  • RewardMATH训练:EX-RM在token级偏移下胜率100%,IM-RM胜率0%

2. 领域偏移

  • UltraFeedback训练:在领域偏移下,IM-RM胜率66.7%,EX-RM胜率33.3%
  • RewardMATH训练:在领域偏移下,IM-RM胜率33.4%,EX-RM胜率66.6%

3. 控制实验结果

在Persona数据集的释义任务中:

  • EX-RM在原始和释义回答上都达到100%准确率
  • IM-RM在原始回答上100%准确率,但在释义回答上仅2.2%准确率

消融实验

1. 生成-验证假设验证

汉密尔顿回路实验显示:

  • IM-RM训练准确率:100%,测试准确率:99.3%
  • IM-RM正确生成数:0(无法生成任何正确的汉密尔顿回路)
  • 证明学习验证不需要学习生成

2. 替代假设检验

  • 测试了基于所有隐藏表示的EX-RM变体
  • 测试了无参考分布的IM-RM变体
  • 结果显示泛化差距仍然存在

实验发现

  1. Token敏感性:IM-RM对表面token变化极其敏感,即使语义相同也会失败
  2. 隐藏表示泛化:EX-RM能够通过语义丰富的隐藏表示成功泛化
  3. 奖励边界:EX-RM consistently产生更高的绝对奖励边界,有利于强化学习优化
  4. 领域适应性:IM-RM在某些领域偏移场景下表现更好

相关工作

奖励模型分析

现有研究主要关注样本复杂度界限和奖励模型的理论性质,但较少关注不同参数化方式对泛化的影响。

DPO vs RLHF

本研究与DPO(Direct Preference Optimization)和RLHF(Reinforcement Learning from Human Feedback)的比较相关,但重点不同:本文专注于奖励模型的泛化能力而非训练算法的比较。

神经网络学习动力学

借鉴了隐式偏差文献中分析梯度训练轨迹的方法,但应用于奖励模型的特定场景。

结论与讨论

主要结论

  1. 根本原因:IM-RM的泛化问题源于对表面token级线索的过度依赖,而非生成-验证差距
  2. 设计影响:看似微小的设计选择(如何计算奖励)可能对泛化行为产生重大影响
  3. 应用指导:在token级分布偏移场景下应优先选择EX-RM,在领域偏移场景下可考虑IM-RM

局限性

  1. 理论假设:理论分析基于固定隐藏表示和单token回答的简化假设
  2. 评估指标:主要关注准确率,未涵盖奖励模型有效性的所有维度
  3. 模型范围:主要研究了三种奖励模型类型,未涵盖所有可能的变体

未来方向

  1. 理论扩展:放宽当前理论分析的限制性假设
  2. 因素探索:研究影响不同奖励模型类型泛化的其他因素
  3. 评估扩展:开发更全面的奖励模型评估标准
  4. 新型架构:探索其他奖励模型类型的隐式偏差

深度评价

优点

  1. 理论深度:提供了严格的数学分析,从学习动力学角度解释了泛化差距
  2. 实验全面:结合控制实验和真实场景,涵盖多个语言模型和数据集
  3. 假设检验:系统性地检验和反驳了直观但错误的解释
  4. 实用价值:为实际应用中的奖励模型选择提供了明确指导

不足

  1. 假设限制:理论分析的简化假设可能限制结论的普适性
  2. 机制理解:对IM-RM在领域偏移下表现更好的机制缺乏深入分析
  3. 规模验证:实验主要在中小规模模型上进行,大规模模型的结论需要进一步验证

影响力

  1. 理论贡献:为理解不同奖励模型类型的行为提供了重要理论基础
  2. 实践指导:对RLHF和DPO等技术的应用具有直接指导意义
  3. 研究启发:为进一步研究奖励模型的隐式偏差开辟了新方向

适用场景

  1. 高质量要求:需要在分布偏移下保持稳定性能的应用
  2. Token敏感任务:涉及释义、翻译等token级变化的场景
  3. 鲁棒性关键:对奖励模型鲁棒性有严格要求的系统

参考文献

论文引用了大量相关工作,包括:

  • Ouyang et al. (2022): Training language models to follow instructions with human feedback
  • Rafailov et al. (2023): Direct preference optimization: Your language model is secretly a reward model
  • Lin et al. (2024): On the limited generalization capability of the implicit reward model induced by direct preference optimization
  • Lambert et al. (2025): Rewardbench: Evaluating reward models for language modeling

总体评价:这是一篇高质量的研究论文,通过严格的理论分析和全面的实验验证,深入揭示了不同奖励模型类型泛化能力差异的根本原因。论文不仅具有重要的理论价值,也为实际应用提供了有价值的指导。研究方法科学严谨,结论令人信服,是奖励模型研究领域的重要贡献。