2025-11-18T13:37:13.426950

Why is Your Language Model a Poor Implicit Reward Model?

Razin, Lin, Yao et al.
Reward models are key to language model post-training and inference pipelines. Conveniently, recent work showed that every language model defines an implicit reward model (IM-RM), without requiring any architectural changes. However, such IM-RMs tend to generalize worse, especially out-of-distribution, compared to explicit reward models (EX-RMs) that apply a dedicated linear head over the hidden representations of a language model. The existence of a generalization gap is puzzling, as EX-RMs and IM-RMs are nearly identical. They can be trained using the same data, loss function, and language model, and differ only in how the reward is computed. Toward a fundamental understanding of the implicit biases underlying different reward model types, we investigate the root cause of this gap. Our main finding, backed by theory and experiments, is that IM-RMs rely more heavily on superficial token-level cues. Consequently, they often generalize worse than EX-RMs under token-level distribution shifts, as well as in-distribution. Furthermore, we provide evidence against alternative hypotheses for the generalization gap. Most notably, we challenge the intuitive claim that IM-RMs struggle in tasks where generation is harder than verification because they can operate both as a verifier and a generator. Taken together, our results highlight that seemingly minor design choices can substantially impact the generalization behavior of reward models.
academic

なぜあなたの言語モデルは貧弱な暗黙的報酬モデルなのか?

基本情報

  • 論文ID: 2507.07981
  • タイトル: Why is Your Language Model a Poor Implicit Reward Model?
  • 著者: Noam Razin†, Yong Lin†, Jiarui Yao‡, Sanjeev Arora† (†プリンストン大学, ‡イリノイ大学アーバナ・シャンペーン校)
  • 分類: cs.CL cs.AI cs.LG stat.ML
  • 発表日時/会議: arXiv preprint (2025年10月16日更新)
  • 論文リンク: https://arxiv.org/abs/2507.07981v2

要旨

報酬モデルは言語モデルの後訓練および推論パイプラインの重要な構成要素である。最近の研究により、すべての言語モデルはアーキテクチャの変更なしに暗黙的報酬モデル(IM-RM)を定義することが示されている。しかし、言語モデルの隠れ表現に専用の線形ヘッドを適用する明示的報酬モデル(EX-RM)と比較して、IM-RMの汎化能力は往々にして劣っており、特に分布外の状況下ではそうである。この汎化ギャップは困惑させるものである。なぜなら、EX-RMとIM-RMはほぼ同一であり、同じデータ、損失関数、言語モデルで訓練でき、報酬計算方法のみが異なるからである。本論文はこのギャップの根本原因を深く調査し、IM-RMがより表面的なトークンレベルの手がかりに依存しており、したがってトークンレベルの分布シフトと分布内の状況下の両方でEX-RMより劣った汎化能力を持つことを発見した。

研究背景と動機

問題定義

報酬モデルは現代の言語モデルエコシステムにおいて中核的な役割を果たし、強化学習訓練、直接アライメントアルゴリズム、拒否サンプリング、データフィルタリング、推論時スケーリングなど幅広いシナリオで応用されている。現在、主に2つのタイプの報酬モデルが存在する:

  1. 明示的報酬モデル(EX-RM):言語モデルの隠れ表現に線形ヘッドを適用して報酬を計算する
  2. 暗黙的報酬モデル(IM-RM):言語モデルの対数確率を通じて報酬を暗黙的に定義する

研究動機

EX-RMとIM-RMはアーキテクチャ上ほぼ同一であるにもかかわらず、先行研究ではIM-RMの汎化能力が往々にして劣ることが観察されている。特に分布外シナリオではそうである。この現象は困惑させるものである。なぜなら、両モデルは同じ言語モデルに基づき、同じデータと損失関数を使用して訓練でき、報酬計算方法のみにおいて微小な差異があるからである。

重要性

異なる報酬モデルタイプの暗黙的バイアスを理解することは、以下の点で重要である:

  • 適切な報酬モデルアーキテクチャの選択
  • 報酬モデルのロバスト性の向上
  • 言語モデルの後訓練プロセスの最適化

核心的貢献

  1. 理論分析:学習ダイナミクス分析を通じて、IM-RMがトークンレベルの手がかりにより多く依存し、EX-RMが主に隠れ表現を通じて汎化することを明らかにした
  2. 直感的仮説の反論:IM-RMの汎化問題が生成-検証ギャップに由来するのではなく、検証学習は生成学習を必要としないことを証明した
  3. 実証的検証:制御実験と実際のシナリオにおいて、IM-RMがトークンレベルの分布シフト下でより劣った性能を示すことを検証したが、ドメインシフト下では同等またはより優れた性能を示す可能性がある
  4. 理論的保証:簡略化された設定下で、IM-RMが未見のトークンへの汎化に失敗する一方、EX-RMは良好に構造化された隠れ表現を通じて成功裏に汎化できることを証明した

方法の詳細

タスク定義

偏好データ上の報酬モデルのランキング精度を研究する。すなわち、プロンプト-応答ペア(x,y+,y-)が与えられた場合(y+は優先応答、y-は拒否応答)、報酬モデルが正しくランキングできるかを評価する:r(x,y+) > r(x,y-)。

モデルアーキテクチャ

明示的報酬モデル(EX-RM)

r^EX_θ(x,y) = ⟨u, h_{x,y}⟩

ここでuは線形ヘッドパラメータ、h_{x,y}はプロンプト-応答ペア(x,y)に対して言語モデルが生成する隠れ表現である。

暗黙的報酬モデル(IM-RM)

r^IM_θ(x,y) = β ln(π_θ(y|x)/π_ref(y|x))

ここでβは固定係数、π_refは参照分布(通常は初期化された言語モデル)である。

技術的革新点

1. 学習ダイナミクス分析

勾配更新が報酬配分にどのように影響するかを分析することで、以下を発見した:

EX-RMダイナミクス

Δr^EX_θ(x̄,ȳ) = ⟨h_{x̄,ȳ}, h_{x,y+} - h_{x,y-}⟩ · ηg(θ_EX)

IM-RMダイナミクス

Δr^IM_θ(x̄,ȳ) = (∑∑ ρ_{k,l}(y+)⟨h_{x̄,ȳ<k}, h_{x,y+<l}⟩ - ∑∑ ρ_{k,l}(y-)⟨h_{x̄,ȳ<k}, h_{x,y-<l}⟩) · ηg(θ_IM)β²

重要な発見:EX-RMの変化は隠れ表現のみに依存するが、IM-RMの変化は具体的なトークンに依存し、係数ρ_{k,l}はトークンの重複を反映している。

2. 汎化ギャップ理論

定理2:簡略化された設定下(単一トークン応答)では、IM-RMは未見のトークンへの汎化に失敗し(精度は0.5のまま)、EX-RMは隠れ表現の最大マージン分離器を通じて汎化できる。

実験設定

データセット

  1. 制御実験
    • Personaデータセット:同意/不同意タスク
    • ハミルトン回路検証:合成グラフ理論タスク
  2. 実際のシナリオ
    • UltraFeedback:一般的な対話データ
    • RewardMATH:数学推論データ
    • RewardBench:マルチドメイン評価ベンチマーク

評価指標

  • 精度:偏好データ上のランキング精度
  • 絶対報酬マージン:|r(x,y+) - r(x,y-)|の正規化値

比較方法

  • 明示的報酬モデル(EX-RM)
  • 暗黙的報酬モデル(IM-RM)
  • 明示的生成報酬モデル(EX-GRM)

実装詳細

  • 言語モデル:Pythia、Gemma-2、Qwen-2.5、Llama-3シリーズ(1B-8Bパラメータ)
  • オプティマイザー:Adam
  • 学習率:1e-6
  • β係数:0.01(IM-RM用)
  • 損失関数:Bradley-Terry対数尤度損失

実験結果

主要な結果

1. トークンレベルの分布シフト

  • UltraFeedback訓練:EX-RMのトークンレベルシフト下での勝率83.4%、IM-RMの勝率16.6%
  • RewardMATH訓練:EX-RMのトークンレベルシフト下での勝率100%、IM-RMの勝率0%

2. ドメインシフト

  • UltraFeedback訓練:ドメインシフト下で、IM-RMの勝率66.7%、EX-RMの勝率33.3%
  • RewardMATH訓練:ドメインシフト下で、IM-RMの勝率33.4%、EX-RMの勝率66.6%

3. 制御実験の結果

Personaデータセットの言い換えタスクにおいて:

  • EX-RMは元の応答と言い換え応答の両方で100%の精度を達成
  • IM-RMは元の応答で100%の精度だが、言い換え応答では2.2%の精度のみ

アブレーション実験

1. 生成-検証仮説の検証

ハミルトン回路実験は以下を示している:

  • IM-RM訓練精度:100%、テスト精度:99.3%
  • IM-RM正しい生成数:0(正しいハミルトン回路を生成できない)
  • 検証学習は生成学習を必要としないことを証明

2. 代替仮説の検証

  • すべての隠れ表現に基づくEX-RM変体をテスト
  • 参照分布なしのIM-RM変体をテスト
  • 結果は汎化ギャップが依然として存在することを示している

実験的発見

  1. トークン感度:IM-RMは表面的なトークン変化に極めて敏感であり、意味が同じでも失敗する
  2. 隠れ表現汎化:EX-RMは意味的に豊かな隠れ表現を通じて成功裏に汎化できる
  3. 報酬マージン:EX-RMは一貫してより高い絶対報酬マージンを生成し、強化学習の最適化に有利である
  4. ドメイン適応性:IM-RMは特定のドメインシフトシナリオでより優れた性能を示す

関連研究

報酬モデル分析

既存研究は主にサンプル複雑度の境界と報酬モデルの理論的性質に焦点を当てているが、異なるパラメータ化方法が汎化に与える影響についてはあまり関心がない。

DPO対RLHF

本研究はDPO(直接選好最適化)およびRLHF(人間フィードバックからの強化学習)との比較に関連しているが、焦点が異なる:本論文は訓練アルゴリズムの比較ではなく、報酬モデルの汎化能力に焦点を当てている。

ニューラルネットワーク学習ダイナミクス

暗黙的バイアス文献から勾配訓練軌跡を分析する方法を借用しているが、報酬モデルの特定のシナリオに適用している。

結論と議論

主要な結論

  1. 根本原因:IM-RMの汎化問題は生成-検証ギャップではなく、表面的なトークンレベルの手がかりへの過度な依存に由来する
  2. 設計の影響:一見微小な設計選択(報酬の計算方法)は汎化動作に大きな影響を与える可能性がある
  3. 応用ガイダンス:トークンレベルの分布シフトシナリオではEX-RMを優先すべき、ドメインシフトシナリオではIM-RMの検討が可能

制限事項

  1. 理論的仮定:理論分析は固定隠れ表現と単一トークン応答の簡略化された仮定に基づいている
  2. 評価指標:主に精度に焦点を当てており、報酬モデルの有効性のすべての側面をカバーしていない
  3. モデル範囲:主に3つのタイプの報酬モデルを研究しており、すべての可能な変体をカバーしていない

今後の方向性

  1. 理論的拡張:現在の理論分析の制限的な仮定を緩和する
  2. 要因探索:異なる報酬モデルタイプの汎化に影響する他の要因を研究する
  3. 評価拡張:報酬モデルのより包括的な評価基準を開発する
  4. 新型アーキテクチャ:他の報酬モデルタイプの暗黙的バイアスを探索する

深い評価

利点

  1. 理論的深さ:学習ダイナミクスの観点から汎化ギャップを説明する厳密な数学分析を提供している
  2. 実験の包括性:制御実験と実際のシナリオを組み合わせ、複数の言語モデルとデータセットをカバーしている
  3. 仮説検証:直感的だが誤った説明を体系的に検証し反論している
  4. 実用的価値:実際のアプリケーションにおける報酬モデル選択に明確なガイダンスを提供している

不足点

  1. 仮定の制限:理論分析の簡略化された仮定は結論の普遍性を制限する可能性がある
  2. メカニズム理解:IM-RMがドメインシフト下でより優れた性能を示すメカニズムについて深い分析が不足している
  3. 規模検証:実験は主に中小規模モデルで実施されており、大規模モデルの結論はさらなる検証が必要である

影響力

  1. 理論的貢献:異なる報酬モデルタイプの動作を理解するための重要な理論的基礎を提供している
  2. 実践的ガイダンス:RLHFおよびDPOなどの技術の応用に直接的なガイダンス価値がある
  3. 研究的インスピレーション:報酬モデルの暗黙的バイアスのさらなる研究のための新しい方向を開く

適用シナリオ

  1. 高品質要件:分布シフト下での安定した性能維持が必要なアプリケーション
  2. トークン感度タスク:言い換え、翻訳などのトークンレベルの変化を伴うシナリオ
  3. ロバスト性重視:報酬モデルのロバスト性に厳密な要件がある システム

参考文献

論文は多くの関連研究を引用しており、以下を含む:

  • Ouyang et al. (2022): 人間フィードバックで指示に従うように言語モデルを訓練する
  • Rafailov et al. (2023): 直接選好最適化:あなたの言語モデルは秘密の報酬モデルである
  • Lin et al. (2024): 直接選好最適化によって誘発される暗黙的報酬モデルの限定的な汎化能力について
  • Lambert et al. (2025): RewardBench:言語モデリングの報酬モデルを評価する

総合評価:これは高品質な研究論文であり、厳密な理論分析と包括的な実験検証を通じて、異なる報酬モデルタイプの汎化能力の差異の根本原因を深く明らかにしている。論文は重要な理論的価値を持つだけでなく、実際のアプリケーションにも価値あるガイダンスを提供している。研究方法は科学的で厳密であり、結論は説得力があり、報酬モデル研究分野への重要な貢献である。