Group-relative Policy Optimization's (GRPO) simplicity makes it highly desirable for adapting LLMs to become experts at specific tasks. But this simplicity also makes it ill-specified as we seek to enhance RL training with richer, non-binary feedback. When using ordinal rewards to give partial credit, GRPO's simplicity starts to hurt, as its group-average baseline often assigns a positive advantage to failed trajectories and reinforces incorrect behavior.
We introduce Correctness Relative Policy Optimization (CoRPO), a new formulation that solves this flaw. CoRPO uses an adaptive baseline that enforces a minimum quality threshold, ensuring failed solutions are never positively reinforced. Once the policy consistently meets this threshold, the baseline automatically transitions to a relative preference mode, pushing the model to find optimal solutions rather than just "acceptable" ones. We empirically validate CoRPO on a code verification task, where it demonstrates more stable convergence and better out-of-domain generalization.
This work represents a critical step in our broader research program to enable LLMs to learn genuinely new capabilities through reinforcement learning. We achieve this by enabling LLMs to learn from rich, multi-dimensional feedback - progressing from binary to ordinal rewards in this work, and onward to denser, per-step supervision.
- 論文ID: 2511.04439
- タイトル: The Peril of Preference: Why GRPO fails on Ordinal Rewards
- 著者: Anisha Garg, Ganesh Venkatesh (Cerebras Applied AI Research)
- 分類: cs.AI, cs.LG
- 発表日: 2025年11月6日 (arXiv プレプリント)
- 論文リンク: https://arxiv.org/abs/2511.04439
グループ相対ポリシー最適化(GRPO)は、その簡潔性により大規模言語モデル(LLM)が特定のタスクを実行するための適応において広く支持されています。しかし、より豊かな非二値フィードバックを使用して強化学習の訓練を強化しようとする場合、この簡潔性は規範化不足をもたらします。序数報酬を使用して部分的な報酬を与える場合、GRPOの簡潔性は負の影響を生じ始め、グループ平均に基づくベースラインは失敗した軌跡に正の優位性を割り当てることが多く、誤った行動を強化します。本論文は、この欠陥に対処する新しい定式化である正確性相対ポリシー最適化(CoRPO)を導入します。CoRPOは適応的ベースラインを使用して最小品質閾値を強制し、失敗したソリューションが決して正の強化を受けないようにします。ポリシーがこの閾値を一貫して満たすと、ベースラインは自動的に相対選好モードに転換し、単に「受け入れ可能な」ソリューションではなく最適なソリューションを求めるようにモデルを駆動します。
- GRPOの広範な応用: GRPOは、その簡潔性と効率性により、数学およびコード生成などの検証可能なタスクで広く採用されており、特に複雑な価値関数ではなくグループ平均報酬をベースラインとして使用しています。
- 二値から序数報酬への転換: 既存のRL方法は主に二値選好用に設計されていますが、実際のアプリケーションでは1~5評価などの序数報酬のようなより豊かなフィードバック信号が必要です。
- GRPOの根本的な欠陥: GRPOは学習目標を絶対値から相対選好に再定義し、優位性はもはや学習された絶対期待報酬に対して測定されるのではなく、サンプリングされたピアのパフォーマンスに対して測定されます。
ポリシーがまだ十分に訓練されていない場合、GRPOのグループ平均ベースラインはしばしば大きな負の数になります。この状態では、「それほど悪くない」失敗した軌跡は R(yf)>b を満たし、A(yf)>0 となり、客観的に誤った軌跡を生成する確率を増加させるようにモデルを積極的に訓練します。
- 序数報酬タスクにおけるGRPOの根本的な欠陥に対処する
- 正確性を保証しながら最適化を推進する訓練フレームワークを確立する
- LLMが強化学習を通じて新しい能力を学習するための基礎を構築する
- 理論分析: 序数報酬タスクにおけるGRPOベースラインの不適切な規範化を数学的に証明し、失敗した軌跡に正の優位性を割り当てる根本的な原因を明らかにします
- CoRPO方法: 適応的ベースラインを備えた新しい優位性公式である正確性相対ポリシー最適化(CoRPO)を提案し、GRPOの欠陥に対処します
- 二段階学習フレームワーク: 「正確性探索」から「選好探索」への自動転換メカニズムを設計し、ポリシー改善プロセス中に異なる学習信号を提供します
- 実証的検証: コード検証タスクでCoRPOの有効性を検証し、より安定した収束とより優れたドメイン外汎化能力を示します
ポリシー πθ からサンプリングされた G 個のロールアウト {y1,y2,...,yG} のセットが与えられた場合、GRPOはグループ平均報酬をベースラインとして使用します:
b=G1∑i=1GR(yi)
優位性関数は以下のように定義されます:
A(yi)=normR(yi)−b
核心的な問題: 失敗した軌跡 yf(ここで R(yf)<0)が以下の条件を満たす場合、正の優位性を得ます:
b<R(yf)<0
これは、ポリシーがまだ十分に訓練されていない複雑な問題では一般的なシナリオであり、モデルが誤った行動を積極的に学習することにつながります。
- 正確性保証: 失敗した軌跡は決して正の優位性を得るべきではない
- 比例フィードバック: 失敗したソリューションへの負のフィードバックはその品質に比例すべき
- 追求駆動: 「受け入れ可能な」ソリューション内で改善信号を継続的に提供する
まず静的ベースラインを提案します:
bstatic=Rmin_correctAstatic(y)=R(y)−Rmin_correct
これは正確性保証を確保しますが、ポリシー改善後の追求駆動が不足しています。
最終的なCoRPO公式は静的および動的ベースラインの利点を組み合わせています:
bmean=G1∑i=1GR(yi)
bcorpo=max(Rmin_correct,bmean)
Acorpo(yi)=R(yi)−bcorpo
段階1: 正確性探索 (bmean<Rmin_correct)
- ベースラインは Rmin_correct にロックされます
- すべての失敗した軌跡が負の優位性を得ることを保証します
- 基本的な正確性の学習に焦点を当てます
段階2: 選好探索 (bmean≥Rmin_correct)
- ベースラインは標準GRPOベースライン bmean になります
- 正しいソリューション間に相対選好を確立します
- 「良い」から「最適」への改善を推進します
LLMが生成したコードの正確性を検証する説明的検証器を訓練します。問題 Q と2つの候補応答 (RA,RB) が与えられた場合、ポリシーは各応答の正確性に対する信頼度を表すスコア V=(vA,vB)∈[0,10] を出力します。
- 訓練セット: CodeForcesおよびLeetCodeからのプログラミング問題。Qwen3-8Bを使用して複数のソリューションを生成し、正確および誤った推論軌跡を含む4,890サンプル
- 検証セット:
- ドメイン内コーディング: 1つ正確、1つ誤り (196サンプル)
- ドメイン外コーディング: 両方正確または両方誤り (98サンプル)
- ドメイン外数学: 1つ正確、1つ誤り (157サンプル)
- モデル: Qwen3-8B
- 最大シーケンス長: 16,384
- プロンプトごとに8つのロールアウトを生成
- グローバルバッチサイズ: 512
- 学習率: 1×10⁻⁶
- オンポリシー訓練を厳密に遵守
異なるタスクでのモデルの精度を評価するためにpass@16指標を使用します。
代表的なバッチのロールアウト分布を分析することで、失敗した軌跡の18%が正の優位性を得たことを発見し、b<R(yf)<0 欠陥の存在を実証的に確認しました。
正と負の優位性信号の比率を分析することで (rcount=#{A(y)<0}#{A(y)>0} および rloss=ΣLossA(y)<0ΣLossA(y)>0):
初期訓練段階: 静的およびCoRPOベースラインの rcount は両方とも1.0未満であり、すべての失敗した軌跡を正しく識別し、負のフィードバックを提供し、正確性保証を体現しています。
中期から後期の訓練: 静的ベースラインの正負フィードバック比率は急激に上昇しますが、CoRPOベースラインは適度なレベルで安定し、「正確性」モードから「選好」モードへの転換に成功しています。
| タスク | GRPO | Static | CoRPO |
|---|
| ドメイン内タスク | | | |
| First Correct | 87.1 | 80.2 | 83.2 |
| Second Correct | 86.3 | 89.5 | 86.3 |
| ドメイン外コーディングタスク | | | |
| Both Incorrect | 50.0 | 64.0 | 56.0 |
| Both Correct | 89.6 | 93.7 | 95.8 |
| ドメイン外数学タスク | | | |
| First Correct | 79.3 | 80.5 | 81.6 |
| Second Correct | 81.4 | 87.1 | 81.4 |
- 正確性保証の価値: 静的およびCoRPOベースラインはドメイン外タスクでGRPOを大幅に上回り、「それほど悪くない」失敗を学習することを防ぐことがより堅牢で汎化可能な正確性信号の学習に役立つことを証明しています
- 保守性のトレードオフ: CoRPOの保守的な性質は重み更新ステップサイズが小さくなることにつながり、ドメイン内タスクでの性能は静的ベースラインよりやや劣りますが、ドメイン外タスクでは良好です
- 汎化能力: 正確性保証を強制することにより、CoRPOはより堅牢な正確性の概念を学習し、より優れたドメイン外パフォーマンスに変換されます
- PPO: 価値関数をベースラインとして使用し、計算とメモリのオーバーヘッドが大きい
- GRPO: グループ平均報酬によるベースライン計算を簡素化しますが、序数報酬タスクに欠陥があります
- データキュレーション: 「最適点」成功率の維持
- 動的ロールアウト選択: バッチ内の高分散を確保
- 報酬再重み付け: 負の例を偏向させるか正の例の影響をスケーリング
これらの技術は実際にはベースライン b を管理する暗黙的なヒューリスティック試行であり、不均衡な序数報酬問題に対処するためのGRPO公式の回避策です。
- GRPOの根本的な欠陥: 序数報酬タスクでは、GRPOの単純なベースラインは失敗した軌跡に正の優位性を割り当て、誤った行動を強化しないという目標に違反します
- CoRPOの有効性: 適応的ベースラインを通じて正確性保証を強制することにより、CoRPOはGRPOの病理的な訓練動態を成功裏に解決します
- 汎化能力の向上: CoRPOはドメイン外タスクで改善された汎化能力を示し、正確性保証の価値を証明しています
- 優位性幅のトレードオフ: 序数報酬の豊かさは、ポリシー予測が集約されるときに優位性幅が小さくなる可能性があり、探索/利用バランスに影響します
- 保守性: CoRPOの保守的な特性はドメイン内学習の遅延につながり、正確性と学習効率のバランスが必要です
- ハイパーパラメータ感度: 現在の訓練ハイパーパラメータと報酬/優位性計算はCoRPO用に最適化されていません
- 優位性幅と探索のバランス: モデルが一貫した影響力のある更新を受け取ることを確保する方法を探索し、正しい行動の学習と最適なソリューション探索の能力のバランスを取ります
- 結果ベースの報酬を超えて: 生成プロセス全体を通じてフィードバックを提供するステップごとの報酬など、より豊かでより密集したフィードバックを探索します
- 多段階推論タスク: 複雑な多段階推論と問題解決タスクへの方法の拡張
- 堅実な理論的貢献: 序数報酬タスクにおけるGRPOの欠陥を数学的に厳密に証明し、明確な理論分析を提供します
- 巧妙な方法設計: CoRPOの適応的ベースライン設計は、正確性保証と追求駆動のバランスを優雅に解決します
- 十分な実験検証: 訓練動態分析とダウンストリームパフォーマンス評価を通じて方法の有効性を包括的に検証します
- 高い実用価値: 実際のLLM訓練における重要な問題に対処し、産業応用に直接的な価値があります
- 実験規模が限定的: コード検証タスクのみで検証され、より多くのタスクとドメインでのテストが必要です
- ハイパーパラメータ調整不足: 現在のハイパーパラメータがCoRPO用に最適化されていないことを認め、パフォーマンス比較の公平性に影響する可能性があります
- 理論分析の深さ: 問題を特定していますが、序数報酬がこの問題を引き起こす理由についてのより深い理論分析は限定的です
- 計算オーバーヘッド分析: CoRPOとGRPOの計算オーバーヘッドの比較分析が不足しています
- 学術的貢献: LLM訓練における強化学習の応用に重要な理論的洞察を提供します
- 実用的価値: 序数報酬を使用したLLM訓練のための実用的なソリューションを提供します
- 研究方向: 二値から序数、さらにより密集したフィードバックへの研究パスを開きます
- 検証可能なタスク: 数学、コード生成など明確な正確性基準を持つタスクに特に適しています
- 序数報酬シナリオ: 1~5評価などの序数報酬を使用する必要があるRL訓練シナリオ
- LLM能力学習: 選好調整だけでなく、RLを通じてLLMに新しい能力を学習させたいシナリオ
論文は、GRPO原論文、PPO、および最新のLLM強化学習訓練方法を含む15の関連文献を引用し、研究に堅実な理論的基礎を提供しています。
この論文は理論分析と実用的なソリューション間で良好なバランスを達成し、LLM強化学習訓練における重要な問題に対する深い洞察と有効なソリューションを提供し、重要な学術的および実用的価値を持っています。