Group-relative Policy Optimization's (GRPO) simplicity makes it highly desirable for adapting LLMs to become experts at specific tasks. But this simplicity also makes it ill-specified as we seek to enhance RL training with richer, non-binary feedback. When using ordinal rewards to give partial credit, GRPO's simplicity starts to hurt, as its group-average baseline often assigns a positive advantage to failed trajectories and reinforces incorrect behavior.
We introduce Correctness Relative Policy Optimization (CoRPO), a new formulation that solves this flaw. CoRPO uses an adaptive baseline that enforces a minimum quality threshold, ensuring failed solutions are never positively reinforced. Once the policy consistently meets this threshold, the baseline automatically transitions to a relative preference mode, pushing the model to find optimal solutions rather than just "acceptable" ones. We empirically validate CoRPO on a code verification task, where it demonstrates more stable convergence and better out-of-domain generalization.
This work represents a critical step in our broader research program to enable LLMs to learn genuinely new capabilities through reinforcement learning. We achieve this by enabling LLMs to learn from rich, multi-dimensional feedback - progressing from binary to ordinal rewards in this work, and onward to denser, per-step supervision.
- 论文ID: 2511.04439
- 标题: The Peril of Preference: Why GRPO fails on Ordinal Rewards
- 作者: Anisha Garg, Ganesh Venkatesh (Cerebras Applied AI Research)
- 分类: cs.AI, cs.LG
- 发表时间: 2025年11月6日 (arXiv预印本)
- 论文链接: https://arxiv.org/abs/2511.04439
Group-relative Policy Optimization (GRPO) 因其简洁性而在适应大语言模型(LLM)执行特定任务方面备受青睐。然而,当我们寻求使用更丰富的非二元反馈来增强强化学习训练时,这种简洁性也使其规范不足。在使用序数奖励给予部分奖励时,GRPO的简洁性开始产生负面影响,其基于组平均值的基线经常为失败轨迹分配正优势,从而强化错误行为。本文引入了正确性相对策略优化(CoRPO),这是一个解决此缺陷的新公式。CoRPO使用自适应基线来强制执行最小质量阈值,确保失败的解决方案永远不会得到正向强化。一旦策略始终满足此阈值,基线自动转换为相对偏好模式,推动模型寻找最优解决方案而不仅仅是"可接受的"解决方案。
- GRPO的广泛应用: GRPO因其简洁性和效率在数学和代码生成等可验证任务中被广泛采用,特别是使用组平均奖励作为基线而不是复杂的价值函数。
- 从二元到序数奖励的转变: 现有的RL方法主要针对二元偏好设计,但实际应用中需要更丰富的反馈信号,如1-5评分的序数奖励。
- GRPO的根本缺陷: GRPO将学习目标从绝对价值重新定义为相对偏好,优势不再针对学习的绝对期望奖励进行衡量,而是针对采样同伴的表现。
当策略尚未充分训练时,GRPO的组平均基线经常变成大的负数。在这种状态下,任何"不那么糟糕"的失败轨迹都会满足 R(yf)>b,导致 A(yf)>0,从而积极训练模型增加生成客观上错误轨迹的概率。
- 解决GRPO在序数奖励任务中的根本缺陷
- 建立既保证正确性又推动优化的训练框架
- 为LLM通过强化学习学习新能力奠定基础
- 理论分析: 数学上证明了GRPO基线在序数奖励任务中的不当规范,揭示了其为失败轨迹分配正优势的根本原因
- CoRPO方法: 提出了正确性相对策略优化(CoRPO),一个具有自适应基线的新优势公式,解决了GRPO的缺陷
- 双阶段学习框架: 设计了从"正确性寻求"到"偏好寻求"的自动转换机制,在策略改进过程中提供不同的学习信号
- 实证验证: 在代码验证任务上验证了CoRPO的有效性,展示了更稳定的收敛和更好的域外泛化能力
给定一组从策略 πθ 采样的 G 个rollout {y1,y2,...,yG},GRPO使用组平均奖励作为基线:
b=G1∑i=1GR(yi)
优势函数定义为:
A(yi)=normR(yi)−b
核心问题: 当失败轨迹 yf(其中 R(yf)<0)满足以下条件时会得到正优势:
b<R(yf)<0
这在策略尚未充分训练的复杂问题中是常见场景,导致模型积极学习错误行为。
- 正确性保证: 失败轨迹永远不应获得正优势
- 比例反馈: 对失败解决方案的负反馈应与其质量成比例
- 追求驱动: 在"可接受"解决方案中继续提供改进信号
首先提出静态基线:
bstatic=Rmin_correctAstatic(y)=R(y)−Rmin_correct
这确保了正确性保证,但在策略改进后缺乏追求驱动。
最终的CoRPO公式结合了静态和动态基线的优势:
bmean=G1∑i=1GR(yi)
bcorpo=max(Rmin_correct,bmean)
Acorpo(yi)=R(yi)−bcorpo
阶段1: 正确性寻求 (bmean<Rmin_correct)
- 基线锁定在 Rmin_correct
- 确保所有失败轨迹获得负优势
- 专注于学习基本正确性
阶段2: 偏好寻求 (bmean≥Rmin_correct)
- 基线变为标准GRPO基线 bmean
- 在正确解决方案间建立相对偏好
- 推动从"好"到"最优"的改进
训练一个解释性验证器来验证LLM生成代码的正确性。给定问题 Q 和两个候选响应 (RA,RB),策略输出评分 V=(vA,vB)∈[0,10],表示对每个响应正确性的信心。
- 训练集: 来自CodeForces和LeetCode的编程问题,使用Qwen3-8B生成多个解决方案,包含正确和错误的推理轨迹,共4890个样本
- 验证集:
- 域内编码: 一个正确一个错误的响应 (196样本)
- 域外编码: 两个都正确或都错误的响应 (98样本)
- 域外数学: 一个正确一个错误的响应 (157样本)
- 模型: Qwen3-8B
- 最大序列长度: 16,384
- 每个提示生成8个rollout
- 全局批大小: 512
- 学习率: 1×10⁻⁶
- 严格遵循on-policy训练
使用pass@16指标评估模型在不同任务上的准确性。
通过分析代表性批次的rollout分布,发现18%的失败轨迹获得了正优势,实证确认了 b<R(yf)<0 缺陷的存在。
通过分析正负优势信号的比率 (rcount=#{A(y)<0}#{A(y)>0} 和 rloss=ΣLossA(y)<0ΣLossA(y)>0):
初始训练阶段: 静态和CoRPO基线的 rcount 都低于1.0,正确识别所有失败轨迹并提供负反馈,体现了正确性保证。
中后期训练: 静态基线的正负反馈比率急剧上升,而CoRPO基线在适度水平稳定,成功从"正确性"模式转换到"偏好"模式。
| 任务 | GRPO | Static | CoRPO |
|---|
| 域内任务 | | | |
| First Correct | 87.1 | 80.2 | 83.2 |
| Second Correct | 86.3 | 89.5 | 86.3 |
| 域外编码任务 | | | |
| Both Incorrect | 50.0 | 64.0 | 56.0 |
| Both Correct | 89.6 | 93.7 | 95.8 |
| 域外数学任务 | | | |
| First Correct | 79.3 | 80.5 | 81.6 |
| Second Correct | 81.4 | 87.1 | 81.4 |
- 正确性保证的价值: 静态和CoRPO基线在域外任务上显著优于GRPO,证明防止学习"不那么糟糕"的失败有助于学习更robust和可泛化的正确性信号
- 保守性权衡: CoRPO的保守性导致较小的权重更新步长,在域内任务上的表现略逊于静态基线,但在域外任务上表现良好
- 泛化能力: 通过强制执行正确性保证,CoRPO学习到了更robust的正确性概念,转化为更好的域外性能
- PPO: 使用价值函数作为基线,计算和内存开销大
- GRPO: 通过组平均奖励简化基线计算,但在序数奖励任务中存在缺陷
- 数据策展: 维持"最佳点"成功率
- 动态rollout选择: 确保批次中的高方差
- 奖励重新加权: 偏向负例或缩放正例影响
这些技术实际上是管理基线 b 的隐式启发式尝试,是GRPO公式处理不平衡序数奖励问题的变通方法。
- GRPO的根本缺陷: 在序数奖励任务中,GRPO的简单基线会为失败轨迹分配正优势,违反了不强化错误行为的目标
- CoRPO的有效性: 通过自适应基线强制执行正确性保证,CoRPO成功解决了GRPO的病理训练动态
- 泛化能力提升: CoRPO在域外任务上表现出改进的泛化能力,证明了正确性保证的价值
- 优势幅度权衡: 序数奖励的丰富性可能导致策略预测聚集时优势幅度很小,影响探索/利用平衡
- 保守性: CoRPO的保守特性导致较慢的域内学习,需要在正确性和学习效率之间找到平衡
- 超参数敏感性: 当前的训练超参数和奖励/优势计算未针对CoRPO进行调优
- 平衡优势幅度和探索: 探索确保模型接收一致、有影响力更新的方法,平衡学习正确行为和寻找最优解的能力
- 超越基于结果的奖励: 探索更丰富、更密集的反馈,如提供整个生成过程中反馈的每步奖励
- 多步推理任务: 将方法扩展到复杂的多步推理和问题解决任务
- 理论贡献扎实: 数学上严格证明了GRPO在序数奖励任务中的缺陷,提供了清晰的理论分析
- 方法设计巧妙: CoRPO的自适应基线设计优雅地解决了正确性保证和追求驱动之间的权衡
- 实验验证充分: 通过训练动态分析和下游性能评估全面验证了方法的有效性
- 实用价值高: 解决了实际LLM训练中的重要问题,对工业应用有直接价值
- 实验规模有限: 仅在代码验证任务上进行验证,需要在更多任务和领域上测试
- 超参数调优不足: 承认当前超参数未针对CoRPO优化,可能影响性能比较的公平性
- 理论分析深度: 虽然识别了问题,但对于为什么序数奖励会导致这种问题的更深层理论分析有限
- 计算开销分析: 缺乏对CoRPO相比GRPO的计算开销分析
- 学术贡献: 为强化学习在LLM训练中的应用提供了重要理论洞察
- 实用价值: 为使用序数奖励训练LLM提供了实用的解决方案
- 研究方向: 开启了从二元到序数再到更密集反馈的研究路径
- 可验证任务: 特别适用于数学、代码生成等有明确正确性标准的任务
- 序数奖励场景: 任何需要使用1-5评分等序数奖励的RL训练场景
- LLM能力学习: 希望通过RL让LLM学习新能力而不仅仅是偏好调整的场景
论文引用了15篇相关文献,涵盖了GRPO原始论文、PPO、以及最新的LLM强化学习训练方法,为研究提供了坚实的理论基础。
这篇论文在理论分析和实用解决方案之间取得了良好平衡,为LLM强化学习训练中的一个重要问题提供了深入洞察和有效解决方案,具有重要的学术和实用价值。