2025-11-11T09:58:08.549566

The Peril of Preference: Why GRPO fails on Ordinal Rewards

Garg, Venkatesh

Group-relative Policy Optimization's (GRPO) simplicity makes it highly desirable for adapting LLMs to become experts at specific tasks. But this simplicity also makes it ill-specified as we seek to enhance RL training with richer, non-binary feedback. When using ordinal rewards to give partial credit, GRPO's simplicity starts to hurt, as its group-average baseline often assigns a positive advantage to failed trajectories and reinforces incorrect behavior. We introduce Correctness Relative Policy Optimization (CoRPO), a new formulation that solves this flaw. CoRPO uses an adaptive baseline that enforces a minimum quality threshold, ensuring failed solutions are never positively reinforced. Once the policy consistently meets this threshold, the baseline automatically transitions to a relative preference mode, pushing the model to find optimal solutions rather than just "acceptable" ones. We empirically validate CoRPO on a code verification task, where it demonstrates more stable convergence and better out-of-domain generalization. This work represents a critical step in our broader research program to enable LLMs to learn genuinely new capabilities through reinforcement learning. We achieve this by enabling LLMs to learn from rich, multi-dimensional feedback - progressing from binary to ordinal rewards in this work, and onward to denser, per-step supervision.

academic

The Peril of Preference: Why GRPO fails on Ordinal Rewards

基本信息

论文ID: 2511.04439
标题: The Peril of Preference: Why GRPO fails on Ordinal Rewards
作者: Anisha Garg, Ganesh Venkatesh (Cerebras Applied AI Research)
分类: cs.AI, cs.LG
发表时间: 2025年11月6日 (arXiv预印本)
论文链接: https://arxiv.org/abs/2511.04439

摘要

Group-relative Policy Optimization (GRPO) 因其简洁性而在适应大语言模型(LLM)执行特定任务方面备受青睐。然而，当我们寻求使用更丰富的非二元反馈来增强强化学习训练时，这种简洁性也使其规范不足。在使用序数奖励给予部分奖励时，GRPO的简洁性开始产生负面影响，其基于组平均值的基线经常为失败轨迹分配正优势，从而强化错误行为。本文引入了正确性相对策略优化(CoRPO)，这是一个解决此缺陷的新公式。CoRPO使用自适应基线来强制执行最小质量阈值，确保失败的解决方案永远不会得到正向强化。一旦策略始终满足此阈值，基线自动转换为相对偏好模式，推动模型寻找最优解决方案而不仅仅是"可接受的"解决方案。

研究背景与动机

问题背景

GRPO的广泛应用: GRPO因其简洁性和效率在数学和代码生成等可验证任务中被广泛采用，特别是使用组平均奖励作为基线而不是复杂的价值函数。
从二元到序数奖励的转变: 现有的RL方法主要针对二元偏好设计，但实际应用中需要更丰富的反馈信号，如1-5评分的序数奖励。
GRPO的根本缺陷: GRPO将学习目标从绝对价值重新定义为相对偏好，优势不再针对学习的绝对期望奖励进行衡量，而是针对采样同伴的表现。

核心问题

当策略尚未充分训练时，GRPO的组平均基线经常变成大的负数。在这种状态下，任何"不那么糟糕"的失败轨迹都会满足 $R(y_f) > b$ ，导致 $A(y_f) > 0$ ，从而积极训练模型增加生成客观上错误轨迹的概率。

研究动机

解决GRPO在序数奖励任务中的根本缺陷
建立既保证正确性又推动优化的训练框架
为LLM通过强化学习学习新能力奠定基础

核心贡献

理论分析: 数学上证明了GRPO基线在序数奖励任务中的不当规范，揭示了其为失败轨迹分配正优势的根本原因
CoRPO方法: 提出了正确性相对策略优化(CoRPO)，一个具有自适应基线的新优势公式，解决了GRPO的缺陷
双阶段学习框架: 设计了从"正确性寻求"到"偏好寻求"的自动转换机制，在策略改进过程中提供不同的学习信号
实证验证: 在代码验证任务上验证了CoRPO的有效性，展示了更稳定的收敛和更好的域外泛化能力

方法详解

问题定义

给定一组从策略 $\pi_\theta$ 采样的 $G$ 个rollout $\{y_1, y_2, ..., y_G\}$ ，GRPO使用组平均奖励作为基线：

$b = \frac{1}{G}\sum_{i=1}^{G}R(y_i)$

优势函数定义为： $A(y_i) = \frac{R(y_i) - b}{norm}$

GRPO的缺陷分析

核心问题: 当失败轨迹 $y_f$ （其中 $R(y_f) < 0$ ）满足以下条件时会得到正优势： $b < R(y_f) < 0$

这在策略尚未充分训练的复杂问题中是常见场景，导致模型积极学习错误行为。

CoRPO解决方案

1. 理想基线的三个准则

正确性保证: 失败轨迹永远不应获得正优势
比例反馈: 对失败解决方案的负反馈应与其质量成比例
追求驱动: 在"可接受"解决方案中继续提供改进信号

2. 静态基线方法

首先提出静态基线： $b_{static} = R_{min\_correct}$ $A_{static}(y) = R(y) - R_{min\_correct}$

这确保了正确性保证，但在策略改进后缺乏追求驱动。

3. CoRPO自适应基线

最终的CoRPO公式结合了静态和动态基线的优势：

$b_{mean} = \frac{1}{G}\sum_{i=1}^{G}R(y_i)$

$b_{corpo} = \max(R_{min\_correct}, b_{mean})$

$A_{corpo}(y_i) = R(y_i) - b_{corpo}$

4. 双阶段操作机制

阶段1: 正确性寻求 ( $b_{mean} < R_{min\_correct}$ )

基线锁定在 $R_{min\_correct}$
确保所有失败轨迹获得负优势
专注于学习基本正确性

阶段2: 偏好寻求 ( $b_{mean} \geq R_{min\_correct}$ )

基线变为标准GRPO基线 $b_{mean}$
在正确解决方案间建立相对偏好
推动从"好"到"最优"的改进

训练集: 来自CodeForces和LeetCode的编程问题，使用Qwen3-8B生成多个解决方案，包含正确和错误的推理轨迹，共4890个样本
验证集:
- 域内编码: 一个正确一个错误的响应 (196样本)
- 域外编码: 两个都正确或都错误的响应 (98样本)
- 域外数学: 一个正确一个错误的响应 (157样本)

实验配置

模型: Qwen3-8B
最大序列长度: 16,384
每个提示生成8个rollout
全局批大小: 512
学习率: 1×10⁻⁶
严格遵循on-policy训练

中后期训练: 静态基线的正负反馈比率急剧上升，而CoRPO基线在适度水平稳定，成功从"正确性"模式转换到"偏好"模式。

下游准确性结果

任务	GRPO	Static	CoRPO
域内任务
First Correct	87.1	80.2	83.2
Second Correct	86.3	89.5	86.3
域外编码任务
Both Incorrect	50.0	64.0	56.0
Both Correct	89.6	93.7	95.8
域外数学任务
First Correct	79.3	80.5	81.6
Second Correct	81.4	87.1	81.4