2025-11-11T09:58:08.549566

The Peril of Preference: Why GRPO fails on Ordinal Rewards

Garg, Venkatesh

Group-relative Policy Optimization's (GRPO) simplicity makes it highly desirable for adapting LLMs to become experts at specific tasks. But this simplicity also makes it ill-specified as we seek to enhance RL training with richer, non-binary feedback. When using ordinal rewards to give partial credit, GRPO's simplicity starts to hurt, as its group-average baseline often assigns a positive advantage to failed trajectories and reinforces incorrect behavior. We introduce Correctness Relative Policy Optimization (CoRPO), a new formulation that solves this flaw. CoRPO uses an adaptive baseline that enforces a minimum quality threshold, ensuring failed solutions are never positively reinforced. Once the policy consistently meets this threshold, the baseline automatically transitions to a relative preference mode, pushing the model to find optimal solutions rather than just "acceptable" ones. We empirically validate CoRPO on a code verification task, where it demonstrates more stable convergence and better out-of-domain generalization. This work represents a critical step in our broader research program to enable LLMs to learn genuinely new capabilities through reinforcement learning. We achieve this by enabling LLMs to learn from rich, multi-dimensional feedback - progressing from binary to ordinal rewards in this work, and onward to denser, per-step supervision.

academic

선호도의 위험: GRPO가 서수 보상에서 실패하는 이유

기본 정보

논문 ID: 2511.04439
제목: The Peril of Preference: Why GRPO fails on Ordinal Rewards
저자: Anisha Garg, Ganesh Venkatesh (Cerebras Applied AI Research)
분류: cs.AI, cs.LG
발표 시간: 2025년 11월 6일 (arXiv 사전 인쇄본)
논문 링크: https://arxiv.org/abs/2511.04439

초록

그룹 상대 정책 최적화(Group-relative Policy Optimization, GRPO)는 단순성으로 인해 대규모 언어 모델(LLM)이 특정 작업을 수행하도록 적응시키는 데 널리 선호되고 있습니다. 그러나 더 풍부한 비이진 피드백을 사용하여 강화 학습 훈련을 강화하려고 할 때, 이러한 단순성은 규범화 부족으로 인해 문제가 됩니다. 서수 보상을 사용하여 부분 보상을 제공할 때, GRPO의 단순성은 부정적인 영향을 미치기 시작하며, 그룹 평균 기반 기준선이 실패한 궤적에 양의 이점을 할당하여 오류 행동을 강화합니다. 본 논문은 이 결함을 해결하는 새로운 공식인 정확성 상대 정책 최적화(Correctness-Relative Policy Optimization, CoRPO)를 소개합니다. CoRPO는 적응형 기준선을 사용하여 최소 품질 임계값을 강제하여 실패한 솔루션이 절대 양의 강화를 받지 않도록 보장합니다. 정책이 이 임계값을 일관되게 충족하면, 기준선은 자동으로 상대 선호도 모드로 전환되어 모델이 단순히 "허용 가능한" 솔루션뿐만 아니라 최적 솔루션을 찾도록 유도합니다.

연구 배경 및 동기

문제 배경

GRPO의 광범위한 적용: GRPO는 단순성과 효율성으로 인해 수학 및 코드 생성과 같은 검증 가능한 작업에서 광범위하게 채택되었으며, 특히 복잡한 가치 함수 대신 그룹 평균 보상을 기준선으로 사용합니다.
이진에서 서수 보상으로의 전환: 기존 강화학습 방법은 주로 이진 선호도를 위해 설계되었지만, 실제 응용에서는 1-5 평점의 서수 보상과 같은 더 풍부한 피드백 신호가 필요합니다.
GRPO의 근본적 결함: GRPO는 학습 목표를 절대 가치에서 상대 선호도로 재정의하여, 이점이 더 이상 학습된 절대 예상 보상에 대해 측정되지 않고 샘플링된 동료의 성능에 대해 측정됩니다.

핵심 문제

정책이 충분히 훈련되지 않았을 때, GRPO의 그룹 평균 기준선은 종종 큰 음수가 됩니다. 이 상태에서 "그다지 나쁘지 않은" 실패한 궤적이라도 $R(y_f) > b$ 를 만족하여 $A(y_f) > 0$ 이 되고, 따라서 모델이 객관적으로 잘못된 궤적을 생성할 확률을 증가시키도록 적극적으로 훈련합니다.

연구 동기

GRPO의 서수 보상 작업에서의 근본적 결함 해결
정확성을 보장하면서 최적화를 추진하는 훈련 프레임워크 구축
LLM이 강화학습을 통해 새로운 능력을 학습하기 위한 기초 마련

핵심 기여

이론적 분석: GRPO 기준선이 서수 보상 작업에서 부적절하게 규범화되는 것을 수학적으로 증명하여, 실패한 궤적에 양의 이점을 할당하는 근본 원인을 밝혀냅니다.
CoRPO 방법: 적응형 기준선을 갖춘 새로운 이점 공식인 정확성 상대 정책 최적화(CoRPO)를 제안하여 GRPO의 결함을 해결합니다.
이단계 학습 프레임워크: "정확성 추구"에서 "선호도 추구"로의 자동 전환 메커니즘을 설계하여 정책 개선 과정에서 서로 다른 학습 신호를 제공합니다.
실증적 검증: 코드 검증 작업에서 CoRPO의 효과를 검증하여 더 안정적인 수렴과 더 나은 도메인 외 일반화 능력을 보여줍니다.

방법 상세 설명

문제 정의

정책 $\pi_\theta$ 에서 샘플링된 $G$ 개의 롤아웃 $\{y_1, y_2, ..., y_G\}$ 이 주어졌을 때, GRPO는 그룹 평균 보상을 기준선으로 사용합니다:

$b = \frac{1}{G}\sum_{i=1}^{G}R(y_i)$

이점 함수는 다음과 같이 정의됩니다: $A(y_i) = \frac{R(y_i) - b}{norm}$

GRPO의 결함 분석

핵심 문제: 실패한 궤적 $y_f$ (여기서 $R(y_f) < 0$ )가 다음 조건을 만족할 때 양의 이점을 받습니다: $b < R(y_f) < 0$

이는 정책이 아직 충분히 훈련되지 않은 복잡한 문제에서 흔한 시나리오이며, 모델이 오류 행동을 적극적으로 학습하도록 합니다.

CoRPO 해결책

1. 이상적 기준선의 세 가지 기준

정확성 보장: 실패한 궤적은 절대 양의 이점을 받아서는 안 됨
비례 피드백: 실패한 솔루션에 대한 음의 피드백은 그 품질에 비례해야 함
추구 동인: "허용 가능한" 솔루션 내에서 계속 개선 신호 제공

2. 정적 기준선 방법

먼저 정적 기준선을 제안합니다: $b_{static} = R_{min\_correct}$ $A_{static}(y) = R(y) - R_{min\_correct}$

이는 정확성 보장을 보장하지만, 정책 개선 후 추구 동인이 부족합니다.

3. CoRPO 적응형 기준선

최종 CoRPO 공식은 정적 및 동적 기준선의 장점을 결합합니다:

$b_{mean} = \frac{1}{G}\sum_{i=1}^{G}R(y_i)$

$b_{corpo} = \max(R_{min\_correct}, b_{mean})$

$A_{corpo}(y_i) = R(y_i) - b_{corpo}$

4. 이단계 작동 메커니즘

단계 1: 정확성 추구 ( $b_{mean} < R_{min\_correct}$ )

기준선이 $R_{min\_correct}$ 에 고정됨
모든 실패한 궤적이 음의 이점을 받도록 보장
기본 정확성 학습에 집중

단계 2: 선호도 추구 ( $b_{mean} \geq R_{min\_correct}$ )

기준선이 표준 GRPO 기준선 $b_{mean}$ 으로 변환됨
올바른 솔루션 간의 상대 선호도 구축
"좋음"에서 "최적"으로의 개선 추진

실험 설정

작업 정의

LLM이 생성한 코드의 정확성을 검증하는 해석 검증자를 훈련합니다. 문제 $Q$ 와 두 개의 후보 응답 $(R_A, R_B)$ 이 주어졌을 때, 정책은 각 응답의 정확성에 대한 신뢰도를 나타내는 평점 $V = (v_A, v_B) \in [0, 10]$ 을 출력합니다.

데이터셋

훈련 집합: CodeForces 및 LeetCode의 프로그래밍 문제, Qwen3-8B를 사용하여 생성한 여러 솔루션, 정확하고 오류가 있는 추론 궤적 포함, 총 4,890개 샘플
검증 집합:
- 도메인 내 코딩: 하나는 정확하고 하나는 오류 (196개 샘플)
- 도메인 외 코딩: 둘 다 정확하거나 둘 다 오류 (98개 샘플)
- 도메인 외 수학: 하나는 정확하고 하나는 오류 (157개 샘플)

실험 구성

모델: Qwen3-8B
최대 시퀀스 길이: 16,384
각 프롬프트당 8개 롤아웃 생성
전역 배치 크기: 512
학습률: 1×10⁻⁶
엄격한 온-정책 훈련 준수

평가 지표

pass@16 지표를 사용하여 다양한 작업에서 모델의 정확성을 평가합니다.

실험 결과

GRPO 결함 검증

대표적인 배치의 롤아웃 분포를 분석하여 18%의 실패한 궤적이 양의 이점을 받았음을 발견하여, $b < R(y_f) < 0$ 결함의 존재를 실증적으로 확인합니다.

훈련 동역학 분석

양의 및 음의 이점 신호의 비율을 분석합니다 ( $r_{count} = \frac{\#\{A(y)>0\}}{\#\{A(y)<0\}}$ 및 $r_{loss} = \frac{\Sigma Loss_{A(y)>0}}{\Sigma Loss_{A(y)<0}}$ ):

초기 훈련 단계: 정적 및 CoRPO 기준선의 $r_{count}$ 는 모두 1.0 미만이며, 모든 실패한 궤적을 올바르게 식별하고 음의 피드백을 제공하여 정확성 보장을 구현합니다.

중후기 훈련: 정적 기준선의 양음 피드백 비율이 급격히 증가하는 반면, CoRPO 기준선은 적절한 수준에서 안정적으로 유지되어 "정확성" 모드에서 "선호도" 모드로의 성공적인 전환을 보여줍니다.

다운스트림 정확성 결과

작업	GRPO	Static	CoRPO
도메인 내 작업
First Correct	87.1	80.2	83.2
Second Correct	86.3	89.5	86.3
도메인 외 코딩 작업
Both Incorrect	50.0	64.0	56.0
Both Correct	89.6	93.7	95.8
도메인 외 수학 작업
First Correct	79.3	80.5	81.6
Second Correct	81.4	87.1	81.4

주요 발견

정확성 보장의 가치: 정적 및 CoRPO 기준선이 도메인 외 작업에서 GRPO보다 현저히 우수하여, "그다지 나쁘지 않은" 실패 학습을 방지하는 것이 더 견고하고 일반화 가능한 정확성 신호를 학습하는 데 도움이 됨을 증명합니다.
보수성 트레이드오프: CoRPO의 보수성으로 인해 더 작은 가중치 업데이트 단계가 발생하여 도메인 내 작업에서 정적 기준선보다 성능이 약간 떨어지지만 도메인 외 작업에서는 우수합니다.
일반화 능력: 정확성 보장을 강제함으로써 CoRPO는 더 견고한 정확성 개념을 학습하여 더 나은 도메인 외 성능으로 전환됩니다.

결론 및 논의

주요 결론

GRPO의 근본적 결함: 서수 보상 작업에서 GRPO의 단순한 기준선은 실패한 궤적에 양의 이점을 할당하여 오류 행동을 강화하지 않는다는 목표를 위반합니다.
CoRPO의 효과성: 적응형 기준선을 통해 정확성 보장을 강제함으로써 CoRPO는 GRPO의 병리적 훈련 동역학을 성공적으로 해결합니다.
일반화 능력 향상: CoRPO는 도메인 외 작업에서 개선된 일반화 능력을 보여주어 정확성 보장의 가치를 증명합니다.

제한사항

이점 크기 트레이드오프: 서수 보상의 풍부성은 정책 예측이 수렴할 때 이점 크기가 작아져 탐색/활용 균형에 영향을 미칠 수 있습니다.
보수성: CoRPO의 보수적 특성으로 인해 도메인 내 학습이 느려져 정확성과 학습 효율 간의 균형을 찾아야 합니다.
하이퍼파라미터 민감성: 현재 훈련 하이퍼파라미터 및 보상/이점 계산이 CoRPO에 대해 최적화되지 않았습니다.

향후 방향

이점 크기와 탐색의 균형: 모델이 일관되고 영향력 있는 업데이트를 받도록 보장하는 방법을 탐색하여 올바른 행동 학습과 최적 솔루션 찾기 능력의 균형을 맞춥니다.
결과 기반 보상 초월: 전체 생성 과정에서 피드백을 제공하는 단계별 보상과 같은 더 풍부하고 밀도 높은 피드백 탐색
다단계 추론 작업: 복잡한 다단계 추론 및 문제 해결 작업으로 방법 확장

심층 평가

장점

견고한 이론적 기여: GRPO의 서수 보상 작업에서의 결함을 수학적으로 엄격하게 증명하여 명확한 이론적 분석을 제공합니다.
영리한 방법 설계: CoRPO의 적응형 기준선 설계는 정확성 보장과 추구 동인 간의 트레이드오프를 우아하게 해결합니다.
충분한 실험 검증: 훈련 동역학 분석 및 다운스트림 성능 평가를 통해 방법의 효과성을 포괄적으로 검증합니다.
높은 실용적 가치: 실제 LLM 훈련의 중요한 문제를 해결하여 산업 응용에 직접적인 가치가 있습니다.

부족한 점

제한된 실험 규모: 코드 검증 작업에서만 검증되어 더 많은 작업 및 도메인에서의 테스트가 필요합니다.
불충분한 하이퍼파라미터 조정: 현재 하이퍼파라미터가 CoRPO에 대해 최적화되지 않았음을 인정하여 성능 비교의 공정성에 영향을 미칠 수 있습니다.
제한된 이론적 분석 깊이: 문제를 식별했지만 서수 보상이 이러한 문제를 야기하는 이유에 대한 더 깊은 이론적 분석이 제한적입니다.
계산 오버헤드 분석 부재: CoRPO와 GRPO의 계산 오버헤드 비교 분석이 부족합니다.

영향력

학술적 기여: 강화학습의 LLM 훈련 응용에 중요한 이론적 통찰력을 제공합니다.
실용적 가치: 서수 보상을 사용한 LLM 훈련을 위한 실용적 솔루션을 제공합니다.
연구 방향: 이진에서 서수로 그리고 더 밀도 높은 피드백으로의 연구 경로를 개시합니다.

적용 시나리오

검증 가능한 작업: 수학, 코드 생성 등 명확한 정확성 기준이 있는 작업에 특히 적합
서수 보상 시나리오: 1-5 평점 등의 서수 보상을 사용해야 하는 모든 강화학습 훈련 시나리오
LLM 능력 학습: 단순히 선호도 조정이 아닌 강화학습을 통해 LLM이 새로운 능력을 학습하기를 원하는 시나리오

참고 문헌

논문은 GRPO 원본 논문, PPO 및 최신 LLM 강화학습 훈련 방법을 포함한 15개의 관련 문헌을 인용하여 연구에 견고한 이론적 기초를 제공합니다.

이 논문은 이론적 분석과 실용적 해결책 간의 좋은 균형을 이루어 LLM 강화학습 훈련의 중요한 문제에 대해 깊은 통찰력과 효과적인 해결책을 제공하며, 중요한 학술적 및 실용적 가치를 가집니다.