Group-relative Policy Optimization's (GRPO) simplicity makes it highly desirable for adapting LLMs to become experts at specific tasks. But this simplicity also makes it ill-specified as we seek to enhance RL training with richer, non-binary feedback. When using ordinal rewards to give partial credit, GRPO's simplicity starts to hurt, as its group-average baseline often assigns a positive advantage to failed trajectories and reinforces incorrect behavior.
We introduce Correctness Relative Policy Optimization (CoRPO), a new formulation that solves this flaw. CoRPO uses an adaptive baseline that enforces a minimum quality threshold, ensuring failed solutions are never positively reinforced. Once the policy consistently meets this threshold, the baseline automatically transitions to a relative preference mode, pushing the model to find optimal solutions rather than just "acceptable" ones. We empirically validate CoRPO on a code verification task, where it demonstrates more stable convergence and better out-of-domain generalization.
This work represents a critical step in our broader research program to enable LLMs to learn genuinely new capabilities through reinforcement learning. We achieve this by enabling LLMs to learn from rich, multi-dimensional feedback - progressing from binary to ordinal rewards in this work, and onward to denser, per-step supervision.
- ID статьи: 2511.04439
- Название: The Peril of Preference: Why GRPO fails on Ordinal Rewards
- Авторы: Anisha Garg, Ganesh Venkatesh (Cerebras Applied AI Research)
- Классификация: cs.AI, cs.LG
- Дата публикации: 6 ноября 2025 г. (препринт arXiv)
- Ссылка на статью: https://arxiv.org/abs/2511.04439
Group-relative Policy Optimization (GRPO) пользуется популярностью благодаря своей простоте при адаптации больших языковых моделей (LLM) для выполнения конкретных задач. Однако эта простота становится недостаточной при попытке использовать более богатую небинарную обратную связь для улучшения обучения с подкреплением. При использовании порядковых вознаграждений для предоставления частичных вознаграждений простота GRPO начинает оказывать негативное влияние: его базовая линия, основанная на групповом среднем, часто присваивает положительное преимущество неудачным траекториям, тем самым усиливая ошибочное поведение. В данной работе представлена Correctness-Relative Policy Optimization (CoRPO) — новая формулировка, устраняющая этот недостаток. CoRPO использует адаптивную базовую линию для обеспечения минимального порога качества, гарантируя, что неудачные решения никогда не получают положительного подкрепления. После того как политика последовательно достигает этого порога, базовая линия автоматически переходит в режим относительного предпочтения, побуждая модель искать оптимальные решения, а не просто «приемлемые» решения.
- Широкое применение GRPO: GRPO широко используется благодаря своей простоте и эффективности в проверяемых задачах, таких как математика и генерация кода, особенно при использовании группового среднего вознаграждения в качестве базовой линии вместо сложных функций стоимости.
- Переход от бинарных к порядковым вознаграждениям: Существующие методы RL в основном разработаны для бинарных предпочтений, но практические приложения требуют более богатых сигналов обратной связи, таких как порядковые вознаграждения по шкале 1-5.
- Фундаментальный недостаток GRPO: GRPO переопределяет цель обучения с абсолютной стоимости на относительное предпочтение, и преимущество больше не измеряется относительно абсолютного ожидаемого вознаграждения, а относительно производительности выбранных коллег.
Когда политика еще недостаточно обучена, групповая средняя базовая линия GRPO часто становится большим отрицательным числом. В этом состоянии любая «менее плохая» неудачная траектория удовлетворяет условию R(yf)>b, что приводит к A(yf)>0, активно обучая модель увеличивать вероятность генерации объективно неправильных траекторий.
- Устранить фундаментальный недостаток GRPO в задачах с порядковыми вознаграждениями
- Создать структуру обучения, которая одновременно гарантирует корректность и стимулирует оптимизацию
- Заложить основу для обучения LLM новым возможностям посредством обучения с подкреплением
- Теоретический анализ: Математически доказано неправильное нормирование базовой линии GRPO в задачах с порядковыми вознаграждениями, выявлена коренная причина присвоения положительного преимущества неудачным траекториям
- Метод CoRPO: Предложена Correctness-Relative Policy Optimization (CoRPO) с адаптивной базовой линией, новая формула преимущества, устраняющая недостатки GRPO
- Двухэтапная структура обучения: Разработан механизм автоматического перехода от «поиска корректности» к «поиску предпочтения», обеспечивающий различные сигналы обучения на разных этапах улучшения политики
- Эмпирическая проверка: Проверена эффективность CoRPO на задачах проверки кода, продемонстрирована более стабильная сходимость и лучшая обобщаемость вне распределения
Дан набор G траекторий {y1,y2,...,yG}, выбранных из политики πθ, GRPO использует групповое среднее вознаграждение в качестве базовой линии:
b=G1∑i=1GR(yi)
Функция преимущества определяется как:
A(yi)=normR(yi)−b
Основная проблема: Когда неудачная траектория yf (где R(yf)<0) удовлетворяет условию:
b<R(yf)<0
она получает положительное преимущество. Это распространенный сценарий в сложных задачах, где политика еще недостаточно обучена, что приводит к активному обучению модели ошибочному поведению.
- Гарантия корректности: Неудачные траектории никогда не должны получать положительное преимущество
- Пропорциональная обратная связь: Отрицательная обратная связь для неудачных решений должна быть пропорциональна их качеству
- Стимул к улучшению: Продолжать предоставлять сигналы улучшения среди «приемлемых» решений
Сначала предлагается статическая базовая линия:
bstatic=Rmin_correctAstatic(y)=R(y)−Rmin_correct
Это гарантирует корректность, но не обеспечивает стимул к улучшению после улучшения политики.
Финальная формула CoRPO объединяет преимущества статической и динамической базовых линий:
bmean=G1∑i=1GR(yi)
bcorpo=max(Rmin_correct,bmean)
Acorpo(yi)=R(yi)−bcorpo
Этап 1: Поиск корректности (bmean<Rmin_correct)
- Базовая линия зафиксирована на Rmin_correct
- Гарантирует, что все неудачные траектории получают отрицательное преимущество
- Сосредоточена на обучении базовой корректности
Этап 2: Поиск предпочтения (bmean≥Rmin_correct)
- Базовая линия становится стандартной базовой линией GRPO bmean
- Устанавливает относительные предпочтения между корректными решениями
- Стимулирует улучшение от «хорошего» к «оптимальному»
Обучение верификатора интерпретируемости для проверки корректности кода, сгенерированного LLM. Дана задача Q и два кандидата (RA,RB), политика выводит оценку V=(vA,vB)∈[0,10], представляющую уверенность в корректности каждого ответа.
- Обучающий набор: Задачи программирования из CodeForces и LeetCode, несколько решений, сгенерированных Qwen3-8B, включая корректные и неправильные цепочки рассуждений, всего 4890 образцов
- Наборы валидации:
- Кодирование в распределении: один корректный, один неправильный ответ (196 образцов)
- Кодирование вне распределения: оба корректные или оба неправильные ответы (98 образцов)
- Математика вне распределения: один корректный, один неправильный ответ (157 образцов)
- Модель: Qwen3-8B
- Максимальная длина последовательности: 16,384
- 8 траекторий на каждый запрос
- Глобальный размер пакета: 512
- Скорость обучения: 1×10⁻⁶
- Строгое соблюдение on-policy обучения
Использована метрика pass@16 для оценки точности модели на различных задачах.
Анализ распределения траекторий в репрезентативных пакетах показал, что 18% неудачных траекторий получили положительное преимущество, эмпирически подтверждая существование недостатка b<R(yf)<0.
Анализ соотношения положительных и отрицательных сигналов преимущества (rcount=#{A(y)<0}#{A(y)>0} и rloss=ΣLossA(y)<0ΣLossA(y)>0):
Начальный этап обучения: rcount как для статической, так и для CoRPO базовой линии остается ниже 1.0, правильно идентифицируя все неудачные траектории и предоставляя отрицательную обратную связь, отражая гарантию корректности.
Среднее и позднее обучение: Соотношение положительной и отрицательной обратной связи для статической базовой линии резко возрастает, тогда как для CoRPO базовой линии стабилизируется на умеренном уровне, успешно переходя из режима «корректности» в режим «предпочтения».
| Задача | GRPO | Static | CoRPO |
|---|
| Задачи в распределении | | | |
| First Correct | 87.1 | 80.2 | 83.2 |
| Second Correct | 86.3 | 89.5 | 86.3 |
| Задачи кодирования вне распределения | | | |
| Both Incorrect | 50.0 | 64.0 | 56.0 |
| Both Correct | 89.6 | 93.7 | 95.8 |
| Задачи математики вне распределения | | | |
| First Correct | 79.3 | 80.5 | 81.6 |
| Second Correct | 81.4 | 87.1 | 81.4 |
- Ценность гарантии корректности: Статическая и CoRPO базовые линии значительно превосходят GRPO на задачах вне распределения, доказывая, что предотвращение обучения «менее плохим» неудачам помогает обучению более устойчивым и обобщаемым сигналам корректности
- Компромисс консервативности: Консервативность CoRPO приводит к меньшим шагам обновления весов, что приводит к немного худшей производительности на задачах в распределении, но хорошей производительности на задачах вне распределения
- Способность к обобщению: Путем обеспечения гарантии корректности CoRPO обучается более устойчивой концепции корректности, что преобразуется в лучшую производительность вне распределения
- PPO: Использует функцию стоимости в качестве базовой линии, требует больших вычислительных и памятных затрат
- GRPO: Упрощает расчет базовой линии через групповое среднее вознаграждение, но имеет недостатки в задачах с порядковыми вознаграждениями
- Курирование данных: поддержание оптимальной точки успеха
- Динамический выбор траекторий: обеспечение высокой дисперсии в пакетах
- Перевзвешивание вознаграждений: смещение в сторону отрицательных примеров или масштабирование влияния положительных примеров
Эти методы фактически являются неявными эвристическими попытками управления базовой линией b, представляя обходные пути для решения проблемы GRPO с несбалансированными порядковыми вознаграждениями.
- Фундаментальный недостаток GRPO: В задачах с порядковыми вознаграждениями простая базовая линия GRPO присваивает положительное преимущество неудачным траекториям, нарушая цель не усиливать ошибочное поведение
- Эффективность CoRPO: Путем обеспечения гарантии корректности через адаптивную базовую линию CoRPO успешно устраняет патологическую динамику обучения GRPO
- Улучшение обобщаемости: CoRPO демонстрирует улучшенную обобщаемость на задачах вне распределения, доказывая ценность гарантии корректности
- Компромисс амплитуды преимущества: Богатство порядковых вознаграждений может привести к малым амплитудам преимущества при сходимости предсказаний политики, влияя на баланс исследования/использования
- Консервативность: Консервативная природа CoRPO приводит к более медленному обучению в распределении, требуя баланса между корректностью и эффективностью обучения
- Чувствительность к гиперпараметрам: Текущие гиперпараметры обучения и расчеты вознаграждения/преимущества не оптимизированы для CoRPO
- Балансировка амплитуды преимущества и исследования: Исследование методов обеспечения последовательных и влиятельных обновлений модели, балансирующих обучение корректному поведению и поиск оптимальных решений
- Выход за пределы вознаграждений на основе результатов: Исследование более богатой и плотной обратной связи, такой как пошаговые вознаграждения, предоставляющие обратную связь на протяжении всего процесса генерации
- Задачи многошагового рассуждения: Расширение метода на сложные задачи многошагового рассуждения и решения проблем
- Твердый теоретический вклад: Математически строго доказаны недостатки GRPO в задачах с порядковыми вознаграждениями, обеспечена четкая теоретическая анализ
- Умное проектирование метода: Адаптивная базовая линия CoRPO элегантно решает компромисс между гарантией корректности и стимулом к улучшению
- Достаточная экспериментальная проверка: Полная проверка эффективности метода через анализ динамики обучения и оценку нижестоящей производительности
- Высокая практическая ценность: Решает важную проблему в практическом обучении LLM, имеет прямую ценность для промышленного применения
- Ограниченный масштаб экспериментов: Проверка только на задачах проверки кода, требуется тестирование на большем количестве задач и областей
- Недостаточная оптимизация гиперпараметров: Признано, что текущие гиперпараметры не оптимизированы для CoRPO, что может повлиять на справедливость сравнения производительности
- Глубина теоретического анализа: Хотя проблема выявлена, анализ более глубоких теоретических причин, почему порядковые вознаграждения приводят к этой проблеме, ограничен
- Анализ вычислительных затрат: Отсутствует анализ вычислительных затрат CoRPO по сравнению с GRPO
- Академический вклад: Обеспечивает важные теоретические идеи для применения обучения с подкреплением в обучении LLM
- Практическая ценность: Предоставляет практическое решение для обучения LLM с использованием порядковых вознаграждений
- Направление исследований: Открывает путь исследований от бинарных к порядковым и далее к более плотной обратной связи
- Проверяемые задачи: Особенно подходит для задач с четкими стандартами корректности, таких как математика и генерация кода
- Сценарии с порядковыми вознаграждениями: Любые сценарии обучения RL, требующие использования порядковых вознаграждений, таких как оценки по шкале 1-5
- Обучение способностям LLM: Сценарии, где требуется обучить LLM новым способностям посредством RL, а не просто настройка предпочтений
Статья цитирует 15 соответствующих работ, охватывающих оригинальную статью GRPO, PPO и новейшие методы обучения LLM с подкреплением, обеспечивая твердую теоретическую основу для исследования.
Эта статья достигает хорошего баланса между теоретическим анализом и практическими решениями, обеспечивая глубокие идеи и эффективное решение важной проблемы в обучении LLM с подкреплением, обладая значительной академической и практической ценностью.