2025-11-11T09:58:08.549566

The Peril of Preference: Why GRPO fails on Ordinal Rewards

Garg, Venkatesh

Group-relative Policy Optimization's (GRPO) simplicity makes it highly desirable for adapting LLMs to become experts at specific tasks. But this simplicity also makes it ill-specified as we seek to enhance RL training with richer, non-binary feedback. When using ordinal rewards to give partial credit, GRPO's simplicity starts to hurt, as its group-average baseline often assigns a positive advantage to failed trajectories and reinforces incorrect behavior. We introduce Correctness Relative Policy Optimization (CoRPO), a new formulation that solves this flaw. CoRPO uses an adaptive baseline that enforces a minimum quality threshold, ensuring failed solutions are never positively reinforced. Once the policy consistently meets this threshold, the baseline automatically transitions to a relative preference mode, pushing the model to find optimal solutions rather than just "acceptable" ones. We empirically validate CoRPO on a code verification task, where it demonstrates more stable convergence and better out-of-domain generalization. This work represents a critical step in our broader research program to enable LLMs to learn genuinely new capabilities through reinforcement learning. We achieve this by enabling LLMs to learn from rich, multi-dimensional feedback - progressing from binary to ordinal rewards in this work, and onward to denser, per-step supervision.

academic

Опасность предпочтения: почему GRPO не работает с порядковыми вознаграждениями

Основная информация

ID статьи: 2511.04439
Название: The Peril of Preference: Why GRPO fails on Ordinal Rewards
Авторы: Anisha Garg, Ganesh Venkatesh (Cerebras Applied AI Research)
Классификация: cs.AI, cs.LG
Дата публикации: 6 ноября 2025 г. (препринт arXiv)
Ссылка на статью: https://arxiv.org/abs/2511.04439

Аннотация

Group-relative Policy Optimization (GRPO) пользуется популярностью благодаря своей простоте при адаптации больших языковых моделей (LLM) для выполнения конкретных задач. Однако эта простота становится недостаточной при попытке использовать более богатую небинарную обратную связь для улучшения обучения с подкреплением. При использовании порядковых вознаграждений для предоставления частичных вознаграждений простота GRPO начинает оказывать негативное влияние: его базовая линия, основанная на групповом среднем, часто присваивает положительное преимущество неудачным траекториям, тем самым усиливая ошибочное поведение. В данной работе представлена Correctness-Relative Policy Optimization (CoRPO) — новая формулировка, устраняющая этот недостаток. CoRPO использует адаптивную базовую линию для обеспечения минимального порога качества, гарантируя, что неудачные решения никогда не получают положительного подкрепления. После того как политика последовательно достигает этого порога, базовая линия автоматически переходит в режим относительного предпочтения, побуждая модель искать оптимальные решения, а не просто «приемлемые» решения.

Исследовательский контекст и мотивация

Предпосылки проблемы

Широкое применение GRPO: GRPO широко используется благодаря своей простоте и эффективности в проверяемых задачах, таких как математика и генерация кода, особенно при использовании группового среднего вознаграждения в качестве базовой линии вместо сложных функций стоимости.
Переход от бинарных к порядковым вознаграждениям: Существующие методы RL в основном разработаны для бинарных предпочтений, но практические приложения требуют более богатых сигналов обратной связи, таких как порядковые вознаграждения по шкале 1-5.
Фундаментальный недостаток GRPO: GRPO переопределяет цель обучения с абсолютной стоимости на относительное предпочтение, и преимущество больше не измеряется относительно абсолютного ожидаемого вознаграждения, а относительно производительности выбранных коллег.

Основная проблема

Когда политика еще недостаточно обучена, групповая средняя базовая линия GRPO часто становится большим отрицательным числом. В этом состоянии любая «менее плохая» неудачная траектория удовлетворяет условию $R(y_f) > b$ , что приводит к $A(y_f) > 0$ , активно обучая модель увеличивать вероятность генерации объективно неправильных траекторий.

Исследовательская мотивация

Устранить фундаментальный недостаток GRPO в задачах с порядковыми вознаграждениями
Создать структуру обучения, которая одновременно гарантирует корректность и стимулирует оптимизацию
Заложить основу для обучения LLM новым возможностям посредством обучения с подкреплением

Основные вклады

Теоретический анализ: Математически доказано неправильное нормирование базовой линии GRPO в задачах с порядковыми вознаграждениями, выявлена коренная причина присвоения положительного преимущества неудачным траекториям
Метод CoRPO: Предложена Correctness-Relative Policy Optimization (CoRPO) с адаптивной базовой линией, новая формула преимущества, устраняющая недостатки GRPO
Двухэтапная структура обучения: Разработан механизм автоматического перехода от «поиска корректности» к «поиску предпочтения», обеспечивающий различные сигналы обучения на разных этапах улучшения политики
Эмпирическая проверка: Проверена эффективность CoRPO на задачах проверки кода, продемонстрирована более стабильная сходимость и лучшая обобщаемость вне распределения

Подробное описание метода

Определение проблемы

Дан набор $G$ траекторий $\{y_1, y_2, ..., y_G\}$ , выбранных из политики $\pi_\theta$ , GRPO использует групповое среднее вознаграждение в качестве базовой линии:

$b = \frac{1}{G}\sum_{i=1}^{G}R(y_i)$

Функция преимущества определяется как: $A(y_i) = \frac{R(y_i) - b}{norm}$

Анализ недостатков GRPO

Основная проблема: Когда неудачная траектория $y_f$ (где $R(y_f) < 0$ ) удовлетворяет условию: $b < R(y_f) < 0$

она получает положительное преимущество. Это распространенный сценарий в сложных задачах, где политика еще недостаточно обучена, что приводит к активному обучению модели ошибочному поведению.

Решение CoRPO

1. Три критерия идеальной базовой линии

Гарантия корректности: Неудачные траектории никогда не должны получать положительное преимущество
Пропорциональная обратная связь: Отрицательная обратная связь для неудачных решений должна быть пропорциональна их качеству
Стимул к улучшению: Продолжать предоставлять сигналы улучшения среди «приемлемых» решений

2. Метод статической базовой линии

Сначала предлагается статическая базовая линия: $b_{static} = R_{min\_correct}$ $A_{static}(y) = R(y) - R_{min\_correct}$

Это гарантирует корректность, но не обеспечивает стимул к улучшению после улучшения политики.

3. Адаптивная базовая линия CoRPO

Финальная формула CoRPO объединяет преимущества статической и динамической базовых линий:

$b_{mean} = \frac{1}{G}\sum_{i=1}^{G}R(y_i)$

$b_{corpo} = \max(R_{min\_correct}, b_{mean})$

$A_{corpo}(y_i) = R(y_i) - b_{corpo}$

4. Механизм двухэтапной работы

Этап 1: Поиск корректности ( $b_{mean} < R_{min\_correct}$ )

Базовая линия зафиксирована на $R_{min\_correct}$
Гарантирует, что все неудачные траектории получают отрицательное преимущество
Сосредоточена на обучении базовой корректности

Этап 2: Поиск предпочтения ( $b_{mean} \geq R_{min\_correct}$ )

Базовая линия становится стандартной базовой линией GRPO $b_{mean}$
Устанавливает относительные предпочтения между корректными решениями
Стимулирует улучшение от «хорошего» к «оптимальному»

Экспериментальная установка

Определение задачи

Обучение верификатора интерпретируемости для проверки корректности кода, сгенерированного LLM. Дана задача $Q$ и два кандидата $(R_A, R_B)$ , политика выводит оценку $V = (v_A, v_B) \in [0, 10]$ , представляющую уверенность в корректности каждого ответа.

Наборы данных

Обучающий набор: Задачи программирования из CodeForces и LeetCode, несколько решений, сгенерированных Qwen3-8B, включая корректные и неправильные цепочки рассуждений, всего 4890 образцов
Наборы валидации:
- Кодирование в распределении: один корректный, один неправильный ответ (196 образцов)
- Кодирование вне распределения: оба корректные или оба неправильные ответы (98 образцов)
- Математика вне распределения: один корректный, один неправильный ответ (157 образцов)

Конфигурация экспериментов

Модель: Qwen3-8B
Максимальная длина последовательности: 16,384
8 траекторий на каждый запрос
Глобальный размер пакета: 512
Скорость обучения: 1×10⁻⁶
Строгое соблюдение on-policy обучения

Метрики оценки

Использована метрика pass@16 для оценки точности модели на различных задачах.

Результаты экспериментов

Проверка недостатков GRPO

Анализ распределения траекторий в репрезентативных пакетах показал, что 18% неудачных траекторий получили положительное преимущество, эмпирически подтверждая существование недостатка $b < R(y_f) < 0$ .

Анализ динамики обучения

Анализ соотношения положительных и отрицательных сигналов преимущества ( $r_{count} = \frac{\#\{A(y)>0\}}{\#\{A(y)<0\}}$ и $r_{loss} = \frac{\Sigma Loss_{A(y)>0}}{\Sigma Loss_{A(y)<0}}$ ):

Начальный этап обучения: $r_{count}$ как для статической, так и для CoRPO базовой линии остается ниже 1.0, правильно идентифицируя все неудачные траектории и предоставляя отрицательную обратную связь, отражая гарантию корректности.

Среднее и позднее обучение: Соотношение положительной и отрицательной обратной связи для статической базовой линии резко возрастает, тогда как для CoRPO базовой линии стабилизируется на умеренном уровне, успешно переходя из режима «корректности» в режим «предпочтения».

Результаты точности нижестоящих задач

Задача	GRPO	Static	CoRPO
Задачи в распределении
First Correct	87.1	80.2	83.2
Second Correct	86.3	89.5	86.3
Задачи кодирования вне распределения
Both Incorrect	50.0	64.0	56.0
Both Correct	89.6	93.7	95.8
Задачи математики вне распределения
First Correct	79.3	80.5	81.6
Second Correct	81.4	87.1	81.4

Ключевые находки

Ценность гарантии корректности: Статическая и CoRPO базовые линии значительно превосходят GRPO на задачах вне распределения, доказывая, что предотвращение обучения «менее плохим» неудачам помогает обучению более устойчивым и обобщаемым сигналам корректности
Компромисс консервативности: Консервативность CoRPO приводит к меньшим шагам обновления весов, что приводит к немного худшей производительности на задачах в распределении, но хорошей производительности на задачах вне распределения
Способность к обобщению: Путем обеспечения гарантии корректности CoRPO обучается более устойчивой концепции корректности, что преобразуется в лучшую производительность вне распределения

Связанные работы

Методы базовых линий в обучении с подкреплением

PPO: Использует функцию стоимости в качестве базовой линии, требует больших вычислительных и памятных затрат
GRPO: Упрощает расчет базовой линии через групповое среднее вознаграждение, но имеет недостатки в задачах с порядковыми вознаграждениями

Обучение LLM с подкреплением

Курирование данных: поддержание оптимальной точки успеха
Динамический выбор траекторий: обеспечение высокой дисперсии в пакетах
Перевзвешивание вознаграждений: смещение в сторону отрицательных примеров или масштабирование влияния положительных примеров

Эти методы фактически являются неявными эвристическими попытками управления базовой линией $b$ , представляя обходные пути для решения проблемы GRPO с несбалансированными порядковыми вознаграждениями.

Заключение и обсуждение

Основные выводы

Фундаментальный недостаток GRPO: В задачах с порядковыми вознаграждениями простая базовая линия GRPO присваивает положительное преимущество неудачным траекториям, нарушая цель не усиливать ошибочное поведение
Эффективность CoRPO: Путем обеспечения гарантии корректности через адаптивную базовую линию CoRPO успешно устраняет патологическую динамику обучения GRPO
Улучшение обобщаемости: CoRPO демонстрирует улучшенную обобщаемость на задачах вне распределения, доказывая ценность гарантии корректности

Ограничения

Компромисс амплитуды преимущества: Богатство порядковых вознаграждений может привести к малым амплитудам преимущества при сходимости предсказаний политики, влияя на баланс исследования/использования
Консервативность: Консервативная природа CoRPO приводит к более медленному обучению в распределении, требуя баланса между корректностью и эффективностью обучения
Чувствительность к гиперпараметрам: Текущие гиперпараметры обучения и расчеты вознаграждения/преимущества не оптимизированы для CoRPO

Направления будущих исследований

Балансировка амплитуды преимущества и исследования: Исследование методов обеспечения последовательных и влиятельных обновлений модели, балансирующих обучение корректному поведению и поиск оптимальных решений
Выход за пределы вознаграждений на основе результатов: Исследование более богатой и плотной обратной связи, такой как пошаговые вознаграждения, предоставляющие обратную связь на протяжении всего процесса генерации
Задачи многошагового рассуждения: Расширение метода на сложные задачи многошагового рассуждения и решения проблем

Глубокая оценка

Сильные стороны

Твердый теоретический вклад: Математически строго доказаны недостатки GRPO в задачах с порядковыми вознаграждениями, обеспечена четкая теоретическая анализ
Умное проектирование метода: Адаптивная базовая линия CoRPO элегантно решает компромисс между гарантией корректности и стимулом к улучшению
Достаточная экспериментальная проверка: Полная проверка эффективности метода через анализ динамики обучения и оценку нижестоящей производительности
Высокая практическая ценность: Решает важную проблему в практическом обучении LLM, имеет прямую ценность для промышленного применения

Недостатки

Ограниченный масштаб экспериментов: Проверка только на задачах проверки кода, требуется тестирование на большем количестве задач и областей
Недостаточная оптимизация гиперпараметров: Признано, что текущие гиперпараметры не оптимизированы для CoRPO, что может повлиять на справедливость сравнения производительности
Глубина теоретического анализа: Хотя проблема выявлена, анализ более глубоких теоретических причин, почему порядковые вознаграждения приводят к этой проблеме, ограничен
Анализ вычислительных затрат: Отсутствует анализ вычислительных затрат CoRPO по сравнению с GRPO

Влияние

Академический вклад: Обеспечивает важные теоретические идеи для применения обучения с подкреплением в обучении LLM
Практическая ценность: Предоставляет практическое решение для обучения LLM с использованием порядковых вознаграждений
Направление исследований: Открывает путь исследований от бинарных к порядковым и далее к более плотной обратной связи

Применимые сценарии

Проверяемые задачи: Особенно подходит для задач с четкими стандартами корректности, таких как математика и генерация кода
Сценарии с порядковыми вознаграждениями: Любые сценарии обучения RL, требующие использования порядковых вознаграждений, таких как оценки по шкале 1-5
Обучение способностям LLM: Сценарии, где требуется обучить LLM новым способностям посредством RL, а не просто настройка предпочтений

Библиография

Статья цитирует 15 соответствующих работ, охватывающих оригинальную статью GRPO, PPO и новейшие методы обучения LLM с подкреплением, обеспечивая твердую теоретическую основу для исследования.

Эта статья достигает хорошего баланса между теоретическим анализом и практическими решениями, обеспечивая глубокие идеи и эффективное решение важной проблемы в обучении LLM с подкреплением, обладая значительной академической и практической ценностью.