2025-11-11T09:58:08.549566

The Peril of Preference: Why GRPO fails on Ordinal Rewards

Garg, Venkatesh

Group-relative Policy Optimization's (GRPO) simplicity makes it highly desirable for adapting LLMs to become experts at specific tasks. But this simplicity also makes it ill-specified as we seek to enhance RL training with richer, non-binary feedback. When using ordinal rewards to give partial credit, GRPO's simplicity starts to hurt, as its group-average baseline often assigns a positive advantage to failed trajectories and reinforces incorrect behavior. We introduce Correctness Relative Policy Optimization (CoRPO), a new formulation that solves this flaw. CoRPO uses an adaptive baseline that enforces a minimum quality threshold, ensuring failed solutions are never positively reinforced. Once the policy consistently meets this threshold, the baseline automatically transitions to a relative preference mode, pushing the model to find optimal solutions rather than just "acceptable" ones. We empirically validate CoRPO on a code verification task, where it demonstrates more stable convergence and better out-of-domain generalization. This work represents a critical step in our broader research program to enable LLMs to learn genuinely new capabilities through reinforcement learning. We achieve this by enabling LLMs to learn from rich, multi-dimensional feedback - progressing from binary to ordinal rewards in this work, and onward to denser, per-step supervision.

academic

El Peligro de la Preferencia: Por Qué GRPO Falla en Recompensas Ordinales

Información Básica

ID del Artículo: 2511.04439
Título: The Peril of Preference: Why GRPO fails on Ordinal Rewards
Autores: Anisha Garg, Ganesh Venkatesh (Cerebras Applied AI Research)
Clasificación: cs.AI, cs.LG
Fecha de Publicación: 6 de noviembre de 2025 (preimpresión en arXiv)
Enlace del Artículo: https://arxiv.org/abs/2511.04439

Resumen

La Optimización de Políticas Relativas de Grupo (GRPO) ha ganado popularidad por su simplicidad en la adaptación de modelos de lenguaje grandes (LLM) para tareas específicas. Sin embargo, cuando se busca mejorar el entrenamiento de aprendizaje por refuerzo mediante retroalimentación no binaria más rica, esta simplicidad resulta insuficiente. Al utilizar recompensas ordinales para proporcionar recompensas parciales, la simplicidad de GRPO comienza a producir efectos negativos, ya que su línea de base basada en el promedio del grupo frecuentemente asigna ventajas positivas a trayectorias fallidas, reforzando así comportamientos erróneos. Este artículo introduce la Optimización de Políticas Relativas de Corrección (CoRPO), una nueva formulación que aborda este defecto. CoRPO utiliza una línea de base adaptativa para imponer un umbral de calidad mínima, asegurando que las soluciones fallidas nunca reciban refuerzo positivo. Una vez que la política satisface consistentemente este umbral, la línea de base se transforma automáticamente en un modo de preferencia relativa, impulsando al modelo a buscar soluciones óptimas en lugar de simplemente "aceptables".

Antecedentes de Investigación y Motivación

Contexto del Problema

Aplicación Generalizada de GRPO: GRPO ha sido ampliamente adoptado por su simplicidad y eficiencia en tareas verificables como generación de matemáticas y código, particularmente utilizando recompensas promedio de grupo como línea de base en lugar de funciones de valor complejas.
Transición de Recompensas Binarias a Ordinales: Los métodos de RL existentes se han diseñado principalmente para preferencias binarias, pero las aplicaciones prácticas requieren señales de retroalimentación más ricas, como recompensas ordinales con calificaciones de 1-5.
Defecto Fundamental de GRPO: GRPO redefine el objetivo de aprendizaje de valor absoluto a preferencia relativa, donde la ventaja ya no se mide contra la recompensa esperada absoluta aprendida, sino contra el desempeño de compañeros muestreados.

Problema Central

Cuando la política aún no está suficientemente entrenada, la línea de base de promedio de grupo de GRPO frecuentemente se convierte en un número grande y negativo. En este estado, cualquier trayectoria fallida "no tan mala" satisface $R(y_f) > b$ , resultando en $A(y_f) > 0$ , entrenando así activamente al modelo para aumentar la probabilidad de generar trayectorias objetivamente incorrectas.

Motivación de la Investigación

Abordar el defecto fundamental de GRPO en tareas con recompensas ordinales
Establecer un marco de entrenamiento que garantice corrección e impulse la optimización
Sentar las bases para que los LLM aprendan nuevas capacidades mediante aprendizaje por refuerzo

Contribuciones Principales

Análisis Teórico: Demuestra matemáticamente la normalización inadecuada de la línea de base de GRPO en tareas con recompensas ordinales, revelando la causa fundamental de la asignación de ventajas positivas a trayectorias fallidas
Método CoRPO: Propone la Optimización de Políticas Relativas de Corrección (CoRPO), una nueva fórmula de ventaja con línea de base adaptativa que resuelve los defectos de GRPO
Marco de Aprendizaje Bifásico: Diseña un mecanismo de transición automática de "búsqueda de corrección" a "búsqueda de preferencia", proporcionando diferentes señales de aprendizaje durante el proceso de mejora de políticas
Verificación Empírica: Valida la efectividad de CoRPO en tareas de verificación de código, demostrando convergencia más estable y mejor capacidad de generalización fuera del dominio

Explicación Detallada del Método

Definición del Problema

Dado un conjunto de $G$ rollouts $\{y_1, y_2, ..., y_G\}$ muestreados de la política $\pi_\theta$ , GRPO utiliza la recompensa promedio de grupo como línea de base:

$b = \frac{1}{G}\sum_{i=1}^{G}R(y_i)$

La función de ventaja se define como: $A(y_i) = \frac{R(y_i) - b}{norm}$

Análisis de los Defectos de GRPO

Problema Central: Cuando una trayectoria fallida $y_f$ (donde $R(y_f) < 0$ ) satisface la siguiente condición, obtiene una ventaja positiva: $b < R(y_f) < 0$

Este es un escenario común en problemas complejos donde la política aún no está suficientemente entrenada, causando que el modelo aprenda activamente comportamientos erróneos.

Solución CoRPO

1. Tres Criterios para la Línea de Base Ideal

Garantía de Corrección: Las trayectorias fallidas nunca deben obtener ventajas positivas
Retroalimentación Proporcional: La retroalimentación negativa para soluciones fallidas debe ser proporcional a su calidad
Impulso de Búsqueda: Continuar proporcionando señales de mejora entre soluciones "aceptables"

2. Método de Línea de Base Estática

Primero se propone una línea de base estática: $b_{static} = R_{min\_correct}$ $A_{static}(y) = R(y) - R_{min\_correct}$

Esto garantiza corrección, pero carece de impulso de búsqueda después de la mejora de políticas.

3. Línea de Base Adaptativa de CoRPO

La fórmula final de CoRPO combina las ventajas de líneas de base estáticas y dinámicas:

$b_{mean} = \frac{1}{G}\sum_{i=1}^{G}R(y_i)$

$b_{corpo} = \max(R_{min\_correct}, b_{mean})$

$A_{corpo}(y_i) = R(y_i) - b_{corpo}$

4. Mecanismo de Operación Bifásico

Fase 1: Búsqueda de Corrección ( $b_{mean} < R_{min\_correct}$ )

Línea de base bloqueada en $R_{min\_correct}$
Asegura que todas las trayectorias fallidas obtengan ventajas negativas
Se enfoca en aprender corrección básica

Fase 2: Búsqueda de Preferencia ( $b_{mean} \geq R_{min\_correct}$ )

Línea de base se convierte en la línea de base estándar de GRPO $b_{mean}$
Establece preferencias relativas entre soluciones correctas
Impulsa la mejora de "bueno" a "óptimo"

Configuración Experimental

Definición de Tareas

Entrenar un verificador interpretativo para validar la corrección del código generado por LLM. Dado un problema $Q$ y dos respuestas candidatas $(R_A, R_B)$ , la política genera puntuaciones $V = (v_A, v_B) \in [0, 10]$ , representando la confianza en la corrección de cada respuesta.

Conjuntos de Datos

Conjunto de Entrenamiento: Problemas de programación de CodeForces y LeetCode, con múltiples soluciones generadas usando Qwen3-8B, incluyendo trayectorias de razonamiento correctas e incorrectas, totalizando 4890 muestras
Conjunto de Validación:
- Codificación dentro del dominio: una respuesta correcta y una incorrecta (196 muestras)
- Codificación fuera del dominio: ambas correctas o ambas incorrectas (98 muestras)
- Matemáticas fuera del dominio: una respuesta correcta y una incorrecta (157 muestras)

Configuración Experimental

Modelo: Qwen3-8B
Longitud máxima de secuencia: 16,384
8 rollouts generados por cada indicación
Tamaño de lote global: 512
Tasa de aprendizaje: 1×10⁻⁶
Entrenamiento estrictamente en política

Métricas de Evaluación

Se utiliza la métrica pass@16 para evaluar la precisión del modelo en diferentes tareas.

Resultados Experimentales

Verificación de Defectos de GRPO

Mediante el análisis de la distribución de rollouts en lotes representativos, se encontró que el 18% de las trayectorias fallidas obtuvieron ventajas positivas, confirmando empíricamente la existencia del defecto $b < R(y_f) < 0$ .

Análisis de Dinámicas de Entrenamiento

Mediante el análisis de la proporción de señales de ventaja positiva y negativa ( $r_{count} = \frac{\#\{A(y)>0\}}{\#\{A(y)<0\}}$ y $r_{loss} = \frac{\Sigma Loss_{A(y)>0}}{\Sigma Loss_{A(y)<0}}$ ):

Fase Inicial de Entrenamiento: Tanto las líneas de base estática como CoRPO tienen $r_{count}$ por debajo de 1.0, identificando correctamente todas las trayectorias fallidas y proporcionando retroalimentación negativa, reflejando la garantía de corrección.

Fases Media y Tardía de Entrenamiento: La proporción de retroalimentación positiva y negativa de la línea de base estática aumenta drásticamente, mientras que la línea de base CoRPO se estabiliza en un nivel moderado, logrando exitosamente la transición del modo "corrección" al modo "preferencia".

Resultados de Precisión Descendente

Tarea	GRPO	Estática	CoRPO
Tareas Dentro del Dominio
Primera Correcta	87.1	80.2	83.2
Segunda Correcta	86.3	89.5	86.3
Tareas de Codificación Fuera del Dominio
Ambas Incorrectas	50.0	64.0	56.0
Ambas Correctas	89.6	93.7	95.8
Tareas de Matemáticas Fuera del Dominio
Primera Correcta	79.3	80.5	81.6
Segunda Correcta	81.4	87.1	81.4

Hallazgos Clave

Valor de la Garantía de Corrección: Las líneas de base estática y CoRPO superan significativamente a GRPO en tareas fuera del dominio, demostrando que prevenir el aprendizaje de fallos "no tan malos" ayuda a aprender señales de corrección más robustas y generalizables
Compensación de Conservadurismo: El conservadurismo de CoRPO resulta en pasos de actualización de pesos más pequeños, con desempeño ligeramente inferior a la línea de base estática en tareas dentro del dominio, pero mejor desempeño en tareas fuera del dominio
Capacidad de Generalización: Al imponer garantías de corrección, CoRPO aprende un concepto de corrección más robusto, traduciéndose en mejor desempeño fuera del dominio

Trabajo Relacionado

Métodos de Línea de Base en Aprendizaje por Refuerzo

PPO: Utiliza funciones de valor como línea de base, con grandes gastos computacionales y de memoria
GRPO: Simplifica el cálculo de línea de base mediante recompensas promedio de grupo, pero tiene defectos en tareas con recompensas ordinales

Entrenamiento de RL para LLM

Curación de datos: Mantener una tasa de éxito en el "punto óptimo"
Selección dinámica de rollouts: Asegurar alta varianza en lotes
Reponderación de recompensas: Sesgar hacia ejemplos negativos o escalar el impacto de ejemplos positivos

Estas técnicas son esencialmente intentos heurísticos implícitos de gestionar la línea de base $b$ , siendo soluciones alternativas para que la formulación de GRPO maneje problemas de recompensas ordinales desequilibradas.

Conclusiones y Discusión

Conclusiones Principales

Defecto Fundamental de GRPO: En tareas con recompensas ordinales, la línea de base simple de GRPO asigna ventajas positivas a trayectorias fallidas, violando el objetivo de no reforzar comportamientos erróneos
Efectividad de CoRPO: Mediante la imposición de garantías de corrección con una línea de base adaptativa, CoRPO resuelve exitosamente las dinámicas de entrenamiento patológicas de GRPO
Mejora en Capacidad de Generalización: CoRPO demuestra capacidad mejorada de generalización en tareas fuera del dominio, validando el valor de las garantías de corrección

Limitaciones

Compensación de Magnitud de Ventaja: La riqueza de recompensas ordinales puede resultar en magnitudes de ventaja muy pequeñas cuando las predicciones de políticas se agrupan, afectando el equilibrio exploración/explotación
Conservadurismo: La naturaleza conservadora de CoRPO resulta en aprendizaje más lento dentro del dominio, requiriendo equilibrio entre corrección y eficiencia de aprendizaje
Sensibilidad de Hiperparámetros: Los hiperparámetros de entrenamiento actuales y los cálculos de recompensa/ventaja no han sido optimizados para CoRPO

Direcciones Futuras

Equilibrar Magnitud de Ventaja y Exploración: Explorar métodos para asegurar que el modelo reciba actualizaciones consistentes e impactantes, equilibrando la capacidad de aprender comportamientos correctos y buscar soluciones óptimas
Más Allá de Recompensas Basadas en Resultados: Explorar retroalimentación más rica y densa, como recompensas por paso que proporcionan retroalimentación durante todo el proceso de generación
Tareas de Razonamiento Multietapa: Extender el método a tareas complejas de razonamiento multietapa y resolución de problemas

Evaluación Profunda

Fortalezas

Contribución Teórica Sólida: Demuestra matemáticamente el defecto de GRPO en tareas con recompensas ordinales, proporcionando análisis teórico claro
Diseño de Método Ingenioso: El diseño de línea de base adaptativa de CoRPO resuelve elegantemente el equilibrio entre garantía de corrección e impulso de búsqueda
Verificación Experimental Completa: Valida comprehensivamente la efectividad del método mediante análisis de dinámicas de entrenamiento y evaluación de desempeño descendente
Alto Valor Práctico: Resuelve un problema importante en el entrenamiento práctico de LLM, con valor directo para aplicaciones industriales

Insuficiencias

Escala Experimental Limitada: Verificación solo en tareas de verificación de código, requiriendo pruebas en más tareas y dominios
Optimización de Hiperparámetros Insuficiente: Reconoce que los hiperparámetros actuales no están optimizados para CoRPO, lo que puede afectar la equidad de las comparaciones de desempeño
Profundidad de Análisis Teórico: Aunque identifica el problema, el análisis teórico más profundo sobre por qué las recompensas ordinales causan este problema es limitado
Análisis de Gastos Computacionales: Falta análisis de gastos computacionales de CoRPO en comparación con GRPO

Impacto

Contribución Académica: Proporciona información teórica importante para la aplicación de aprendizaje por refuerzo en entrenamiento de LLM
Valor Práctico: Proporciona una solución práctica para entrenar LLM con recompensas ordinales
Dirección de Investigación: Abre una ruta de investigación desde retroalimentación binaria a ordinaria a retroalimentación más densa

Escenarios Aplicables

Tareas Verificables: Particularmente adecuado para tareas como matemáticas y generación de código con criterios de corrección claros
Escenarios de Recompensas Ordinales: Cualquier escenario de entrenamiento de RL que requiera usar recompensas ordinales como calificaciones de 1-5
Aprendizaje de Capacidades de LLM: Escenarios donde se busca que los LLM aprendan nuevas capacidades mediante RL en lugar de simplemente ajustar preferencias

Referencias

El artículo cita 15 referencias relacionadas, cubriendo el artículo original de GRPO, PPO, y métodos recientes de entrenamiento de RL para LLM, proporcionando una base teórica sólida para la investigación.

Este artículo logra un buen equilibrio entre análisis teórico y soluciones prácticas, proporcionando información profunda y soluciones efectivas para un problema importante en el entrenamiento de RL para LLM, con valor académico y práctico significativo.