Group-relative Policy Optimization's (GRPO) simplicity makes it highly desirable for adapting LLMs to become experts at specific tasks. But this simplicity also makes it ill-specified as we seek to enhance RL training with richer, non-binary feedback. When using ordinal rewards to give partial credit, GRPO's simplicity starts to hurt, as its group-average baseline often assigns a positive advantage to failed trajectories and reinforces incorrect behavior.
We introduce Correctness Relative Policy Optimization (CoRPO), a new formulation that solves this flaw. CoRPO uses an adaptive baseline that enforces a minimum quality threshold, ensuring failed solutions are never positively reinforced. Once the policy consistently meets this threshold, the baseline automatically transitions to a relative preference mode, pushing the model to find optimal solutions rather than just "acceptable" ones. We empirically validate CoRPO on a code verification task, where it demonstrates more stable convergence and better out-of-domain generalization.
This work represents a critical step in our broader research program to enable LLMs to learn genuinely new capabilities through reinforcement learning. We achieve this by enabling LLMs to learn from rich, multi-dimensional feedback - progressing from binary to ordinal rewards in this work, and onward to denser, per-step supervision.
- ID del Artículo: 2511.04439
- Título: The Peril of Preference: Why GRPO fails on Ordinal Rewards
- Autores: Anisha Garg, Ganesh Venkatesh (Cerebras Applied AI Research)
- Clasificación: cs.AI, cs.LG
- Fecha de Publicación: 6 de noviembre de 2025 (preimpresión en arXiv)
- Enlace del Artículo: https://arxiv.org/abs/2511.04439
La Optimización de Políticas Relativas de Grupo (GRPO) ha ganado popularidad por su simplicidad en la adaptación de modelos de lenguaje grandes (LLM) para tareas específicas. Sin embargo, cuando se busca mejorar el entrenamiento de aprendizaje por refuerzo mediante retroalimentación no binaria más rica, esta simplicidad resulta insuficiente. Al utilizar recompensas ordinales para proporcionar recompensas parciales, la simplicidad de GRPO comienza a producir efectos negativos, ya que su línea de base basada en el promedio del grupo frecuentemente asigna ventajas positivas a trayectorias fallidas, reforzando así comportamientos erróneos. Este artículo introduce la Optimización de Políticas Relativas de Corrección (CoRPO), una nueva formulación que aborda este defecto. CoRPO utiliza una línea de base adaptativa para imponer un umbral de calidad mínima, asegurando que las soluciones fallidas nunca reciban refuerzo positivo. Una vez que la política satisface consistentemente este umbral, la línea de base se transforma automáticamente en un modo de preferencia relativa, impulsando al modelo a buscar soluciones óptimas en lugar de simplemente "aceptables".
- Aplicación Generalizada de GRPO: GRPO ha sido ampliamente adoptado por su simplicidad y eficiencia en tareas verificables como generación de matemáticas y código, particularmente utilizando recompensas promedio de grupo como línea de base en lugar de funciones de valor complejas.
- Transición de Recompensas Binarias a Ordinales: Los métodos de RL existentes se han diseñado principalmente para preferencias binarias, pero las aplicaciones prácticas requieren señales de retroalimentación más ricas, como recompensas ordinales con calificaciones de 1-5.
- Defecto Fundamental de GRPO: GRPO redefine el objetivo de aprendizaje de valor absoluto a preferencia relativa, donde la ventaja ya no se mide contra la recompensa esperada absoluta aprendida, sino contra el desempeño de compañeros muestreados.
Cuando la política aún no está suficientemente entrenada, la línea de base de promedio de grupo de GRPO frecuentemente se convierte en un número grande y negativo. En este estado, cualquier trayectoria fallida "no tan mala" satisface R(yf)>b, resultando en A(yf)>0, entrenando así activamente al modelo para aumentar la probabilidad de generar trayectorias objetivamente incorrectas.
- Abordar el defecto fundamental de GRPO en tareas con recompensas ordinales
- Establecer un marco de entrenamiento que garantice corrección e impulse la optimización
- Sentar las bases para que los LLM aprendan nuevas capacidades mediante aprendizaje por refuerzo
- Análisis Teórico: Demuestra matemáticamente la normalización inadecuada de la línea de base de GRPO en tareas con recompensas ordinales, revelando la causa fundamental de la asignación de ventajas positivas a trayectorias fallidas
- Método CoRPO: Propone la Optimización de Políticas Relativas de Corrección (CoRPO), una nueva fórmula de ventaja con línea de base adaptativa que resuelve los defectos de GRPO
- Marco de Aprendizaje Bifásico: Diseña un mecanismo de transición automática de "búsqueda de corrección" a "búsqueda de preferencia", proporcionando diferentes señales de aprendizaje durante el proceso de mejora de políticas
- Verificación Empírica: Valida la efectividad de CoRPO en tareas de verificación de código, demostrando convergencia más estable y mejor capacidad de generalización fuera del dominio
Dado un conjunto de G rollouts {y1,y2,...,yG} muestreados de la política πθ, GRPO utiliza la recompensa promedio de grupo como línea de base:
b=G1∑i=1GR(yi)
La función de ventaja se define como:
A(yi)=normR(yi)−b
Problema Central: Cuando una trayectoria fallida yf (donde R(yf)<0) satisface la siguiente condición, obtiene una ventaja positiva:
b<R(yf)<0
Este es un escenario común en problemas complejos donde la política aún no está suficientemente entrenada, causando que el modelo aprenda activamente comportamientos erróneos.
- Garantía de Corrección: Las trayectorias fallidas nunca deben obtener ventajas positivas
- Retroalimentación Proporcional: La retroalimentación negativa para soluciones fallidas debe ser proporcional a su calidad
- Impulso de Búsqueda: Continuar proporcionando señales de mejora entre soluciones "aceptables"
Primero se propone una línea de base estática:
bstatic=Rmin_correctAstatic(y)=R(y)−Rmin_correct
Esto garantiza corrección, pero carece de impulso de búsqueda después de la mejora de políticas.
La fórmula final de CoRPO combina las ventajas de líneas de base estáticas y dinámicas:
bmean=G1∑i=1GR(yi)
bcorpo=max(Rmin_correct,bmean)
Acorpo(yi)=R(yi)−bcorpo
Fase 1: Búsqueda de Corrección (bmean<Rmin_correct)
- Línea de base bloqueada en Rmin_correct
- Asegura que todas las trayectorias fallidas obtengan ventajas negativas
- Se enfoca en aprender corrección básica
Fase 2: Búsqueda de Preferencia (bmean≥Rmin_correct)
- Línea de base se convierte en la línea de base estándar de GRPO bmean
- Establece preferencias relativas entre soluciones correctas
- Impulsa la mejora de "bueno" a "óptimo"
Entrenar un verificador interpretativo para validar la corrección del código generado por LLM. Dado un problema Q y dos respuestas candidatas (RA,RB), la política genera puntuaciones V=(vA,vB)∈[0,10], representando la confianza en la corrección de cada respuesta.
- Conjunto de Entrenamiento: Problemas de programación de CodeForces y LeetCode, con múltiples soluciones generadas usando Qwen3-8B, incluyendo trayectorias de razonamiento correctas e incorrectas, totalizando 4890 muestras
- Conjunto de Validación:
- Codificación dentro del dominio: una respuesta correcta y una incorrecta (196 muestras)
- Codificación fuera del dominio: ambas correctas o ambas incorrectas (98 muestras)
- Matemáticas fuera del dominio: una respuesta correcta y una incorrecta (157 muestras)
- Modelo: Qwen3-8B
- Longitud máxima de secuencia: 16,384
- 8 rollouts generados por cada indicación
- Tamaño de lote global: 512
- Tasa de aprendizaje: 1×10⁻⁶
- Entrenamiento estrictamente en política
Se utiliza la métrica pass@16 para evaluar la precisión del modelo en diferentes tareas.
Mediante el análisis de la distribución de rollouts en lotes representativos, se encontró que el 18% de las trayectorias fallidas obtuvieron ventajas positivas, confirmando empíricamente la existencia del defecto b<R(yf)<0.
Mediante el análisis de la proporción de señales de ventaja positiva y negativa (rcount=#{A(y)<0}#{A(y)>0} y rloss=ΣLossA(y)<0ΣLossA(y)>0):
Fase Inicial de Entrenamiento: Tanto las líneas de base estática como CoRPO tienen rcount por debajo de 1.0, identificando correctamente todas las trayectorias fallidas y proporcionando retroalimentación negativa, reflejando la garantía de corrección.
Fases Media y Tardía de Entrenamiento: La proporción de retroalimentación positiva y negativa de la línea de base estática aumenta drásticamente, mientras que la línea de base CoRPO se estabiliza en un nivel moderado, logrando exitosamente la transición del modo "corrección" al modo "preferencia".
| Tarea | GRPO | Estática | CoRPO |
|---|
| Tareas Dentro del Dominio | | | |
| Primera Correcta | 87.1 | 80.2 | 83.2 |
| Segunda Correcta | 86.3 | 89.5 | 86.3 |
| Tareas de Codificación Fuera del Dominio | | | |
| Ambas Incorrectas | 50.0 | 64.0 | 56.0 |
| Ambas Correctas | 89.6 | 93.7 | 95.8 |
| Tareas de Matemáticas Fuera del Dominio | | | |
| Primera Correcta | 79.3 | 80.5 | 81.6 |
| Segunda Correcta | 81.4 | 87.1 | 81.4 |
- Valor de la Garantía de Corrección: Las líneas de base estática y CoRPO superan significativamente a GRPO en tareas fuera del dominio, demostrando que prevenir el aprendizaje de fallos "no tan malos" ayuda a aprender señales de corrección más robustas y generalizables
- Compensación de Conservadurismo: El conservadurismo de CoRPO resulta en pasos de actualización de pesos más pequeños, con desempeño ligeramente inferior a la línea de base estática en tareas dentro del dominio, pero mejor desempeño en tareas fuera del dominio
- Capacidad de Generalización: Al imponer garantías de corrección, CoRPO aprende un concepto de corrección más robusto, traduciéndose en mejor desempeño fuera del dominio
- PPO: Utiliza funciones de valor como línea de base, con grandes gastos computacionales y de memoria
- GRPO: Simplifica el cálculo de línea de base mediante recompensas promedio de grupo, pero tiene defectos en tareas con recompensas ordinales
- Curación de datos: Mantener una tasa de éxito en el "punto óptimo"
- Selección dinámica de rollouts: Asegurar alta varianza en lotes
- Reponderación de recompensas: Sesgar hacia ejemplos negativos o escalar el impacto de ejemplos positivos
Estas técnicas son esencialmente intentos heurísticos implícitos de gestionar la línea de base b, siendo soluciones alternativas para que la formulación de GRPO maneje problemas de recompensas ordinales desequilibradas.
- Defecto Fundamental de GRPO: En tareas con recompensas ordinales, la línea de base simple de GRPO asigna ventajas positivas a trayectorias fallidas, violando el objetivo de no reforzar comportamientos erróneos
- Efectividad de CoRPO: Mediante la imposición de garantías de corrección con una línea de base adaptativa, CoRPO resuelve exitosamente las dinámicas de entrenamiento patológicas de GRPO
- Mejora en Capacidad de Generalización: CoRPO demuestra capacidad mejorada de generalización en tareas fuera del dominio, validando el valor de las garantías de corrección
- Compensación de Magnitud de Ventaja: La riqueza de recompensas ordinales puede resultar en magnitudes de ventaja muy pequeñas cuando las predicciones de políticas se agrupan, afectando el equilibrio exploración/explotación
- Conservadurismo: La naturaleza conservadora de CoRPO resulta en aprendizaje más lento dentro del dominio, requiriendo equilibrio entre corrección y eficiencia de aprendizaje
- Sensibilidad de Hiperparámetros: Los hiperparámetros de entrenamiento actuales y los cálculos de recompensa/ventaja no han sido optimizados para CoRPO
- Equilibrar Magnitud de Ventaja y Exploración: Explorar métodos para asegurar que el modelo reciba actualizaciones consistentes e impactantes, equilibrando la capacidad de aprender comportamientos correctos y buscar soluciones óptimas
- Más Allá de Recompensas Basadas en Resultados: Explorar retroalimentación más rica y densa, como recompensas por paso que proporcionan retroalimentación durante todo el proceso de generación
- Tareas de Razonamiento Multietapa: Extender el método a tareas complejas de razonamiento multietapa y resolución de problemas
- Contribución Teórica Sólida: Demuestra matemáticamente el defecto de GRPO en tareas con recompensas ordinales, proporcionando análisis teórico claro
- Diseño de Método Ingenioso: El diseño de línea de base adaptativa de CoRPO resuelve elegantemente el equilibrio entre garantía de corrección e impulso de búsqueda
- Verificación Experimental Completa: Valida comprehensivamente la efectividad del método mediante análisis de dinámicas de entrenamiento y evaluación de desempeño descendente
- Alto Valor Práctico: Resuelve un problema importante en el entrenamiento práctico de LLM, con valor directo para aplicaciones industriales
- Escala Experimental Limitada: Verificación solo en tareas de verificación de código, requiriendo pruebas en más tareas y dominios
- Optimización de Hiperparámetros Insuficiente: Reconoce que los hiperparámetros actuales no están optimizados para CoRPO, lo que puede afectar la equidad de las comparaciones de desempeño
- Profundidad de Análisis Teórico: Aunque identifica el problema, el análisis teórico más profundo sobre por qué las recompensas ordinales causan este problema es limitado
- Análisis de Gastos Computacionales: Falta análisis de gastos computacionales de CoRPO en comparación con GRPO
- Contribución Académica: Proporciona información teórica importante para la aplicación de aprendizaje por refuerzo en entrenamiento de LLM
- Valor Práctico: Proporciona una solución práctica para entrenar LLM con recompensas ordinales
- Dirección de Investigación: Abre una ruta de investigación desde retroalimentación binaria a ordinaria a retroalimentación más densa
- Tareas Verificables: Particularmente adecuado para tareas como matemáticas y generación de código con criterios de corrección claros
- Escenarios de Recompensas Ordinales: Cualquier escenario de entrenamiento de RL que requiera usar recompensas ordinales como calificaciones de 1-5
- Aprendizaje de Capacidades de LLM: Escenarios donde se busca que los LLM aprendan nuevas capacidades mediante RL en lugar de simplemente ajustar preferencias
El artículo cita 15 referencias relacionadas, cubriendo el artículo original de GRPO, PPO, y métodos recientes de entrenamiento de RL para LLM, proporcionando una base teórica sólida para la investigación.
Este artículo logra un buen equilibrio entre análisis teórico y soluciones prácticas, proporcionando información profunda y soluciones efectivas para un problema importante en el entrenamiento de RL para LLM, con valor académico y práctico significativo.