Group-relative Policy Optimization's (GRPO) simplicity makes it highly desirable for adapting LLMs to become experts at specific tasks. But this simplicity also makes it ill-specified as we seek to enhance RL training with richer, non-binary feedback. When using ordinal rewards to give partial credit, GRPO's simplicity starts to hurt, as its group-average baseline often assigns a positive advantage to failed trajectories and reinforces incorrect behavior.
We introduce Correctness Relative Policy Optimization (CoRPO), a new formulation that solves this flaw. CoRPO uses an adaptive baseline that enforces a minimum quality threshold, ensuring failed solutions are never positively reinforced. Once the policy consistently meets this threshold, the baseline automatically transitions to a relative preference mode, pushing the model to find optimal solutions rather than just "acceptable" ones. We empirically validate CoRPO on a code verification task, where it demonstrates more stable convergence and better out-of-domain generalization.
This work represents a critical step in our broader research program to enable LLMs to learn genuinely new capabilities through reinforcement learning. We achieve this by enabling LLMs to learn from rich, multi-dimensional feedback - progressing from binary to ordinal rewards in this work, and onward to denser, per-step supervision.
- ID Articolo: 2511.04439
- Titolo: The Peril of Preference: Why GRPO fails on Ordinal Rewards
- Autori: Anisha Garg, Ganesh Venkatesh (Cerebras Applied AI Research)
- Classificazione: cs.AI, cs.LG
- Data di Pubblicazione: 6 novembre 2025 (preprint arXiv)
- Link Articolo: https://arxiv.org/abs/2511.04439
Group-relative Policy Optimization (GRPO) è ampiamente apprezzato per la sua semplicità nell'adattare i modelli linguistici di grandi dimensioni (LLM) all'esecuzione di compiti specifici. Tuttavia, quando si cerca di migliorare l'addestramento dell'apprendimento per rinforzo utilizzando feedback non binario più ricco, questa semplicità risulta insufficiente. Quando si utilizzano ricompense ordinali per fornire ricompense parziali, la semplicità di GRPO inizia a produrre effetti negativi, poiché la sua linea di base basata sulla media del gruppo assegna frequentemente vantaggi positivi a traiettorie fallite, rafforzando così comportamenti errati. Questo articolo introduce Correctness-Relative Policy Optimization (CoRPO), una nuova formulazione che affronta questo difetto. CoRPO utilizza una linea di base adattiva per applicare una soglia di qualità minima, garantendo che le soluzioni fallite non ricevano mai rinforzo positivo. Una volta che la politica soddisfa coerentemente questa soglia, la linea di base si trasforma automaticamente in una modalità di preferenza relativa, spingendo il modello a cercare soluzioni ottimali piuttosto che semplicemente "accettabili".
- Applicazione Diffusa di GRPO: GRPO è ampiamente adottato per la sua semplicità ed efficienza in compiti verificabili come la generazione matematica e di codice, in particolare utilizzando la ricompensa media del gruppo come linea di base anziché funzioni di valore complesse.
- Transizione da Ricompense Binarie a Ordinali: I metodi RL esistenti sono principalmente progettati per preferenze binarie, ma le applicazioni pratiche richiedono segnali di feedback più ricchi, come ricompense ordinali su scala 1-5.
- Difetto Fondamentale di GRPO: GRPO ridefinisce l'obiettivo di apprendimento da valore assoluto a preferenza relativa, dove il vantaggio non viene più misurato rispetto alla ricompensa attesa assoluta appresa, ma rispetto alle prestazioni dei compagni campionati.
Quando la politica non è ancora sufficientemente addestrata, la linea di base della media del gruppo di GRPO spesso diventa un numero negativo grande. In questo stato, qualsiasi traiettoria fallita "non così male" soddisfa R(yf)>b, risultando in A(yf)>0, addestrando così attivamente il modello ad aumentare la probabilità di generare traiettorie oggettivamente errate.
- Affrontare il difetto fondamentale di GRPO nei compiti con ricompense ordinali
- Stabilire un framework di addestramento che garantisca correttezza e spinga l'ottimizzazione
- Gettare le basi per gli LLM per imparare nuove capacità attraverso l'apprendimento per rinforzo
- Analisi Teorica: Dimostra matematicamente la normalizzazione impropria della linea di base di GRPO nei compiti con ricompense ordinali, rivelando la causa fondamentale dell'assegnazione di vantaggi positivi a traiettorie fallite
- Metodo CoRPO: Propone Correctness-Relative Policy Optimization (CoRPO), una nuova formula di vantaggio con linea di base adattiva che affronta i difetti di GRPO
- Framework di Apprendimento a Due Fasi: Progetta un meccanismo di transizione automatica da "ricerca di correttezza" a "ricerca di preferenza", fornendo diversi segnali di apprendimento durante il processo di miglioramento della politica
- Verifica Empirica: Valida l'efficacia di CoRPO su compiti di verifica del codice, dimostrando convergenza più stabile e migliore generalizzazione fuori dominio
Dato un insieme di G rollout {y1,y2,...,yG} campionati dalla politica πθ, GRPO utilizza la ricompensa media del gruppo come linea di base:
b=G1∑i=1GR(yi)
La funzione di vantaggio è definita come:
A(yi)=normR(yi)−b
Problema Centrale: Quando una traiettoria fallita yf (dove R(yf)<0) soddisfa la seguente condizione riceve un vantaggio positivo:
b<R(yf)<0
Questo è uno scenario comune in problemi complessi dove la politica non è ancora sufficientemente addestrata, causando al modello di imparare attivamente comportamenti errati.
- Garanzia di Correttezza: Le traiettorie fallite non dovrebbero mai ottenere vantaggi positivi
- Feedback Proporzionale: Il feedback negativo per soluzioni fallite dovrebbe essere proporzionale alla loro qualità
- Spinta di Ricerca: Continuare a fornire segnali di miglioramento tra soluzioni "accettabili"
Inizialmente propone una linea di base statica:
bstatic=Rmin_correctAstatic(y)=R(y)−Rmin_correct
Questo garantisce la correttezza, ma manca della spinta di ricerca dopo il miglioramento della politica.
La formula finale di CoRPO combina i vantaggi delle linee di base statica e dinamica:
bmean=G1∑i=1GR(yi)
bcorpo=max(Rmin_correct,bmean)
Acorpo(yi)=R(yi)−bcorpo
Fase 1: Ricerca di Correttezza (bmean<Rmin_correct)
- La linea di base è bloccata a Rmin_correct
- Garantisce che tutte le traiettorie fallite ricevano vantaggi negativi
- Si concentra sull'apprendimento della correttezza di base
Fase 2: Ricerca di Preferenza (bmean≥Rmin_correct)
- La linea di base diventa la linea di base GRPO standard bmean
- Stabilisce preferenze relative tra soluzioni corrette
- Spinge il miglioramento da "buono" a "ottimale"
Addestrare un verificatore interpretativo per verificare la correttezza del codice generato da LLM. Dato un problema Q e due risposte candidate (RA,RB), la politica produce punteggi V=(vA,vB)∈[0,10], rappresentando la fiducia nella correttezza di ogni risposta.
- Set di Addestramento: Problemi di programmazione da CodeForces e LeetCode, con più soluzioni generate da Qwen3-8B, contenenti tracce di ragionamento corrette e errate, totale 4890 campioni
- Set di Validazione:
- Codifica in dominio: una risposta corretta e una errata (196 campioni)
- Codifica fuori dominio: entrambe corrette o entrambe errate (98 campioni)
- Matematica fuori dominio: una risposta corretta e una errata (157 campioni)
- Modello: Qwen3-8B
- Lunghezza massima della sequenza: 16.384
- 8 rollout generati per ogni prompt
- Dimensione batch globale: 512
- Tasso di apprendimento: 1×10⁻⁶
- Addestramento rigorosamente on-policy
Utilizza la metrica pass@16 per valutare l'accuratezza del modello su diversi compiti.
Analizzando la distribuzione dei rollout in batch rappresentativi, scopre che il 18% delle traiettorie fallite ha ricevuto vantaggi positivi, confermando empiricamente l'esistenza del difetto b<R(yf)<0.
Analizzando il rapporto tra segnali di vantaggio positivi e negativi (rcount=#{A(y)<0}#{A(y)>0} e rloss=ΣLossA(y)<0ΣLossA(y)>0):
Fase di Addestramento Iniziale: Sia le linee di base statica che CoRPO hanno rcount inferiore a 1,0, identificando correttamente tutte le traiettorie fallite e fornendo feedback negativo, incarnando la garanzia di correttezza.
Fase di Addestramento Intermedia e Tardiva: Il rapporto di feedback positivo-negativo della linea di base statica aumenta drasticamente, mentre la linea di base CoRPO rimane stabile a livelli moderati, completando con successo la transizione dalla modalità "correttezza" a "preferenza".
| Compito | GRPO | Statico | CoRPO |
|---|
| Compiti in Dominio | | | |
| Primo Corretto | 87,1 | 80,2 | 83,2 |
| Secondo Corretto | 86,3 | 89,5 | 86,3 |
| Compiti di Codifica Fuori Dominio | | | |
| Entrambi Scorretti | 50,0 | 64,0 | 56,0 |
| Entrambi Corretti | 89,6 | 93,7 | 95,8 |
| Compiti di Matematica Fuori Dominio | | | |
| Primo Corretto | 79,3 | 80,5 | 81,6 |
| Secondo Corretto | 81,4 | 87,1 | 81,4 |
- Valore della Garanzia di Correttezza: Le linee di base statica e CoRPO superano significativamente GRPO su compiti fuori dominio, provando che prevenire l'apprendimento di fallimenti "non così male" aiuta ad apprendere segnali di correttezza più robusti e generalizzabili
- Compromesso di Conservatorismo: Il conservatorismo di CoRPO risulta in passi di aggiornamento dei pesi più piccoli, con prestazioni leggermente inferiori alla linea di base statica su compiti in dominio, ma buone prestazioni su compiti fuori dominio
- Capacità di Generalizzazione: Applicando la garanzia di correttezza, CoRPO apprende un concetto di correttezza più robusto, traducendosi in migliori prestazioni fuori dominio
- PPO: Utilizza una funzione di valore come linea di base, con elevati costi computazionali e di memoria
- GRPO: Semplifica il calcolo della linea di base attraverso la ricompensa media del gruppo, ma presenta difetti nei compiti con ricompense ordinali
- Cura dei dati: Mantenere il tasso di successo al "punto ottimale"
- Selezione dinamica di rollout: Garantire alta varianza nel batch
- Ripeseramento delle ricompense: Favorire esempi negativi o scalare l'impatto di esempi positivi
Queste tecniche sono effettivamente tentativi euristici impliciti di gestire la linea di base b, rappresentando soluzioni alternative al problema di GRPO nel gestire ricompense ordinali sbilanciate.
- Difetto Fondamentale di GRPO: Nei compiti con ricompense ordinali, la linea di base semplice di GRPO assegna vantaggi positivi a traiettorie fallite, violando l'obiettivo di non rafforzare comportamenti errati
- Efficacia di CoRPO: Attraverso una linea di base adattiva che applica la garanzia di correttezza, CoRPO risolve con successo la dinamica di addestramento patologica di GRPO
- Miglioramento della Generalizzazione: CoRPO mostra capacità di generalizzazione migliorate su compiti fuori dominio, provando il valore della garanzia di correttezza
- Compromesso di Ampiezza del Vantaggio: La ricchezza delle ricompense ordinali potrebbe risultare in ampiezze di vantaggio molto piccole quando le previsioni della politica si raggruppano, influenzando l'equilibrio esplorazione/sfruttamento
- Conservatorismo: La natura conservativa di CoRPO risulta in apprendimento più lento in dominio, richiedendo un equilibrio tra correttezza ed efficienza di apprendimento
- Sensibilità agli Iperparametri: Gli iperparametri di addestramento attuali e il calcolo di ricompensa/vantaggio non sono stati ottimizzati per CoRPO
- Equilibrare Ampiezza del Vantaggio ed Esplorazione: Esplorare metodi per garantire che il modello riceva aggiornamenti coerenti e influenti, equilibrando la capacità di imparare comportamenti corretti e trovare soluzioni ottimali
- Oltre Ricompense Basate su Risultati: Esplorare feedback più ricchi e densi, come ricompense per ogni passo che forniscono feedback durante l'intero processo di generazione
- Compiti di Ragionamento Multi-Passo: Estendere il metodo a compiti complessi di ragionamento multi-passo e risoluzione di problemi
- Contributo Teorico Solido: Dimostra rigorosamente dal punto di vista matematico il difetto di GRPO nei compiti con ricompense ordinali, fornendo un'analisi teorica chiara
- Design del Metodo Elegante: Il design della linea di base adattiva di CoRPO risolve elegantemente il compromesso tra garanzia di correttezza e spinta di ricerca
- Verifica Sperimentale Completa: Valida completamente l'efficacia del metodo attraverso analisi della dinamica di addestramento e valutazione delle prestazioni a valle
- Alto Valore Pratico: Risolve un problema importante nell'addestramento pratico degli LLM, con valore diretto per le applicazioni industriali
- Scala Sperimentale Limitata: Verifica solo su compiti di verifica del codice, necessitando test su più compiti e domini
- Ottimizzazione degli Iperparametri Insufficiente: Riconosce che gli iperparametri attuali non sono ottimizzati per CoRPO, potenzialmente influenzando l'equità del confronto delle prestazioni
- Profondità dell'Analisi Teorica: Sebbene identifichi il problema, l'analisi teorica più profonda sul perché le ricompense ordinali causano questo problema è limitata
- Analisi dei Costi Computazionali: Manca l'analisi dei costi computazionali di CoRPO rispetto a GRPO
- Contributo Accademico: Fornisce importanti intuizioni teoriche per l'applicazione dell'apprendimento per rinforzo nell'addestramento degli LLM
- Valore Pratico: Fornisce una soluzione pratica per l'addestramento degli LLM utilizzando ricompense ordinali
- Direzione di Ricerca: Apre un percorso di ricerca dal feedback binario a ordinale a feedback più denso
- Compiti Verificabili: Particolarmente adatto a compiti come matematica e generazione di codice con criteri di correttezza chiari
- Scenari con Ricompense Ordinali: Qualsiasi scenario di addestramento RL che richieda l'uso di ricompense ordinali come valutazioni 1-5
- Apprendimento di Capacità degli LLM: Scenari in cui si desidera che gli LLM imparino nuove capacità attraverso RL piuttosto che semplicemente adattamenti di preferenza
L'articolo cita 15 articoli correlati, coprendo il documento originale di GRPO, PPO e i più recenti metodi di addestramento RL per LLM, fornendo una base teorica solida per la ricerca.
Questo articolo raggiunge un buon equilibrio tra analisi teorica e soluzione pratica, fornendo intuizioni approfondite e una soluzione efficace a un importante problema nell'addestramento RL degli LLM, con significativo valore accademico e pratico.