2025-11-11T09:58:08.549566

The Peril of Preference: Why GRPO fails on Ordinal Rewards

Garg, Venkatesh

Group-relative Policy Optimization's (GRPO) simplicity makes it highly desirable for adapting LLMs to become experts at specific tasks. But this simplicity also makes it ill-specified as we seek to enhance RL training with richer, non-binary feedback. When using ordinal rewards to give partial credit, GRPO's simplicity starts to hurt, as its group-average baseline often assigns a positive advantage to failed trajectories and reinforces incorrect behavior. We introduce Correctness Relative Policy Optimization (CoRPO), a new formulation that solves this flaw. CoRPO uses an adaptive baseline that enforces a minimum quality threshold, ensuring failed solutions are never positively reinforced. Once the policy consistently meets this threshold, the baseline automatically transitions to a relative preference mode, pushing the model to find optimal solutions rather than just "acceptable" ones. We empirically validate CoRPO on a code verification task, where it demonstrates more stable convergence and better out-of-domain generalization. This work represents a critical step in our broader research program to enable LLMs to learn genuinely new capabilities through reinforcement learning. We achieve this by enabling LLMs to learn from rich, multi-dimensional feedback - progressing from binary to ordinal rewards in this work, and onward to denser, per-step supervision.

academic

Il Pericolo della Preferenza: Perché GRPO Fallisce su Ricompense Ordinali

Informazioni Fondamentali

ID Articolo: 2511.04439
Titolo: The Peril of Preference: Why GRPO fails on Ordinal Rewards
Autori: Anisha Garg, Ganesh Venkatesh (Cerebras Applied AI Research)
Classificazione: cs.AI, cs.LG
Data di Pubblicazione: 6 novembre 2025 (preprint arXiv)
Link Articolo: https://arxiv.org/abs/2511.04439

Riassunto

Group-relative Policy Optimization (GRPO) è ampiamente apprezzato per la sua semplicità nell'adattare i modelli linguistici di grandi dimensioni (LLM) all'esecuzione di compiti specifici. Tuttavia, quando si cerca di migliorare l'addestramento dell'apprendimento per rinforzo utilizzando feedback non binario più ricco, questa semplicità risulta insufficiente. Quando si utilizzano ricompense ordinali per fornire ricompense parziali, la semplicità di GRPO inizia a produrre effetti negativi, poiché la sua linea di base basata sulla media del gruppo assegna frequentemente vantaggi positivi a traiettorie fallite, rafforzando così comportamenti errati. Questo articolo introduce Correctness-Relative Policy Optimization (CoRPO), una nuova formulazione che affronta questo difetto. CoRPO utilizza una linea di base adattiva per applicare una soglia di qualità minima, garantendo che le soluzioni fallite non ricevano mai rinforzo positivo. Una volta che la politica soddisfa coerentemente questa soglia, la linea di base si trasforma automaticamente in una modalità di preferenza relativa, spingendo il modello a cercare soluzioni ottimali piuttosto che semplicemente "accettabili".

Contesto di Ricerca e Motivazione

Contesto del Problema

Applicazione Diffusa di GRPO: GRPO è ampiamente adottato per la sua semplicità ed efficienza in compiti verificabili come la generazione matematica e di codice, in particolare utilizzando la ricompensa media del gruppo come linea di base anziché funzioni di valore complesse.
Transizione da Ricompense Binarie a Ordinali: I metodi RL esistenti sono principalmente progettati per preferenze binarie, ma le applicazioni pratiche richiedono segnali di feedback più ricchi, come ricompense ordinali su scala 1-5.
Difetto Fondamentale di GRPO: GRPO ridefinisce l'obiettivo di apprendimento da valore assoluto a preferenza relativa, dove il vantaggio non viene più misurato rispetto alla ricompensa attesa assoluta appresa, ma rispetto alle prestazioni dei compagni campionati.

Problema Centrale

Quando la politica non è ancora sufficientemente addestrata, la linea di base della media del gruppo di GRPO spesso diventa un numero negativo grande. In questo stato, qualsiasi traiettoria fallita "non così male" soddisfa $R(y_f) > b$ , risultando in $A(y_f) > 0$ , addestrando così attivamente il modello ad aumentare la probabilità di generare traiettorie oggettivamente errate.

Motivazione della Ricerca

Affrontare il difetto fondamentale di GRPO nei compiti con ricompense ordinali
Stabilire un framework di addestramento che garantisca correttezza e spinga l'ottimizzazione
Gettare le basi per gli LLM per imparare nuove capacità attraverso l'apprendimento per rinforzo

Contributi Principali

Analisi Teorica: Dimostra matematicamente la normalizzazione impropria della linea di base di GRPO nei compiti con ricompense ordinali, rivelando la causa fondamentale dell'assegnazione di vantaggi positivi a traiettorie fallite
Metodo CoRPO: Propone Correctness-Relative Policy Optimization (CoRPO), una nuova formula di vantaggio con linea di base adattiva che affronta i difetti di GRPO
Framework di Apprendimento a Due Fasi: Progetta un meccanismo di transizione automatica da "ricerca di correttezza" a "ricerca di preferenza", fornendo diversi segnali di apprendimento durante il processo di miglioramento della politica
Verifica Empirica: Valida l'efficacia di CoRPO su compiti di verifica del codice, dimostrando convergenza più stabile e migliore generalizzazione fuori dominio

Dettagli del Metodo

Definizione del Problema

Dato un insieme di $G$ rollout $\{y_1, y_2, ..., y_G\}$ campionati dalla politica $\pi_\theta$ , GRPO utilizza la ricompensa media del gruppo come linea di base:

$b = \frac{1}{G}\sum_{i=1}^{G}R(y_i)$

La funzione di vantaggio è definita come: $A(y_i) = \frac{R(y_i) - b}{norm}$

Analisi dei Difetti di GRPO

Problema Centrale: Quando una traiettoria fallita $y_f$ (dove $R(y_f) < 0$ ) soddisfa la seguente condizione riceve un vantaggio positivo: $b < R(y_f) < 0$

Questo è uno scenario comune in problemi complessi dove la politica non è ancora sufficientemente addestrata, causando al modello di imparare attivamente comportamenti errati.

Soluzione CoRPO

1. Tre Criteri per la Linea di Base Ideale

Garanzia di Correttezza: Le traiettorie fallite non dovrebbero mai ottenere vantaggi positivi
Feedback Proporzionale: Il feedback negativo per soluzioni fallite dovrebbe essere proporzionale alla loro qualità
Spinta di Ricerca: Continuare a fornire segnali di miglioramento tra soluzioni "accettabili"

2. Metodo della Linea di Base Statica

Inizialmente propone una linea di base statica: $b_{static} = R_{min\_correct}$ $A_{static}(y) = R(y) - R_{min\_correct}$

Questo garantisce la correttezza, ma manca della spinta di ricerca dopo il miglioramento della politica.

3. Linea di Base Adattiva di CoRPO

La formula finale di CoRPO combina i vantaggi delle linee di base statica e dinamica:

$b_{mean} = \frac{1}{G}\sum_{i=1}^{G}R(y_i)$

$b_{corpo} = \max(R_{min\_correct}, b_{mean})$

$A_{corpo}(y_i) = R(y_i) - b_{corpo}$

4. Meccanismo di Operazione a Due Fasi

Fase 1: Ricerca di Correttezza ( $b_{mean} < R_{min\_correct}$ )

La linea di base è bloccata a $R_{min\_correct}$
Garantisce che tutte le traiettorie fallite ricevano vantaggi negativi
Si concentra sull'apprendimento della correttezza di base

Fase 2: Ricerca di Preferenza ( $b_{mean} \geq R_{min\_correct}$ )

La linea di base diventa la linea di base GRPO standard $b_{mean}$
Stabilisce preferenze relative tra soluzioni corrette
Spinge il miglioramento da "buono" a "ottimale"

Configurazione Sperimentale

Definizione del Compito

Addestrare un verificatore interpretativo per verificare la correttezza del codice generato da LLM. Dato un problema $Q$ e due risposte candidate $(R_A, R_B)$ , la politica produce punteggi $V = (v_A, v_B) \in [0, 10]$ , rappresentando la fiducia nella correttezza di ogni risposta.

Dataset

Set di Addestramento: Problemi di programmazione da CodeForces e LeetCode, con più soluzioni generate da Qwen3-8B, contenenti tracce di ragionamento corrette e errate, totale 4890 campioni
Set di Validazione:
- Codifica in dominio: una risposta corretta e una errata (196 campioni)
- Codifica fuori dominio: entrambe corrette o entrambe errate (98 campioni)
- Matematica fuori dominio: una risposta corretta e una errata (157 campioni)

Configurazione Sperimentale

Modello: Qwen3-8B
Lunghezza massima della sequenza: 16.384
8 rollout generati per ogni prompt
Dimensione batch globale: 512
Tasso di apprendimento: 1×10⁻⁶
Addestramento rigorosamente on-policy

Metriche di Valutazione

Utilizza la metrica pass@16 per valutare l'accuratezza del modello su diversi compiti.

Risultati Sperimentali

Verifica dei Difetti di GRPO

Analizzando la distribuzione dei rollout in batch rappresentativi, scopre che il 18% delle traiettorie fallite ha ricevuto vantaggi positivi, confermando empiricamente l'esistenza del difetto $b < R(y_f) < 0$ .

Analisi della Dinamica di Addestramento

Analizzando il rapporto tra segnali di vantaggio positivi e negativi ( $r_{count} = \frac{\#\{A(y)>0\}}{\#\{A(y)<0\}}$ e $r_{loss} = \frac{\Sigma Loss_{A(y)>0}}{\Sigma Loss_{A(y)<0}}$ ):

Fase di Addestramento Iniziale: Sia le linee di base statica che CoRPO hanno $r_{count}$ inferiore a 1,0, identificando correttamente tutte le traiettorie fallite e fornendo feedback negativo, incarnando la garanzia di correttezza.

Fase di Addestramento Intermedia e Tardiva: Il rapporto di feedback positivo-negativo della linea di base statica aumenta drasticamente, mentre la linea di base CoRPO rimane stabile a livelli moderati, completando con successo la transizione dalla modalità "correttezza" a "preferenza".

Risultati di Accuratezza a Valle

Compito	GRPO	Statico	CoRPO
Compiti in Dominio
Primo Corretto	87,1	80,2	83,2
Secondo Corretto	86,3	89,5	86,3
Compiti di Codifica Fuori Dominio
Entrambi Scorretti	50,0	64,0	56,0
Entrambi Corretti	89,6	93,7	95,8
Compiti di Matematica Fuori Dominio
Primo Corretto	79,3	80,5	81,6
Secondo Corretto	81,4	87,1	81,4

Scoperte Chiave

Valore della Garanzia di Correttezza: Le linee di base statica e CoRPO superano significativamente GRPO su compiti fuori dominio, provando che prevenire l'apprendimento di fallimenti "non così male" aiuta ad apprendere segnali di correttezza più robusti e generalizzabili
Compromesso di Conservatorismo: Il conservatorismo di CoRPO risulta in passi di aggiornamento dei pesi più piccoli, con prestazioni leggermente inferiori alla linea di base statica su compiti in dominio, ma buone prestazioni su compiti fuori dominio
Capacità di Generalizzazione: Applicando la garanzia di correttezza, CoRPO apprende un concetto di correttezza più robusto, traducendosi in migliori prestazioni fuori dominio

Lavori Correlati

Metodi di Linea di Base nell'Apprendimento per Rinforzo

PPO: Utilizza una funzione di valore come linea di base, con elevati costi computazionali e di memoria
GRPO: Semplifica il calcolo della linea di base attraverso la ricompensa media del gruppo, ma presenta difetti nei compiti con ricompense ordinali

Addestramento RL per LLM

Cura dei dati: Mantenere il tasso di successo al "punto ottimale"
Selezione dinamica di rollout: Garantire alta varianza nel batch
Ripeseramento delle ricompense: Favorire esempi negativi o scalare l'impatto di esempi positivi

Queste tecniche sono effettivamente tentativi euristici impliciti di gestire la linea di base $b$ , rappresentando soluzioni alternative al problema di GRPO nel gestire ricompense ordinali sbilanciate.

Conclusioni e Discussione

Conclusioni Principali

Difetto Fondamentale di GRPO: Nei compiti con ricompense ordinali, la linea di base semplice di GRPO assegna vantaggi positivi a traiettorie fallite, violando l'obiettivo di non rafforzare comportamenti errati
Efficacia di CoRPO: Attraverso una linea di base adattiva che applica la garanzia di correttezza, CoRPO risolve con successo la dinamica di addestramento patologica di GRPO
Miglioramento della Generalizzazione: CoRPO mostra capacità di generalizzazione migliorate su compiti fuori dominio, provando il valore della garanzia di correttezza

Limitazioni

Compromesso di Ampiezza del Vantaggio: La ricchezza delle ricompense ordinali potrebbe risultare in ampiezze di vantaggio molto piccole quando le previsioni della politica si raggruppano, influenzando l'equilibrio esplorazione/sfruttamento
Conservatorismo: La natura conservativa di CoRPO risulta in apprendimento più lento in dominio, richiedendo un equilibrio tra correttezza ed efficienza di apprendimento
Sensibilità agli Iperparametri: Gli iperparametri di addestramento attuali e il calcolo di ricompensa/vantaggio non sono stati ottimizzati per CoRPO

Direzioni Future

Equilibrare Ampiezza del Vantaggio ed Esplorazione: Esplorare metodi per garantire che il modello riceva aggiornamenti coerenti e influenti, equilibrando la capacità di imparare comportamenti corretti e trovare soluzioni ottimali
Oltre Ricompense Basate su Risultati: Esplorare feedback più ricchi e densi, come ricompense per ogni passo che forniscono feedback durante l'intero processo di generazione
Compiti di Ragionamento Multi-Passo: Estendere il metodo a compiti complessi di ragionamento multi-passo e risoluzione di problemi

Valutazione Approfondita

Punti di Forza

Contributo Teorico Solido: Dimostra rigorosamente dal punto di vista matematico il difetto di GRPO nei compiti con ricompense ordinali, fornendo un'analisi teorica chiara
Design del Metodo Elegante: Il design della linea di base adattiva di CoRPO risolve elegantemente il compromesso tra garanzia di correttezza e spinta di ricerca
Verifica Sperimentale Completa: Valida completamente l'efficacia del metodo attraverso analisi della dinamica di addestramento e valutazione delle prestazioni a valle
Alto Valore Pratico: Risolve un problema importante nell'addestramento pratico degli LLM, con valore diretto per le applicazioni industriali

Insufficienze

Scala Sperimentale Limitata: Verifica solo su compiti di verifica del codice, necessitando test su più compiti e domini
Ottimizzazione degli Iperparametri Insufficiente: Riconosce che gli iperparametri attuali non sono ottimizzati per CoRPO, potenzialmente influenzando l'equità del confronto delle prestazioni
Profondità dell'Analisi Teorica: Sebbene identifichi il problema, l'analisi teorica più profonda sul perché le ricompense ordinali causano questo problema è limitata
Analisi dei Costi Computazionali: Manca l'analisi dei costi computazionali di CoRPO rispetto a GRPO

Impatto

Contributo Accademico: Fornisce importanti intuizioni teoriche per l'applicazione dell'apprendimento per rinforzo nell'addestramento degli LLM
Valore Pratico: Fornisce una soluzione pratica per l'addestramento degli LLM utilizzando ricompense ordinali
Direzione di Ricerca: Apre un percorso di ricerca dal feedback binario a ordinale a feedback più denso

Scenari Applicabili

Compiti Verificabili: Particolarmente adatto a compiti come matematica e generazione di codice con criteri di correttezza chiari
Scenari con Ricompense Ordinali: Qualsiasi scenario di addestramento RL che richieda l'uso di ricompense ordinali come valutazioni 1-5
Apprendimento di Capacità degli LLM: Scenari in cui si desidera che gli LLM imparino nuove capacità attraverso RL piuttosto che semplicemente adattamenti di preferenza

Bibliografia

L'articolo cita 15 articoli correlati, coprendo il documento originale di GRPO, PPO e i più recenti metodi di addestramento RL per LLM, fornendo una base teorica solida per la ricerca.

Questo articolo raggiunge un buon equilibrio tra analisi teorica e soluzione pratica, fornendo intuizioni approfondite e una soluzione efficace a un importante problema nell'addestramento RL degli LLM, con significativo valore accademico e pratico.