2025-11-11T09:58:08.549566

The Peril of Preference: Why GRPO fails on Ordinal Rewards

Garg, Venkatesh
Group-relative Policy Optimization's (GRPO) simplicity makes it highly desirable for adapting LLMs to become experts at specific tasks. But this simplicity also makes it ill-specified as we seek to enhance RL training with richer, non-binary feedback. When using ordinal rewards to give partial credit, GRPO's simplicity starts to hurt, as its group-average baseline often assigns a positive advantage to failed trajectories and reinforces incorrect behavior. We introduce Correctness Relative Policy Optimization (CoRPO), a new formulation that solves this flaw. CoRPO uses an adaptive baseline that enforces a minimum quality threshold, ensuring failed solutions are never positively reinforced. Once the policy consistently meets this threshold, the baseline automatically transitions to a relative preference mode, pushing the model to find optimal solutions rather than just "acceptable" ones. We empirically validate CoRPO on a code verification task, where it demonstrates more stable convergence and better out-of-domain generalization. This work represents a critical step in our broader research program to enable LLMs to learn genuinely new capabilities through reinforcement learning. We achieve this by enabling LLMs to learn from rich, multi-dimensional feedback - progressing from binary to ordinal rewards in this work, and onward to denser, per-step supervision.
academic

Il Pericolo della Preferenza: Perché GRPO Fallisce su Ricompense Ordinali

Informazioni Fondamentali

  • ID Articolo: 2511.04439
  • Titolo: The Peril of Preference: Why GRPO fails on Ordinal Rewards
  • Autori: Anisha Garg, Ganesh Venkatesh (Cerebras Applied AI Research)
  • Classificazione: cs.AI, cs.LG
  • Data di Pubblicazione: 6 novembre 2025 (preprint arXiv)
  • Link Articolo: https://arxiv.org/abs/2511.04439

Riassunto

Group-relative Policy Optimization (GRPO) è ampiamente apprezzato per la sua semplicità nell'adattare i modelli linguistici di grandi dimensioni (LLM) all'esecuzione di compiti specifici. Tuttavia, quando si cerca di migliorare l'addestramento dell'apprendimento per rinforzo utilizzando feedback non binario più ricco, questa semplicità risulta insufficiente. Quando si utilizzano ricompense ordinali per fornire ricompense parziali, la semplicità di GRPO inizia a produrre effetti negativi, poiché la sua linea di base basata sulla media del gruppo assegna frequentemente vantaggi positivi a traiettorie fallite, rafforzando così comportamenti errati. Questo articolo introduce Correctness-Relative Policy Optimization (CoRPO), una nuova formulazione che affronta questo difetto. CoRPO utilizza una linea di base adattiva per applicare una soglia di qualità minima, garantendo che le soluzioni fallite non ricevano mai rinforzo positivo. Una volta che la politica soddisfa coerentemente questa soglia, la linea di base si trasforma automaticamente in una modalità di preferenza relativa, spingendo il modello a cercare soluzioni ottimali piuttosto che semplicemente "accettabili".

Contesto di Ricerca e Motivazione

Contesto del Problema

  1. Applicazione Diffusa di GRPO: GRPO è ampiamente adottato per la sua semplicità ed efficienza in compiti verificabili come la generazione matematica e di codice, in particolare utilizzando la ricompensa media del gruppo come linea di base anziché funzioni di valore complesse.
  2. Transizione da Ricompense Binarie a Ordinali: I metodi RL esistenti sono principalmente progettati per preferenze binarie, ma le applicazioni pratiche richiedono segnali di feedback più ricchi, come ricompense ordinali su scala 1-5.
  3. Difetto Fondamentale di GRPO: GRPO ridefinisce l'obiettivo di apprendimento da valore assoluto a preferenza relativa, dove il vantaggio non viene più misurato rispetto alla ricompensa attesa assoluta appresa, ma rispetto alle prestazioni dei compagni campionati.

Problema Centrale

Quando la politica non è ancora sufficientemente addestrata, la linea di base della media del gruppo di GRPO spesso diventa un numero negativo grande. In questo stato, qualsiasi traiettoria fallita "non così male" soddisfa R(yf)>bR(y_f) > b, risultando in A(yf)>0A(y_f) > 0, addestrando così attivamente il modello ad aumentare la probabilità di generare traiettorie oggettivamente errate.

Motivazione della Ricerca

  • Affrontare il difetto fondamentale di GRPO nei compiti con ricompense ordinali
  • Stabilire un framework di addestramento che garantisca correttezza e spinga l'ottimizzazione
  • Gettare le basi per gli LLM per imparare nuove capacità attraverso l'apprendimento per rinforzo

Contributi Principali

  1. Analisi Teorica: Dimostra matematicamente la normalizzazione impropria della linea di base di GRPO nei compiti con ricompense ordinali, rivelando la causa fondamentale dell'assegnazione di vantaggi positivi a traiettorie fallite
  2. Metodo CoRPO: Propone Correctness-Relative Policy Optimization (CoRPO), una nuova formula di vantaggio con linea di base adattiva che affronta i difetti di GRPO
  3. Framework di Apprendimento a Due Fasi: Progetta un meccanismo di transizione automatica da "ricerca di correttezza" a "ricerca di preferenza", fornendo diversi segnali di apprendimento durante il processo di miglioramento della politica
  4. Verifica Empirica: Valida l'efficacia di CoRPO su compiti di verifica del codice, dimostrando convergenza più stabile e migliore generalizzazione fuori dominio

Dettagli del Metodo

Definizione del Problema

Dato un insieme di GG rollout {y1,y2,...,yG}\{y_1, y_2, ..., y_G\} campionati dalla politica πθ\pi_\theta, GRPO utilizza la ricompensa media del gruppo come linea di base:

b=1Gi=1GR(yi)b = \frac{1}{G}\sum_{i=1}^{G}R(y_i)

La funzione di vantaggio è definita come: A(yi)=R(yi)bnormA(y_i) = \frac{R(y_i) - b}{norm}

Analisi dei Difetti di GRPO

Problema Centrale: Quando una traiettoria fallita yfy_f (dove R(yf)<0R(y_f) < 0) soddisfa la seguente condizione riceve un vantaggio positivo: b<R(yf)<0b < R(y_f) < 0

Questo è uno scenario comune in problemi complessi dove la politica non è ancora sufficientemente addestrata, causando al modello di imparare attivamente comportamenti errati.

Soluzione CoRPO

1. Tre Criteri per la Linea di Base Ideale

  • Garanzia di Correttezza: Le traiettorie fallite non dovrebbero mai ottenere vantaggi positivi
  • Feedback Proporzionale: Il feedback negativo per soluzioni fallite dovrebbe essere proporzionale alla loro qualità
  • Spinta di Ricerca: Continuare a fornire segnali di miglioramento tra soluzioni "accettabili"

2. Metodo della Linea di Base Statica

Inizialmente propone una linea di base statica: bstatic=Rmin_correctb_{static} = R_{min\_correct}Astatic(y)=R(y)Rmin_correctA_{static}(y) = R(y) - R_{min\_correct}

Questo garantisce la correttezza, ma manca della spinta di ricerca dopo il miglioramento della politica.

3. Linea di Base Adattiva di CoRPO

La formula finale di CoRPO combina i vantaggi delle linee di base statica e dinamica:

bmean=1Gi=1GR(yi)b_{mean} = \frac{1}{G}\sum_{i=1}^{G}R(y_i)

bcorpo=max(Rmin_correct,bmean)b_{corpo} = \max(R_{min\_correct}, b_{mean})

Acorpo(yi)=R(yi)bcorpoA_{corpo}(y_i) = R(y_i) - b_{corpo}

4. Meccanismo di Operazione a Due Fasi

Fase 1: Ricerca di Correttezza (bmean<Rmin_correctb_{mean} < R_{min\_correct})

  • La linea di base è bloccata a Rmin_correctR_{min\_correct}
  • Garantisce che tutte le traiettorie fallite ricevano vantaggi negativi
  • Si concentra sull'apprendimento della correttezza di base

Fase 2: Ricerca di Preferenza (bmeanRmin_correctb_{mean} \geq R_{min\_correct})

  • La linea di base diventa la linea di base GRPO standard bmeanb_{mean}
  • Stabilisce preferenze relative tra soluzioni corrette
  • Spinge il miglioramento da "buono" a "ottimale"

Configurazione Sperimentale

Definizione del Compito

Addestrare un verificatore interpretativo per verificare la correttezza del codice generato da LLM. Dato un problema QQ e due risposte candidate (RA,RB)(R_A, R_B), la politica produce punteggi V=(vA,vB)[0,10]V = (v_A, v_B) \in [0, 10], rappresentando la fiducia nella correttezza di ogni risposta.

Dataset

  • Set di Addestramento: Problemi di programmazione da CodeForces e LeetCode, con più soluzioni generate da Qwen3-8B, contenenti tracce di ragionamento corrette e errate, totale 4890 campioni
  • Set di Validazione:
    • Codifica in dominio: una risposta corretta e una errata (196 campioni)
    • Codifica fuori dominio: entrambe corrette o entrambe errate (98 campioni)
    • Matematica fuori dominio: una risposta corretta e una errata (157 campioni)

Configurazione Sperimentale

  • Modello: Qwen3-8B
  • Lunghezza massima della sequenza: 16.384
  • 8 rollout generati per ogni prompt
  • Dimensione batch globale: 512
  • Tasso di apprendimento: 1×10⁻⁶
  • Addestramento rigorosamente on-policy

Metriche di Valutazione

Utilizza la metrica pass@16 per valutare l'accuratezza del modello su diversi compiti.

Risultati Sperimentali

Verifica dei Difetti di GRPO

Analizzando la distribuzione dei rollout in batch rappresentativi, scopre che il 18% delle traiettorie fallite ha ricevuto vantaggi positivi, confermando empiricamente l'esistenza del difetto b<R(yf)<0b < R(y_f) < 0.

Analisi della Dinamica di Addestramento

Analizzando il rapporto tra segnali di vantaggio positivi e negativi (rcount=#{A(y)>0}#{A(y)<0}r_{count} = \frac{\#\{A(y)>0\}}{\#\{A(y)<0\}} e rloss=ΣLossA(y)>0ΣLossA(y)<0r_{loss} = \frac{\Sigma Loss_{A(y)>0}}{\Sigma Loss_{A(y)<0}}):

Fase di Addestramento Iniziale: Sia le linee di base statica che CoRPO hanno rcountr_{count} inferiore a 1,0, identificando correttamente tutte le traiettorie fallite e fornendo feedback negativo, incarnando la garanzia di correttezza.

Fase di Addestramento Intermedia e Tardiva: Il rapporto di feedback positivo-negativo della linea di base statica aumenta drasticamente, mentre la linea di base CoRPO rimane stabile a livelli moderati, completando con successo la transizione dalla modalità "correttezza" a "preferenza".

Risultati di Accuratezza a Valle

CompitoGRPOStaticoCoRPO
Compiti in Dominio
Primo Corretto87,180,283,2
Secondo Corretto86,389,586,3
Compiti di Codifica Fuori Dominio
Entrambi Scorretti50,064,056,0
Entrambi Corretti89,693,795,8
Compiti di Matematica Fuori Dominio
Primo Corretto79,380,581,6
Secondo Corretto81,487,181,4

Scoperte Chiave

  1. Valore della Garanzia di Correttezza: Le linee di base statica e CoRPO superano significativamente GRPO su compiti fuori dominio, provando che prevenire l'apprendimento di fallimenti "non così male" aiuta ad apprendere segnali di correttezza più robusti e generalizzabili
  2. Compromesso di Conservatorismo: Il conservatorismo di CoRPO risulta in passi di aggiornamento dei pesi più piccoli, con prestazioni leggermente inferiori alla linea di base statica su compiti in dominio, ma buone prestazioni su compiti fuori dominio
  3. Capacità di Generalizzazione: Applicando la garanzia di correttezza, CoRPO apprende un concetto di correttezza più robusto, traducendosi in migliori prestazioni fuori dominio

Lavori Correlati

Metodi di Linea di Base nell'Apprendimento per Rinforzo

  • PPO: Utilizza una funzione di valore come linea di base, con elevati costi computazionali e di memoria
  • GRPO: Semplifica il calcolo della linea di base attraverso la ricompensa media del gruppo, ma presenta difetti nei compiti con ricompense ordinali

Addestramento RL per LLM

  • Cura dei dati: Mantenere il tasso di successo al "punto ottimale"
  • Selezione dinamica di rollout: Garantire alta varianza nel batch
  • Ripeseramento delle ricompense: Favorire esempi negativi o scalare l'impatto di esempi positivi

Queste tecniche sono effettivamente tentativi euristici impliciti di gestire la linea di base bb, rappresentando soluzioni alternative al problema di GRPO nel gestire ricompense ordinali sbilanciate.

Conclusioni e Discussione

Conclusioni Principali

  1. Difetto Fondamentale di GRPO: Nei compiti con ricompense ordinali, la linea di base semplice di GRPO assegna vantaggi positivi a traiettorie fallite, violando l'obiettivo di non rafforzare comportamenti errati
  2. Efficacia di CoRPO: Attraverso una linea di base adattiva che applica la garanzia di correttezza, CoRPO risolve con successo la dinamica di addestramento patologica di GRPO
  3. Miglioramento della Generalizzazione: CoRPO mostra capacità di generalizzazione migliorate su compiti fuori dominio, provando il valore della garanzia di correttezza

Limitazioni

  1. Compromesso di Ampiezza del Vantaggio: La ricchezza delle ricompense ordinali potrebbe risultare in ampiezze di vantaggio molto piccole quando le previsioni della politica si raggruppano, influenzando l'equilibrio esplorazione/sfruttamento
  2. Conservatorismo: La natura conservativa di CoRPO risulta in apprendimento più lento in dominio, richiedendo un equilibrio tra correttezza ed efficienza di apprendimento
  3. Sensibilità agli Iperparametri: Gli iperparametri di addestramento attuali e il calcolo di ricompensa/vantaggio non sono stati ottimizzati per CoRPO

Direzioni Future

  1. Equilibrare Ampiezza del Vantaggio ed Esplorazione: Esplorare metodi per garantire che il modello riceva aggiornamenti coerenti e influenti, equilibrando la capacità di imparare comportamenti corretti e trovare soluzioni ottimali
  2. Oltre Ricompense Basate su Risultati: Esplorare feedback più ricchi e densi, come ricompense per ogni passo che forniscono feedback durante l'intero processo di generazione
  3. Compiti di Ragionamento Multi-Passo: Estendere il metodo a compiti complessi di ragionamento multi-passo e risoluzione di problemi

Valutazione Approfondita

Punti di Forza

  1. Contributo Teorico Solido: Dimostra rigorosamente dal punto di vista matematico il difetto di GRPO nei compiti con ricompense ordinali, fornendo un'analisi teorica chiara
  2. Design del Metodo Elegante: Il design della linea di base adattiva di CoRPO risolve elegantemente il compromesso tra garanzia di correttezza e spinta di ricerca
  3. Verifica Sperimentale Completa: Valida completamente l'efficacia del metodo attraverso analisi della dinamica di addestramento e valutazione delle prestazioni a valle
  4. Alto Valore Pratico: Risolve un problema importante nell'addestramento pratico degli LLM, con valore diretto per le applicazioni industriali

Insufficienze

  1. Scala Sperimentale Limitata: Verifica solo su compiti di verifica del codice, necessitando test su più compiti e domini
  2. Ottimizzazione degli Iperparametri Insufficiente: Riconosce che gli iperparametri attuali non sono ottimizzati per CoRPO, potenzialmente influenzando l'equità del confronto delle prestazioni
  3. Profondità dell'Analisi Teorica: Sebbene identifichi il problema, l'analisi teorica più profonda sul perché le ricompense ordinali causano questo problema è limitata
  4. Analisi dei Costi Computazionali: Manca l'analisi dei costi computazionali di CoRPO rispetto a GRPO

Impatto

  1. Contributo Accademico: Fornisce importanti intuizioni teoriche per l'applicazione dell'apprendimento per rinforzo nell'addestramento degli LLM
  2. Valore Pratico: Fornisce una soluzione pratica per l'addestramento degli LLM utilizzando ricompense ordinali
  3. Direzione di Ricerca: Apre un percorso di ricerca dal feedback binario a ordinale a feedback più denso

Scenari Applicabili

  1. Compiti Verificabili: Particolarmente adatto a compiti come matematica e generazione di codice con criteri di correttezza chiari
  2. Scenari con Ricompense Ordinali: Qualsiasi scenario di addestramento RL che richieda l'uso di ricompense ordinali come valutazioni 1-5
  3. Apprendimento di Capacità degli LLM: Scenari in cui si desidera che gli LLM imparino nuove capacità attraverso RL piuttosto che semplicemente adattamenti di preferenza

Bibliografia

L'articolo cita 15 articoli correlati, coprendo il documento originale di GRPO, PPO e i più recenti metodi di addestramento RL per LLM, fornendo una base teorica solida per la ricerca.


Questo articolo raggiunge un buon equilibrio tra analisi teorica e soluzione pratica, fornendo intuizioni approfondite e una soluzione efficace a un importante problema nell'addestramento RL degli LLM, con significativo valore accademico e pratico.