2025-11-11T09:58:08.549566

The Peril of Preference: Why GRPO fails on Ordinal Rewards

Garg, Venkatesh
Group-relative Policy Optimization's (GRPO) simplicity makes it highly desirable for adapting LLMs to become experts at specific tasks. But this simplicity also makes it ill-specified as we seek to enhance RL training with richer, non-binary feedback. When using ordinal rewards to give partial credit, GRPO's simplicity starts to hurt, as its group-average baseline often assigns a positive advantage to failed trajectories and reinforces incorrect behavior. We introduce Correctness Relative Policy Optimization (CoRPO), a new formulation that solves this flaw. CoRPO uses an adaptive baseline that enforces a minimum quality threshold, ensuring failed solutions are never positively reinforced. Once the policy consistently meets this threshold, the baseline automatically transitions to a relative preference mode, pushing the model to find optimal solutions rather than just "acceptable" ones. We empirically validate CoRPO on a code verification task, where it demonstrates more stable convergence and better out-of-domain generalization. This work represents a critical step in our broader research program to enable LLMs to learn genuinely new capabilities through reinforcement learning. We achieve this by enabling LLMs to learn from rich, multi-dimensional feedback - progressing from binary to ordinal rewards in this work, and onward to denser, per-step supervision.
academic

Die Gefahr der Präferenz: Warum GRPO bei ordinalen Belohnungen versagt

Grundinformationen

  • Paper-ID: 2511.04439
  • Titel: The Peril of Preference: Why GRPO fails on Ordinal Rewards
  • Autoren: Anisha Garg, Ganesh Venkatesh (Cerebras Applied AI Research)
  • Klassifizierung: cs.AI, cs.LG
  • Veröffentlichungsdatum: 6. November 2025 (arXiv-Preprint)
  • Paper-Link: https://arxiv.org/abs/2511.04439

Zusammenfassung

Group-relative Policy Optimization (GRPO) ist wegen seiner Einfachheit bei der Anpassung großer Sprachmodelle (LLMs) an spezifische Aufgaben beliebt. Diese Einfachheit führt jedoch zu unzureichenden Normen, wenn man versucht, reichhaltigere nicht-binäre Rückmeldungen zur Verbesserung des Reinforcement-Learning-Trainings zu nutzen. Bei der Verwendung ordinaler Belohnungen zur Gewährung von Teilbelohnungen beginnt die Einfachheit von GRPO negative Auswirkungen zu haben. Die auf Gruppenmittelwerten basierende Baseline weist fehlgeschlagenen Trajektorien häufig positive Vorteile zu und verstärkt damit fehlerhafte Verhaltensweisen. Dieses Papier führt Correctness-Relative Policy Optimization (CoRPO) ein, eine neue Formulierung, die diesen Mangel behebt. CoRPO nutzt eine adaptive Baseline, um einen minimalen Qualitätsschwellenwert durchzusetzen und sicherzustellen, dass fehlgeschlagene Lösungen niemals positiv verstärkt werden. Sobald die Richtlinie diesen Schwellenwert konsistent erfüllt, wechselt die Baseline automatisch in einen relativen Präferenzmodus und treibt das Modell an, optimale Lösungen zu finden, nicht nur „akzeptable" Lösungen.

Forschungshintergrund und Motivation

Problemhintergrund

  1. Weit verbreitete Anwendung von GRPO: GRPO wird wegen seiner Einfachheit und Effizienz bei verifizierbaren Aufgaben wie mathematischen und Code-Generierungsaufgaben weit verbreitet eingesetzt, insbesondere durch die Verwendung von Gruppenmittelwertbelohnungen als Baseline statt komplexer Wertfunktionen.
  2. Übergang von binären zu ordinalen Belohnungen: Bestehende RL-Methoden sind hauptsächlich für binäre Präferenzen konzipiert, aber praktische Anwendungen erfordern reichhaltigere Rückmeldungssignale wie ordinale Belohnungen mit 1-5-Bewertungen.
  3. Grundlegender Mangel von GRPO: GRPO definiert das Lernziel von absolutem Wert zu relativer Präferenz um. Der Vorteil wird nicht mehr gegen die absolute erwartete Belohnung gemessen, sondern gegen die Leistung von Stichproben-Peers.

Kernproblem

Wenn die Richtlinie noch nicht ausreichend trainiert ist, wird die Gruppenmittelwert-Baseline von GRPO häufig zu einer großen negativen Zahl. In diesem Zustand erfüllt jede „nicht ganz so schlechte" fehlgeschlagene Trajektorie R(yf)>bR(y_f) > b, was zu A(yf)>0A(y_f) > 0 führt und das Modell aktiv trainiert, die Wahrscheinlichkeit der Generierung objektiv falscher Trajektorien zu erhöhen.

Forschungsmotivation

  • Behebung des grundlegenden Mangels von GRPO bei Aufgaben mit ordinalen Belohnungen
  • Etablierung eines Trainingsrahmens, der sowohl Korrektheit garantiert als auch Optimierung vorantreibt
  • Schaffung einer Grundlage für LLMs, um durch Reinforcement Learning neue Fähigkeiten zu erlernen

Kernbeiträge

  1. Theoretische Analyse: Mathematischer Nachweis der unangemessenen Normalisierung der GRPO-Baseline bei Aufgaben mit ordinalen Belohnungen und Offenlegung der grundlegenden Ursache für die Zuweisung positiver Vorteile zu fehlgeschlagenen Trajektorien
  2. CoRPO-Methode: Vorschlag von Correctness-Relative Policy Optimization (CoRPO), einer neuen Vorteilsformel mit adaptiver Baseline, die die Mängel von GRPO behebt
  3. Zweistufiger Lernrahmen: Konzeption eines automatischen Übergangsmechanismus von „Korrektheitserkennung" zu „Präferenzerkennung", der während des Richtlinienverbesserungsprozesses unterschiedliche Lernsignale bereitstellt
  4. Empirische Validierung: Validierung der Wirksamkeit von CoRPO bei Code-Verifikationsaufgaben mit stabilerer Konvergenz und besserer außerhalb des Bereichs liegender Generalisierungsfähigkeit

Methodische Details

Problemdefinition

Gegeben eine Gruppe von GG Rollouts {y1,y2,...,yG}\{y_1, y_2, ..., y_G\}, die aus der Richtlinie πθ\pi_\theta entnommen wurden, verwendet GRPO die Gruppenmittelwertbelohnung als Baseline:

b=1Gi=1GR(yi)b = \frac{1}{G}\sum_{i=1}^{G}R(y_i)

Die Vorteilsfunktion ist definiert als: A(yi)=R(yi)bnormA(y_i) = \frac{R(y_i) - b}{norm}

Analyse der GRPO-Mängel

Kernproblem: Wenn eine fehlgeschlagene Trajektorie yfy_f (wobei R(yf)<0R(y_f) < 0) die folgende Bedingung erfüllt, erhält sie einen positiven Vorteil: b<R(yf)<0b < R(y_f) < 0

Dies ist ein häufiges Szenario bei komplexen Problemen, bei denen die Richtlinie noch nicht ausreichend trainiert ist, was dazu führt, dass das Modell aktiv fehlerhafte Verhaltensweisen erlernt.

CoRPO-Lösung

1. Drei Kriterien für die ideale Baseline

  • Korrektheitssicherung: Fehlgeschlagene Trajektorien sollten niemals einen positiven Vorteil erhalten
  • Proportionales Feedback: Negatives Feedback für fehlgeschlagene Lösungen sollte proportional zu ihrer Qualität sein
  • Optimierungstrieb: Fortsetzung der Bereitstellung von Verbesserungssignalen unter „akzeptablen" Lösungen

2. Statische Baseline-Methode

Zunächst wird eine statische Baseline vorgeschlagen: bstatic=Rmin_correctb_{static} = R_{min\_correct}Astatic(y)=R(y)Rmin_correctA_{static}(y) = R(y) - R_{min\_correct}

Dies garantiert Korrektheit, bietet aber nach der Richtlinienverbesserung keinen Optimierungstrieb.

3. CoRPO-Adaptive Baseline

Die endgültige CoRPO-Formel kombiniert die Vorteile statischer und dynamischer Baselines:

bmean=1Gi=1GR(yi)b_{mean} = \frac{1}{G}\sum_{i=1}^{G}R(y_i)

bcorpo=max(Rmin_correct,bmean)b_{corpo} = \max(R_{min\_correct}, b_{mean})

Acorpo(yi)=R(yi)bcorpoA_{corpo}(y_i) = R(y_i) - b_{corpo}

4. Zweistufiger Betriebsmechanismus

Phase 1: Korrektheitserkennung (bmean<Rmin_correctb_{mean} < R_{min\_correct})

  • Baseline ist auf Rmin_correctR_{min\_correct} gesperrt
  • Sicherstellen, dass alle fehlgeschlagenen Trajektorien negative Vorteile erhalten
  • Fokus auf das Erlernen grundlegender Korrektheit

Phase 2: Präferenzerkennung (bmeanRmin_correctb_{mean} \geq R_{min\_correct})

  • Baseline wird zur Standard-GRPO-Baseline bmeanb_{mean}
  • Etablierung relativer Präferenzen zwischen korrekten Lösungen
  • Förderung der Verbesserung von „gut" zu „optimal"

Experimentelle Einrichtung

Aufgabendefinition

Training eines Interpretierungsverifizierers zur Überprüfung der Korrektheit von LLM-generiertem Code. Gegeben ein Problem QQ und zwei Kandidatenantworten (RA,RB)(R_A, R_B) gibt die Richtlinie Bewertungen V=(vA,vB)[0,10]V = (v_A, v_B) \in [0, 10] aus, die das Vertrauen in die Korrektheit jeder Antwort ausdrücken.

Datensätze

  • Trainingssatz: Programmierproblemen von CodeForces und LeetCode, mehrere Lösungen generiert mit Qwen3-8B, enthält korrekte und fehlerhafte Argumentationsspuren, insgesamt 4890 Stichproben
  • Validierungssatz:
    • Domänen-interne Codierung: eine korrekte und eine fehlerhafte Antwort (196 Stichproben)
    • Domänen-externe Codierung: beide korrekt oder beide fehlerhaft (98 Stichproben)
    • Domänen-externe Mathematik: eine korrekte und eine fehlerhafte Antwort (157 Stichproben)

Experimentelle Konfiguration

  • Modell: Qwen3-8B
  • Maximale Sequenzlänge: 16.384
  • 8 Rollouts pro Eingabeaufforderung
  • Globale Batch-Größe: 512
  • Lernrate: 1×10⁻⁶
  • Strikte Einhaltung des On-Policy-Trainings

Bewertungsmetriken

Verwendung der pass@16-Metrik zur Bewertung der Modellgenauigkeit bei verschiedenen Aufgaben.

Experimentelle Ergebnisse

Validierung der GRPO-Mängel

Durch Analyse der Rollout-Verteilung in repräsentativen Batches wurde festgestellt, dass 18% der fehlgeschlagenen Trajektorien positive Vorteile erhielten, was empirisch das Vorhandensein des b<R(yf)<0b < R(y_f) < 0 Mangels bestätigt.

Analyse der Trainingsdynamik

Durch Analyse des Verhältnisses positiver zu negativer Vorteilssignale (rcount=#{A(y)>0}#{A(y)<0}r_{count} = \frac{\#\{A(y)>0\}}{\#\{A(y)<0\}} und rloss=ΣLossA(y)>0ΣLossA(y)<0r_{loss} = \frac{\Sigma Loss_{A(y)>0}}{\Sigma Loss_{A(y)<0}}):

Frühe Trainingsphase: Das rcountr_{count} sowohl der statischen als auch der CoRPO-Baseline liegt unter 1,0, identifiziert korrekt alle fehlgeschlagenen Trajektorien und bietet negatives Feedback, was die Korrektheitssicherung widerspiegelt.

Mittlere und späte Trainingsphase: Das Verhältnis positiven zu negativem Feedback der statischen Baseline steigt steil an, während die CoRPO-Baseline auf einem moderaten Niveau stabil bleibt und erfolgreich vom „Korrektheit"-Modus zum „Präferenz"-Modus wechselt.

Ergebnisse der nachgelagerten Genauigkeit

AufgabeGRPOStatischCoRPO
Domänen-interne Aufgaben
Erste Korrekt87,180,283,2
Zweite Korrekt86,389,586,3
Domänen-externe Codierungsaufgaben
Beide Fehlerhaft50,064,056,0
Beide Korrekt89,693,795,8
Domänen-externe Mathematikaufgaben
Erste Korrekt79,380,581,6
Zweite Korrekt81,487,181,4

Wichtigste Erkenntnisse

  1. Wert der Korrektheitssicherung: Statische und CoRPO-Baselines übertreffen GRPO bei domänen-externen Aufgaben erheblich, was beweist, dass die Verhinderung des Erlernens von „nicht ganz so schlechten" Fehlern hilft, robustere und verallgemeinerbare Korrektheitssignale zu erlernen
  2. Konservativitäts-Kompromiss: Die Konservativität von CoRPO führt zu kleineren Gewichtsaktualisierungsschritten, was bei domänen-internen Aufgaben zu etwas schlechterer Leistung als die statische Baseline führt, aber bei domänen-externen Aufgaben gut abschneidet
  3. Generalisierungsfähigkeit: Durch Durchsetzung der Korrektheitssicherung erlernt CoRPO ein robusteres Korrektheitkonzept, das sich in besserer domänen-externer Leistung niederschlägt

Verwandte Arbeiten

Reinforcement-Learning-Baseline-Methoden

  • PPO: Verwendung von Wertfunktionen als Baseline mit großem Rechen- und Speicheraufwand
  • GRPO: Vereinfachung der Baseline-Berechnung durch Gruppenmittelwertbelohnungen, aber mit Mängeln bei Aufgaben mit ordinalen Belohnungen

LLM-Reinforcement-Learning-Training

  • Datenkurierung: Aufrechterhaltung einer „optimalen" Erfolgsquote
  • Dynamische Rollout-Auswahl: Sicherung hoher Varianz in Batches
  • Belohnungs-Neugewichtung: Bevorzugung negativer Beispiele oder Skalierung positiver Beispielauswirkungen

Diese Techniken sind tatsächlich implizite heuristische Versuche, die Baseline bb zu verwalten, und sind Workarounds für GRPO-Formeln zur Behandlung unausgewogener ordinaler Belohnungsprobleme.

Schlussfolgerung und Diskussion

Hauptschlussfolgerungen

  1. Grundlegender Mangel von GRPO: Bei Aufgaben mit ordinalen Belohnungen weist die einfache Baseline von GRPO fehlgeschlagenen Trajektorien positive Vorteile zu, was dem Ziel widerspricht, fehlerhafte Verhaltensweisen nicht zu verstärken
  2. Wirksamkeit von CoRPO: Durch Durchsetzung der Korrektheitssicherung mit einer adaptiven Baseline behebt CoRPO erfolgreich die pathologischen Trainingsdynamiken von GRPO
  3. Verbesserte Generalisierungsfähigkeit: CoRPO zeigt verbesserte Generalisierungsfähigkeit bei domänen-externen Aufgaben und beweist den Wert der Korrektheitssicherung

Einschränkungen

  1. Kompromiss bei Vorteilsamplitude: Die Reichhaltigkeit ordinaler Belohnungen kann zu kleinen Vorteilsamplituden führen, wenn sich die Richtlinienvorhersagen zusammenballen, was das Explorations-/Exploitations-Gleichgewicht beeinflusst
  2. Konservativität: Die konservative Natur von CoRPO führt zu langsamerer domänen-interner Lernfähigkeit und erfordert ein Gleichgewicht zwischen Korrektheit und Lerneffizienz
  3. Hyperparameter-Empfindlichkeit: Aktuelle Trainingshyperparameter und Belohnungs-/Vorteilsberechnungen sind nicht für CoRPO optimiert

Zukünftige Richtungen

  1. Ausgleich von Vorteilsamplitude und Exploration: Erkundung von Methoden zur Sicherung konsistenter, wirkungsvoller Updates für das Modell, um das Gleichgewicht zwischen dem Erlernen korrekten Verhaltens und der Suche nach optimalen Lösungen zu wahren
  2. Jenseits ergebnisbasierter Belohnungen: Erkundung reichhaltigerer, dichter Rückmeldungen, wie z.B. schrittweise Belohnungen, die Rückmeldungen während des gesamten Generierungsprozesses bieten
  3. Multi-Step-Reasoning-Aufgaben: Erweiterung der Methode auf komplexe Multi-Step-Reasoning- und Problemlösungsaufgaben

Tiefgreifende Bewertung

Stärken

  1. Solider theoretischer Beitrag: Mathematisch rigoroser Nachweis der Mängel von GRPO bei Aufgaben mit ordinalen Belohnungen mit klarer theoretischer Analyse
  2. Geschickte Methodengestaltung: Das adaptive Baseline-Design von CoRPO löst elegant den Kompromiss zwischen Korrektheitssicherung und Optimierungstrieb
  3. Umfassende experimentelle Validierung: Umfassende Validierung der Methodenwirksamkeit durch Trainingsdynamikanalyse und Bewertung der nachgelagerten Leistung
  4. Hoher praktischer Wert: Lösung eines wichtigen Problems beim praktischen LLM-Training mit direktem Wert für industrielle Anwendungen

Mängel

  1. Begrenzte Experimentierumfang: Validierung nur bei Code-Verifikationsaufgaben, Bedarf an Tests bei mehr Aufgaben und Domänen
  2. Unzureichende Hyperparameter-Optimierung: Anerkennung, dass aktuelle Hyperparameter nicht für CoRPO optimiert sind, was die Fairness des Leistungsvergleichs beeinflussen kann
  3. Begrenzte Tiefe der theoretischen Analyse: Obwohl das Problem identifiziert wird, ist die tiefere theoretische Analyse, warum ordinale Belohnungen zu diesem Problem führen, begrenzt
  4. Fehlende Rechenaufwand-Analyse: Mangel an Analyse des Rechenaufwands von CoRPO im Vergleich zu GRPO

Auswirkungen

  1. Akademischer Beitrag: Bereitstellung wichtiger theoretischer Erkenntnisse für die Anwendung von Reinforcement Learning beim LLM-Training
  2. Praktischer Wert: Bereitstellung einer praktischen Lösung für das Training von LLMs mit ordinalen Belohnungen
  3. Forschungsrichtung: Eröffnung eines Forschungspfads von binären zu ordinalen bis zu dichteren Rückmeldungen

Anwendungsszenarien

  1. Verifizierbare Aufgaben: Besonders geeignet für Aufgaben wie Mathematik und Code-Generierung mit klaren Korrektheitskriterien
  2. Ordinale Belohnungsszenarien: Alle RL-Trainingsszenarien, die ordinale Belohnungen wie 1-5-Bewertungen erfordern
  3. LLM-Fähigkeitserwerb: Szenarien, in denen LLMs durch RL neue Fähigkeiten erlernen sollen, nicht nur Präferenzanpassung

Literaturverzeichnis

Das Papier zitiert 15 verwandte Arbeiten, die das ursprüngliche GRPO-Papier, PPO und neueste LLM-Reinforcement-Learning-Trainingsmethoden abdecken und eine solide theoretische Grundlage für die Forschung bieten.


Dieses Papier erreicht ein gutes Gleichgewicht zwischen theoretischer Analyse und praktischen Lösungen und bietet tiefe Einblicke und effektive Lösungen für ein wichtiges Problem beim LLM-Reinforcement-Learning-Training mit bedeutendem akademischem und praktischem Wert.