2025-11-11T09:58:08.549566

The Peril of Preference: Why GRPO fails on Ordinal Rewards

Garg, Venkatesh

Group-relative Policy Optimization's (GRPO) simplicity makes it highly desirable for adapting LLMs to become experts at specific tasks. But this simplicity also makes it ill-specified as we seek to enhance RL training with richer, non-binary feedback. When using ordinal rewards to give partial credit, GRPO's simplicity starts to hurt, as its group-average baseline often assigns a positive advantage to failed trajectories and reinforces incorrect behavior. We introduce Correctness Relative Policy Optimization (CoRPO), a new formulation that solves this flaw. CoRPO uses an adaptive baseline that enforces a minimum quality threshold, ensuring failed solutions are never positively reinforced. Once the policy consistently meets this threshold, the baseline automatically transitions to a relative preference mode, pushing the model to find optimal solutions rather than just "acceptable" ones. We empirically validate CoRPO on a code verification task, where it demonstrates more stable convergence and better out-of-domain generalization. This work represents a critical step in our broader research program to enable LLMs to learn genuinely new capabilities through reinforcement learning. We achieve this by enabling LLMs to learn from rich, multi-dimensional feedback - progressing from binary to ordinal rewards in this work, and onward to denser, per-step supervision.

academic

Die Gefahr der Präferenz: Warum GRPO bei ordinalen Belohnungen versagt

Grundinformationen

Paper-ID: 2511.04439
Titel: The Peril of Preference: Why GRPO fails on Ordinal Rewards
Autoren: Anisha Garg, Ganesh Venkatesh (Cerebras Applied AI Research)
Klassifizierung: cs.AI, cs.LG
Veröffentlichungsdatum: 6. November 2025 (arXiv-Preprint)
Paper-Link: https://arxiv.org/abs/2511.04439

Zusammenfassung

Group-relative Policy Optimization (GRPO) ist wegen seiner Einfachheit bei der Anpassung großer Sprachmodelle (LLMs) an spezifische Aufgaben beliebt. Diese Einfachheit führt jedoch zu unzureichenden Normen, wenn man versucht, reichhaltigere nicht-binäre Rückmeldungen zur Verbesserung des Reinforcement-Learning-Trainings zu nutzen. Bei der Verwendung ordinaler Belohnungen zur Gewährung von Teilbelohnungen beginnt die Einfachheit von GRPO negative Auswirkungen zu haben. Die auf Gruppenmittelwerten basierende Baseline weist fehlgeschlagenen Trajektorien häufig positive Vorteile zu und verstärkt damit fehlerhafte Verhaltensweisen. Dieses Papier führt Correctness-Relative Policy Optimization (CoRPO) ein, eine neue Formulierung, die diesen Mangel behebt. CoRPO nutzt eine adaptive Baseline, um einen minimalen Qualitätsschwellenwert durchzusetzen und sicherzustellen, dass fehlgeschlagene Lösungen niemals positiv verstärkt werden. Sobald die Richtlinie diesen Schwellenwert konsistent erfüllt, wechselt die Baseline automatisch in einen relativen Präferenzmodus und treibt das Modell an, optimale Lösungen zu finden, nicht nur „akzeptable" Lösungen.

Forschungshintergrund und Motivation

Problemhintergrund

Weit verbreitete Anwendung von GRPO: GRPO wird wegen seiner Einfachheit und Effizienz bei verifizierbaren Aufgaben wie mathematischen und Code-Generierungsaufgaben weit verbreitet eingesetzt, insbesondere durch die Verwendung von Gruppenmittelwertbelohnungen als Baseline statt komplexer Wertfunktionen.
Übergang von binären zu ordinalen Belohnungen: Bestehende RL-Methoden sind hauptsächlich für binäre Präferenzen konzipiert, aber praktische Anwendungen erfordern reichhaltigere Rückmeldungssignale wie ordinale Belohnungen mit 1-5-Bewertungen.
Grundlegender Mangel von GRPO: GRPO definiert das Lernziel von absolutem Wert zu relativer Präferenz um. Der Vorteil wird nicht mehr gegen die absolute erwartete Belohnung gemessen, sondern gegen die Leistung von Stichproben-Peers.

Kernproblem

Wenn die Richtlinie noch nicht ausreichend trainiert ist, wird die Gruppenmittelwert-Baseline von GRPO häufig zu einer großen negativen Zahl. In diesem Zustand erfüllt jede „nicht ganz so schlechte" fehlgeschlagene Trajektorie $R(y_f) > b$ , was zu $A(y_f) > 0$ führt und das Modell aktiv trainiert, die Wahrscheinlichkeit der Generierung objektiv falscher Trajektorien zu erhöhen.

Forschungsmotivation

Behebung des grundlegenden Mangels von GRPO bei Aufgaben mit ordinalen Belohnungen
Etablierung eines Trainingsrahmens, der sowohl Korrektheit garantiert als auch Optimierung vorantreibt
Schaffung einer Grundlage für LLMs, um durch Reinforcement Learning neue Fähigkeiten zu erlernen

Kernbeiträge

Theoretische Analyse: Mathematischer Nachweis der unangemessenen Normalisierung der GRPO-Baseline bei Aufgaben mit ordinalen Belohnungen und Offenlegung der grundlegenden Ursache für die Zuweisung positiver Vorteile zu fehlgeschlagenen Trajektorien
CoRPO-Methode: Vorschlag von Correctness-Relative Policy Optimization (CoRPO), einer neuen Vorteilsformel mit adaptiver Baseline, die die Mängel von GRPO behebt
Zweistufiger Lernrahmen: Konzeption eines automatischen Übergangsmechanismus von „Korrektheitserkennung" zu „Präferenzerkennung", der während des Richtlinienverbesserungsprozesses unterschiedliche Lernsignale bereitstellt
Empirische Validierung: Validierung der Wirksamkeit von CoRPO bei Code-Verifikationsaufgaben mit stabilerer Konvergenz und besserer außerhalb des Bereichs liegender Generalisierungsfähigkeit

Methodische Details

Problemdefinition

Gegeben eine Gruppe von $G$ Rollouts $\{y_1, y_2, ..., y_G\}$ , die aus der Richtlinie $\pi_\theta$ entnommen wurden, verwendet GRPO die Gruppenmittelwertbelohnung als Baseline:

$b = \frac{1}{G}\sum_{i=1}^{G}R(y_i)$

Die Vorteilsfunktion ist definiert als: $A(y_i) = \frac{R(y_i) - b}{norm}$

Analyse der GRPO-Mängel

Kernproblem: Wenn eine fehlgeschlagene Trajektorie $y_f$ (wobei $R(y_f) < 0$ ) die folgende Bedingung erfüllt, erhält sie einen positiven Vorteil: $b < R(y_f) < 0$

Dies ist ein häufiges Szenario bei komplexen Problemen, bei denen die Richtlinie noch nicht ausreichend trainiert ist, was dazu führt, dass das Modell aktiv fehlerhafte Verhaltensweisen erlernt.

CoRPO-Lösung

1. Drei Kriterien für die ideale Baseline

Korrektheitssicherung: Fehlgeschlagene Trajektorien sollten niemals einen positiven Vorteil erhalten
Proportionales Feedback: Negatives Feedback für fehlgeschlagene Lösungen sollte proportional zu ihrer Qualität sein
Optimierungstrieb: Fortsetzung der Bereitstellung von Verbesserungssignalen unter „akzeptablen" Lösungen

2. Statische Baseline-Methode

Zunächst wird eine statische Baseline vorgeschlagen: $b_{static} = R_{min\_correct}$ $A_{static}(y) = R(y) - R_{min\_correct}$

Dies garantiert Korrektheit, bietet aber nach der Richtlinienverbesserung keinen Optimierungstrieb.

3. CoRPO-Adaptive Baseline

Die endgültige CoRPO-Formel kombiniert die Vorteile statischer und dynamischer Baselines:

$b_{mean} = \frac{1}{G}\sum_{i=1}^{G}R(y_i)$

$b_{corpo} = \max(R_{min\_correct}, b_{mean})$

$A_{corpo}(y_i) = R(y_i) - b_{corpo}$

4. Zweistufiger Betriebsmechanismus

Phase 1: Korrektheitserkennung ( $b_{mean} < R_{min\_correct}$ )

Baseline ist auf $R_{min\_correct}$ gesperrt
Sicherstellen, dass alle fehlgeschlagenen Trajektorien negative Vorteile erhalten
Fokus auf das Erlernen grundlegender Korrektheit

Phase 2: Präferenzerkennung ( $b_{mean} \geq R_{min\_correct}$ )

Baseline wird zur Standard-GRPO-Baseline $b_{mean}$
Etablierung relativer Präferenzen zwischen korrekten Lösungen
Förderung der Verbesserung von „gut" zu „optimal"

Experimentelle Einrichtung

Aufgabendefinition

Training eines Interpretierungsverifizierers zur Überprüfung der Korrektheit von LLM-generiertem Code. Gegeben ein Problem $Q$ und zwei Kandidatenantworten $(R_A, R_B)$ gibt die Richtlinie Bewertungen $V = (v_A, v_B) \in [0, 10]$ aus, die das Vertrauen in die Korrektheit jeder Antwort ausdrücken.

Datensätze

Trainingssatz: Programmierproblemen von CodeForces und LeetCode, mehrere Lösungen generiert mit Qwen3-8B, enthält korrekte und fehlerhafte Argumentationsspuren, insgesamt 4890 Stichproben
Validierungssatz:
- Domänen-interne Codierung: eine korrekte und eine fehlerhafte Antwort (196 Stichproben)
- Domänen-externe Codierung: beide korrekt oder beide fehlerhaft (98 Stichproben)
- Domänen-externe Mathematik: eine korrekte und eine fehlerhafte Antwort (157 Stichproben)

Experimentelle Konfiguration

Modell: Qwen3-8B
Maximale Sequenzlänge: 16.384
8 Rollouts pro Eingabeaufforderung
Globale Batch-Größe: 512
Lernrate: 1×10⁻⁶
Strikte Einhaltung des On-Policy-Trainings

Bewertungsmetriken

Verwendung der pass@16-Metrik zur Bewertung der Modellgenauigkeit bei verschiedenen Aufgaben.

Experimentelle Ergebnisse

Validierung der GRPO-Mängel

Durch Analyse der Rollout-Verteilung in repräsentativen Batches wurde festgestellt, dass 18% der fehlgeschlagenen Trajektorien positive Vorteile erhielten, was empirisch das Vorhandensein des $b < R(y_f) < 0$ Mangels bestätigt.

Analyse der Trainingsdynamik

Durch Analyse des Verhältnisses positiver zu negativer Vorteilssignale ( $r_{count} = \frac{\#\{A(y)>0\}}{\#\{A(y)<0\}}$ und $r_{loss} = \frac{\Sigma Loss_{A(y)>0}}{\Sigma Loss_{A(y)<0}}$ ):

Frühe Trainingsphase: Das $r_{count}$ sowohl der statischen als auch der CoRPO-Baseline liegt unter 1,0, identifiziert korrekt alle fehlgeschlagenen Trajektorien und bietet negatives Feedback, was die Korrektheitssicherung widerspiegelt.

Mittlere und späte Trainingsphase: Das Verhältnis positiven zu negativem Feedback der statischen Baseline steigt steil an, während die CoRPO-Baseline auf einem moderaten Niveau stabil bleibt und erfolgreich vom „Korrektheit"-Modus zum „Präferenz"-Modus wechselt.

Ergebnisse der nachgelagerten Genauigkeit

Aufgabe	GRPO	Statisch	CoRPO
Domänen-interne Aufgaben
Erste Korrekt	87,1	80,2	83,2
Zweite Korrekt	86,3	89,5	86,3
Domänen-externe Codierungsaufgaben
Beide Fehlerhaft	50,0	64,0	56,0
Beide Korrekt	89,6	93,7	95,8
Domänen-externe Mathematikaufgaben
Erste Korrekt	79,3	80,5	81,6
Zweite Korrekt	81,4	87,1	81,4

Wichtigste Erkenntnisse

Wert der Korrektheitssicherung: Statische und CoRPO-Baselines übertreffen GRPO bei domänen-externen Aufgaben erheblich, was beweist, dass die Verhinderung des Erlernens von „nicht ganz so schlechten" Fehlern hilft, robustere und verallgemeinerbare Korrektheitssignale zu erlernen
Konservativitäts-Kompromiss: Die Konservativität von CoRPO führt zu kleineren Gewichtsaktualisierungsschritten, was bei domänen-internen Aufgaben zu etwas schlechterer Leistung als die statische Baseline führt, aber bei domänen-externen Aufgaben gut abschneidet
Generalisierungsfähigkeit: Durch Durchsetzung der Korrektheitssicherung erlernt CoRPO ein robusteres Korrektheitkonzept, das sich in besserer domänen-externer Leistung niederschlägt

Schlussfolgerung und Diskussion

Hauptschlussfolgerungen

Grundlegender Mangel von GRPO: Bei Aufgaben mit ordinalen Belohnungen weist die einfache Baseline von GRPO fehlgeschlagenen Trajektorien positive Vorteile zu, was dem Ziel widerspricht, fehlerhafte Verhaltensweisen nicht zu verstärken
Wirksamkeit von CoRPO: Durch Durchsetzung der Korrektheitssicherung mit einer adaptiven Baseline behebt CoRPO erfolgreich die pathologischen Trainingsdynamiken von GRPO
Verbesserte Generalisierungsfähigkeit: CoRPO zeigt verbesserte Generalisierungsfähigkeit bei domänen-externen Aufgaben und beweist den Wert der Korrektheitssicherung

Einschränkungen

Kompromiss bei Vorteilsamplitude: Die Reichhaltigkeit ordinaler Belohnungen kann zu kleinen Vorteilsamplituden führen, wenn sich die Richtlinienvorhersagen zusammenballen, was das Explorations-/Exploitations-Gleichgewicht beeinflusst
Konservativität: Die konservative Natur von CoRPO führt zu langsamerer domänen-interner Lernfähigkeit und erfordert ein Gleichgewicht zwischen Korrektheit und Lerneffizienz
Hyperparameter-Empfindlichkeit: Aktuelle Trainingshyperparameter und Belohnungs-/Vorteilsberechnungen sind nicht für CoRPO optimiert

Zukünftige Richtungen

Ausgleich von Vorteilsamplitude und Exploration: Erkundung von Methoden zur Sicherung konsistenter, wirkungsvoller Updates für das Modell, um das Gleichgewicht zwischen dem Erlernen korrekten Verhaltens und der Suche nach optimalen Lösungen zu wahren
Jenseits ergebnisbasierter Belohnungen: Erkundung reichhaltigerer, dichter Rückmeldungen, wie z.B. schrittweise Belohnungen, die Rückmeldungen während des gesamten Generierungsprozesses bieten
Multi-Step-Reasoning-Aufgaben: Erweiterung der Methode auf komplexe Multi-Step-Reasoning- und Problemlösungsaufgaben

Tiefgreifende Bewertung

Stärken

Solider theoretischer Beitrag: Mathematisch rigoroser Nachweis der Mängel von GRPO bei Aufgaben mit ordinalen Belohnungen mit klarer theoretischer Analyse
Geschickte Methodengestaltung: Das adaptive Baseline-Design von CoRPO löst elegant den Kompromiss zwischen Korrektheitssicherung und Optimierungstrieb
Umfassende experimentelle Validierung: Umfassende Validierung der Methodenwirksamkeit durch Trainingsdynamikanalyse und Bewertung der nachgelagerten Leistung
Hoher praktischer Wert: Lösung eines wichtigen Problems beim praktischen LLM-Training mit direktem Wert für industrielle Anwendungen

Mängel

Begrenzte Experimentierumfang: Validierung nur bei Code-Verifikationsaufgaben, Bedarf an Tests bei mehr Aufgaben und Domänen
Unzureichende Hyperparameter-Optimierung: Anerkennung, dass aktuelle Hyperparameter nicht für CoRPO optimiert sind, was die Fairness des Leistungsvergleichs beeinflussen kann
Begrenzte Tiefe der theoretischen Analyse: Obwohl das Problem identifiziert wird, ist die tiefere theoretische Analyse, warum ordinale Belohnungen zu diesem Problem führen, begrenzt
Fehlende Rechenaufwand-Analyse: Mangel an Analyse des Rechenaufwands von CoRPO im Vergleich zu GRPO

Auswirkungen

Akademischer Beitrag: Bereitstellung wichtiger theoretischer Erkenntnisse für die Anwendung von Reinforcement Learning beim LLM-Training
Praktischer Wert: Bereitstellung einer praktischen Lösung für das Training von LLMs mit ordinalen Belohnungen
Forschungsrichtung: Eröffnung eines Forschungspfads von binären zu ordinalen bis zu dichteren Rückmeldungen

Anwendungsszenarien

Verifizierbare Aufgaben: Besonders geeignet für Aufgaben wie Mathematik und Code-Generierung mit klaren Korrektheitskriterien
Ordinale Belohnungsszenarien: Alle RL-Trainingsszenarien, die ordinale Belohnungen wie 1-5-Bewertungen erfordern
LLM-Fähigkeitserwerb: Szenarien, in denen LLMs durch RL neue Fähigkeiten erlernen sollen, nicht nur Präferenzanpassung

Literaturverzeichnis

Das Papier zitiert 15 verwandte Arbeiten, die das ursprüngliche GRPO-Papier, PPO und neueste LLM-Reinforcement-Learning-Trainingsmethoden abdecken und eine solide theoretische Grundlage für die Forschung bieten.

Dieses Papier erreicht ein gutes Gleichgewicht zwischen theoretischer Analyse und praktischen Lösungen und bietet tiefe Einblicke und effektive Lösungen für ein wichtiges Problem beim LLM-Reinforcement-Learning-Training mit bedeutendem akademischem und praktischem Wert.