Group-relative Policy Optimization's (GRPO) simplicity makes it highly desirable for adapting LLMs to become experts at specific tasks. But this simplicity also makes it ill-specified as we seek to enhance RL training with richer, non-binary feedback. When using ordinal rewards to give partial credit, GRPO's simplicity starts to hurt, as its group-average baseline often assigns a positive advantage to failed trajectories and reinforces incorrect behavior.
We introduce Correctness Relative Policy Optimization (CoRPO), a new formulation that solves this flaw. CoRPO uses an adaptive baseline that enforces a minimum quality threshold, ensuring failed solutions are never positively reinforced. Once the policy consistently meets this threshold, the baseline automatically transitions to a relative preference mode, pushing the model to find optimal solutions rather than just "acceptable" ones. We empirically validate CoRPO on a code verification task, where it demonstrates more stable convergence and better out-of-domain generalization.
This work represents a critical step in our broader research program to enable LLMs to learn genuinely new capabilities through reinforcement learning. We achieve this by enabling LLMs to learn from rich, multi-dimensional feedback - progressing from binary to ordinal rewards in this work, and onward to denser, per-step supervision.
- Paper-ID: 2511.04439
- Titel: The Peril of Preference: Why GRPO fails on Ordinal Rewards
- Autoren: Anisha Garg, Ganesh Venkatesh (Cerebras Applied AI Research)
- Klassifizierung: cs.AI, cs.LG
- Veröffentlichungsdatum: 6. November 2025 (arXiv-Preprint)
- Paper-Link: https://arxiv.org/abs/2511.04439
Group-relative Policy Optimization (GRPO) ist wegen seiner Einfachheit bei der Anpassung großer Sprachmodelle (LLMs) an spezifische Aufgaben beliebt. Diese Einfachheit führt jedoch zu unzureichenden Normen, wenn man versucht, reichhaltigere nicht-binäre Rückmeldungen zur Verbesserung des Reinforcement-Learning-Trainings zu nutzen. Bei der Verwendung ordinaler Belohnungen zur Gewährung von Teilbelohnungen beginnt die Einfachheit von GRPO negative Auswirkungen zu haben. Die auf Gruppenmittelwerten basierende Baseline weist fehlgeschlagenen Trajektorien häufig positive Vorteile zu und verstärkt damit fehlerhafte Verhaltensweisen. Dieses Papier führt Correctness-Relative Policy Optimization (CoRPO) ein, eine neue Formulierung, die diesen Mangel behebt. CoRPO nutzt eine adaptive Baseline, um einen minimalen Qualitätsschwellenwert durchzusetzen und sicherzustellen, dass fehlgeschlagene Lösungen niemals positiv verstärkt werden. Sobald die Richtlinie diesen Schwellenwert konsistent erfüllt, wechselt die Baseline automatisch in einen relativen Präferenzmodus und treibt das Modell an, optimale Lösungen zu finden, nicht nur „akzeptable" Lösungen.
- Weit verbreitete Anwendung von GRPO: GRPO wird wegen seiner Einfachheit und Effizienz bei verifizierbaren Aufgaben wie mathematischen und Code-Generierungsaufgaben weit verbreitet eingesetzt, insbesondere durch die Verwendung von Gruppenmittelwertbelohnungen als Baseline statt komplexer Wertfunktionen.
- Übergang von binären zu ordinalen Belohnungen: Bestehende RL-Methoden sind hauptsächlich für binäre Präferenzen konzipiert, aber praktische Anwendungen erfordern reichhaltigere Rückmeldungssignale wie ordinale Belohnungen mit 1-5-Bewertungen.
- Grundlegender Mangel von GRPO: GRPO definiert das Lernziel von absolutem Wert zu relativer Präferenz um. Der Vorteil wird nicht mehr gegen die absolute erwartete Belohnung gemessen, sondern gegen die Leistung von Stichproben-Peers.
Wenn die Richtlinie noch nicht ausreichend trainiert ist, wird die Gruppenmittelwert-Baseline von GRPO häufig zu einer großen negativen Zahl. In diesem Zustand erfüllt jede „nicht ganz so schlechte" fehlgeschlagene Trajektorie R(yf)>b, was zu A(yf)>0 führt und das Modell aktiv trainiert, die Wahrscheinlichkeit der Generierung objektiv falscher Trajektorien zu erhöhen.
- Behebung des grundlegenden Mangels von GRPO bei Aufgaben mit ordinalen Belohnungen
- Etablierung eines Trainingsrahmens, der sowohl Korrektheit garantiert als auch Optimierung vorantreibt
- Schaffung einer Grundlage für LLMs, um durch Reinforcement Learning neue Fähigkeiten zu erlernen
- Theoretische Analyse: Mathematischer Nachweis der unangemessenen Normalisierung der GRPO-Baseline bei Aufgaben mit ordinalen Belohnungen und Offenlegung der grundlegenden Ursache für die Zuweisung positiver Vorteile zu fehlgeschlagenen Trajektorien
- CoRPO-Methode: Vorschlag von Correctness-Relative Policy Optimization (CoRPO), einer neuen Vorteilsformel mit adaptiver Baseline, die die Mängel von GRPO behebt
- Zweistufiger Lernrahmen: Konzeption eines automatischen Übergangsmechanismus von „Korrektheitserkennung" zu „Präferenzerkennung", der während des Richtlinienverbesserungsprozesses unterschiedliche Lernsignale bereitstellt
- Empirische Validierung: Validierung der Wirksamkeit von CoRPO bei Code-Verifikationsaufgaben mit stabilerer Konvergenz und besserer außerhalb des Bereichs liegender Generalisierungsfähigkeit
Gegeben eine Gruppe von G Rollouts {y1,y2,...,yG}, die aus der Richtlinie πθ entnommen wurden, verwendet GRPO die Gruppenmittelwertbelohnung als Baseline:
b=G1∑i=1GR(yi)
Die Vorteilsfunktion ist definiert als:
A(yi)=normR(yi)−b
Kernproblem: Wenn eine fehlgeschlagene Trajektorie yf (wobei R(yf)<0) die folgende Bedingung erfüllt, erhält sie einen positiven Vorteil:
b<R(yf)<0
Dies ist ein häufiges Szenario bei komplexen Problemen, bei denen die Richtlinie noch nicht ausreichend trainiert ist, was dazu führt, dass das Modell aktiv fehlerhafte Verhaltensweisen erlernt.
- Korrektheitssicherung: Fehlgeschlagene Trajektorien sollten niemals einen positiven Vorteil erhalten
- Proportionales Feedback: Negatives Feedback für fehlgeschlagene Lösungen sollte proportional zu ihrer Qualität sein
- Optimierungstrieb: Fortsetzung der Bereitstellung von Verbesserungssignalen unter „akzeptablen" Lösungen
Zunächst wird eine statische Baseline vorgeschlagen:
bstatic=Rmin_correctAstatic(y)=R(y)−Rmin_correct
Dies garantiert Korrektheit, bietet aber nach der Richtlinienverbesserung keinen Optimierungstrieb.
Die endgültige CoRPO-Formel kombiniert die Vorteile statischer und dynamischer Baselines:
bmean=G1∑i=1GR(yi)
bcorpo=max(Rmin_correct,bmean)
Acorpo(yi)=R(yi)−bcorpo
Phase 1: Korrektheitserkennung (bmean<Rmin_correct)
- Baseline ist auf Rmin_correct gesperrt
- Sicherstellen, dass alle fehlgeschlagenen Trajektorien negative Vorteile erhalten
- Fokus auf das Erlernen grundlegender Korrektheit
Phase 2: Präferenzerkennung (bmean≥Rmin_correct)
- Baseline wird zur Standard-GRPO-Baseline bmean
- Etablierung relativer Präferenzen zwischen korrekten Lösungen
- Förderung der Verbesserung von „gut" zu „optimal"
Training eines Interpretierungsverifizierers zur Überprüfung der Korrektheit von LLM-generiertem Code. Gegeben ein Problem Q und zwei Kandidatenantworten (RA,RB) gibt die Richtlinie Bewertungen V=(vA,vB)∈[0,10] aus, die das Vertrauen in die Korrektheit jeder Antwort ausdrücken.
- Trainingssatz: Programmierproblemen von CodeForces und LeetCode, mehrere Lösungen generiert mit Qwen3-8B, enthält korrekte und fehlerhafte Argumentationsspuren, insgesamt 4890 Stichproben
- Validierungssatz:
- Domänen-interne Codierung: eine korrekte und eine fehlerhafte Antwort (196 Stichproben)
- Domänen-externe Codierung: beide korrekt oder beide fehlerhaft (98 Stichproben)
- Domänen-externe Mathematik: eine korrekte und eine fehlerhafte Antwort (157 Stichproben)
- Modell: Qwen3-8B
- Maximale Sequenzlänge: 16.384
- 8 Rollouts pro Eingabeaufforderung
- Globale Batch-Größe: 512
- Lernrate: 1×10⁻⁶
- Strikte Einhaltung des On-Policy-Trainings
Verwendung der pass@16-Metrik zur Bewertung der Modellgenauigkeit bei verschiedenen Aufgaben.
Durch Analyse der Rollout-Verteilung in repräsentativen Batches wurde festgestellt, dass 18% der fehlgeschlagenen Trajektorien positive Vorteile erhielten, was empirisch das Vorhandensein des b<R(yf)<0 Mangels bestätigt.
Durch Analyse des Verhältnisses positiver zu negativer Vorteilssignale (rcount=#{A(y)<0}#{A(y)>0} und rloss=ΣLossA(y)<0ΣLossA(y)>0):
Frühe Trainingsphase: Das rcount sowohl der statischen als auch der CoRPO-Baseline liegt unter 1,0, identifiziert korrekt alle fehlgeschlagenen Trajektorien und bietet negatives Feedback, was die Korrektheitssicherung widerspiegelt.
Mittlere und späte Trainingsphase: Das Verhältnis positiven zu negativem Feedback der statischen Baseline steigt steil an, während die CoRPO-Baseline auf einem moderaten Niveau stabil bleibt und erfolgreich vom „Korrektheit"-Modus zum „Präferenz"-Modus wechselt.
| Aufgabe | GRPO | Statisch | CoRPO |
|---|
| Domänen-interne Aufgaben | | | |
| Erste Korrekt | 87,1 | 80,2 | 83,2 |
| Zweite Korrekt | 86,3 | 89,5 | 86,3 |
| Domänen-externe Codierungsaufgaben | | | |
| Beide Fehlerhaft | 50,0 | 64,0 | 56,0 |
| Beide Korrekt | 89,6 | 93,7 | 95,8 |
| Domänen-externe Mathematikaufgaben | | | |
| Erste Korrekt | 79,3 | 80,5 | 81,6 |
| Zweite Korrekt | 81,4 | 87,1 | 81,4 |
- Wert der Korrektheitssicherung: Statische und CoRPO-Baselines übertreffen GRPO bei domänen-externen Aufgaben erheblich, was beweist, dass die Verhinderung des Erlernens von „nicht ganz so schlechten" Fehlern hilft, robustere und verallgemeinerbare Korrektheitssignale zu erlernen
- Konservativitäts-Kompromiss: Die Konservativität von CoRPO führt zu kleineren Gewichtsaktualisierungsschritten, was bei domänen-internen Aufgaben zu etwas schlechterer Leistung als die statische Baseline führt, aber bei domänen-externen Aufgaben gut abschneidet
- Generalisierungsfähigkeit: Durch Durchsetzung der Korrektheitssicherung erlernt CoRPO ein robusteres Korrektheitkonzept, das sich in besserer domänen-externer Leistung niederschlägt
- PPO: Verwendung von Wertfunktionen als Baseline mit großem Rechen- und Speicheraufwand
- GRPO: Vereinfachung der Baseline-Berechnung durch Gruppenmittelwertbelohnungen, aber mit Mängeln bei Aufgaben mit ordinalen Belohnungen
- Datenkurierung: Aufrechterhaltung einer „optimalen" Erfolgsquote
- Dynamische Rollout-Auswahl: Sicherung hoher Varianz in Batches
- Belohnungs-Neugewichtung: Bevorzugung negativer Beispiele oder Skalierung positiver Beispielauswirkungen
Diese Techniken sind tatsächlich implizite heuristische Versuche, die Baseline b zu verwalten, und sind Workarounds für GRPO-Formeln zur Behandlung unausgewogener ordinaler Belohnungsprobleme.
- Grundlegender Mangel von GRPO: Bei Aufgaben mit ordinalen Belohnungen weist die einfache Baseline von GRPO fehlgeschlagenen Trajektorien positive Vorteile zu, was dem Ziel widerspricht, fehlerhafte Verhaltensweisen nicht zu verstärken
- Wirksamkeit von CoRPO: Durch Durchsetzung der Korrektheitssicherung mit einer adaptiven Baseline behebt CoRPO erfolgreich die pathologischen Trainingsdynamiken von GRPO
- Verbesserte Generalisierungsfähigkeit: CoRPO zeigt verbesserte Generalisierungsfähigkeit bei domänen-externen Aufgaben und beweist den Wert der Korrektheitssicherung
- Kompromiss bei Vorteilsamplitude: Die Reichhaltigkeit ordinaler Belohnungen kann zu kleinen Vorteilsamplituden führen, wenn sich die Richtlinienvorhersagen zusammenballen, was das Explorations-/Exploitations-Gleichgewicht beeinflusst
- Konservativität: Die konservative Natur von CoRPO führt zu langsamerer domänen-interner Lernfähigkeit und erfordert ein Gleichgewicht zwischen Korrektheit und Lerneffizienz
- Hyperparameter-Empfindlichkeit: Aktuelle Trainingshyperparameter und Belohnungs-/Vorteilsberechnungen sind nicht für CoRPO optimiert
- Ausgleich von Vorteilsamplitude und Exploration: Erkundung von Methoden zur Sicherung konsistenter, wirkungsvoller Updates für das Modell, um das Gleichgewicht zwischen dem Erlernen korrekten Verhaltens und der Suche nach optimalen Lösungen zu wahren
- Jenseits ergebnisbasierter Belohnungen: Erkundung reichhaltigerer, dichter Rückmeldungen, wie z.B. schrittweise Belohnungen, die Rückmeldungen während des gesamten Generierungsprozesses bieten
- Multi-Step-Reasoning-Aufgaben: Erweiterung der Methode auf komplexe Multi-Step-Reasoning- und Problemlösungsaufgaben
- Solider theoretischer Beitrag: Mathematisch rigoroser Nachweis der Mängel von GRPO bei Aufgaben mit ordinalen Belohnungen mit klarer theoretischer Analyse
- Geschickte Methodengestaltung: Das adaptive Baseline-Design von CoRPO löst elegant den Kompromiss zwischen Korrektheitssicherung und Optimierungstrieb
- Umfassende experimentelle Validierung: Umfassende Validierung der Methodenwirksamkeit durch Trainingsdynamikanalyse und Bewertung der nachgelagerten Leistung
- Hoher praktischer Wert: Lösung eines wichtigen Problems beim praktischen LLM-Training mit direktem Wert für industrielle Anwendungen
- Begrenzte Experimentierumfang: Validierung nur bei Code-Verifikationsaufgaben, Bedarf an Tests bei mehr Aufgaben und Domänen
- Unzureichende Hyperparameter-Optimierung: Anerkennung, dass aktuelle Hyperparameter nicht für CoRPO optimiert sind, was die Fairness des Leistungsvergleichs beeinflussen kann
- Begrenzte Tiefe der theoretischen Analyse: Obwohl das Problem identifiziert wird, ist die tiefere theoretische Analyse, warum ordinale Belohnungen zu diesem Problem führen, begrenzt
- Fehlende Rechenaufwand-Analyse: Mangel an Analyse des Rechenaufwands von CoRPO im Vergleich zu GRPO
- Akademischer Beitrag: Bereitstellung wichtiger theoretischer Erkenntnisse für die Anwendung von Reinforcement Learning beim LLM-Training
- Praktischer Wert: Bereitstellung einer praktischen Lösung für das Training von LLMs mit ordinalen Belohnungen
- Forschungsrichtung: Eröffnung eines Forschungspfads von binären zu ordinalen bis zu dichteren Rückmeldungen
- Verifizierbare Aufgaben: Besonders geeignet für Aufgaben wie Mathematik und Code-Generierung mit klaren Korrektheitskriterien
- Ordinale Belohnungsszenarien: Alle RL-Trainingsszenarien, die ordinale Belohnungen wie 1-5-Bewertungen erfordern
- LLM-Fähigkeitserwerb: Szenarien, in denen LLMs durch RL neue Fähigkeiten erlernen sollen, nicht nur Präferenzanpassung
Das Papier zitiert 15 verwandte Arbeiten, die das ursprüngliche GRPO-Papier, PPO und neueste LLM-Reinforcement-Learning-Trainingsmethoden abdecken und eine solide theoretische Grundlage für die Forschung bieten.
Dieses Papier erreicht ein gutes Gleichgewicht zwischen theoretischer Analyse und praktischen Lösungen und bietet tiefe Einblicke und effektive Lösungen für ein wichtiges Problem beim LLM-Reinforcement-Learning-Training mit bedeutendem akademischem und praktischem Wert.