2025-11-11T09:58:08.549566

The Peril of Preference: Why GRPO fails on Ordinal Rewards

Garg, Venkatesh

Group-relative Policy Optimization's (GRPO) simplicity makes it highly desirable for adapting LLMs to become experts at specific tasks. But this simplicity also makes it ill-specified as we seek to enhance RL training with richer, non-binary feedback. When using ordinal rewards to give partial credit, GRPO's simplicity starts to hurt, as its group-average baseline often assigns a positive advantage to failed trajectories and reinforces incorrect behavior. We introduce Correctness Relative Policy Optimization (CoRPO), a new formulation that solves this flaw. CoRPO uses an adaptive baseline that enforces a minimum quality threshold, ensuring failed solutions are never positively reinforced. Once the policy consistently meets this threshold, the baseline automatically transitions to a relative preference mode, pushing the model to find optimal solutions rather than just "acceptable" ones. We empirically validate CoRPO on a code verification task, where it demonstrates more stable convergence and better out-of-domain generalization. This work represents a critical step in our broader research program to enable LLMs to learn genuinely new capabilities through reinforcement learning. We achieve this by enabling LLMs to learn from rich, multi-dimensional feedback - progressing from binary to ordinal rewards in this work, and onward to denser, per-step supervision.

academic

वरीयता की खतरा: GRPO क्रमिक पुरस्कारों पर विफल क्यों होता है

बुनियादी जानकारी

पेपर ID: 2511.04439
शीर्षक: The Peril of Preference: Why GRPO fails on Ordinal Rewards
लेखक: अनीषा गर्ग, गणेश वेंकटेश (Cerebras Applied AI Research)
वर्गीकरण: cs.AI, cs.LG
प्रकाशन समय: 6 नवंबर 2025 (arXiv प्रीप्रिंट)
पेपर लिंक: https://arxiv.org/abs/2511.04439

सारांश

समूह-सापेक्ष नीति अनुकूलन (GRPO) अपनी सरलता के कारण बड़े भाषा मॉडल (LLM) को विशिष्ट कार्यों के लिए अनुकूलित करने में व्यापक रूप से पसंद किया जाता है। हालांकि, जब हम अधिक समृद्ध गैर-बाइनरी प्रतिक्रिया का उपयोग करके सुदृढ़ीकरण सीखने की प्रशिक्षण को बढ़ाना चाहते हैं, तो यह सरलता अपर्याप्त मानकीकरण का कारण बनती है। क्रमिक पुरस्कारों का उपयोग करके आंशिक पुरस्कार देते समय, GRPO की सरलता नकारात्मक प्रभाव डालने लगती है, इसका समूह-औसत आधार अक्सर विफल प्रक्षेपवक्र को सकारात्मक लाभ प्रदान करता है, जिससे गलत व्यवहार को मजबूत किया जाता है। यह पेपर सही-सापेक्ष नीति अनुकूलन (CoRPO) प्रस्तुत करता है, जो इस खामी को संबोधित करने के लिए एक नया सूत्र है। CoRPO अनुकूली आधार का उपयोग करके न्यूनतम गुणवत्ता सीमा को लागू करता है, यह सुनिश्चित करता है कि विफल समाधान कभी भी सकारात्मक सुदृढ़ीकरण प्राप्त नहीं करते। एक बार जब नीति लगातार इस सीमा को पूरा करती है, तो आधार स्वचालित रूप से सापेक्ष वरीयता मोड में परिवर्तित हो जाता है, मॉडल को केवल "स्वीकार्य" समाधान के बजाय इष्टतम समाधान खोजने के लिए प्रेरित करता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या की पृष्ठभूमि

GRPO का व्यापक अनुप्रयोग: GRPO अपनी सरलता और दक्षता के कारण गणित और कोड जनरेशन जैसे सत्यापन योग्य कार्यों में व्यापक रूप से अपनाया गया है, विशेष रूप से जटिल मूल्य फ़ंक्शन के बजाय समूह-औसत पुरस्कार को आधार के रूप में उपयोग करते हुए।
बाइनरी से क्रमिक पुरस्कारों में परिवर्तन: मौजूदा RL विधियां मुख्य रूप से बाइनरी वरीयताओं के लिए डिज़ाइन की गई हैं, लेकिन व्यावहारिक अनुप्रयोगों में 1-5 रेटिंग जैसे क्रमिक पुरस्कारों के रूप में अधिक समृद्ध प्रतिक्रिया संकेतों की आवश्यकता होती है।
GRPO की मौलिक खामी: GRPO सीखने के उद्देश्य को पूर्ण मूल्य से सापेक्ष वरीयता में पुनर्परिभाषित करता है, लाभ अब सीखे गए पूर्ण अपेक्षित पुरस्कार के विरुद्ध नहीं, बल्कि नमूना किए गए साथियों के प्रदर्शन के विरुद्ध मापा जाता है।

मुख्य समस्या

जब नीति पर्याप्त रूप से प्रशिक्षित नहीं होती है, तो GRPO का समूह-औसत आधार अक्सर एक बड़ी नकारात्मक संख्या बन जाता है। इस स्थिति में, कोई भी "कम बुरा" विफल प्रक्षेपवक्र $R(y_f) > b$ को संतुष्ट करता है, जिससे $A(y_f) > 0$ होता है, जिससे मॉडल को उद्देश्यपूर्ण रूप से गलत प्रक्षेपवक्र उत्पन्न करने की संभावना बढ़ाने के लिए सक्रिय रूप से प्रशिक्षित किया जाता है।

अनुसंधान प्रेरणा

क्रमिक पुरस्कार कार्यों में GRPO की मौलिक खामी को संबोधित करना
ऐसी प्रशिक्षण रूपरेखा स्थापित करना जो सही-सापेक्षता और अनुकूलन को चलाने दोनों को सुनिश्चित करती है
LLM को सुदृढ़ीकरण सीखने के माध्यम से नई क्षमताएं सीखने के लिए आधार तैयार करना

मुख्य योगदान

सैद्धांतिक विश्लेषण: गणितीय रूप से क्रमिक पुरस्कार कार्यों में GRPO आधार के अनुचित मानकीकरण को साबित करता है, विफल प्रक्षेपवक्र को सकारात्मक लाभ प्रदान करने के मूल कारण को प्रकट करता है
CoRPO विधि: सही-सापेक्ष नीति अनुकूलन (CoRPO) प्रस्तावित करता है, एक अनुकूली आधार के साथ एक नया लाभ सूत्र जो GRPO की खामियों को संबोधित करता है
द्वि-चरण सीखने की रूपरेखा: "सही-सापेक्षता-खोज" से "वरीयता-खोज" में स्वचालित रूपांतरण तंत्र डिज़ाइन करता है, नीति सुधार प्रक्रिया में विभिन्न सीखने के संकेत प्रदान करता है
अनुभवजन्य सत्यापन: कोड सत्यापन कार्यों पर CoRPO की प्रभावशीलता को सत्यापित करता है, अधिक स्थिर अभिसरण और बेहतर डोमेन-बाहर सामान्यीकरण क्षमता प्रदर्शित करता है

विधि विवरण

समस्या परिभाषा

नीति $\pi_\theta$ से नमूना किए गए $G$ rollout $\{y_1, y_2, ..., y_G\}$ के एक समूह को देखते हुए, GRPO समूह-औसत पुरस्कार को आधार के रूप में उपयोग करता है:

$b = \frac{1}{G}\sum_{i=1}^{G}R(y_i)$

लाभ फ़ंक्शन को परिभाषित किया गया है: $A(y_i) = \frac{R(y_i) - b}{norm}$

GRPO की खामी विश्लेषण

मुख्य समस्या: जब विफल प्रक्षेपवक्र $y_f$ (जहां $R(y_f) < 0$ ) निम्नलिखित शर्त को संतुष्ट करता है तो सकारात्मक लाभ प्राप्त होता है: $b < R(y_f) < 0$

यह जटिल समस्याओं में नीति के अपर्याप्त प्रशिक्षण के दौरान एक सामान्य परिदृश्य है, जिससे मॉडल सक्रिय रूप से गलत व्यवहार सीखता है।

CoRPO समाधान

1. आदर्श आधार के लिए तीन मानदंड

सही-सापेक्षता गारंटी: विफल प्रक्षेपवक्र को कभी भी सकारात्मक लाभ नहीं मिलना चाहिए
आनुपातिक प्रतिक्रिया: विफल समाधानों के लिए नकारात्मक प्रतिक्रिया उनकी गुणवत्ता के अनुपात में होनी चाहिए
खोज ड्राइव: "स्वीकार्य" समाधानों में सुधार संकेत प्रदान करना जारी रखें

2. स्थिर आधार विधि

पहले स्थिर आधार का प्रस्ताव: $b_{static} = R_{min\_correct}$ $A_{static}(y) = R(y) - R_{min\_correct}$

यह सही-सापेक्षता गारंटी सुनिश्चित करता है, लेकिन नीति सुधार के बाद खोज ड्राइव की कमी होती है।

3. CoRPO अनुकूली आधार

अंतिम CoRPO सूत्र स्थिर और गतिशील आधार के लाभों को जोड़ता है:

$b_{mean} = \frac{1}{G}\sum_{i=1}^{G}R(y_i)$

$b_{corpo} = \max(R_{min\_correct}, b_{mean})$

$A_{corpo}(y_i) = R(y_i) - b_{corpo}$

4. द्वि-चरण संचालन तंत्र

चरण 1: सही-सापेक्षता-खोज ( $b_{mean} < R_{min\_correct}$ )

आधार $R_{min\_correct}$ पर लॉक किया गया
सभी विफल प्रक्षेपवक्र को नकारात्मक लाभ प्राप्त करना सुनिश्चित करता है
बुनियादी सही-सापेक्षता सीखने पर ध्यान केंद्रित करता है

चरण 2: वरीयता-खोज ( $b_{mean} \geq R_{min\_correct}$ )

आधार मानक GRPO आधार $b_{mean}$ बन जाता है
सही समाधानों के बीच सापेक्ष वरीयता स्थापित करता है
"अच्छे" से "इष्टतम" सुधार को प्रेरित करता है

प्रयोगात्मक सेटअप

कार्य परिभाषा

LLM द्वारा उत्पन्न कोड की सही-सापेक्षता को सत्यापित करने के लिए एक व्याख्यात्मक सत्यापनकर्ता को प्रशिक्षित करना। समस्या $Q$ और दो उम्मीदवार प्रतिक्रियाएं $(R_A, R_B)$ दी गई हैं, नीति स्कोर $V = (v_A, v_B) \in [0, 10]$ आउटपुट करती है, जो प्रत्येक प्रतिक्रिया की सही-सापेक्षता के लिए आत्मविश्वास को दर्शाता है।

डेटासेट

प्रशिक्षण सेट: CodeForces और LeetCode से प्रोग्रामिंग समस्याएं, Qwen3-8B का उपयोग करके कई समाधान उत्पन्न किए गए, सही और गलत तर्क प्रक्षेपवक्र सहित, कुल 4890 नमूने
सत्यापन सेट:
- डोमेन-भीतर कोडिंग: एक सही एक गलत प्रतिक्रिया (196 नमूने)
- डोमेन-बाहर कोडिंग: दोनों सही या दोनों गलत प्रतिक्रियाएं (98 नमूने)
- डोमेन-बाहर गणित: एक सही एक गलत प्रतिक्रिया (157 नमूने)

प्रयोगात्मक कॉन्फ़िगरेशन

मॉडल: Qwen3-8B
अधिकतम अनुक्रम लंबाई: 16,384
प्रत्येक प्रॉम्प्ट के लिए 8 rollout उत्पन्न करें
वैश्विक बैच आकार: 512
सीखने की दर: 1×10⁻⁶
on-policy प्रशिक्षण का कड़ाई से पालन करें

मूल्यांकन मेट्रिक्स

विभिन्न कार्यों पर मॉडल की सटीकता का मूल्यांकन करने के लिए pass@16 मेट्रिक का उपयोग करें।

प्रयोगात्मक परिणाम

GRPO खामी सत्यापन

प्रतिनिधि बैच के rollout वितरण का विश्लेषण करके, 18% विफल प्रक्षेपवक्र को सकारात्मक लाभ मिला, अनुभवजन्य रूप से $b < R(y_f) < 0$ खामी के अस्तित्व की पुष्टि की।

प्रशिक्षण गतिविज्ञान विश्लेषण

सकारात्मक और नकारात्मक लाभ संकेतों के अनुपात का विश्लेषण करके ( $r_{count} = \frac{\#\{A(y)>0\}}{\#\{A(y)<0\}}$ और $r_{loss} = \frac{\Sigma Loss_{A(y)>0}}{\Sigma Loss_{A(y)<0}}$ ):

प्रारंभिक प्रशिक्षण चरण: स्थिर और CoRPO आधार दोनों का $r_{count}$ 1.0 से कम है, सभी विफल प्रक्षेपवक्र को सही ढंग से पहचानता है और नकारात्मक प्रतिक्रिया प्रदान करता है, सही-सापेक्षता गारंटी को प्रदर्शित करता है।

मध्य और बाद के प्रशिक्षण: स्थिर आधार का सकारात्मक-नकारात्मक प्रतिक्रिया अनुपात तेजी से बढ़ता है, जबकि CoRPO आधार एक उचित स्तर पर स्थिर रहता है, "सही-सापेक्षता" मोड से "वरीयता" मोड में सफलतापूर्वक परिवर्तित होता है।

डाउनस्ट्रीम सटीकता परिणाम

कार्य	GRPO	Static	CoRPO
डोमेन-भीतर कार्य
First Correct	87.1	80.2	83.2
Second Correct	86.3	89.5	86.3
डोमेन-बाहर कोडिंग कार्य
Both Incorrect	50.0	64.0	56.0
Both Correct	89.6	93.7	95.8
डोमेन-बाहर गणित कार्य
First Correct	79.3	80.5	81.6
Second Correct	81.4	87.1	81.4

मुख्य निष्कर्ष

सही-सापेक्षता गारंटी का मूल्य: स्थिर और CoRPO आधार GRPO से डोमेन-बाहर कार्यों पर महत्वपूर्ण रूप से बेहतर हैं, यह साबित करते हैं कि "कम बुरे" विफलताओं को सीखने से रोकना अधिक मजबूत और सामान्यीकरणीय सही-सापेक्षता संकेत सीखने में मदद करता है
रूढ़िवादिता व्यापार-बंद: CoRPO की रूढ़िवादिता छोटे वजन अपडेट चरणों की ओर ले जाती है, डोमेन-भीतर कार्यों पर स्थिर आधार से थोड़ा कम प्रदर्शन करता है, लेकिन डोमेन-बाहर कार्यों पर अच्छा प्रदर्शन करता है
सामान्यीकरण क्षमता: सही-सापेक्षता गारंटी को लागू करके, CoRPO ने सही-सापेक्षता की अधिक मजबूत अवधारणा सीखी, जो बेहतर डोमेन-बाहर प्रदर्शन में परिणत होती है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

GRPO की मौलिक खामी: क्रमिक पुरस्कार कार्यों में, GRPO का सरल आधार विफल प्रक्षेपवक्र को सकारात्मक लाभ प्रदान करता है, गलत व्यवहार को मजबूत न करने के उद्देश्य का उल्लंघन करता है
CoRPO की प्रभावशीलता: अनुकूली आधार के माध्यम से सही-सापेक्षता गारंटी को लागू करके, CoRPO GRPO की रोग संबंधी प्रशिक्षण गतिविज्ञान को सफलतापूर्वक हल करता है
सामान्यीकरण क्षमता में सुधार: CoRPO डोमेन-बाहर कार्यों पर सुधारी गई सामान्यीकरण क्षमता प्रदर्शित करता है, सही-सापेक्षता गारंटी के मूल्य को साबित करता है

सीमाएं

लाभ परिमाण व्यापार-बंद: क्रमिक पुरस्कारों की समृद्धि नीति भविष्यवाणी एकत्रित होने पर छोटे लाभ परिमाण की ओर ले जा सकती है, अन्वेषण/दोहन संतुलन को प्रभावित करती है
रूढ़िवादिता: CoRPO की रूढ़िवादी विशेषता धीमी डोमेन-भीतर सीखने की ओर ले जाती है, सही-सापेक्षता और सीखने की दक्षता के बीच संतुलन खोजने की आवश्यकता होती है
हाइपरपैरामीटर संवेदनशीलता: वर्तमान प्रशिक्षण हाइपरपैरामीटर और पुरस्कार/लाभ गणना CoRPO के लिए अनुकूलित नहीं हैं

भविष्य की दिशाएं

लाभ परिमाण और अन्वेषण को संतुलित करना: ऐसी विधियों की खोज करना जो मॉडल को सुसंगत, प्रभावशाली अपडेट प्राप्त करने को सुनिश्चित करती हैं, सही व्यवहार सीखने और इष्टतम समाधान खोजने की क्षमता को संतुलित करती हैं
परिणाम-आधारित पुरस्कारों से परे: अधिक समृद्ध, अधिक घने प्रतिक्रिया की खोज, जैसे पूरी पीढ़ी प्रक्रिया में प्रतिक्रिया प्रदान करने वाली प्रति-चरण पुरस्कार
बहु-चरण तर्क कार्य: जटिल बहु-चरण तर्क और समस्या समाधान कार्यों के लिए विधि का विस्तार करना

गहन मूल्यांकन

शक्तियां

ठोस सैद्धांतिक योगदान: गणितीय रूप से क्रमिक पुरस्कार कार्यों में GRPO की खामी को कठोरता से साबित करता है, स्पष्ट सैद्धांतिक विश्लेषण प्रदान करता है
चतुर विधि डिजाइन: CoRPO का अनुकूली आधार डिजाइन सही-सापेक्षता गारंटी और खोज ड्राइव के बीच व्यापार-बंद को सुरुचिपूर्ण ढंग से हल करता है
पर्याप्त प्रयोगात्मक सत्यापन: प्रशिक्षण गतिविज्ञान विश्लेषण और डाउनस्ट्रीम प्रदर्शन मूल्यांकन के माध्यम से विधि की प्रभावशीलता को व्यापक रूप से सत्यापित करता है
उच्च व्यावहारिक मूल्य: वास्तविक LLM प्रशिक्षण में महत्वपूर्ण समस्या को हल करता है, औद्योगिक अनुप्रयोगों के लिए प्रत्यक्ष मूल्य है

कमियां

सीमित प्रयोगात्मक पैमाना: केवल कोड सत्यापन कार्य पर सत्यापित, अधिक कार्यों और डोमेन पर परीक्षण की आवश्यकता है
अपर्याप्त हाइपरपैरामीटर ट्यूनिंग: स्वीकार करता है कि वर्तमान हाइपरपैरामीटर CoRPO के लिए अनुकूलित नहीं हैं, प्रदर्शन तुलना की निष्पक्षता को प्रभावित कर सकते हैं
सीमित सैद्धांतिक विश्लेषण गहराई: समस्या की पहचान करते हुए, क्रमिक पुरस्कार इस समस्या का कारण क्यों बनते हैं इसके लिए गहरे सैद्धांतिक विश्लेषण सीमित हैं
गणना ओवरहेड विश्लेषण की कमी: GRPO की तुलना में CoRPO के गणना ओवरहेड का विश्लेषण नहीं है

प्रभाव

शैक्षणिक योगदान: LLM प्रशिक्षण में सुदृढ़ीकरण सीखने के अनुप्रयोग के लिए महत्वपूर्ण सैद्धांतिक अंतर्दृष्टि प्रदान करता है
व्यावहारिक मूल्य: क्रमिक पुरस्कारों का उपयोग करके LLM को प्रशिक्षित करने के लिए व्यावहारिक समाधान प्रदान करता है
अनुसंधान दिशा: बाइनरी से क्रमिक से अधिक घने प्रतिक्रिया तक अनुसंधान पथ खोलता है

लागू परिदृश्य

सत्यापन योग्य कार्य: विशेष रूप से गणित, कोड जनरेशन आदि जैसे स्पष्ट सही-सापेक्षता मानदंड वाले कार्यों के लिए उपयुक्त
क्रमिक पुरस्कार परिदृश्य: कोई भी RL प्रशिक्षण परिदृश्य जहां 1-5 रेटिंग जैसे क्रमिक पुरस्कारों का उपयोग करने की आवश्यकता होती है
LLM क्षमता सीखना: LLM को केवल वरीयता समायोजन के बजाय नई क्षमताएं सीखने के लिए RL के माध्यम से चाहते हैं

संदर्भ

पेपर 15 संबंधित संदर्भों का हवाला देता है, जिसमें GRPO मूल पेपर, PPO, और नवीनतम LLM सुदृढ़ीकरण सीखने की प्रशिक्षण विधियां शामिल हैं, अनुसंधान के लिए एक ठोस सैद्धांतिक आधार प्रदान करते हैं।

यह पेपर सैद्धांतिक विश्लेषण और व्यावहारिक समाधान के बीच अच्छा संतुलन प्राप्त करता है, LLM सुदृढ़ीकरण सीखने की प्रशिक्षण में एक महत्वपूर्ण समस्या के लिए गहन अंतर्दृष्टि और प्रभावी समाधान प्रदान करता है, महत्वपूर्ण शैक्षणिक और व्यावहारिक मूल्य रखता है।

The Peril of Preference: Why GRPO fails on Ordinal Rewards

वरीयता की खतरा: GRPO क्रमिक पुरस्कारों पर विफल क्यों होता है

बुनियादी जानकारी

सारांश

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या की पृष्ठभूमि

मुख्य समस्या

अनुसंधान प्रेरणा

मुख्य योगदान

विधि विवरण

समस्या परिभाषा

GRPO की खामी विश्लेषण

CoRPO समाधान

1. आदर्श आधार के लिए तीन मानदंड

2. स्थिर आधार विधि

3. CoRPO अनुकूली आधार

4. द्वि-चरण संचालन तंत्र

प्रयोगात्मक सेटअप

कार्य परिभाषा

डेटासेट

प्रयोगात्मक कॉन्फ़िगरेशन

मूल्यांकन मेट्रिक्स

प्रयोगात्मक परिणाम

GRPO खामी सत्यापन

प्रशिक्षण गतिविज्ञान विश्लेषण

डाउनस्ट्रीम सटीकता परिणाम

मुख्य निष्कर्ष

संबंधित कार्य

सुदृढ़ीकरण सीखने की आधार विधियां

LLM सुदृढ़ीकरण सीखने की प्रशिक्षण

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

सीमाएं

भविष्य की दिशाएं

गहन मूल्यांकन

शक्तियां

कमियां

प्रभाव

लागू परिदृश्य

संदर्भ