2025-11-11T09:58:08.549566

The Peril of Preference: Why GRPO fails on Ordinal Rewards

Garg, Venkatesh
Group-relative Policy Optimization's (GRPO) simplicity makes it highly desirable for adapting LLMs to become experts at specific tasks. But this simplicity also makes it ill-specified as we seek to enhance RL training with richer, non-binary feedback. When using ordinal rewards to give partial credit, GRPO's simplicity starts to hurt, as its group-average baseline often assigns a positive advantage to failed trajectories and reinforces incorrect behavior. We introduce Correctness Relative Policy Optimization (CoRPO), a new formulation that solves this flaw. CoRPO uses an adaptive baseline that enforces a minimum quality threshold, ensuring failed solutions are never positively reinforced. Once the policy consistently meets this threshold, the baseline automatically transitions to a relative preference mode, pushing the model to find optimal solutions rather than just "acceptable" ones. We empirically validate CoRPO on a code verification task, where it demonstrates more stable convergence and better out-of-domain generalization. This work represents a critical step in our broader research program to enable LLMs to learn genuinely new capabilities through reinforcement learning. We achieve this by enabling LLMs to learn from rich, multi-dimensional feedback - progressing from binary to ordinal rewards in this work, and onward to denser, per-step supervision.
academic

वरीयता की खतरा: GRPO क्रमिक पुरस्कारों पर विफल क्यों होता है

बुनियादी जानकारी

  • पेपर ID: 2511.04439
  • शीर्षक: The Peril of Preference: Why GRPO fails on Ordinal Rewards
  • लेखक: अनीषा गर्ग, गणेश वेंकटेश (Cerebras Applied AI Research)
  • वर्गीकरण: cs.AI, cs.LG
  • प्रकाशन समय: 6 नवंबर 2025 (arXiv प्रीप्रिंट)
  • पेपर लिंक: https://arxiv.org/abs/2511.04439

सारांश

समूह-सापेक्ष नीति अनुकूलन (GRPO) अपनी सरलता के कारण बड़े भाषा मॉडल (LLM) को विशिष्ट कार्यों के लिए अनुकूलित करने में व्यापक रूप से पसंद किया जाता है। हालांकि, जब हम अधिक समृद्ध गैर-बाइनरी प्रतिक्रिया का उपयोग करके सुदृढ़ीकरण सीखने की प्रशिक्षण को बढ़ाना चाहते हैं, तो यह सरलता अपर्याप्त मानकीकरण का कारण बनती है। क्रमिक पुरस्कारों का उपयोग करके आंशिक पुरस्कार देते समय, GRPO की सरलता नकारात्मक प्रभाव डालने लगती है, इसका समूह-औसत आधार अक्सर विफल प्रक्षेपवक्र को सकारात्मक लाभ प्रदान करता है, जिससे गलत व्यवहार को मजबूत किया जाता है। यह पेपर सही-सापेक्ष नीति अनुकूलन (CoRPO) प्रस्तुत करता है, जो इस खामी को संबोधित करने के लिए एक नया सूत्र है। CoRPO अनुकूली आधार का उपयोग करके न्यूनतम गुणवत्ता सीमा को लागू करता है, यह सुनिश्चित करता है कि विफल समाधान कभी भी सकारात्मक सुदृढ़ीकरण प्राप्त नहीं करते। एक बार जब नीति लगातार इस सीमा को पूरा करती है, तो आधार स्वचालित रूप से सापेक्ष वरीयता मोड में परिवर्तित हो जाता है, मॉडल को केवल "स्वीकार्य" समाधान के बजाय इष्टतम समाधान खोजने के लिए प्रेरित करता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या की पृष्ठभूमि

  1. GRPO का व्यापक अनुप्रयोग: GRPO अपनी सरलता और दक्षता के कारण गणित और कोड जनरेशन जैसे सत्यापन योग्य कार्यों में व्यापक रूप से अपनाया गया है, विशेष रूप से जटिल मूल्य फ़ंक्शन के बजाय समूह-औसत पुरस्कार को आधार के रूप में उपयोग करते हुए।
  2. बाइनरी से क्रमिक पुरस्कारों में परिवर्तन: मौजूदा RL विधियां मुख्य रूप से बाइनरी वरीयताओं के लिए डिज़ाइन की गई हैं, लेकिन व्यावहारिक अनुप्रयोगों में 1-5 रेटिंग जैसे क्रमिक पुरस्कारों के रूप में अधिक समृद्ध प्रतिक्रिया संकेतों की आवश्यकता होती है।
  3. GRPO की मौलिक खामी: GRPO सीखने के उद्देश्य को पूर्ण मूल्य से सापेक्ष वरीयता में पुनर्परिभाषित करता है, लाभ अब सीखे गए पूर्ण अपेक्षित पुरस्कार के विरुद्ध नहीं, बल्कि नमूना किए गए साथियों के प्रदर्शन के विरुद्ध मापा जाता है।

मुख्य समस्या

जब नीति पर्याप्त रूप से प्रशिक्षित नहीं होती है, तो GRPO का समूह-औसत आधार अक्सर एक बड़ी नकारात्मक संख्या बन जाता है। इस स्थिति में, कोई भी "कम बुरा" विफल प्रक्षेपवक्र R(yf)>bR(y_f) > b को संतुष्ट करता है, जिससे A(yf)>0A(y_f) > 0 होता है, जिससे मॉडल को उद्देश्यपूर्ण रूप से गलत प्रक्षेपवक्र उत्पन्न करने की संभावना बढ़ाने के लिए सक्रिय रूप से प्रशिक्षित किया जाता है।

अनुसंधान प्रेरणा

  • क्रमिक पुरस्कार कार्यों में GRPO की मौलिक खामी को संबोधित करना
  • ऐसी प्रशिक्षण रूपरेखा स्थापित करना जो सही-सापेक्षता और अनुकूलन को चलाने दोनों को सुनिश्चित करती है
  • LLM को सुदृढ़ीकरण सीखने के माध्यम से नई क्षमताएं सीखने के लिए आधार तैयार करना

मुख्य योगदान

  1. सैद्धांतिक विश्लेषण: गणितीय रूप से क्रमिक पुरस्कार कार्यों में GRPO आधार के अनुचित मानकीकरण को साबित करता है, विफल प्रक्षेपवक्र को सकारात्मक लाभ प्रदान करने के मूल कारण को प्रकट करता है
  2. CoRPO विधि: सही-सापेक्ष नीति अनुकूलन (CoRPO) प्रस्तावित करता है, एक अनुकूली आधार के साथ एक नया लाभ सूत्र जो GRPO की खामियों को संबोधित करता है
  3. द्वि-चरण सीखने की रूपरेखा: "सही-सापेक्षता-खोज" से "वरीयता-खोज" में स्वचालित रूपांतरण तंत्र डिज़ाइन करता है, नीति सुधार प्रक्रिया में विभिन्न सीखने के संकेत प्रदान करता है
  4. अनुभवजन्य सत्यापन: कोड सत्यापन कार्यों पर CoRPO की प्रभावशीलता को सत्यापित करता है, अधिक स्थिर अभिसरण और बेहतर डोमेन-बाहर सामान्यीकरण क्षमता प्रदर्शित करता है

विधि विवरण

समस्या परिभाषा

नीति πθ\pi_\theta से नमूना किए गए GG rollout {y1,y2,...,yG}\{y_1, y_2, ..., y_G\} के एक समूह को देखते हुए, GRPO समूह-औसत पुरस्कार को आधार के रूप में उपयोग करता है:

b=1Gi=1GR(yi)b = \frac{1}{G}\sum_{i=1}^{G}R(y_i)

लाभ फ़ंक्शन को परिभाषित किया गया है: A(yi)=R(yi)bnormA(y_i) = \frac{R(y_i) - b}{norm}

GRPO की खामी विश्लेषण

मुख्य समस्या: जब विफल प्रक्षेपवक्र yfy_f (जहां R(yf)<0R(y_f) < 0) निम्नलिखित शर्त को संतुष्ट करता है तो सकारात्मक लाभ प्राप्त होता है: b<R(yf)<0b < R(y_f) < 0

यह जटिल समस्याओं में नीति के अपर्याप्त प्रशिक्षण के दौरान एक सामान्य परिदृश्य है, जिससे मॉडल सक्रिय रूप से गलत व्यवहार सीखता है।

CoRPO समाधान

1. आदर्श आधार के लिए तीन मानदंड

  • सही-सापेक्षता गारंटी: विफल प्रक्षेपवक्र को कभी भी सकारात्मक लाभ नहीं मिलना चाहिए
  • आनुपातिक प्रतिक्रिया: विफल समाधानों के लिए नकारात्मक प्रतिक्रिया उनकी गुणवत्ता के अनुपात में होनी चाहिए
  • खोज ड्राइव: "स्वीकार्य" समाधानों में सुधार संकेत प्रदान करना जारी रखें

2. स्थिर आधार विधि

पहले स्थिर आधार का प्रस्ताव: bstatic=Rmin_correctb_{static} = R_{min\_correct}Astatic(y)=R(y)Rmin_correctA_{static}(y) = R(y) - R_{min\_correct}

यह सही-सापेक्षता गारंटी सुनिश्चित करता है, लेकिन नीति सुधार के बाद खोज ड्राइव की कमी होती है।

3. CoRPO अनुकूली आधार

अंतिम CoRPO सूत्र स्थिर और गतिशील आधार के लाभों को जोड़ता है:

bmean=1Gi=1GR(yi)b_{mean} = \frac{1}{G}\sum_{i=1}^{G}R(y_i)

bcorpo=max(Rmin_correct,bmean)b_{corpo} = \max(R_{min\_correct}, b_{mean})

Acorpo(yi)=R(yi)bcorpoA_{corpo}(y_i) = R(y_i) - b_{corpo}

4. द्वि-चरण संचालन तंत्र

चरण 1: सही-सापेक्षता-खोज (bmean<Rmin_correctb_{mean} < R_{min\_correct})

  • आधार Rmin_correctR_{min\_correct} पर लॉक किया गया
  • सभी विफल प्रक्षेपवक्र को नकारात्मक लाभ प्राप्त करना सुनिश्चित करता है
  • बुनियादी सही-सापेक्षता सीखने पर ध्यान केंद्रित करता है

चरण 2: वरीयता-खोज (bmeanRmin_correctb_{mean} \geq R_{min\_correct})

  • आधार मानक GRPO आधार bmeanb_{mean} बन जाता है
  • सही समाधानों के बीच सापेक्ष वरीयता स्थापित करता है
  • "अच्छे" से "इष्टतम" सुधार को प्रेरित करता है

प्रयोगात्मक सेटअप

कार्य परिभाषा

LLM द्वारा उत्पन्न कोड की सही-सापेक्षता को सत्यापित करने के लिए एक व्याख्यात्मक सत्यापनकर्ता को प्रशिक्षित करना। समस्या QQ और दो उम्मीदवार प्रतिक्रियाएं (RA,RB)(R_A, R_B) दी गई हैं, नीति स्कोर V=(vA,vB)[0,10]V = (v_A, v_B) \in [0, 10] आउटपुट करती है, जो प्रत्येक प्रतिक्रिया की सही-सापेक्षता के लिए आत्मविश्वास को दर्शाता है।

डेटासेट

  • प्रशिक्षण सेट: CodeForces और LeetCode से प्रोग्रामिंग समस्याएं, Qwen3-8B का उपयोग करके कई समाधान उत्पन्न किए गए, सही और गलत तर्क प्रक्षेपवक्र सहित, कुल 4890 नमूने
  • सत्यापन सेट:
    • डोमेन-भीतर कोडिंग: एक सही एक गलत प्रतिक्रिया (196 नमूने)
    • डोमेन-बाहर कोडिंग: दोनों सही या दोनों गलत प्रतिक्रियाएं (98 नमूने)
    • डोमेन-बाहर गणित: एक सही एक गलत प्रतिक्रिया (157 नमूने)

प्रयोगात्मक कॉन्फ़िगरेशन

  • मॉडल: Qwen3-8B
  • अधिकतम अनुक्रम लंबाई: 16,384
  • प्रत्येक प्रॉम्प्ट के लिए 8 rollout उत्पन्न करें
  • वैश्विक बैच आकार: 512
  • सीखने की दर: 1×10⁻⁶
  • on-policy प्रशिक्षण का कड़ाई से पालन करें

मूल्यांकन मेट्रिक्स

विभिन्न कार्यों पर मॉडल की सटीकता का मूल्यांकन करने के लिए pass@16 मेट्रिक का उपयोग करें।

प्रयोगात्मक परिणाम

GRPO खामी सत्यापन

प्रतिनिधि बैच के rollout वितरण का विश्लेषण करके, 18% विफल प्रक्षेपवक्र को सकारात्मक लाभ मिला, अनुभवजन्य रूप से b<R(yf)<0b < R(y_f) < 0 खामी के अस्तित्व की पुष्टि की।

प्रशिक्षण गतिविज्ञान विश्लेषण

सकारात्मक और नकारात्मक लाभ संकेतों के अनुपात का विश्लेषण करके (rcount=#{A(y)>0}#{A(y)<0}r_{count} = \frac{\#\{A(y)>0\}}{\#\{A(y)<0\}} और rloss=ΣLossA(y)>0ΣLossA(y)<0r_{loss} = \frac{\Sigma Loss_{A(y)>0}}{\Sigma Loss_{A(y)<0}}):

प्रारंभिक प्रशिक्षण चरण: स्थिर और CoRPO आधार दोनों का rcountr_{count} 1.0 से कम है, सभी विफल प्रक्षेपवक्र को सही ढंग से पहचानता है और नकारात्मक प्रतिक्रिया प्रदान करता है, सही-सापेक्षता गारंटी को प्रदर्शित करता है।

मध्य और बाद के प्रशिक्षण: स्थिर आधार का सकारात्मक-नकारात्मक प्रतिक्रिया अनुपात तेजी से बढ़ता है, जबकि CoRPO आधार एक उचित स्तर पर स्थिर रहता है, "सही-सापेक्षता" मोड से "वरीयता" मोड में सफलतापूर्वक परिवर्तित होता है।

डाउनस्ट्रीम सटीकता परिणाम

कार्यGRPOStaticCoRPO
डोमेन-भीतर कार्य
First Correct87.180.283.2
Second Correct86.389.586.3
डोमेन-बाहर कोडिंग कार्य
Both Incorrect50.064.056.0
Both Correct89.693.795.8
डोमेन-बाहर गणित कार्य
First Correct79.380.581.6
Second Correct81.487.181.4

मुख्य निष्कर्ष

  1. सही-सापेक्षता गारंटी का मूल्य: स्थिर और CoRPO आधार GRPO से डोमेन-बाहर कार्यों पर महत्वपूर्ण रूप से बेहतर हैं, यह साबित करते हैं कि "कम बुरे" विफलताओं को सीखने से रोकना अधिक मजबूत और सामान्यीकरणीय सही-सापेक्षता संकेत सीखने में मदद करता है
  2. रूढ़िवादिता व्यापार-बंद: CoRPO की रूढ़िवादिता छोटे वजन अपडेट चरणों की ओर ले जाती है, डोमेन-भीतर कार्यों पर स्थिर आधार से थोड़ा कम प्रदर्शन करता है, लेकिन डोमेन-बाहर कार्यों पर अच्छा प्रदर्शन करता है
  3. सामान्यीकरण क्षमता: सही-सापेक्षता गारंटी को लागू करके, CoRPO ने सही-सापेक्षता की अधिक मजबूत अवधारणा सीखी, जो बेहतर डोमेन-बाहर प्रदर्शन में परिणत होती है

संबंधित कार्य

सुदृढ़ीकरण सीखने की आधार विधियां

  • PPO: मूल्य फ़ंक्शन को आधार के रूप में उपयोग करता है, बड़ी गणना और स्मृति ओवरहेड
  • GRPO: समूह-औसत पुरस्कार के माध्यम से आधार गणना को सरल बनाता है, लेकिन क्रमिक पुरस्कार कार्यों में खामियां हैं

LLM सुदृढ़ीकरण सीखने की प्रशिक्षण

  • डेटा क्यूरेशन: "सर्वोत्तम बिंदु" सफलता दर बनाए रखना
  • गतिशील rollout चयन: बैच में उच्च विचरण सुनिश्चित करना
  • पुरस्कार पुनः-भारण: नकारात्मक उदाहरणों को पक्षपाती करना या सकारात्मक उदाहरणों के प्रभाव को स्केल करना

ये तकनीकें वास्तव में आधार bb को प्रबंधित करने के निहित अनुमानी प्रयास हैं, GRPO सूत्र के असंतुलित क्रमिक पुरस्कार समस्याओं को संभालने के लिए वर्कअराउंड हैं।

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. GRPO की मौलिक खामी: क्रमिक पुरस्कार कार्यों में, GRPO का सरल आधार विफल प्रक्षेपवक्र को सकारात्मक लाभ प्रदान करता है, गलत व्यवहार को मजबूत न करने के उद्देश्य का उल्लंघन करता है
  2. CoRPO की प्रभावशीलता: अनुकूली आधार के माध्यम से सही-सापेक्षता गारंटी को लागू करके, CoRPO GRPO की रोग संबंधी प्रशिक्षण गतिविज्ञान को सफलतापूर्वक हल करता है
  3. सामान्यीकरण क्षमता में सुधार: CoRPO डोमेन-बाहर कार्यों पर सुधारी गई सामान्यीकरण क्षमता प्रदर्शित करता है, सही-सापेक्षता गारंटी के मूल्य को साबित करता है

सीमाएं

  1. लाभ परिमाण व्यापार-बंद: क्रमिक पुरस्कारों की समृद्धि नीति भविष्यवाणी एकत्रित होने पर छोटे लाभ परिमाण की ओर ले जा सकती है, अन्वेषण/दोहन संतुलन को प्रभावित करती है
  2. रूढ़िवादिता: CoRPO की रूढ़िवादी विशेषता धीमी डोमेन-भीतर सीखने की ओर ले जाती है, सही-सापेक्षता और सीखने की दक्षता के बीच संतुलन खोजने की आवश्यकता होती है
  3. हाइपरपैरामीटर संवेदनशीलता: वर्तमान प्रशिक्षण हाइपरपैरामीटर और पुरस्कार/लाभ गणना CoRPO के लिए अनुकूलित नहीं हैं

भविष्य की दिशाएं

  1. लाभ परिमाण और अन्वेषण को संतुलित करना: ऐसी विधियों की खोज करना जो मॉडल को सुसंगत, प्रभावशाली अपडेट प्राप्त करने को सुनिश्चित करती हैं, सही व्यवहार सीखने और इष्टतम समाधान खोजने की क्षमता को संतुलित करती हैं
  2. परिणाम-आधारित पुरस्कारों से परे: अधिक समृद्ध, अधिक घने प्रतिक्रिया की खोज, जैसे पूरी पीढ़ी प्रक्रिया में प्रतिक्रिया प्रदान करने वाली प्रति-चरण पुरस्कार
  3. बहु-चरण तर्क कार्य: जटिल बहु-चरण तर्क और समस्या समाधान कार्यों के लिए विधि का विस्तार करना

गहन मूल्यांकन

शक्तियां

  1. ठोस सैद्धांतिक योगदान: गणितीय रूप से क्रमिक पुरस्कार कार्यों में GRPO की खामी को कठोरता से साबित करता है, स्पष्ट सैद्धांतिक विश्लेषण प्रदान करता है
  2. चतुर विधि डिजाइन: CoRPO का अनुकूली आधार डिजाइन सही-सापेक्षता गारंटी और खोज ड्राइव के बीच व्यापार-बंद को सुरुचिपूर्ण ढंग से हल करता है
  3. पर्याप्त प्रयोगात्मक सत्यापन: प्रशिक्षण गतिविज्ञान विश्लेषण और डाउनस्ट्रीम प्रदर्शन मूल्यांकन के माध्यम से विधि की प्रभावशीलता को व्यापक रूप से सत्यापित करता है
  4. उच्च व्यावहारिक मूल्य: वास्तविक LLM प्रशिक्षण में महत्वपूर्ण समस्या को हल करता है, औद्योगिक अनुप्रयोगों के लिए प्रत्यक्ष मूल्य है

कमियां

  1. सीमित प्रयोगात्मक पैमाना: केवल कोड सत्यापन कार्य पर सत्यापित, अधिक कार्यों और डोमेन पर परीक्षण की आवश्यकता है
  2. अपर्याप्त हाइपरपैरामीटर ट्यूनिंग: स्वीकार करता है कि वर्तमान हाइपरपैरामीटर CoRPO के लिए अनुकूलित नहीं हैं, प्रदर्शन तुलना की निष्पक्षता को प्रभावित कर सकते हैं
  3. सीमित सैद्धांतिक विश्लेषण गहराई: समस्या की पहचान करते हुए, क्रमिक पुरस्कार इस समस्या का कारण क्यों बनते हैं इसके लिए गहरे सैद्धांतिक विश्लेषण सीमित हैं
  4. गणना ओवरहेड विश्लेषण की कमी: GRPO की तुलना में CoRPO के गणना ओवरहेड का विश्लेषण नहीं है

प्रभाव

  1. शैक्षणिक योगदान: LLM प्रशिक्षण में सुदृढ़ीकरण सीखने के अनुप्रयोग के लिए महत्वपूर्ण सैद्धांतिक अंतर्दृष्टि प्रदान करता है
  2. व्यावहारिक मूल्य: क्रमिक पुरस्कारों का उपयोग करके LLM को प्रशिक्षित करने के लिए व्यावहारिक समाधान प्रदान करता है
  3. अनुसंधान दिशा: बाइनरी से क्रमिक से अधिक घने प्रतिक्रिया तक अनुसंधान पथ खोलता है

लागू परिदृश्य

  1. सत्यापन योग्य कार्य: विशेष रूप से गणित, कोड जनरेशन आदि जैसे स्पष्ट सही-सापेक्षता मानदंड वाले कार्यों के लिए उपयुक्त
  2. क्रमिक पुरस्कार परिदृश्य: कोई भी RL प्रशिक्षण परिदृश्य जहां 1-5 रेटिंग जैसे क्रमिक पुरस्कारों का उपयोग करने की आवश्यकता होती है
  3. LLM क्षमता सीखना: LLM को केवल वरीयता समायोजन के बजाय नई क्षमताएं सीखने के लिए RL के माध्यम से चाहते हैं

संदर्भ

पेपर 15 संबंधित संदर्भों का हवाला देता है, जिसमें GRPO मूल पेपर, PPO, और नवीनतम LLM सुदृढ़ीकरण सीखने की प्रशिक्षण विधियां शामिल हैं, अनुसंधान के लिए एक ठोस सैद्धांतिक आधार प्रदान करते हैं।


यह पेपर सैद्धांतिक विश्लेषण और व्यावहारिक समाधान के बीच अच्छा संतुलन प्राप्त करता है, LLM सुदृढ़ीकरण सीखने की प्रशिक्षण में एक महत्वपूर्ण समस्या के लिए गहन अंतर्दृष्टि और प्रभावी समाधान प्रदान करता है, महत्वपूर्ण शैक्षणिक और व्यावहारिक मूल्य रखता है।