Group-relative Policy Optimization's (GRPO) simplicity makes it highly desirable for adapting LLMs to become experts at specific tasks. But this simplicity also makes it ill-specified as we seek to enhance RL training with richer, non-binary feedback. When using ordinal rewards to give partial credit, GRPO's simplicity starts to hurt, as its group-average baseline often assigns a positive advantage to failed trajectories and reinforces incorrect behavior.
We introduce Correctness Relative Policy Optimization (CoRPO), a new formulation that solves this flaw. CoRPO uses an adaptive baseline that enforces a minimum quality threshold, ensuring failed solutions are never positively reinforced. Once the policy consistently meets this threshold, the baseline automatically transitions to a relative preference mode, pushing the model to find optimal solutions rather than just "acceptable" ones. We empirically validate CoRPO on a code verification task, where it demonstrates more stable convergence and better out-of-domain generalization.
This work represents a critical step in our broader research program to enable LLMs to learn genuinely new capabilities through reinforcement learning. We achieve this by enabling LLMs to learn from rich, multi-dimensional feedback - progressing from binary to ordinal rewards in this work, and onward to denser, per-step supervision.
- पेपर ID: 2511.04439
- शीर्षक: The Peril of Preference: Why GRPO fails on Ordinal Rewards
- लेखक: अनीषा गर्ग, गणेश वेंकटेश (Cerebras Applied AI Research)
- वर्गीकरण: cs.AI, cs.LG
- प्रकाशन समय: 6 नवंबर 2025 (arXiv प्रीप्रिंट)
- पेपर लिंक: https://arxiv.org/abs/2511.04439
समूह-सापेक्ष नीति अनुकूलन (GRPO) अपनी सरलता के कारण बड़े भाषा मॉडल (LLM) को विशिष्ट कार्यों के लिए अनुकूलित करने में व्यापक रूप से पसंद किया जाता है। हालांकि, जब हम अधिक समृद्ध गैर-बाइनरी प्रतिक्रिया का उपयोग करके सुदृढ़ीकरण सीखने की प्रशिक्षण को बढ़ाना चाहते हैं, तो यह सरलता अपर्याप्त मानकीकरण का कारण बनती है। क्रमिक पुरस्कारों का उपयोग करके आंशिक पुरस्कार देते समय, GRPO की सरलता नकारात्मक प्रभाव डालने लगती है, इसका समूह-औसत आधार अक्सर विफल प्रक्षेपवक्र को सकारात्मक लाभ प्रदान करता है, जिससे गलत व्यवहार को मजबूत किया जाता है। यह पेपर सही-सापेक्ष नीति अनुकूलन (CoRPO) प्रस्तुत करता है, जो इस खामी को संबोधित करने के लिए एक नया सूत्र है। CoRPO अनुकूली आधार का उपयोग करके न्यूनतम गुणवत्ता सीमा को लागू करता है, यह सुनिश्चित करता है कि विफल समाधान कभी भी सकारात्मक सुदृढ़ीकरण प्राप्त नहीं करते। एक बार जब नीति लगातार इस सीमा को पूरा करती है, तो आधार स्वचालित रूप से सापेक्ष वरीयता मोड में परिवर्तित हो जाता है, मॉडल को केवल "स्वीकार्य" समाधान के बजाय इष्टतम समाधान खोजने के लिए प्रेरित करता है।
- GRPO का व्यापक अनुप्रयोग: GRPO अपनी सरलता और दक्षता के कारण गणित और कोड जनरेशन जैसे सत्यापन योग्य कार्यों में व्यापक रूप से अपनाया गया है, विशेष रूप से जटिल मूल्य फ़ंक्शन के बजाय समूह-औसत पुरस्कार को आधार के रूप में उपयोग करते हुए।
- बाइनरी से क्रमिक पुरस्कारों में परिवर्तन: मौजूदा RL विधियां मुख्य रूप से बाइनरी वरीयताओं के लिए डिज़ाइन की गई हैं, लेकिन व्यावहारिक अनुप्रयोगों में 1-5 रेटिंग जैसे क्रमिक पुरस्कारों के रूप में अधिक समृद्ध प्रतिक्रिया संकेतों की आवश्यकता होती है।
- GRPO की मौलिक खामी: GRPO सीखने के उद्देश्य को पूर्ण मूल्य से सापेक्ष वरीयता में पुनर्परिभाषित करता है, लाभ अब सीखे गए पूर्ण अपेक्षित पुरस्कार के विरुद्ध नहीं, बल्कि नमूना किए गए साथियों के प्रदर्शन के विरुद्ध मापा जाता है।
जब नीति पर्याप्त रूप से प्रशिक्षित नहीं होती है, तो GRPO का समूह-औसत आधार अक्सर एक बड़ी नकारात्मक संख्या बन जाता है। इस स्थिति में, कोई भी "कम बुरा" विफल प्रक्षेपवक्र R(yf)>b को संतुष्ट करता है, जिससे A(yf)>0 होता है, जिससे मॉडल को उद्देश्यपूर्ण रूप से गलत प्रक्षेपवक्र उत्पन्न करने की संभावना बढ़ाने के लिए सक्रिय रूप से प्रशिक्षित किया जाता है।
- क्रमिक पुरस्कार कार्यों में GRPO की मौलिक खामी को संबोधित करना
- ऐसी प्रशिक्षण रूपरेखा स्थापित करना जो सही-सापेक्षता और अनुकूलन को चलाने दोनों को सुनिश्चित करती है
- LLM को सुदृढ़ीकरण सीखने के माध्यम से नई क्षमताएं सीखने के लिए आधार तैयार करना
- सैद्धांतिक विश्लेषण: गणितीय रूप से क्रमिक पुरस्कार कार्यों में GRPO आधार के अनुचित मानकीकरण को साबित करता है, विफल प्रक्षेपवक्र को सकारात्मक लाभ प्रदान करने के मूल कारण को प्रकट करता है
- CoRPO विधि: सही-सापेक्ष नीति अनुकूलन (CoRPO) प्रस्तावित करता है, एक अनुकूली आधार के साथ एक नया लाभ सूत्र जो GRPO की खामियों को संबोधित करता है
- द्वि-चरण सीखने की रूपरेखा: "सही-सापेक्षता-खोज" से "वरीयता-खोज" में स्वचालित रूपांतरण तंत्र डिज़ाइन करता है, नीति सुधार प्रक्रिया में विभिन्न सीखने के संकेत प्रदान करता है
- अनुभवजन्य सत्यापन: कोड सत्यापन कार्यों पर CoRPO की प्रभावशीलता को सत्यापित करता है, अधिक स्थिर अभिसरण और बेहतर डोमेन-बाहर सामान्यीकरण क्षमता प्रदर्शित करता है
नीति πθ से नमूना किए गए G rollout {y1,y2,...,yG} के एक समूह को देखते हुए, GRPO समूह-औसत पुरस्कार को आधार के रूप में उपयोग करता है:
b=G1∑i=1GR(yi)
लाभ फ़ंक्शन को परिभाषित किया गया है:
A(yi)=normR(yi)−b
मुख्य समस्या: जब विफल प्रक्षेपवक्र yf (जहां R(yf)<0) निम्नलिखित शर्त को संतुष्ट करता है तो सकारात्मक लाभ प्राप्त होता है:
b<R(yf)<0
यह जटिल समस्याओं में नीति के अपर्याप्त प्रशिक्षण के दौरान एक सामान्य परिदृश्य है, जिससे मॉडल सक्रिय रूप से गलत व्यवहार सीखता है।
- सही-सापेक्षता गारंटी: विफल प्रक्षेपवक्र को कभी भी सकारात्मक लाभ नहीं मिलना चाहिए
- आनुपातिक प्रतिक्रिया: विफल समाधानों के लिए नकारात्मक प्रतिक्रिया उनकी गुणवत्ता के अनुपात में होनी चाहिए
- खोज ड्राइव: "स्वीकार्य" समाधानों में सुधार संकेत प्रदान करना जारी रखें
पहले स्थिर आधार का प्रस्ताव:
bstatic=Rmin_correctAstatic(y)=R(y)−Rmin_correct
यह सही-सापेक्षता गारंटी सुनिश्चित करता है, लेकिन नीति सुधार के बाद खोज ड्राइव की कमी होती है।
अंतिम CoRPO सूत्र स्थिर और गतिशील आधार के लाभों को जोड़ता है:
bmean=G1∑i=1GR(yi)
bcorpo=max(Rmin_correct,bmean)
Acorpo(yi)=R(yi)−bcorpo
चरण 1: सही-सापेक्षता-खोज (bmean<Rmin_correct)
- आधार Rmin_correct पर लॉक किया गया
- सभी विफल प्रक्षेपवक्र को नकारात्मक लाभ प्राप्त करना सुनिश्चित करता है
- बुनियादी सही-सापेक्षता सीखने पर ध्यान केंद्रित करता है
चरण 2: वरीयता-खोज (bmean≥Rmin_correct)
- आधार मानक GRPO आधार bmean बन जाता है
- सही समाधानों के बीच सापेक्ष वरीयता स्थापित करता है
- "अच्छे" से "इष्टतम" सुधार को प्रेरित करता है
LLM द्वारा उत्पन्न कोड की सही-सापेक्षता को सत्यापित करने के लिए एक व्याख्यात्मक सत्यापनकर्ता को प्रशिक्षित करना। समस्या Q और दो उम्मीदवार प्रतिक्रियाएं (RA,RB) दी गई हैं, नीति स्कोर V=(vA,vB)∈[0,10] आउटपुट करती है, जो प्रत्येक प्रतिक्रिया की सही-सापेक्षता के लिए आत्मविश्वास को दर्शाता है।
- प्रशिक्षण सेट: CodeForces और LeetCode से प्रोग्रामिंग समस्याएं, Qwen3-8B का उपयोग करके कई समाधान उत्पन्न किए गए, सही और गलत तर्क प्रक्षेपवक्र सहित, कुल 4890 नमूने
- सत्यापन सेट:
- डोमेन-भीतर कोडिंग: एक सही एक गलत प्रतिक्रिया (196 नमूने)
- डोमेन-बाहर कोडिंग: दोनों सही या दोनों गलत प्रतिक्रियाएं (98 नमूने)
- डोमेन-बाहर गणित: एक सही एक गलत प्रतिक्रिया (157 नमूने)
- मॉडल: Qwen3-8B
- अधिकतम अनुक्रम लंबाई: 16,384
- प्रत्येक प्रॉम्प्ट के लिए 8 rollout उत्पन्न करें
- वैश्विक बैच आकार: 512
- सीखने की दर: 1×10⁻⁶
- on-policy प्रशिक्षण का कड़ाई से पालन करें
विभिन्न कार्यों पर मॉडल की सटीकता का मूल्यांकन करने के लिए pass@16 मेट्रिक का उपयोग करें।
प्रतिनिधि बैच के rollout वितरण का विश्लेषण करके, 18% विफल प्रक्षेपवक्र को सकारात्मक लाभ मिला, अनुभवजन्य रूप से b<R(yf)<0 खामी के अस्तित्व की पुष्टि की।
सकारात्मक और नकारात्मक लाभ संकेतों के अनुपात का विश्लेषण करके (rcount=#{A(y)<0}#{A(y)>0} और rloss=ΣLossA(y)<0ΣLossA(y)>0):
प्रारंभिक प्रशिक्षण चरण: स्थिर और CoRPO आधार दोनों का rcount 1.0 से कम है, सभी विफल प्रक्षेपवक्र को सही ढंग से पहचानता है और नकारात्मक प्रतिक्रिया प्रदान करता है, सही-सापेक्षता गारंटी को प्रदर्शित करता है।
मध्य और बाद के प्रशिक्षण: स्थिर आधार का सकारात्मक-नकारात्मक प्रतिक्रिया अनुपात तेजी से बढ़ता है, जबकि CoRPO आधार एक उचित स्तर पर स्थिर रहता है, "सही-सापेक्षता" मोड से "वरीयता" मोड में सफलतापूर्वक परिवर्तित होता है।
| कार्य | GRPO | Static | CoRPO |
|---|
| डोमेन-भीतर कार्य | | | |
| First Correct | 87.1 | 80.2 | 83.2 |
| Second Correct | 86.3 | 89.5 | 86.3 |
| डोमेन-बाहर कोडिंग कार्य | | | |
| Both Incorrect | 50.0 | 64.0 | 56.0 |
| Both Correct | 89.6 | 93.7 | 95.8 |
| डोमेन-बाहर गणित कार्य | | | |
| First Correct | 79.3 | 80.5 | 81.6 |
| Second Correct | 81.4 | 87.1 | 81.4 |
- सही-सापेक्षता गारंटी का मूल्य: स्थिर और CoRPO आधार GRPO से डोमेन-बाहर कार्यों पर महत्वपूर्ण रूप से बेहतर हैं, यह साबित करते हैं कि "कम बुरे" विफलताओं को सीखने से रोकना अधिक मजबूत और सामान्यीकरणीय सही-सापेक्षता संकेत सीखने में मदद करता है
- रूढ़िवादिता व्यापार-बंद: CoRPO की रूढ़िवादिता छोटे वजन अपडेट चरणों की ओर ले जाती है, डोमेन-भीतर कार्यों पर स्थिर आधार से थोड़ा कम प्रदर्शन करता है, लेकिन डोमेन-बाहर कार्यों पर अच्छा प्रदर्शन करता है
- सामान्यीकरण क्षमता: सही-सापेक्षता गारंटी को लागू करके, CoRPO ने सही-सापेक्षता की अधिक मजबूत अवधारणा सीखी, जो बेहतर डोमेन-बाहर प्रदर्शन में परिणत होती है
- PPO: मूल्य फ़ंक्शन को आधार के रूप में उपयोग करता है, बड़ी गणना और स्मृति ओवरहेड
- GRPO: समूह-औसत पुरस्कार के माध्यम से आधार गणना को सरल बनाता है, लेकिन क्रमिक पुरस्कार कार्यों में खामियां हैं
- डेटा क्यूरेशन: "सर्वोत्तम बिंदु" सफलता दर बनाए रखना
- गतिशील rollout चयन: बैच में उच्च विचरण सुनिश्चित करना
- पुरस्कार पुनः-भारण: नकारात्मक उदाहरणों को पक्षपाती करना या सकारात्मक उदाहरणों के प्रभाव को स्केल करना
ये तकनीकें वास्तव में आधार b को प्रबंधित करने के निहित अनुमानी प्रयास हैं, GRPO सूत्र के असंतुलित क्रमिक पुरस्कार समस्याओं को संभालने के लिए वर्कअराउंड हैं।
- GRPO की मौलिक खामी: क्रमिक पुरस्कार कार्यों में, GRPO का सरल आधार विफल प्रक्षेपवक्र को सकारात्मक लाभ प्रदान करता है, गलत व्यवहार को मजबूत न करने के उद्देश्य का उल्लंघन करता है
- CoRPO की प्रभावशीलता: अनुकूली आधार के माध्यम से सही-सापेक्षता गारंटी को लागू करके, CoRPO GRPO की रोग संबंधी प्रशिक्षण गतिविज्ञान को सफलतापूर्वक हल करता है
- सामान्यीकरण क्षमता में सुधार: CoRPO डोमेन-बाहर कार्यों पर सुधारी गई सामान्यीकरण क्षमता प्रदर्शित करता है, सही-सापेक्षता गारंटी के मूल्य को साबित करता है
- लाभ परिमाण व्यापार-बंद: क्रमिक पुरस्कारों की समृद्धि नीति भविष्यवाणी एकत्रित होने पर छोटे लाभ परिमाण की ओर ले जा सकती है, अन्वेषण/दोहन संतुलन को प्रभावित करती है
- रूढ़िवादिता: CoRPO की रूढ़िवादी विशेषता धीमी डोमेन-भीतर सीखने की ओर ले जाती है, सही-सापेक्षता और सीखने की दक्षता के बीच संतुलन खोजने की आवश्यकता होती है
- हाइपरपैरामीटर संवेदनशीलता: वर्तमान प्रशिक्षण हाइपरपैरामीटर और पुरस्कार/लाभ गणना CoRPO के लिए अनुकूलित नहीं हैं
- लाभ परिमाण और अन्वेषण को संतुलित करना: ऐसी विधियों की खोज करना जो मॉडल को सुसंगत, प्रभावशाली अपडेट प्राप्त करने को सुनिश्चित करती हैं, सही व्यवहार सीखने और इष्टतम समाधान खोजने की क्षमता को संतुलित करती हैं
- परिणाम-आधारित पुरस्कारों से परे: अधिक समृद्ध, अधिक घने प्रतिक्रिया की खोज, जैसे पूरी पीढ़ी प्रक्रिया में प्रतिक्रिया प्रदान करने वाली प्रति-चरण पुरस्कार
- बहु-चरण तर्क कार्य: जटिल बहु-चरण तर्क और समस्या समाधान कार्यों के लिए विधि का विस्तार करना
- ठोस सैद्धांतिक योगदान: गणितीय रूप से क्रमिक पुरस्कार कार्यों में GRPO की खामी को कठोरता से साबित करता है, स्पष्ट सैद्धांतिक विश्लेषण प्रदान करता है
- चतुर विधि डिजाइन: CoRPO का अनुकूली आधार डिजाइन सही-सापेक्षता गारंटी और खोज ड्राइव के बीच व्यापार-बंद को सुरुचिपूर्ण ढंग से हल करता है
- पर्याप्त प्रयोगात्मक सत्यापन: प्रशिक्षण गतिविज्ञान विश्लेषण और डाउनस्ट्रीम प्रदर्शन मूल्यांकन के माध्यम से विधि की प्रभावशीलता को व्यापक रूप से सत्यापित करता है
- उच्च व्यावहारिक मूल्य: वास्तविक LLM प्रशिक्षण में महत्वपूर्ण समस्या को हल करता है, औद्योगिक अनुप्रयोगों के लिए प्रत्यक्ष मूल्य है
- सीमित प्रयोगात्मक पैमाना: केवल कोड सत्यापन कार्य पर सत्यापित, अधिक कार्यों और डोमेन पर परीक्षण की आवश्यकता है
- अपर्याप्त हाइपरपैरामीटर ट्यूनिंग: स्वीकार करता है कि वर्तमान हाइपरपैरामीटर CoRPO के लिए अनुकूलित नहीं हैं, प्रदर्शन तुलना की निष्पक्षता को प्रभावित कर सकते हैं
- सीमित सैद्धांतिक विश्लेषण गहराई: समस्या की पहचान करते हुए, क्रमिक पुरस्कार इस समस्या का कारण क्यों बनते हैं इसके लिए गहरे सैद्धांतिक विश्लेषण सीमित हैं
- गणना ओवरहेड विश्लेषण की कमी: GRPO की तुलना में CoRPO के गणना ओवरहेड का विश्लेषण नहीं है
- शैक्षणिक योगदान: LLM प्रशिक्षण में सुदृढ़ीकरण सीखने के अनुप्रयोग के लिए महत्वपूर्ण सैद्धांतिक अंतर्दृष्टि प्रदान करता है
- व्यावहारिक मूल्य: क्रमिक पुरस्कारों का उपयोग करके LLM को प्रशिक्षित करने के लिए व्यावहारिक समाधान प्रदान करता है
- अनुसंधान दिशा: बाइनरी से क्रमिक से अधिक घने प्रतिक्रिया तक अनुसंधान पथ खोलता है
- सत्यापन योग्य कार्य: विशेष रूप से गणित, कोड जनरेशन आदि जैसे स्पष्ट सही-सापेक्षता मानदंड वाले कार्यों के लिए उपयुक्त
- क्रमिक पुरस्कार परिदृश्य: कोई भी RL प्रशिक्षण परिदृश्य जहां 1-5 रेटिंग जैसे क्रमिक पुरस्कारों का उपयोग करने की आवश्यकता होती है
- LLM क्षमता सीखना: LLM को केवल वरीयता समायोजन के बजाय नई क्षमताएं सीखने के लिए RL के माध्यम से चाहते हैं
पेपर 15 संबंधित संदर्भों का हवाला देता है, जिसमें GRPO मूल पेपर, PPO, और नवीनतम LLM सुदृढ़ीकरण सीखने की प्रशिक्षण विधियां शामिल हैं, अनुसंधान के लिए एक ठोस सैद्धांतिक आधार प्रदान करते हैं।
यह पेपर सैद्धांतिक विश्लेषण और व्यावहारिक समाधान के बीच अच्छा संतुलन प्राप्त करता है, LLM सुदृढ़ीकरण सीखने की प्रशिक्षण में एक महत्वपूर्ण समस्या के लिए गहन अंतर्दृष्टि और प्रभावी समाधान प्रदान करता है, महत्वपूर्ण शैक्षणिक और व्यावहारिक मूल्य रखता है।