Group-relative Policy Optimization's (GRPO) simplicity makes it highly desirable for adapting LLMs to become experts at specific tasks. But this simplicity also makes it ill-specified as we seek to enhance RL training with richer, non-binary feedback. When using ordinal rewards to give partial credit, GRPO's simplicity starts to hurt, as its group-average baseline often assigns a positive advantage to failed trajectories and reinforces incorrect behavior.
We introduce Correctness Relative Policy Optimization (CoRPO), a new formulation that solves this flaw. CoRPO uses an adaptive baseline that enforces a minimum quality threshold, ensuring failed solutions are never positively reinforced. Once the policy consistently meets this threshold, the baseline automatically transitions to a relative preference mode, pushing the model to find optimal solutions rather than just "acceptable" ones. We empirically validate CoRPO on a code verification task, where it demonstrates more stable convergence and better out-of-domain generalization.
This work represents a critical step in our broader research program to enable LLMs to learn genuinely new capabilities through reinforcement learning. We achieve this by enabling LLMs to learn from rich, multi-dimensional feedback - progressing from binary to ordinal rewards in this work, and onward to denser, per-step supervision.
- معرّف الورقة: 2511.04439
- العنوان: خطر التفضيل: لماذا يفشل GRPO في المكافآت الترتيبية
- المؤلفون: أنيشا جارج، جانيش فينكاتيش (أبحاث Cerebras للذكاء الاصطناعي التطبيقي)
- التصنيف: cs.AI, cs.LG
- تاريخ النشر: 6 نوفمبر 2025 (نسخة arXiv المسبقة)
- رابط الورقة: https://arxiv.org/abs/2511.04439
يحظى تحسين السياسة النسبية للمجموعة (GRPO) بشعبية كبيرة لبساطته في تكييف نماذج اللغة الكبيرة (LLM) لتنفيذ مهام محددة. ومع ذلك، عندما نسعى إلى تحسين تدريب التعلم المعزز باستخدام ملاحظات غير ثنائية أكثر ثراءً، فإن هذه البساطة تؤدي أيضاً إلى معايرة غير كافية. عند استخدام المكافآت الترتيبية لتقديم مكافآت جزئية، تبدأ بساطة GRPO بإحداث تأثيرات سلبية، حيث يقوم خط الأساس المستند إلى متوسط المجموعة بتعيين ميزة إيجابية للمسارات الفاشلة بشكل متكرر، مما يعزز السلوك الخاطئ. تقدم هذه الورقة تحسين السياسة النسبية للصحة (CoRPO)، وهي صيغة جديدة تعالج هذا العيب. يستخدم CoRPO خط أساس متكيف لفرض حد أدنى من جودة الجودة، مما يضمن عدم تعزيز الحلول الفاشلة بشكل إيجابي أبداً. بمجرد أن تفي السياسة باستمرار بهذا الحد، يتحول خط الأساس تلقائياً إلى نمط التفضيل النسبي، مما يدفع النموذج للبحث عن الحلول المثلى وليس فقط الحلول "المقبولة".
- التطبيق الواسع لـ GRPO: يتم اعتماد GRPO على نطاق واسع في المهام القابلة للتحقق مثل الرياضيات وتوليد الأكواد لبساطتها وكفاءتها، خاصة باستخدام متوسط مكافآت المجموعة كخط أساس بدلاً من دوال القيمة المعقدة.
- الانتقال من المكافآت الثنائية إلى الترتيبية: تم تصميم طرق التعلم المعزز الحالية بشكل أساسي للتفضيلات الثنائية، لكن التطبيقات العملية تتطلب إشارات ملاحظات أكثر ثراءً، مثل المكافآت الترتيبية بتصنيفات 1-5.
- العيب الأساسي في GRPO: يعيد GRPO تعريف الهدف التعليمي من القيمة المطلقة إلى التفضيل النسبي، حيث لا تُقاس الميزة بعد الآن مقابل القيمة المتوقعة المطلقة المتعلمة، بل مقابل أداء الأقران المأخوذين بالعينة.
عندما لا تكون السياسة مدربة بشكل كافٍ، يصبح خط الأساس لمتوسط المجموعة في GRPO غالباً رقماً سالباً كبيراً. في هذه الحالة، أي مسار فاشل "ليس سيئاً جداً" سيفي بـ R(yf)>b، مما يؤدي إلى A(yf)>0، وبالتالي يدرب النموذج بشكل إيجابي على زيادة احتمالية توليد مسارات خاطئة بشكل موضوعي.
- معالجة العيب الأساسي في GRPO في مهام المكافآت الترتيبية
- إنشاء إطار عمل تدريبي يضمن الصحة ويدفع التحسين
- وضع الأساس لتعلم نماذج اللغة الكبيرة القدرات الجديدة من خلال التعلم المعزز
- التحليل النظري: إثبات رياضي لمعايرة خط الأساس في GRPO بشكل غير صحيح في مهام المكافآت الترتيبية، مما يكشف السبب الجذري لتعيين ميزة إيجابية للمسارات الفاشلة
- طريقة CoRPO: تقديم تحسين السياسة النسبية للصحة (CoRPO)، وهي صيغة ميزة جديدة مع خط أساس متكيف، تعالج عيوب GRPO
- إطار التعلم ثنائي المرحلة: تصميم آلية تحويل تلقائي من "البحث عن الصحة" إلى "البحث عن التفضيل"، مما يوفر إشارات تعليمية مختلفة أثناء عملية تحسين السياسة
- التحقق التجريبي: التحقق من فعالية CoRPO على مهام التحقق من الأكواد، مما يوضح تقارباً أكثر استقراراً وقدرة تعميم أفضل خارج المجال
بالنظر إلى مجموعة من G rollout {y1,y2,...,yG} المأخوذة من السياسة πθ، يستخدم GRPO متوسط مكافآت المجموعة كخط أساس:
b=G1∑i=1GR(yi)
يتم تعريف دالة الميزة على النحو التالي:
A(yi)=normR(yi)−b
المشكلة الأساسية: عندما يفي مسار فاشل yf (حيث R(yf)<0) بالشرط التالي، يحصل على ميزة إيجابية:
b<R(yf)<0
هذا سيناريو شائع في المشاكل المعقدة حيث لم يتم تدريب السياسة بشكل كافٍ، مما يؤدي إلى تعلم النموذج بشكل إيجابي للسلوك الخاطئ.
- ضمان الصحة: لا يجب أن تحصل المسارات الفاشلة على ميزة إيجابية أبداً
- التغذية الراجعة النسبية: يجب أن تكون التغذية الراجعة السلبية للحلول الفاشلة متناسبة مع جودتها
- دافع البحث: الاستمرار في توفير إشارات التحسين بين الحلول "المقبولة"
أولاً، نقترح خط أساس ثابت:
bstatic=Rmin_correctAstatic(y)=R(y)−Rmin_correct
هذا يضمن ضمان الصحة، لكنه يفتقر إلى دافع البحث بعد تحسين السياسة.
الصيغة النهائية لـ CoRPO تجمع بين مزايا خط الأساس الثابت والديناميكي:
bmean=G1∑i=1GR(yi)
bcorpo=max(Rmin_correct,bmean)
Acorpo(yi)=R(yi)−bcorpo
المرحلة 1: البحث عن الصحة (bmean<Rmin_correct)
- خط الأساس مقفل عند Rmin_correct
- ضمان حصول جميع المسارات الفاشلة على ميزة سلبية
- التركيز على تعلم الصحة الأساسية
المرحلة 2: البحث عن التفضيل (bmean≥Rmin_correct)
- خط الأساس يصبح خط أساس GRPO القياسي bmean
- إنشاء تفضيلات نسبية بين الحلول الصحيحة
- دفع التحسين من "جيد" إلى "أمثل"
تدريب محقق تفسيري للتحقق من صحة الأكواد التي ينتجها نموذج لغة كبير. بالنظر إلى مشكلة Q واستجابتين مرشحتين (RA,RB)، تُخرج السياسة درجات V=(vA,vB)∈[0,10]، تمثل الثقة في صحة كل استجابة.
- مجموعة التدريب: مشاكل برمجية من CodeForces و LeetCode، مع توليد حلول متعددة باستخدام Qwen3-8B، تتضمن مسارات استدلال صحيحة وخاطئة، إجمالي 4890 عينة
- مجموعة التحقق:
- الترميز داخل المجال: استجابة صحيحة واحدة وخاطئة (196 عينة)
- الترميز خارج المجال: كلاهما صحيح أو كلاهما خاطئ (98 عينة)
- الرياضيات خارج المجال: استجابة صحيحة واحدة وخاطئة (157 عينة)
- النموذج: Qwen3-8B
- أقصى طول للتسلسل: 16,384
- توليد 8 rollouts لكل موجه
- حجم الدفعة العام: 512
- معدل التعلم: 1×10⁻⁶
- الالتزام الصارم بالتدريب على السياسة
استخدام مقياس pass@16 لتقييم دقة النموذج في المهام المختلفة.
من خلال تحليل توزيع rollout في دفعة تمثيلية، تم اكتشاف أن 18% من المسارات الفاشلة حصلت على ميزة إيجابية، مما يؤكد تجريبياً وجود العيب b<R(yf)<0.
من خلال تحليل نسبة إشارات الميزة الموجبة والسالبة (rcount=#{A(y)<0}#{A(y)>0} و rloss=ΣLossA(y)<0ΣLossA(y)>0):
المرحلة الأولية من التدريب: كلا خط الأساس الثابت و CoRPO لديهما rcount أقل من 1.0، مما يحدد بشكل صحيح جميع المسارات الفاشلة ويوفر تغذية راجعة سلبية، مما يعكس ضمان الصحة.
المراحل المتوسطة والمتأخرة من التدريب: تزداد نسبة التغذية الراجعة الموجبة والسالبة لخط الأساس الثابت بشكل حاد، بينما يستقر خط أساس CoRPO عند مستوى معتدل، مما يحقق بنجاح التحويل من وضع "الصحة" إلى وضع "التفضيل".
| المهمة | GRPO | Static | CoRPO |
|---|
| المهام داخل المجال | | | |
| الأول صحيح | 87.1 | 80.2 | 83.2 |
| الثاني صحيح | 86.3 | 89.5 | 86.3 |
| مهام الترميز خارج المجال | | | |
| كلاهما خاطئ | 50.0 | 64.0 | 56.0 |
| كلاهما صحيح | 89.6 | 93.7 | 95.8 |
| مهام الرياضيات خارج المجال | | | |
| الأول صحيح | 79.3 | 80.5 | 81.6 |
| الثاني صحيح | 81.4 | 87.1 | 81.4 |
- قيمة ضمان الصحة: يتفوق خط الأساس الثابت و CoRPO بشكل كبير على GRPO في المهام خارج المجال، مما يثبت أن منع تعلم الفشل "ليس سيئاً جداً" يساعد على تعلم إشارات صحة أكثر قوة وقابلية للتعميم
- المقايضة المحافظة: تؤدي المحافظة في CoRPO إلى خطوات تحديث أوزان أصغر، مما يؤدي إلى أداء أقل قليلاً من خط الأساس الثابت في المهام داخل المجال، لكن أداء جيدة في المهام خارج المجال
- القدرة على التعميم: من خلال فرض ضمان الصحة، يتعلم CoRPO مفهوم صحة أكثر قوة، مما ينعكس في أداء أفضل خارج المجال
- PPO: استخدام دالة القيمة كخط أساس، مع تكاليف حسابية وذاكرة كبيرة
- GRPO: تبسيط حساب خط الأساس من خلال متوسط مكافآت المجموعة، لكن مع عيوب في مهام المكافآت الترتيبية
- تنسيق البيانات: الحفاظ على معدل النجاح في "النقطة المثلى"
- اختيار Rollout الديناميكي: ضمان التباين العالي في الدفعة
- إعادة ترجيح المكافآت: الانحياز نحو الأمثلة السلبية أو تحجيم تأثير الأمثلة الموجبة
هذه التقنيات هي في الواقع محاولات استكشافية ضمنية لإدارة خط الأساس b، وهي حلول بديلة لمعالجة مشكلة عدم التوازن في المكافآت الترتيبية في صيغة GRPO.
- العيب الأساسي في GRPO: في مهام المكافآت الترتيبية، يقوم خط الأساس البسيط في GRPO بتعيين ميزة إيجابية للمسارات الفاشلة، مما ينتهك الهدف من عدم تعزيز السلوك الخاطئ
- فعالية CoRPO: من خلال فرض ضمان الصحة باستخدام خط أساس متكيف، ينجح CoRPO في حل ديناميكيات التدريب المرضية في GRPO
- تحسين القدرة على التعميم: يُظهر CoRPO قدرة تعميم محسّنة في المهام خارج المجال، مما يثبت قيمة ضمان الصحة
- مقايضة حجم الميزة: قد يؤدي ثراء المكافآت الترتيبية إلى ميزات صغيرة جداً عندما تتجمع تنبؤات السياسة، مما يؤثر على توازن الاستكشاف/الاستغلال
- المحافظة: تؤدي الطبيعة المحافظة لـ CoRPO إلى تعلم أبطأ داخل المجال، مما يتطلب إيجاد توازن بين الصحة وكفاءة التعلم
- حساسية المعاملات الفائقة: لم يتم تحسين معاملات التدريب الحالية وحسابات المكافآت/الميزات لـ CoRPO
- موازنة حجم الميزة والاستكشاف: استكشاف طرق لضمان حصول النموذج على تحديثات متسقة وذات تأثير، مع موازنة تعلم السلوك الصحيح والبحث عن الحلول المثلى
- تجاوز المكافآت القائمة على النتائج: استكشاف ملاحظات أكثر ثراءً وكثافة، مثل المكافآت في كل خطوة التي توفر تغذية راجعة طوال عملية التوليد
- مهام الاستدلال متعدد الخطوات: توسيع الطريقة لتشمل مهام الاستدلال المعقدة متعددة الخطوات وحل المشاكل
- مساهمة نظرية قوية: إثبات رياضي صارم لعيوب GRPO في مهام المكافآت الترتيبية، مع توفير تحليل نظري واضح
- تصميم الطريقة ذكي: يعالج تصميم خط الأساس المتكيف لـ CoRPO بأناقة المقايضة بين ضمان الصحة ودافع البحث
- التحقق التجريبي شامل: التحقق الشامل من فعالية الطريقة من خلال تحليل ديناميكيات التدريب وتقييم الأداء في المهام الثانوية
- قيمة عملية عالية: حل مشكلة مهمة في تدريب نماذج اللغة الكبيرة العملي، مع قيمة مباشرة للتطبيقات الصناعية
- نطاق التجارب محدود: التحقق فقط على مهام التحقق من الأكواد، مع الحاجة إلى الاختبار على مهام ومجالات أكثر
- تحسين المعاملات الفائقة غير كافٍ: الاعتراف بأن المعاملات الحالية لم يتم تحسينها لـ CoRPO، مما قد يؤثر على عدالة مقارنة الأداء
- عمق التحليل النظري: بينما تم تحديد المشكلة، هناك تحليل نظري محدود لسبب أدى المكافآت الترتيبية إلى هذه المشكلة
- تحليل التكاليف الحسابية: نقص تحليل التكاليف الحسابية لـ CoRPO مقابل GRPO
- المساهمة الأكاديمية: توفير رؤى نظرية مهمة لتطبيق التعلم المعزز في تدريب نماذج اللغة الكبيرة
- القيمة العملية: توفير حل عملي لتدريب نماذج اللغة الكبيرة باستخدام المكافآت الترتيبية
- اتجاه البحث: فتح مسار بحثي من المكافآت الثنائية إلى الترتيبية إلى التغذية الراجعة الأكثر كثافة
- المهام القابلة للتحقق: مناسبة بشكل خاص للمهام ذات معايير الصحة الواضحة مثل الرياضيات وتوليد الأكواد
- سيناريوهات المكافآت الترتيبية: أي سيناريو تدريب RL يتطلب استخدام مكافآت ترتيبية مثل التصنيفات 1-5
- تعلم قدرات نماذج اللغة الكبيرة: السيناريوهات التي يُرغب فيها تعليم نماذج اللغة الكبيرة قدرات جديدة من خلال التعلم المعزز وليس مجرد تعديل التفضيلات
تستشهد الورقة بـ 15 مرجعاً ذا صلة، تغطي الورقة الأصلية لـ GRPO و PPO وأحدث طرق تدريب التعلم المعزز لنماذج اللغة الكبيرة، مما يوفر أساساً نظرياً قوياً للبحث.
تحقق هذه الورقة توازناً جيداً بين التحليل النظري والحل العملي، مما يوفر رؤى عميقة وحلاً فعالاً لمشكلة مهمة في تدريب التعلم المعزز لنماذج اللغة الكبيرة، مع قيمة أكاديمية وعملية مهمة.