2025-11-11T09:58:08.549566

The Peril of Preference: Why GRPO fails on Ordinal Rewards

Garg, Venkatesh

Group-relative Policy Optimization's (GRPO) simplicity makes it highly desirable for adapting LLMs to become experts at specific tasks. But this simplicity also makes it ill-specified as we seek to enhance RL training with richer, non-binary feedback. When using ordinal rewards to give partial credit, GRPO's simplicity starts to hurt, as its group-average baseline often assigns a positive advantage to failed trajectories and reinforces incorrect behavior. We introduce Correctness Relative Policy Optimization (CoRPO), a new formulation that solves this flaw. CoRPO uses an adaptive baseline that enforces a minimum quality threshold, ensuring failed solutions are never positively reinforced. Once the policy consistently meets this threshold, the baseline automatically transitions to a relative preference mode, pushing the model to find optimal solutions rather than just "acceptable" ones. We empirically validate CoRPO on a code verification task, where it demonstrates more stable convergence and better out-of-domain generalization. This work represents a critical step in our broader research program to enable LLMs to learn genuinely new capabilities through reinforcement learning. We achieve this by enabling LLMs to learn from rich, multi-dimensional feedback - progressing from binary to ordinal rewards in this work, and onward to denser, per-step supervision.

academic

خطر التفضيل: لماذا يفشل GRPO في المكافآت الترتيبية

المعلومات الأساسية

معرّف الورقة: 2511.04439
العنوان: خطر التفضيل: لماذا يفشل GRPO في المكافآت الترتيبية
المؤلفون: أنيشا جارج، جانيش فينكاتيش (أبحاث Cerebras للذكاء الاصطناعي التطبيقي)
التصنيف: cs.AI, cs.LG
تاريخ النشر: 6 نوفمبر 2025 (نسخة arXiv المسبقة)
رابط الورقة: https://arxiv.org/abs/2511.04439

الملخص

يحظى تحسين السياسة النسبية للمجموعة (GRPO) بشعبية كبيرة لبساطته في تكييف نماذج اللغة الكبيرة (LLM) لتنفيذ مهام محددة. ومع ذلك، عندما نسعى إلى تحسين تدريب التعلم المعزز باستخدام ملاحظات غير ثنائية أكثر ثراءً، فإن هذه البساطة تؤدي أيضاً إلى معايرة غير كافية. عند استخدام المكافآت الترتيبية لتقديم مكافآت جزئية، تبدأ بساطة GRPO بإحداث تأثيرات سلبية، حيث يقوم خط الأساس المستند إلى متوسط المجموعة بتعيين ميزة إيجابية للمسارات الفاشلة بشكل متكرر، مما يعزز السلوك الخاطئ. تقدم هذه الورقة تحسين السياسة النسبية للصحة (CoRPO)، وهي صيغة جديدة تعالج هذا العيب. يستخدم CoRPO خط أساس متكيف لفرض حد أدنى من جودة الجودة، مما يضمن عدم تعزيز الحلول الفاشلة بشكل إيجابي أبداً. بمجرد أن تفي السياسة باستمرار بهذا الحد، يتحول خط الأساس تلقائياً إلى نمط التفضيل النسبي، مما يدفع النموذج للبحث عن الحلول المثلى وليس فقط الحلول "المقبولة".

السياق البحثي والدافع

خلفية المشكلة

التطبيق الواسع لـ GRPO: يتم اعتماد GRPO على نطاق واسع في المهام القابلة للتحقق مثل الرياضيات وتوليد الأكواد لبساطتها وكفاءتها، خاصة باستخدام متوسط مكافآت المجموعة كخط أساس بدلاً من دوال القيمة المعقدة.
الانتقال من المكافآت الثنائية إلى الترتيبية: تم تصميم طرق التعلم المعزز الحالية بشكل أساسي للتفضيلات الثنائية، لكن التطبيقات العملية تتطلب إشارات ملاحظات أكثر ثراءً، مثل المكافآت الترتيبية بتصنيفات 1-5.
العيب الأساسي في GRPO: يعيد GRPO تعريف الهدف التعليمي من القيمة المطلقة إلى التفضيل النسبي، حيث لا تُقاس الميزة بعد الآن مقابل القيمة المتوقعة المطلقة المتعلمة، بل مقابل أداء الأقران المأخوذين بالعينة.

المشكلة الأساسية

عندما لا تكون السياسة مدربة بشكل كافٍ، يصبح خط الأساس لمتوسط المجموعة في GRPO غالباً رقماً سالباً كبيراً. في هذه الحالة، أي مسار فاشل "ليس سيئاً جداً" سيفي بـ $R(y_f) > b$ ، مما يؤدي إلى $A(y_f) > 0$ ، وبالتالي يدرب النموذج بشكل إيجابي على زيادة احتمالية توليد مسارات خاطئة بشكل موضوعي.

الدافع البحثي

معالجة العيب الأساسي في GRPO في مهام المكافآت الترتيبية
إنشاء إطار عمل تدريبي يضمن الصحة ويدفع التحسين
وضع الأساس لتعلم نماذج اللغة الكبيرة القدرات الجديدة من خلال التعلم المعزز

المساهمات الأساسية

التحليل النظري: إثبات رياضي لمعايرة خط الأساس في GRPO بشكل غير صحيح في مهام المكافآت الترتيبية، مما يكشف السبب الجذري لتعيين ميزة إيجابية للمسارات الفاشلة
طريقة CoRPO: تقديم تحسين السياسة النسبية للصحة (CoRPO)، وهي صيغة ميزة جديدة مع خط أساس متكيف، تعالج عيوب GRPO
إطار التعلم ثنائي المرحلة: تصميم آلية تحويل تلقائي من "البحث عن الصحة" إلى "البحث عن التفضيل"، مما يوفر إشارات تعليمية مختلفة أثناء عملية تحسين السياسة
التحقق التجريبي: التحقق من فعالية CoRPO على مهام التحقق من الأكواد، مما يوضح تقارباً أكثر استقراراً وقدرة تعميم أفضل خارج المجال

شرح الطريقة

تعريف المشكلة

بالنظر إلى مجموعة من $G$ rollout $\{y_1, y_2, ..., y_G\}$ المأخوذة من السياسة $\pi_\theta$ ، يستخدم GRPO متوسط مكافآت المجموعة كخط أساس:

$b = \frac{1}{G}\sum_{i=1}^{G}R(y_i)$

يتم تعريف دالة الميزة على النحو التالي: $A(y_i) = \frac{R(y_i) - b}{norm}$

تحليل عيوب GRPO

المشكلة الأساسية: عندما يفي مسار فاشل $y_f$ (حيث $R(y_f) < 0$ ) بالشرط التالي، يحصل على ميزة إيجابية: $b < R(y_f) < 0$

هذا سيناريو شائع في المشاكل المعقدة حيث لم يتم تدريب السياسة بشكل كافٍ، مما يؤدي إلى تعلم النموذج بشكل إيجابي للسلوك الخاطئ.

حل CoRPO

1. ثلاثة معايير لخط الأساس المثالي

ضمان الصحة: لا يجب أن تحصل المسارات الفاشلة على ميزة إيجابية أبداً
التغذية الراجعة النسبية: يجب أن تكون التغذية الراجعة السلبية للحلول الفاشلة متناسبة مع جودتها
دافع البحث: الاستمرار في توفير إشارات التحسين بين الحلول "المقبولة"

2. طريقة خط الأساس الثابت

أولاً، نقترح خط أساس ثابت: $b_{static} = R_{min\_correct}$ $A_{static}(y) = R(y) - R_{min\_correct}$

هذا يضمن ضمان الصحة، لكنه يفتقر إلى دافع البحث بعد تحسين السياسة.

3. خط الأساس المتكيف لـ CoRPO

الصيغة النهائية لـ CoRPO تجمع بين مزايا خط الأساس الثابت والديناميكي:

$b_{mean} = \frac{1}{G}\sum_{i=1}^{G}R(y_i)$

$b_{corpo} = \max(R_{min\_correct}, b_{mean})$

$A_{corpo}(y_i) = R(y_i) - b_{corpo}$

4. آلية التشغيل ثنائية المرحلة

المرحلة 1: البحث عن الصحة ( $b_{mean} < R_{min\_correct}$ )

خط الأساس مقفل عند $R_{min\_correct}$
ضمان حصول جميع المسارات الفاشلة على ميزة سلبية
التركيز على تعلم الصحة الأساسية

المرحلة 2: البحث عن التفضيل ( $b_{mean} \geq R_{min\_correct}$ )

خط الأساس يصبح خط أساس GRPO القياسي $b_{mean}$
إنشاء تفضيلات نسبية بين الحلول الصحيحة
دفع التحسين من "جيد" إلى "أمثل"

إعداد التجارب

تعريف المهمة

تدريب محقق تفسيري للتحقق من صحة الأكواد التي ينتجها نموذج لغة كبير. بالنظر إلى مشكلة $Q$ واستجابتين مرشحتين $(R_A, R_B)$ ، تُخرج السياسة درجات $V = (v_A, v_B) \in [0, 10]$ ، تمثل الثقة في صحة كل استجابة.

مجموعات البيانات

مجموعة التدريب: مشاكل برمجية من CodeForces و LeetCode، مع توليد حلول متعددة باستخدام Qwen3-8B، تتضمن مسارات استدلال صحيحة وخاطئة، إجمالي 4890 عينة
مجموعة التحقق:
- الترميز داخل المجال: استجابة صحيحة واحدة وخاطئة (196 عينة)
- الترميز خارج المجال: كلاهما صحيح أو كلاهما خاطئ (98 عينة)
- الرياضيات خارج المجال: استجابة صحيحة واحدة وخاطئة (157 عينة)

تكوين التجارب

النموذج: Qwen3-8B
أقصى طول للتسلسل: 16,384
توليد 8 rollouts لكل موجه
حجم الدفعة العام: 512
معدل التعلم: 1×10⁻⁶
الالتزام الصارم بالتدريب على السياسة

مقاييس التقييم

استخدام مقياس pass@16 لتقييم دقة النموذج في المهام المختلفة.

نتائج التجارب

التحقق من عيوب GRPO

من خلال تحليل توزيع rollout في دفعة تمثيلية، تم اكتشاف أن 18% من المسارات الفاشلة حصلت على ميزة إيجابية، مما يؤكد تجريبياً وجود العيب $b < R(y_f) < 0$ .

تحليل ديناميكيات التدريب

من خلال تحليل نسبة إشارات الميزة الموجبة والسالبة ( $r_{count} = \frac{\#\{A(y)>0\}}{\#\{A(y)<0\}}$ و $r_{loss} = \frac{\Sigma Loss_{A(y)>0}}{\Sigma Loss_{A(y)<0}}$ ):

المرحلة الأولية من التدريب: كلا خط الأساس الثابت و CoRPO لديهما $r_{count}$ أقل من 1.0، مما يحدد بشكل صحيح جميع المسارات الفاشلة ويوفر تغذية راجعة سلبية، مما يعكس ضمان الصحة.

المراحل المتوسطة والمتأخرة من التدريب: تزداد نسبة التغذية الراجعة الموجبة والسالبة لخط الأساس الثابت بشكل حاد، بينما يستقر خط أساس CoRPO عند مستوى معتدل، مما يحقق بنجاح التحويل من وضع "الصحة" إلى وضع "التفضيل".

نتائج الدقة في المهام الثانوية

المهمة	GRPO	Static	CoRPO
المهام داخل المجال
الأول صحيح	87.1	80.2	83.2
الثاني صحيح	86.3	89.5	86.3
مهام الترميز خارج المجال
كلاهما خاطئ	50.0	64.0	56.0
كلاهما صحيح	89.6	93.7	95.8
مهام الرياضيات خارج المجال
الأول صحيح	79.3	80.5	81.6
الثاني صحيح	81.4	87.1	81.4

الاكتشافات الرئيسية

قيمة ضمان الصحة: يتفوق خط الأساس الثابت و CoRPO بشكل كبير على GRPO في المهام خارج المجال، مما يثبت أن منع تعلم الفشل "ليس سيئاً جداً" يساعد على تعلم إشارات صحة أكثر قوة وقابلية للتعميم
المقايضة المحافظة: تؤدي المحافظة في CoRPO إلى خطوات تحديث أوزان أصغر، مما يؤدي إلى أداء أقل قليلاً من خط الأساس الثابت في المهام داخل المجال، لكن أداء جيدة في المهام خارج المجال
القدرة على التعميم: من خلال فرض ضمان الصحة، يتعلم CoRPO مفهوم صحة أكثر قوة، مما ينعكس في أداء أفضل خارج المجال

الأعمال ذات الصلة

طرق خط الأساس في التعلم المعزز

PPO: استخدام دالة القيمة كخط أساس، مع تكاليف حسابية وذاكرة كبيرة
GRPO: تبسيط حساب خط الأساس من خلال متوسط مكافآت المجموعة، لكن مع عيوب في مهام المكافآت الترتيبية

تدريب التعلم المعزز لنماذج اللغة الكبيرة

تنسيق البيانات: الحفاظ على معدل النجاح في "النقطة المثلى"
اختيار Rollout الديناميكي: ضمان التباين العالي في الدفعة
إعادة ترجيح المكافآت: الانحياز نحو الأمثلة السلبية أو تحجيم تأثير الأمثلة الموجبة

هذه التقنيات هي في الواقع محاولات استكشافية ضمنية لإدارة خط الأساس $b$ ، وهي حلول بديلة لمعالجة مشكلة عدم التوازن في المكافآت الترتيبية في صيغة GRPO.

الخلاصة والمناقشة

الاستنتاجات الرئيسية

العيب الأساسي في GRPO: في مهام المكافآت الترتيبية، يقوم خط الأساس البسيط في GRPO بتعيين ميزة إيجابية للمسارات الفاشلة، مما ينتهك الهدف من عدم تعزيز السلوك الخاطئ
فعالية CoRPO: من خلال فرض ضمان الصحة باستخدام خط أساس متكيف، ينجح CoRPO في حل ديناميكيات التدريب المرضية في GRPO
تحسين القدرة على التعميم: يُظهر CoRPO قدرة تعميم محسّنة في المهام خارج المجال، مما يثبت قيمة ضمان الصحة

القيود

مقايضة حجم الميزة: قد يؤدي ثراء المكافآت الترتيبية إلى ميزات صغيرة جداً عندما تتجمع تنبؤات السياسة، مما يؤثر على توازن الاستكشاف/الاستغلال
المحافظة: تؤدي الطبيعة المحافظة لـ CoRPO إلى تعلم أبطأ داخل المجال، مما يتطلب إيجاد توازن بين الصحة وكفاءة التعلم
حساسية المعاملات الفائقة: لم يتم تحسين معاملات التدريب الحالية وحسابات المكافآت/الميزات لـ CoRPO

الاتجاهات المستقبلية

موازنة حجم الميزة والاستكشاف: استكشاف طرق لضمان حصول النموذج على تحديثات متسقة وذات تأثير، مع موازنة تعلم السلوك الصحيح والبحث عن الحلول المثلى
تجاوز المكافآت القائمة على النتائج: استكشاف ملاحظات أكثر ثراءً وكثافة، مثل المكافآت في كل خطوة التي توفر تغذية راجعة طوال عملية التوليد
مهام الاستدلال متعدد الخطوات: توسيع الطريقة لتشمل مهام الاستدلال المعقدة متعددة الخطوات وحل المشاكل

التقييم المتعمق

المزايا

مساهمة نظرية قوية: إثبات رياضي صارم لعيوب GRPO في مهام المكافآت الترتيبية، مع توفير تحليل نظري واضح
تصميم الطريقة ذكي: يعالج تصميم خط الأساس المتكيف لـ CoRPO بأناقة المقايضة بين ضمان الصحة ودافع البحث
التحقق التجريبي شامل: التحقق الشامل من فعالية الطريقة من خلال تحليل ديناميكيات التدريب وتقييم الأداء في المهام الثانوية
قيمة عملية عالية: حل مشكلة مهمة في تدريب نماذج اللغة الكبيرة العملي، مع قيمة مباشرة للتطبيقات الصناعية

أوجه القصور

نطاق التجارب محدود: التحقق فقط على مهام التحقق من الأكواد، مع الحاجة إلى الاختبار على مهام ومجالات أكثر
تحسين المعاملات الفائقة غير كافٍ: الاعتراف بأن المعاملات الحالية لم يتم تحسينها لـ CoRPO، مما قد يؤثر على عدالة مقارنة الأداء
عمق التحليل النظري: بينما تم تحديد المشكلة، هناك تحليل نظري محدود لسبب أدى المكافآت الترتيبية إلى هذه المشكلة
تحليل التكاليف الحسابية: نقص تحليل التكاليف الحسابية لـ CoRPO مقابل GRPO

التأثير

المساهمة الأكاديمية: توفير رؤى نظرية مهمة لتطبيق التعلم المعزز في تدريب نماذج اللغة الكبيرة
القيمة العملية: توفير حل عملي لتدريب نماذج اللغة الكبيرة باستخدام المكافآت الترتيبية
اتجاه البحث: فتح مسار بحثي من المكافآت الثنائية إلى الترتيبية إلى التغذية الراجعة الأكثر كثافة

السيناريوهات المعمول بها

المهام القابلة للتحقق: مناسبة بشكل خاص للمهام ذات معايير الصحة الواضحة مثل الرياضيات وتوليد الأكواد
سيناريوهات المكافآت الترتيبية: أي سيناريو تدريب RL يتطلب استخدام مكافآت ترتيبية مثل التصنيفات 1-5
تعلم قدرات نماذج اللغة الكبيرة: السيناريوهات التي يُرغب فيها تعليم نماذج اللغة الكبيرة قدرات جديدة من خلال التعلم المعزز وليس مجرد تعديل التفضيلات

المراجع

تستشهد الورقة بـ 15 مرجعاً ذا صلة، تغطي الورقة الأصلية لـ GRPO و PPO وأحدث طرق تدريب التعلم المعزز لنماذج اللغة الكبيرة، مما يوفر أساساً نظرياً قوياً للبحث.

تحقق هذه الورقة توازناً جيداً بين التحليل النظري والحل العملي، مما يوفر رؤى عميقة وحلاً فعالاً لمشكلة مهمة في تدريب التعلم المعزز لنماذج اللغة الكبيرة، مع قيمة أكاديمية وعملية مهمة.