2025-11-18T13:37:13.426950

Why is Your Language Model a Poor Implicit Reward Model?

Razin, Lin, Yao et al.
Reward models are key to language model post-training and inference pipelines. Conveniently, recent work showed that every language model defines an implicit reward model (IM-RM), without requiring any architectural changes. However, such IM-RMs tend to generalize worse, especially out-of-distribution, compared to explicit reward models (EX-RMs) that apply a dedicated linear head over the hidden representations of a language model. The existence of a generalization gap is puzzling, as EX-RMs and IM-RMs are nearly identical. They can be trained using the same data, loss function, and language model, and differ only in how the reward is computed. Toward a fundamental understanding of the implicit biases underlying different reward model types, we investigate the root cause of this gap. Our main finding, backed by theory and experiments, is that IM-RMs rely more heavily on superficial token-level cues. Consequently, they often generalize worse than EX-RMs under token-level distribution shifts, as well as in-distribution. Furthermore, we provide evidence against alternative hypotheses for the generalization gap. Most notably, we challenge the intuitive claim that IM-RMs struggle in tasks where generation is harder than verification because they can operate both as a verifier and a generator. Taken together, our results highlight that seemingly minor design choices can substantially impact the generalization behavior of reward models.
academic

لماذا نموذج اللغة الخاص بك نموذج مكافأة ضمني سيء؟

المعلومات الأساسية

  • معرّف الورقة: 2507.07981
  • العنوان: Why is Your Language Model a Poor Implicit Reward Model?
  • المؤلفون: Noam Razin†, Yong Lin†, Jiarui Yao‡, Sanjeev Arora† (†جامعة برينستون، ‡جامعة إلينوي أوربانا-شامبين)
  • التصنيف: cs.CL cs.AI cs.LG stat.ML
  • وقت النشر/المؤتمر: مسودة arXiv (تم التحديث في 16 أكتوبر 2025)
  • رابط الورقة: https://arxiv.org/abs/2507.07981v2

الملخص

نماذج المكافأة هي مكونات حاسمة في خطوط أنابيب ما بعد التدريب والاستدلال لنماذج اللغة. أظهرت الأبحاث الحديثة أن كل نموذج لغة يحدد نموذج مكافأة ضمني (IM-RM) دون أي تغييرات معمارية. ومع ذلك، مقارنة بنماذج المكافأة الصريحة (EX-RM) التي تطبق رؤوساً خطية متخصصة على التمثيلات المخفية لنموذج اللغة، فإن IM-RM غالباً ما يتمتع بقدرة تعميم أسوأ، خاصة في الحالات خارج التوزيع. هذه الفجوة في التعميم محيّرة لأن EX-RM و IM-RM متطابقان تقريباً - يمكن تدريبهما باستخدام نفس البيانات ودالة الخسارة ونموذج اللغة، مع اختلاف طفيف فقط في كيفية حساب المكافأة. تحقق هذه الورقة بعمق في الأسباب الجذرية لهذه الفجوة، وتكتشف أن IM-RM يعتمد بشكل أكبر على الإشارات السطحية على مستوى الرموز، وبالتالي لا يعمم بنفس جودة EX-RM في كل من تحولات التوزيع على مستوى الرموز والحالات داخل التوزيع.

الخلفية البحثية والدافع

تعريف المشكلة

تلعب نماذج المكافأة دوراً أساسياً في نظام نماذج اللغة الحديث، مع تطبيقات واسعة في:

  • التدريب بالتعلم المعزز
  • خوارزميات المحاذاة المباشرة
  • رفض العينات
  • تصفية البيانات
  • توسيع وقت الاستدلال

يوجد حالياً نوعان رئيسيان من نماذج المكافأة:

  1. نموذج المكافأة الصريح (EX-RM): يطبق رأساً خطياً على التمثيلات المخفية لنموذج اللغة لحساب المكافأة
  2. نموذج المكافأة الضمني (IM-RM): يحدد المكافأة بشكل ضمني من خلال احتمالية السجل لنموذج اللغة

دافع البحث

على الرغم من أن EX-RM و IM-RM متطابقان تقريباً معمارياً، لاحظت الأبحاث السابقة أن IM-RM غالباً ما يتمتع بقدرة تعميم أسوأ، خاصة في السيناريوهات خارج التوزيع. هذه الظاهرة محيّرة لأن كلا النموذجين يمكن تدريبهما بناءً على نفس نموذج اللغة، باستخدام نفس البيانات ودالة الخسارة، مع وجود فرق طفيف فقط في كيفية حساب المكافأة.

الأهمية

يعتبر فهم الانحيازات الضمنية لأنواع نماذج المكافأة المختلفة أمراً حاسماً لـ:

  • اختيار معمارية نموذج المكافأة المناسبة
  • تحسين متانة نموذج المكافأة
  • تحسين عملية ما بعد التدريب لنموذج اللغة

المساهمات الأساسية

  1. التحليل النظري: من خلال تحليل ديناميكيات التعلم، يكشف كيف أن IM-RM يعتمد بشكل أكبر على الإشارات على مستوى الرموز، بينما يعمم EX-RM بشكل أساسي من خلال التمثيلات المخفية
  2. دحض الافتراضات البديهية: يثبت أن مشاكل التعميم في IM-RM لا تنشأ من فجوة التوليد-التحقق، وأن تعلم التحقق لا يتطلب تعلم التوليد
  3. التحقق التجريبي: يتحقق من أن IM-RM يؤدي أداءً أسوأ في ظل تحولات التوزيع على مستوى الرموز، لكنه قد يؤدي أداءً مماثلاً أو أفضل في ظل تحولات المجال
  4. الضمانات النظرية: يثبت في إعدادات مبسطة أن IM-RM لا يمكنه التعميم على الرموز غير المرئية، بينما يمكن لـ EX-RM التعميم بنجاح من خلال التمثيلات المخفية المنظمة بشكل جيد

شرح الطريقة

تعريف المهمة

يدرس دقة الترتيب لنماذج المكافأة على بيانات التفضيل، أي بالنظر إلى أزواج الطلب-الإجابة (x,y+,y-)، حيث y+ هي الإجابة المفضلة و y- هي الإجابة المرفوضة، يقيّم ما إذا كان نموذج المكافأة يمكنه ترتيب بشكل صحيح: r(x,y+) > r(x,y-)

معمارية النموذج

نموذج المكافأة الصريح (EX-RM)

r^EX_θ(x,y) = ⟨u, h_{x,y}⟩

حيث u هي معاملات الرأس الخطي، و h_{x,y} هي التمثيل المخفي الذي ينتجه نموذج اللغة لزوج الطلب-الإجابة (x,y).

نموذج المكافأة الضمني (IM-RM)

r^IM_θ(x,y) = β ln(π_θ(y|x)/π_ref(y|x))

حيث β هو معامل ثابت، و π_ref هو التوزيع المرجعي (عادة نموذج اللغة المهيأ).

نقاط الابتكار التقنية

1. تحليل ديناميكيات التعلم

من خلال تحليل كيفية تأثير تحديثات التدرج على توزيع المكافأة، يكتشف:

ديناميكيات EX-RM:

Δr^EX_θ(x̄,ȳ) = ⟨h_{x̄,ȳ}, h_{x,y+} - h_{x,y-}⟩ · ηg(θ_EX)

ديناميكيات IM-RM:

Δr^IM_θ(x̄,ȳ) = (∑∑ ρ_{k,l}(y+)⟨h_{x̄,ȳ<k}, h_{x,y+<l}⟩ - ∑∑ ρ_{k,l}(y-)⟨h_{x̄,ȳ<k}, h_{x,y-<l}⟩) · ηg(θ_IM)β²

الاكتشاف الرئيسي: يعتمد تغيير EX-RM فقط على التمثيلات المخفية، بينما يعتمد تغيير IM-RM على الرموز المحددة، حيث تعكس المعاملات ρ_{k,l} حالات تداخل الرموز.

2. نظرية فجوة التعميم

النظرية 2: في إعدادات مبسطة (إجابات برمز واحد)، لا يمكن لـ IM-RM التعميم على الرموز غير المرئية (تبقى الدقة عند 0.5)، بينما يمكن لـ EX-RM التعميم من خلال فاصل الحد الأقصى للتمثيلات المخفية.

إعداد التجربة

مجموعات البيانات

  1. التجارب المضبوطة:
    • مجموعة بيانات Persona: مهام الموافقة/عدم الموافقة
    • التحقق من دورة هاميلتون: مهمة نظرية الرسوم البيانية الاصطناعية
  2. السيناريوهات الحقيقية:
    • UltraFeedback: بيانات الحوار العامة
    • RewardMATH: بيانات الاستدلال الرياضي
    • RewardBench: معيار التقييم متعدد المجالات

مقاييس التقييم

  • الدقة: دقة الترتيب على بيانات التفضيل
  • حد المكافأة المطلقة: القيمة المعيارية لـ |r(x,y+) - r(x,y-)|

طرق المقارنة

  • نموذج المكافأة الصريح (EX-RM)
  • نموذج المكافأة الضمني (IM-RM)
  • نموذج المكافأة الصريح التوليدي (EX-GRM)

تفاصيل التنفيذ

  • نموذج اللغة: سلاسل Pythia و Gemma-2 و Qwen-2.5 و Llama-3 (معاملات 1B-8B)
  • المُحسّن: Adam
  • معدل التعلم: 1e-6
  • معامل β: 0.01 (لـ IM-RM)
  • دالة الخسارة: خسارة احتمالية Bradley-Terry

نتائج التجربة

النتائج الرئيسية

1. تحول التوزيع على مستوى الرموز

  • تدريب UltraFeedback: معدل فوز EX-RM 83.4% في ظل تحول الرموز، معدل فوز IM-RM 16.6%
  • تدريب RewardMATH: معدل فوز EX-RM 100% في ظل تحول الرموز، معدل فوز IM-RM 0%

2. تحول المجال

  • تدريب UltraFeedback: في ظل تحول المجال، معدل فوز IM-RM 66.7%، معدل فوز EX-RM 33.3%
  • تدريب RewardMATH: في ظل تحول المجال، معدل فوز IM-RM 33.4%، معدل فوز EX-RM 66.6%

3. نتائج التجارب المضبوطة

في مهمة إعادة الصياغة على مجموعة بيانات Persona:

  • يحقق EX-RM دقة 100% على الإجابات الأصلية والمعاد صياغتها
  • يحقق IM-RM دقة 100% على الإجابات الأصلية، لكن فقط 2.2% على الإجابات المعاد صياغتها

التجارب الاستئصالية

1. التحقق من فرضية التوليد-التحقق

تظهر تجربة دورة هاميلتون:

  • دقة تدريب IM-RM: 100%، دقة الاختبار: 99.3%
  • عدد الدورات الصحيحة المولدة بواسطة IM-RM: 0 (لا يمكن توليد أي دورة هاميلتون صحيحة)
  • يثبت أن تعلم التحقق لا يتطلب تعلم التوليد

2. اختبار الفرضيات البديلة

  • اختبر متغيرات EX-RM بناءً على جميع التمثيلات المخفية
  • اختبر متغيرات IM-RM بدون توزيع مرجعي
  • تظهر النتائج أن فجوة التعميم لا تزال موجودة

نتائج التجربة

  1. حساسية الرموز: IM-RM حساس للغاية لتغييرات الرموز السطحية، حتى لو كانت دلالياً متطابقة
  2. تعميم التمثيل المخفي: يمكن لـ EX-RM التعميم بنجاح من خلال التمثيلات المخفية الغنية دلالياً
  3. حد المكافأة: ينتج EX-RM باستمرار حدود مكافأة مطلقة أعلى، وهو مفيد لتحسين التعلم المعزز
  4. التكيف مع المجال: يؤدي IM-RM أداءً أفضل في بعض سيناريوهات تحول المجال

الأعمال ذات الصلة

تحليل نماذج المكافأة

يركز البحث الحالي بشكل أساسي على حدود التعقيد العينة والخصائص النظرية لنماذج المكافأة، لكنه يركز بشكل أقل على تأثير طرق البارامترة المختلفة على التعميم.

DPO مقابل RLHF

يرتبط هذا البحث بمقارنات تحسين التفضيل المباشر (DPO) والتعلم المعزز من ملاحظات الإنسان (RLHF)، لكن التركيز مختلف: تركز هذه الورقة على قدرة تعميم نموذج المكافأة بدلاً من مقارنة خوارزميات التدريب.

ديناميكيات تعلم الشبكات العصبية

يستعير من أدبيات الانحياز الضمني في تحليل مسارات تدريب التدرج، لكن يطبقها على السيناريو المحدد لنماذج المكافأة.

الاستنتاج والمناقشة

الاستنتاجات الرئيسية

  1. السبب الجذري: تنشأ مشاكل التعميم في IM-RM من الاعتماد المفرط على الإشارات السطحية على مستوى الرموز، وليس من فجوة التوليد-التحقق
  2. تأثير التصميم: قد تؤثر خيارات التصميم التي تبدو طفيفة (كيفية حساب المكافأة) بشكل كبير على سلوك التعميم
  3. التوجيه التطبيقي: يجب إعطاء الأولوية لـ EX-RM في سيناريوهات تحول التوزيع على مستوى الرموز، وقد يكون IM-RM قابلاً للاعتبار في سيناريوهات تحول المجال

القيود

  1. الافتراضات النظرية: يعتمد التحليل النظري على افتراضات مبسطة للتمثيلات المخفية الثابتة والإجابات برمز واحد
  2. مقاييس التقييم: يركز بشكل أساسي على الدقة، ولا يغطي جميع جوانب فعالية نموذج المكافأة
  3. نطاق النموذج: يركز البحث بشكل أساسي على ثلاثة أنواع من نماذج المكافأة، ولا يغطي جميع المتغيرات المحتملة

الاتجاهات المستقبلية

  1. التوسع النظري: تخفيف الافتراضات المقيدة للتحليل النظري الحالي
  2. استكشاف العوامل: دراسة العوامل الأخرى التي تؤثر على التعميم لأنواع نماذج المكافأة المختلفة
  3. توسيع التقييم: تطوير معايير تقييم أكثر شمولاً لنماذج المكافأة
  4. معماريات جديدة: استكشاف الانحيازات الضمنية لأنواع نماذج المكافأة الأخرى

التقييم المتعمق

المميزات

  1. العمق النظري: يوفر تحليلاً رياضياً صارماً، يشرح فجوة التعميم من منظور ديناميكيات التعلم
  2. شمول التجارب: يجمع بين التجارب المضبوطة والسيناريوهات الحقيقية، ويغطي نماذج لغة ومجموعات بيانات متعددة
  3. اختبار الفرضيات: يختبر بشكل منهجي ويدحض التفسيرات البديهية لكن الخاطئة
  4. القيمة العملية: يوفر توجيهاً واضحاً لاختيار نموذج المكافأة في التطبيقات العملية

أوجه القصور

  1. قيود الافتراضات: قد تحد الافتراضات المبسطة للتحليل النظري من عمومية الاستنتاجات
  2. فهم الآليات: يفتقر إلى تحليل متعمق لآليات أداء IM-RM الأفضل في ظل تحول المجال
  3. التحقق على نطاق واسع: تُجرى التجارب بشكل أساسي على نماذج صغيرة إلى متوسطة الحجم، وتتطلب الاستنتاجات على النماذج الكبيرة مزيداً من التحقق

التأثير

  1. المساهمة النظرية: توفر أساساً نظرياً مهماً لفهم سلوك أنواع نماذج المكافأة المختلفة
  2. التوجيه العملي: لها تأثير مباشر على تطبيق تقنيات مثل RLHF و DPO
  3. الإلهام البحثي: تفتح اتجاهات جديدة لمزيد من البحث في الانحيازات الضمنية لنماذج المكافأة

السيناريوهات المطبقة

  1. المتطلبات عالية الجودة: التطبيقات التي تتطلب الحفاظ على الأداء المستقرة في ظل تحول التوزيع
  2. مهام حساسة للرموز: السيناريوهات التي تتضمن تغييرات على مستوى الرموز مثل إعادة الصياغة والترجمة
  3. الأنظمة الحرجة للمتانة: الأنظمة التي لها متطلبات صارمة لمتانة نموذج المكافأة

المراجع

تستشهد الورقة بعدد كبير من الأعمال ذات الصلة، بما في ذلك:

  • Ouyang et al. (2022): تدريب نماذج اللغة لاتباع التعليمات مع ملاحظات الإنسان
  • Rafailov et al. (2023): تحسين التفضيل المباشر: نموذج اللغة الخاص بك هو في الواقع نموذج مكافأة
  • Lin et al. (2024): حول القدرة المحدودة على التعميم لنموذج المكافأة الضمني الناجم عن تحسين التفضيل المباشر
  • Lambert et al. (2025): RewardBench: تقييم نماذج المكافأة لنمذجة اللغة

التقييم الشامل: هذه ورقة بحثية عالية الجودة تكشف بعمق عن الأسباب الجذرية لاختلافات قدرة التعميم بين أنواع نماذج المكافأة المختلفة من خلال تحليل نظري صارم والتحقق التجريبي الشامل. لا تتمتع الورقة بقيمة نظرية مهمة فحسب، بل توفر أيضاً توجيهاً قيماً للتطبيقات العملية. تتسم طريقة البحث بالدقة العلمية والاستنتاجات مقنعة، وهي مساهمة مهمة في مجال بحث نماذج المكافأة.