Why is Your Language Model a Poor Implicit Reward Model?
Razin, Lin, Yao et al.
Reward models are key to language model post-training and inference pipelines. Conveniently, recent work showed that every language model defines an implicit reward model (IM-RM), without requiring any architectural changes. However, such IM-RMs tend to generalize worse, especially out-of-distribution, compared to explicit reward models (EX-RMs) that apply a dedicated linear head over the hidden representations of a language model. The existence of a generalization gap is puzzling, as EX-RMs and IM-RMs are nearly identical. They can be trained using the same data, loss function, and language model, and differ only in how the reward is computed. Toward a fundamental understanding of the implicit biases underlying different reward model types, we investigate the root cause of this gap. Our main finding, backed by theory and experiments, is that IM-RMs rely more heavily on superficial token-level cues. Consequently, they often generalize worse than EX-RMs under token-level distribution shifts, as well as in-distribution. Furthermore, we provide evidence against alternative hypotheses for the generalization gap. Most notably, we challenge the intuitive claim that IM-RMs struggle in tasks where generation is harder than verification because they can operate both as a verifier and a generator. Taken together, our results highlight that seemingly minor design choices can substantially impact the generalization behavior of reward models.
نماذج المكافأة هي مكونات حاسمة في خطوط أنابيب ما بعد التدريب والاستدلال لنماذج اللغة. أظهرت الأبحاث الحديثة أن كل نموذج لغة يحدد نموذج مكافأة ضمني (IM-RM) دون أي تغييرات معمارية. ومع ذلك، مقارنة بنماذج المكافأة الصريحة (EX-RM) التي تطبق رؤوساً خطية متخصصة على التمثيلات المخفية لنموذج اللغة، فإن IM-RM غالباً ما يتمتع بقدرة تعميم أسوأ، خاصة في الحالات خارج التوزيع. هذه الفجوة في التعميم محيّرة لأن EX-RM و IM-RM متطابقان تقريباً - يمكن تدريبهما باستخدام نفس البيانات ودالة الخسارة ونموذج اللغة، مع اختلاف طفيف فقط في كيفية حساب المكافأة. تحقق هذه الورقة بعمق في الأسباب الجذرية لهذه الفجوة، وتكتشف أن IM-RM يعتمد بشكل أكبر على الإشارات السطحية على مستوى الرموز، وبالتالي لا يعمم بنفس جودة EX-RM في كل من تحولات التوزيع على مستوى الرموز والحالات داخل التوزيع.
على الرغم من أن EX-RM و IM-RM متطابقان تقريباً معمارياً، لاحظت الأبحاث السابقة أن IM-RM غالباً ما يتمتع بقدرة تعميم أسوأ، خاصة في السيناريوهات خارج التوزيع. هذه الظاهرة محيّرة لأن كلا النموذجين يمكن تدريبهما بناءً على نفس نموذج اللغة، باستخدام نفس البيانات ودالة الخسارة، مع وجود فرق طفيف فقط في كيفية حساب المكافأة.
التحليل النظري: من خلال تحليل ديناميكيات التعلم، يكشف كيف أن IM-RM يعتمد بشكل أكبر على الإشارات على مستوى الرموز، بينما يعمم EX-RM بشكل أساسي من خلال التمثيلات المخفية
دحض الافتراضات البديهية: يثبت أن مشاكل التعميم في IM-RM لا تنشأ من فجوة التوليد-التحقق، وأن تعلم التحقق لا يتطلب تعلم التوليد
التحقق التجريبي: يتحقق من أن IM-RM يؤدي أداءً أسوأ في ظل تحولات التوزيع على مستوى الرموز، لكنه قد يؤدي أداءً مماثلاً أو أفضل في ظل تحولات المجال
الضمانات النظرية: يثبت في إعدادات مبسطة أن IM-RM لا يمكنه التعميم على الرموز غير المرئية، بينما يمكن لـ EX-RM التعميم بنجاح من خلال التمثيلات المخفية المنظمة بشكل جيد
يدرس دقة الترتيب لنماذج المكافأة على بيانات التفضيل، أي بالنظر إلى أزواج الطلب-الإجابة (x,y+,y-)، حيث y+ هي الإجابة المفضلة و y- هي الإجابة المرفوضة، يقيّم ما إذا كان نموذج المكافأة يمكنه ترتيب بشكل صحيح: r(x,y+) > r(x,y-)
الاكتشاف الرئيسي: يعتمد تغيير EX-RM فقط على التمثيلات المخفية، بينما يعتمد تغيير IM-RM على الرموز المحددة، حيث تعكس المعاملات ρ_{k,l} حالات تداخل الرموز.
النظرية 2: في إعدادات مبسطة (إجابات برمز واحد)، لا يمكن لـ IM-RM التعميم على الرموز غير المرئية (تبقى الدقة عند 0.5)، بينما يمكن لـ EX-RM التعميم من خلال فاصل الحد الأقصى للتمثيلات المخفية.
يركز البحث الحالي بشكل أساسي على حدود التعقيد العينة والخصائص النظرية لنماذج المكافأة، لكنه يركز بشكل أقل على تأثير طرق البارامترة المختلفة على التعميم.
يرتبط هذا البحث بمقارنات تحسين التفضيل المباشر (DPO) والتعلم المعزز من ملاحظات الإنسان (RLHF)، لكن التركيز مختلف: تركز هذه الورقة على قدرة تعميم نموذج المكافأة بدلاً من مقارنة خوارزميات التدريب.
تستشهد الورقة بعدد كبير من الأعمال ذات الصلة، بما في ذلك:
Ouyang et al. (2022): تدريب نماذج اللغة لاتباع التعليمات مع ملاحظات الإنسان
Rafailov et al. (2023): تحسين التفضيل المباشر: نموذج اللغة الخاص بك هو في الواقع نموذج مكافأة
Lin et al. (2024): حول القدرة المحدودة على التعميم لنموذج المكافأة الضمني الناجم عن تحسين التفضيل المباشر
Lambert et al. (2025): RewardBench: تقييم نماذج المكافأة لنمذجة اللغة
التقييم الشامل: هذه ورقة بحثية عالية الجودة تكشف بعمق عن الأسباب الجذرية لاختلافات قدرة التعميم بين أنواع نماذج المكافأة المختلفة من خلال تحليل نظري صارم والتحقق التجريبي الشامل. لا تتمتع الورقة بقيمة نظرية مهمة فحسب، بل توفر أيضاً توجيهاً قيماً للتطبيقات العملية. تتسم طريقة البحث بالدقة العلمية والاستنتاجات مقنعة، وهي مساهمة مهمة في مجال بحث نماذج المكافأة.