2025-11-18T13:37:13.426950

Why is Your Language Model a Poor Implicit Reward Model?

Razin, Lin, Yao et al.
Reward models are key to language model post-training and inference pipelines. Conveniently, recent work showed that every language model defines an implicit reward model (IM-RM), without requiring any architectural changes. However, such IM-RMs tend to generalize worse, especially out-of-distribution, compared to explicit reward models (EX-RMs) that apply a dedicated linear head over the hidden representations of a language model. The existence of a generalization gap is puzzling, as EX-RMs and IM-RMs are nearly identical. They can be trained using the same data, loss function, and language model, and differ only in how the reward is computed. Toward a fundamental understanding of the implicit biases underlying different reward model types, we investigate the root cause of this gap. Our main finding, backed by theory and experiments, is that IM-RMs rely more heavily on superficial token-level cues. Consequently, they often generalize worse than EX-RMs under token-level distribution shifts, as well as in-distribution. Furthermore, we provide evidence against alternative hypotheses for the generalization gap. Most notably, we challenge the intuitive claim that IM-RMs struggle in tasks where generation is harder than verification because they can operate both as a verifier and a generator. Taken together, our results highlight that seemingly minor design choices can substantially impact the generalization behavior of reward models.
academic

आपका भाषा मॉडल एक खराब अंतर्निहित पुरस्कार मॉडल क्यों है?

मूल जानकारी

  • पेपर ID: 2507.07981
  • शीर्षक: Why is Your Language Model a Poor Implicit Reward Model?
  • लेखक: Noam Razin†, Yong Lin†, Jiarui Yao‡, Sanjeev Arora† (†प्रिंसटन विश्वविद्यालय, ‡इलिनॉइस विश्वविद्यालय अर्बाना-शैम्पेन)
  • वर्गीकरण: cs.CL cs.AI cs.LG stat.ML
  • प्रकाशन समय/सम्मेलन: arXiv प्रीप्रिंट (16 अक्टूबर 2025 को अपडेट किया गया)
  • पेपर लिंक: https://arxiv.org/abs/2507.07981v2

सारांश

पुरस्कार मॉडल भाषा मॉडल के बाद-प्रशिक्षण और अनुमान पाइपलाइन के मुख्य घटक हैं। हाल के शोध से पता चलता है कि प्रत्येक भाषा मॉडल किसी भी आर्किटेक्चर परिवर्तन के बिना एक अंतर्निहित पुरस्कार मॉडल (IM-RM) को परिभाषित करता है। हालांकि, भाषा मॉडल के छिपे हुए प्रतिनिधित्व पर विशेष रैखिक सिर लागू करने वाले स्पष्ट पुरस्कार मॉडल (EX-RM) की तुलना में, IM-RM की सामान्यीकरण क्षमता अक्सर कमजोर होती है, विशेष रूप से वितरण से बाहर के मामलों में। यह सामान्यीकरण अंतराल भ्रामक है क्योंकि EX-RM और IM-RM लगभग समान हैं — उन्हें समान डेटा, हानि फ़ंक्शन और भाषा मॉडल का उपयोग करके प्रशिक्षित किया जा सकता है, केवल पुरस्कार गणना के तरीके में भिन्न हैं। यह पेपर इस अंतराल के मूल कारणों की गहन जांच करता है, यह पाते हुए कि IM-RM सतही टोकन-स्तरीय संकेतों पर अधिक निर्भर है, और इसलिए टोकन-स्तरीय वितरण बदलाव और वितरण-भीतर दोनों मामलों में EX-RM की तुलना में कम अच्छी तरह से सामान्यीकृत होता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

पुरस्कार मॉडल आधुनिक भाषा मॉडल पारिस्थितिकी तंत्र में एक मुख्य भूमिका निभाते हैं, जो सुदृढ़ीकरण सीखने के प्रशिक्षण, प्रत्यक्ष संरेखण एल्गोरिदम, अस्वीकृति नमूनाकरण, डेटा फ़िल्टरिंग और अनुमान समय विस्तार जैसे परिदृश्यों में व्यापक रूप से लागू होते हैं। वर्तमान में दो मुख्य प्रकार के पुरस्कार मॉडल मौजूद हैं:

  1. स्पष्ट पुरस्कार मॉडल (EX-RM): भाषा मॉडल के छिपे हुए प्रतिनिधित्व पर पुरस्कार की गणना करने के लिए एक रैखिक सिर लागू करता है
  2. अंतर्निहित पुरस्कार मॉडल (IM-RM): भाषा मॉडल की लॉग संभावना के माध्यम से अंतर्निहित रूप से पुरस्कार को परिभाषित करता है

अनुसंधान प्रेरणा

हालांकि EX-RM और IM-RM आर्किटेक्चर में लगभग समान हैं, पिछले शोध में देखा गया है कि IM-RM की सामान्यीकरण क्षमता अक्सर कमजोर होती है, विशेष रूप से वितरण से बाहर के परिदृश्यों में। यह घटना भ्रामक है क्योंकि दोनों मॉडल समान भाषा मॉडल के आधार पर, समान डेटा और हानि फ़ंक्शन का उपयोग करके प्रशिक्षित किए जा सकते हैं, केवल पुरस्कार गणना के तरीके में मामूली अंतर के साथ।

महत्व

विभिन्न पुरस्कार मॉडल प्रकारों की अंतर्निहित पूर्वाग्रह को समझना निम्नलिखित के लिए महत्वपूर्ण है:

  • उपयुक्त पुरस्कार मॉडल आर्किटेक्चर का चयन
  • पुरस्कार मॉडल की मजबूती में सुधार
  • भाषा मॉडल की बाद-प्रशिक्षण प्रक्रिया को अनुकूलित करना

मुख्य योगदान

  1. सैद्धांतिक विश्लेषण: सीखने की गतिशीलता विश्लेषण के माध्यम से, यह पता चलता है कि IM-RM टोकन-स्तरीय संकेतों पर अधिक निर्भर है, जबकि EX-RM मुख्य रूप से छिपे हुए प्रतिनिधित्व के माध्यम से सामान्यीकृत होता है
  2. सहज धारणा का खंडन: यह साबित करता है कि IM-RM की सामान्यीकरण समस्या उत्पादन-सत्यापन अंतराल से नहीं आती है, सत्यापन सीखने के लिए उत्पादन सीखने की आवश्यकता नहीं है
  3. अनुभवजन्य सत्यापन: नियंत्रित प्रयोगों और वास्तविक परिदृश्यों में सत्यापित करता है कि IM-RM टोकन-स्तरीय वितरण बदलाव के तहत खराब प्रदर्शन करता है, लेकिन डोमेन बदलाव के तहत तुलनीय या बेहतर प्रदर्शन कर सकता है
  4. सैद्धांतिक गारंटी: सरलीकृत सेटिंग में साबित करता है कि IM-RM अदेखे टोकन के लिए सामान्यीकृत नहीं हो सकता, जबकि EX-RM अच्छी तरह से संरचित छिपे हुए प्रतिनिधित्व के माध्यम से सफलतापूर्वक सामान्यीकृत हो सकता है

विधि विवरण

कार्य परिभाषा

पसंद डेटा पर पुरस्कार मॉडल की रैंकिंग सटीकता का अध्ययन करता है, अर्थात् दिए गए प्रॉम्प्ट-उत्तर जोड़ी (x,y+,y-) को देखते हुए, जहां y+ पसंदीदा उत्तर है, y- अस्वीकृत उत्तर है, यह मूल्यांकन करता है कि क्या पुरस्कार मॉडल सही ढंग से रैंक कर सकता है: r(x,y+) > r(x,y-)।

मॉडल आर्किटेक्चर

स्पष्ट पुरस्कार मॉडल (EX-RM)

r^EX_θ(x,y) = ⟨u, h_{x,y}⟩

जहां u रैखिक सिर पैरामीटर है, h_{x,y} भाषा मॉडल द्वारा प्रॉम्प्ट-उत्तर जोड़ी (x,y) के लिए उत्पादित छिपा हुआ प्रतिनिधित्व है।

अंतर्निहित पुरस्कार मॉडल (IM-RM)

r^IM_θ(x,y) = β ln(π_θ(y|x)/π_ref(y|x))

जहां β एक निश्चित गुणांक है, π_ref संदर्भ वितरण है (आमतौर पर प्रारंभिक भाषा मॉडल)।

तकनीकी नवाचार बिंदु

1. सीखने की गतिशीलता विश्लेषण

ग्रेडिएंट अपडेट पुरस्कार आवंटन को कैसे प्रभावित करते हैं, इसका विश्लेषण करके खोज:

EX-RM गतिशीलता:

Δr^EX_θ(x̄,ȳ) = ⟨h_{x̄,ȳ}, h_{x,y+} - h_{x,y-}⟩ · ηg(θ_EX)

IM-RM गतिशीलता:

Δr^IM_θ(x̄,ȳ) = (∑∑ ρ_{k,l}(y+)⟨h_{x̄,ȳ<k}, h_{x,y+<l}⟩ - ∑∑ ρ_{k,l}(y-)⟨h_{x̄,ȳ<k}, h_{x,y-<l}⟩) · ηg(θ_IM)β²

मुख्य खोज: EX-RM का परिवर्तन केवल छिपे हुए प्रतिनिधित्व पर निर्भर है, जबकि IM-RM का परिवर्तन विशिष्ट टोकन पर निर्भर है, गुणांक ρ_{k,l} टोकन ओवरलैप को दर्शाता है।

2. सामान्यीकरण अंतराल सिद्धांत

प्रमेय 2: सरलीकृत सेटिंग में (एकल-टोकन उत्तर), IM-RM अदेखे टोकन के लिए सामान्यीकृत नहीं हो सकता (सटीकता 0.5 पर रहती है), जबकि EX-RM छिपे हुए प्रतिनिधित्व के अधिकतम मार्जिन विभाजक के माध्यम से सामान्यीकृत हो सकता है।

प्रयोगात्मक सेटअप

डेटासेट

  1. नियंत्रित प्रयोग:
    • Persona डेटासेट: सहमति/असहमति कार्य
    • हैमिल्टन सर्किट सत्यापन: सिंथेटिक ग्राफ सिद्धांत कार्य
  2. वास्तविक परिदृश्य:
    • UltraFeedback: सामान्य संवाद डेटा
    • RewardMATH: गणितीय तर्क डेटा
    • RewardBench: बहु-डोमेन मूल्यांकन बेंचमार्क

मूल्यांकन मेट्रिक्स

  • सटीकता: पसंद डेटा पर रैंकिंग सटीकता
  • पूर्ण पुरस्कार मार्जिन: |r(x,y+) - r(x,y-)| का सामान्यीकृत मान

तुलना विधियां

  • स्पष्ट पुरस्कार मॉडल (EX-RM)
  • अंतर्निहित पुरस्कार मॉडल (IM-RM)
  • स्पष्ट उत्पादन पुरस्कार मॉडल (EX-GRM)

कार्यान्वयन विवरण

  • भाषा मॉडल: Pythia, Gemma-2, Qwen-2.5, Llama-3 श्रृंखला (1B-8B पैरामीटर)
  • अनुकूलक: Adam
  • सीखने की दर: 1e-6
  • β गुणांक: 0.01 (IM-RM के लिए)
  • हानि फ़ंक्शन: Bradley-Terry लॉग संभावना हानि

प्रयोगात्मक परिणाम

मुख्य परिणाम

1. टोकन-स्तरीय वितरण बदलाव

  • UltraFeedback प्रशिक्षण: EX-RM टोकन-स्तरीय बदलाव में 83.4% जीत दर, IM-RM 16.6% जीत दर
  • RewardMATH प्रशिक्षण: EX-RM टोकन-स्तरीय बदलाव में 100% जीत दर, IM-RM 0% जीत दर

2. डोमेन बदलाव

  • UltraFeedback प्रशिक्षण: डोमेन बदलाव में, IM-RM 66.7% जीत दर, EX-RM 33.3% जीत दर
  • RewardMATH प्रशिक्षण: डोमेन बदलाव में, IM-RM 33.4% जीत दर, EX-RM 66.6% जीत दर

3. नियंत्रित प्रयोग परिणाम

Persona डेटासेट के पुनर्लेखन कार्य में:

  • EX-RM मूल और पुनर्लेखित दोनों उत्तरों पर 100% सटीकता प्राप्त करता है
  • IM-RM मूल उत्तरों पर 100% सटीकता, लेकिन पुनर्लेखित उत्तरों पर केवल 2.2% सटीकता

विलोपन प्रयोग

1. उत्पादन-सत्यापन परिकल्पना सत्यापन

हैमिल्टन सर्किट प्रयोग दिखाता है:

  • IM-RM प्रशिक्षण सटीकता: 100%, परीक्षण सटीकता: 99.3%
  • IM-RM सही उत्पादन संख्या: 0 (कोई भी सही हैमिल्टन सर्किट उत्पादित नहीं कर सके)
  • यह साबित करता है कि सत्यापन सीखने के लिए उत्पादन सीखने की आवश्यकता नहीं है

2. वैकल्पिक परिकल्पना परीक्षण

  • सभी छिपे हुए प्रतिनिधित्व पर आधारित EX-RM वेरिएंट का परीक्षण किया
  • संदर्भ वितरण के बिना IM-RM वेरिएंट का परीक्षण किया
  • परिणाम दिखाते हैं कि सामान्यीकरण अंतराल अभी भी मौजूद है

प्रयोगात्मक निष्कर्ष

  1. टोकन संवेदनशीलता: IM-RM सतही टोकन परिवर्तन के प्रति अत्यंत संवेदनशील है, भले ही शब्दार्थ समान हो
  2. छिपा हुआ प्रतिनिधित्व सामान्यीकरण: EX-RM शब्दार्थ से समृद्ध छिपे हुए प्रतिनिधित्व के माध्यम से सफलतापूर्वक सामान्यीकृत हो सकता है
  3. पुरस्कार मार्जिन: EX-RM लगातार उच्च पूर्ण पुरस्कार मार्जिन उत्पादित करता है, जो सुदृढ़ीकरण सीखने के अनुकूलन के लिए अनुकूल है
  4. डोमेन अनुकूलन: IM-RM कुछ डोमेन बदलाव परिदृश्यों में बेहतर प्रदर्शन करता है

संबंधित कार्य

पुरस्कार मॉडल विश्लेषण

मौजूदा शोध मुख्य रूप से नमूना जटिलता सीमाओं और पुरस्कार मॉडल के सैद्धांतिक गुणों पर ध्यान केंद्रित करता है, लेकिन विभिन्न पैरामीटराइजेशन तरीकों के सामान्यीकरण पर प्रभाव पर कम ध्यान देता है।

DPO बनाम RLHF

यह अनुसंधान DPO (Direct Preference Optimization) और RLHF (Reinforcement Learning from Human Feedback) की तुलना से संबंधित है, लेकिन फोकस अलग है: यह पेपर प्रशिक्षण एल्गोरिदम की तुलना के बजाय पुरस्कार मॉडल की सामान्यीकरण क्षमता पर केंद्रित है।

तंत्रिका नेटवर्क सीखने की गतिशीलता

अंतर्निहित पूर्वाग्रह साहित्य से ग्रेडिएंट प्रशिक्षण प्रक्षेपवक्र का विश्लेषण करने की विधियों को उधार लेता है, लेकिन पुरस्कार मॉडल के विशिष्ट परिदृश्य में लागू करता है।

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. मूल कारण: IM-RM की सामान्यीकरण समस्या सतही टोकन-स्तरीय संकेतों पर अत्यधिक निर्भरता से आती है, न कि उत्पादन-सत्यापन अंतराल से
  2. डिजाइन प्रभाव: प्रतीत होने वाली मामूली डिजाइन पसंद (पुरस्कार की गणना कैसे करें) सामान्यीकरण व्यवहार पर महत्वपूर्ण प्रभाव डाल सकती है
  3. आवेदन मार्गदर्शन: टोकन-स्तरीय वितरण बदलाव परिदृश्यों में EX-RM को प्राथमिकता दें, डोमेन बदलाव परिदृश्यों में IM-RM पर विचार करें

सीमाएं

  1. सैद्धांतिक धारणाएं: सैद्धांतिक विश्लेषण निश्चित छिपे हुए प्रतिनिधित्व और एकल-टोकन उत्तर की सरलीकृत धारणाओं पर आधारित है
  2. मूल्यांकन मेट्रिक्स: मुख्य रूप से सटीकता पर ध्यान केंद्रित करता है, पुरस्कार मॉडल प्रभावशीलता के सभी आयामों को कवर नहीं करता है
  3. मॉडल रेंज: मुख्य रूप से तीन प्रकार के पुरस्कार मॉडल का अध्ययन किया, सभी संभावित वेरिएंट को कवर नहीं किया

भविष्य की दिशाएं

  1. सैद्धांतिक विस्तार: वर्तमान सैद्धांतिक विश्लेषण की प्रतिबंधात्मक धारणाओं को शिथिल करना
  2. कारक अन्वेषण: विभिन्न पुरस्कार मॉडल प्रकारों की सामान्यीकरण को प्रभावित करने वाले अन्य कारकों का अध्ययन करना
  3. मूल्यांकन विस्तार: पुरस्कार मॉडल मूल्यांकन के लिए अधिक व्यापक मानदंड विकसित करना
  4. नई आर्किटेक्चर: अन्य पुरस्कार मॉडल प्रकारों की अंतर्निहित पूर्वाग्रह का अन्वेषण करना

गहन मूल्यांकन

शक्तियां

  1. सैद्धांतिक गहराई: सीखने की गतिशीलता के दृष्टिकोण से सामान्यीकरण अंतराल की व्याख्या के लिए कठोर गणितीय विश्लेषण प्रदान करता है
  2. व्यापक प्रयोग: नियंत्रित प्रयोगों और वास्तविक परिदृश्यों को जोड़ता है, कई भाषा मॉडल और डेटासेट को कवर करता है
  3. परिकल्पना परीक्षण: सहज लेकिन गलत व्याख्याओं को व्यवस्थित रूप से परीक्षण और खंडन करता है
  4. व्यावहारिक मूल्य: वास्तविक अनुप्रयोगों में पुरस्कार मॉडल चयन के लिए स्पष्ट मार्गदर्शन प्रदान करता है

कमियां

  1. धारणा सीमाएं: सैद्धांतिक विश्लेषण की सरलीकृत धारणाएं निष्कर्षों की सार्वभौमिकता को सीमित कर सकती हैं
  2. तंत्र समझ: डोमेन बदलाव के तहत IM-RM के बेहतर प्रदर्शन के तंत्र की गहन समझ की कमी
  3. स्केल सत्यापन: प्रयोग मुख्य रूप से मध्यम आकार के मॉडल पर किए गए, बड़े पैमाने के मॉडल के निष्कर्षों को आगे सत्यापन की आवश्यकता है

प्रभाव

  1. सैद्धांतिक योगदान: विभिन्न पुरस्कार मॉडल प्रकारों के व्यवहार को समझने के लिए महत्वपूर्ण सैद्धांतिक आधार प्रदान करता है
  2. व्यावहारिक मार्गदर्शन: RLHF और DPO जैसी तकनीकों के अनुप्रयोग के लिए सीधा मार्गदर्शन प्रदान करता है
  3. अनुसंधान प्रेरणा: पुरस्कार मॉडल की अंतर्निहित पूर्वाग्रह के आगे के अनुसंधान के लिए नई दिशाएं खोलता है

लागू परिदृश्य

  1. उच्च गुणवत्ता आवश्यकताएं: वितरण बदलाव के तहत स्थिर प्रदर्शन बनाए रखने की आवश्यकता वाले अनुप्रयोग
  2. टोकन-संवेदनशील कार्य: पुनर्लेखन, अनुवाद जैसे टोकन-स्तरीय परिवर्तन वाले परिदृश्य
  3. मजबूती महत्वपूर्ण: पुरस्कार मॉडल मजबूती के लिए सख्त आवश्यकताओं वाली प्रणालियां

संदर्भ

पेपर बड़ी संख्या में संबंधित कार्यों का हवाला देता है, जिनमें शामिल हैं:

  • Ouyang et al. (2022): मानव प्रतिक्रिया से निर्देशों का पालन करने के लिए भाषा मॉडल प्रशिक्षण
  • Rafailov et al. (2023): प्रत्यक्ष प्राथमिकता अनुकूलन: आपका भाषा मॉडल गुप्त रूप से एक पुरस्कार मॉडल है
  • Lin et al. (2024): प्रत्यक्ष प्राथमिकता अनुकूलन द्वारा प्रेरित अंतर्निहित पुरस्कार मॉडल की सीमित सामान्यीकरण क्षमता पर
  • Lambert et al. (2025): Rewardbench: भाषा मॉडलिंग के लिए पुरस्कार मॉडल का मूल्यांकन

समग्र मूल्यांकन: यह एक उच्च गुणवत्ता वाला शोध पत्र है जो कठोर सैद्धांतिक विश्लेषण और व्यापक प्रयोगात्मक सत्यापन के माध्यम से विभिन्न पुरस्कार मॉडल प्रकारों की सामान्यीकरण क्षमता में अंतर के मूल कारणों को गहराई से प्रकट करता है। पेपर न केवल महत्वपूर्ण सैद्धांतिक मूल्य रखता है, बल्कि वास्तविक अनुप्रयोगों के लिए भी मूल्यवान मार्गदर्शन प्रदान करता है। अनुसंधान विधि वैज्ञानिक रूप से कठोर है, निष्कर्ष विश्वसनीय हैं, और यह पुरस्कार मॉडल अनुसंधान क्षेत्र में एक महत्वपूर्ण योगदान है।