2025-11-11T12:43:08.939159

Towards Hierarchical Multi-Step Reward Models for Enhanced Reasoning in Large Language Models

Wang, Jiang, He et al.
Recent studies show that Large Language Models (LLMs) achieve strong reasoning capabilities through supervised fine-tuning or reinforcement learning. However, a key approach, the Process Reward Model (PRM), suffers from reward hacking, making it unreliable in identifying the best intermediate step. In addition, the cost of annotating reasoning processes for reward modeling is high, making large-scale collection of high-quality data challenging. To address this, we propose a novel reward model approach called the Hierarchical Reward Model (HRM), which evaluates both individual and consecutive reasoning steps at both fine-grained and coarse-grained levels. HRM excels at assessing multi-step reasoning coherence, especially when flawed steps are later corrected through self-reflection. To further reduce the cost of generating training data, we introduce a lightweight and effective data augmentation strategy called Hierarchical Node Compression (HNC), which merges two consecutive reasoning steps into one within the tree structure. By applying HNC to MCTS-generated reasoning trajectories, we enhance the diversity and robustness of HRM training data while introducing controlled noise with minimal computational overhead. Empirical results on the PRM800K dataset show that HRM, together with HNC, provides more stable and reliable evaluations than PRM. Furthermore, cross-domain evaluations on the MATH500 and GSM8K datasets demonstrate HRM's strong generalization and robustness across a variety of reasoning tasks.
academic

बड़े भाषा मॉडल में बेहतर तर्क के लिए पदानुक्रमित बहु-चरण पुरस्कार मॉडल की ओर

मूल जानकारी

  • पेपर ID: 2503.13551
  • शीर्षक: Towards Hierarchical Multi-Step Reward Models for Enhanced Reasoning in Large Language Models
  • लेखक: Teng Wang, Zhangyi Jiang, Zhenqi He, Hailei Gong, Shenyang Tong, Wenhan Yang, Zeyu Li, Yanan Zheng, Zifan He, Zewen Ye, Shengjie Ma, Jianping Zhang
  • वर्गीकरण: cs.CL cs.AI
  • प्रकाशन समय/सम्मेलन: arXiv प्रीप्रिंट (अक्टूबर 2025)
  • पेपर लिंक: https://arxiv.org/abs/2503.13551

सारांश

हाल के अनुसंधान से पता चलता है कि बड़े भाषा मॉडल (LLMs) पर्यवेक्षित सूक्ष्म-ट्यूनिंग या सुदृढ़ीकरण सीखने के माध्यम से शक्तिशाली तर्क क्षमताएं प्राप्त कर सकते हैं। हालांकि, प्रक्रिया पुरस्कार मॉडल (PRM) जैसी महत्वपूर्ण विधियों में पुरस्कार हैकिंग की समस्या है, जो इन्हें सर्वोत्तम मध्यवर्ती चरणों की पहचान करने में अविश्वसनीय बनाती है। इसके अलावा, पुरस्कार मॉडलिंग के लिए तर्क प्रक्रियाओं को एनोटेट करने की लागत अधिक है, जिससे बड़े पैमाने पर उच्च-गुणवत्ता वाले डेटा एकत्र करना चुनौतीपूर्ण है। इन समस्याओं को हल करने के लिए, यह पेपर एक नोवल पुरस्कार मॉडल दृष्टिकोण प्रस्तावित करता है—पदानुक्रमित पुरस्कार मॉडल (HRM), जो सूक्ष्म-दानेदार और मोटे-दानेदार स्तरों पर व्यक्तिगत और क्रमिक तर्क चरणों का मूल्यांकन करता है। HRM बहु-चरण तर्क की सुसंगतता का मूल्यांकन करने में उत्कृष्ट है, विशेष रूप से जब त्रुटिपूर्ण चरणों को बाद में स्व-प्रतिबिंब के माध्यम से सुधारा जाता है। प्रशिक्षण डेटा उत्पन्न करने की लागत को और कम करने के लिए, यह पेपर एक हल्के और प्रभावी डेटा संवर्धन रणनीति—पदानुक्रमित नोड संपीड़न (HNC) का परिचय देता है, जो वृक्ष संरचना में दो क्रमिक तर्क चरणों को एक में मिलाता है। MCTS द्वारा उत्पन्न तर्क प्रक्षेपवक्र पर HNC लागू करके, हम न्यूनतम कम्प्यूटेशनल ओवरहेड के साथ HRM प्रशिक्षण डेटा की विविधता और मजबूती को बढ़ाते हैं, साथ ही नियंत्रित शोर का परिचय देते हैं। PRM800K डेटासेट पर प्रायोगिक परिणाम दर्शाते हैं कि HRM और HNC का संयोजन PRM की तुलना में अधिक स्थिर और विश्वसनीय मूल्यांकन प्रदान करता है। इसके अलावा, MATH500 और GSM8K डेटासेट पर क्रॉस-डोमेन मूल्यांकन विभिन्न तर्क कार्यों में HRM की मजबूत सामान्यीकरण क्षमता और मजबूती को प्रदर्शित करता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

यह अनुसंधान बड़े भाषा मॉडल में गणितीय तर्क कार्यों की दो महत्वपूर्ण समस्याओं को संबोधित करता है:

  1. पुरस्कार हैकिंग समस्या: मौजूदा प्रक्रिया पुरस्कार मॉडल (PRM) आसानी से मॉडल द्वारा उपयोग किए जा सकते हैं, मॉडल वास्तविक तर्क में सुधार के बजाय पुरस्कार संकेत का लाभ उठाकर उच्च स्कोर प्राप्त कर सकते हैं, जो जटिल कार्यों में विश्वसनीयता को नुकसान पहुंचाता है।
  2. उच्च एनोटेशन लागत: PRM को तर्क चरणों के महंगे बड़े पैमाने पर मानव एनोटेशन की आवश्यकता होती है, जो इसकी विश्वसनीयता और स्केलेबिलिटी को सीमित करता है।

अनुसंधान का महत्व

गणितीय तर्क LLM की तर्क क्षमताओं का मूल्यांकन करने के लिए एक महत्वपूर्ण कार्य है, मौजूदा विधियां जैसे चेन-ऑफ-थॉट (CoT) और थॉट ट्री (ToT) हालांकि प्रदर्शन में सुधार करते हैं, फिर भी महत्वपूर्ण सीमाएं हैं:

  • CoT मॉडल में मध्यवर्ती तर्क त्रुटियों का पता लगाने और सुधार करने की कोई तंत्र नहीं है
  • ToT विधियां प्रत्येक मध्यवर्ती चरण को सत्यापित नहीं कर सकती या सर्वोत्तम तर्क प्रक्षेपवक्र की पुनः प्राप्ति की गारंटी नहीं दे सकती

मौजूदा विधियों की सीमाएं

  1. परिणाम पुरस्कार मॉडल (ORM): विलंबित प्रतिक्रिया और क्रेडिट असाइनमेंट समस्याओं से ग्रस्त है, यह निर्धारित करना मुश्किल है कि कौन से तर्क चरण अंतिम उत्तर में योगदान देते हैं
  2. प्रक्रिया पुरस्कार मॉडल (PRM): हालांकि अधिक सूक्ष्म-दानेदार पर्यवेक्षण प्रदान करता है, लेकिन पुरस्कार हैकिंग के लिए अतिसंवेदनशील है, और एनोटेशन लागत अधिक है

अनुसंधान प्रेरणा

उपरोक्त समस्याओं के आधार पर, यह पेपर PRM की सीमाओं को कम करने के लिए पदानुक्रमित पुरस्कार मॉडल (HRM) प्रस्तावित करता है, प्रशिक्षण समय में सूक्ष्म-दानेदार (एकल-चरण) और मोटे-दानेदार (क्रमिक बहु-चरण) स्तरों पर पदानुक्रमित पर्यवेक्षण संकेतों को संयोजित करके, HRM को तर्क में स्थानीय और वैश्विक सुसंगतता को पकड़ने में सक्षम बनाता है।

मुख्य योगदान

  1. पदानुक्रमित पुरस्कार मॉडल (HRM) प्रस्तावित करना: एकल-चरण और बहु-चरण स्तरों पर प्रशिक्षण डेटा में पदानुक्रमित पर्यवेक्षण का उपयोग करके, बहु-चरण तर्क में सुसंगतता और आत्म-सुधार क्षमता को बढ़ावा देना, PRM800K डेटासेट पर HRM की मजबूती को सत्यापित करना।
  2. पदानुक्रमित नोड संपीड़न (HNC) का परिचय देना: एक हल्के MCTS डेटा संवर्धन विधि, न्यूनतम कम्प्यूटेशनल लागत के साथ HRM प्रशिक्षण डेटा की विविधता और मजबूती को काफी हद तक बढ़ाना।
  3. नीति मॉडल प्रदर्शन को बढ़ाना: MCTS द्वारा फ़िल्टर किए गए उच्च-गुणवत्ता वाले तर्क प्रक्षेपवक्र पर सूक्ष्म-ट्यूनिंग के माध्यम से, तर्क प्रदर्शन को और बढ़ाना।
  4. सामान्यीकरण क्षमता को सत्यापित करना: GSM8K और MATH500 डेटासेट पर HRM की तुलना में PRM की बेहतर तर्क सुसंगतता और सामान्यीकरण क्षमता का प्रदर्शन करना।

विधि विवरण

कार्य परिभाषा

यह पेपर गणितीय तर्क कार्यों पर केंद्रित है, लक्ष्य बहु-चरण गणितीय समस्या समाधान में LLM के प्रदर्शन का मूल्यांकन और सुधार करना है। इनपुट गणितीय समस्या है, आउटपुट चरण-दर-चरण तर्क प्रक्रिया और अंतिम उत्तर है, बाधा यह है कि तर्क चरणों की सही्ता और सुसंगतता सुनिश्चित करने की आवश्यकता है।

मॉडल आर्किटेक्चर

पदानुक्रमित पुरस्कार मॉडल (HRM)

HRM का मूल विचार प्रशिक्षण समय में पदानुक्रमित पर्यवेक्षण को अपनाना है, व्यक्तिगत और क्रमिक तर्क चरणों का मूल्यांकन करना:

प्रशिक्षण डेटा निर्माण:

  • PRM प्रशिक्षण डेटा: DPRM={(si,R(si))1iN}D_{PRM} = \{(s_i, R(s_i)) | 1 \leq i \leq N\}
  • HRM प्रशिक्षण डेटा: DHRM=DPRM{(si+si+1,R(si+si+1))1i<N}D_{HRM} = D_{PRM} \cup \{(s_i + s_{i+1}, R(s_i + s_{i+1})) | 1 \leq i < N\}

जहां sis_i ii-वें तर्क चरण को दर्शाता है, R()R(\cdot) पुरस्कार फ़ंक्शन है, NN तर्क अनुक्रम के कुल चरणों की संख्या है।

पदानुक्रमित पर्यवेक्षण उद्देश्य:

  1. सूक्ष्म-दानेदार और मोटे-दानेदार सुसंगतता को पकड़ना
  2. आत्म-प्रतिबिंब और त्रुटि सुधार को लागू करना

अनुमान चरण: हालांकि प्रशिक्षण समय में मिश्रित तर्क चरणों का उपयोग किया जाता है, HRM अनुमान समय में अभी भी चरण-दर-चरण मूल्यांकन करता है, केवल वर्तमान चरण sis_i के आधार पर पुरस्कार असाइन करता है, PRM के समान।

पदानुक्रमित नोड संपीड़न (HNC)

HNC एक डेटा संवर्धन विधि है, MCTS वृक्ष संरचना में क्रमिक नोड्स को मिलाकर प्रशिक्षण डेटा विविधता बढ़ाता है:

मुख्य तंत्र:

  1. दो क्रमिक नोड्स को यादृच्छिक रूप से मिलाना, प्रत्येक एक तर्क चरण के अनुरूप
  2. नोड्स के बीच सीधे कनेक्शन को हटाना
  3. कनेक्शन संबंधों को पुनः निर्देशित करना

शोर परिचय: जब एक यादृच्छिक नोड को हटाया जाता है, तो शेष उप-नोड्स का वजन 1N\frac{1}{N} से 1N1\frac{1}{N-1} में पुनः वितरित किया जाता है, विचरण σ2N\frac{\sigma^2}{N} से σ2N1\frac{\sigma^2}{N-1} तक बढ़ता है, नियंत्रित शोर का परिचय देता है।

तकनीकी नवाचार बिंदु

  1. पदानुक्रमित पर्यवेक्षण डिजाइन: PRM केवल व्यक्तिगत चरणों का मूल्यांकन करने के विपरीत, HRM बहु-चरण के बीच पारस्परिक क्रिया पर विचार करता है, बाद के चरणों द्वारा प्रारंभिक त्रुटियों के सुधार की पहचान कर सकता है।
  2. आत्म-सुधार क्षमता: पारंपरिक PRM त्रुटिपूर्ण एकल चरणों को दंडित करता है बिना बाद के तर्क में संभावित सुधार पर विचार किए, HRM बहु-चरण के बीच तर्क सुसंगतता का मूल्यांकन करता है।
  3. कम लागत डेटा संवर्धन: HNC अत्यंत कम कम्प्यूटेशनल ओवरहेड (लगभग 30 मिनट CPU समय) के साथ डेटा संवर्धन को लागू करता है, MCTS के 2457 A100 GPU घंटों की तुलना में लगभग नगण्य।

प्रायोगिक सेटअप

डेटासेट

  1. PRM800K: मैनुअल रूप से एनोटेट किए गए तर्क प्रक्षेपवक्र शामिल हैं, ORM, PRM और HRM को प्रशिक्षित करने के लिए आधार के रूप में कार्य करता है
  2. MATH500: हाई स्कूल और विश्वविद्यालय स्तर की गणितीय समस्याएं, सामान्यीकरण क्षमता का मूल्यांकन करने के लिए
  3. GSM8K: प्राथमिक गणित अनुप्रयोग समस्याएं, 1000 परीक्षण समस्याओं को शामिल करता है

मूल्यांकन मेट्रिक्स

  • सटीकता: Best-of-N रणनीति के तहत समस्या समाधान सटीकता
  • स्थिरता: N बढ़ने पर प्रदर्शन की स्थिरता की डिग्री
  • मजबूती: विभिन्न नीति मॉडल और डेटासेट में सुसंगत प्रदर्शन

तुलना विधियां

  • ORM (Outcome Reward Model): संपूर्ण तर्क श्रृंखला के आधार पर मूल्यांकन
  • PRM (Process Reward Model): तर्क प्रक्रिया का चरण-दर-चरण मूल्यांकन
  • HRM (Hierarchical Reward Model): इस पेपर द्वारा प्रस्तावित पदानुक्रमित पुरस्कार मॉडल

कार्यान्वयन विवरण

  • पुरस्कार मॉडल: Qwen2.5-1.5B-Math पर आधारित सूक्ष्म-ट्यूनिंग
  • नीति मॉडल: Qwen2.5-72B-Math-Instruct, DeepSeek-Math-7B, Qwen2.5-7B-Math-Instruct
  • MCTS कॉन्फ़िगरेशन: प्रत्येक पैरेंट नोड के लिए 5-6 चाइल्ड नोड्स, अधिकतम वृक्ष गहराई 7
  • प्रशिक्षण अनुकूलन: FlashAttention, DeepSpeed और मिश्रित परिशुद्धता प्रशिक्षण का उपयोग

प्रायोगिक परिणाम

मुख्य परिणाम

PRM800K डेटासेट पर Best-of-N प्रदर्शन:

N2481624
ORM0.6220.6770.6550.6550.633
PRM0.7000.6440.6110.5880.577
HRM0.7220.7110.7440.8000.800

मुख्य निष्कर्ष:

  • HRM N बढ़ने पर स्थिर प्रदर्शन बनाए रखता है, सटीकता 80% पर स्थिर रहती है
  • ORM और PRM महत्वपूर्ण उतार-चढ़ाव दिखाते हैं, N वृद्धि के साथ सटीकता में गिरावट
  • HRM सर्वोत्तम स्थिरता और विश्वसनीयता प्रदर्शित करता है

क्रॉस-डोमेन सामान्यीकरण प्रयोग

GSM8K और MATH500 डेटासेट परिणाम:

डेटासेटविधिN=2N=64N=256N=512
GSM8KPRM0.7840.9050.9270.918
GSM8KHRM0.7840.9070.9300.926
MATH500PRM0.4680.6560.6860.688
MATH500HRM0.4900.7420.7400.736

महत्वपूर्ण अवलोकन:

  • जटिल MATH500 डेटासेट पर, HRM PRM से काफी बेहतर है
  • अपेक्षाकृत सरल GSM8K पर, अंतर छोटा है लेकिन HRM अभी भी थोड़ा बेहतर है
  • HRM अधिक मजबूत क्रॉस-डोमेन मजबूती प्रदर्शित करता है

विलोपन प्रयोग

विभिन्न नीति मॉडल की तुलना: MCTS द्वारा उत्पन्न स्वचालित एनोटेट किए गए डेटा पर प्रशिक्षित HRM कई नीति मॉडल पर PRM की तुलना में बेहतर स्थिरता प्रदर्शित करता है:

  • DeepSeek-Math-7B
  • Qwen2.5-72B-Math
  • Qwen2.5-7B-Math

स्व-प्रशिक्षण प्रयोग

KL विचलन नियमितकरण के साथ पर्यवेक्षित सूक्ष्म-ट्यूनिंग के माध्यम से नीति मॉडल प्रदर्शन को और बढ़ाया गया, उच्च-गुणवत्ता वाले तर्क डेटा के मूल्य को सत्यापित किया।

संबंधित कार्य

RLHF फ्रेमवर्क

यह पेपर मानव प्रतिक्रिया से सुदृढ़ीकरण सीखने (RLHF) फ्रेमवर्क पर आधारित है, जो पुरस्कार मॉडल के माध्यम से उच्च-गुणवत्ता और निम्न-गुणवत्ता प्रतिक्रियाओं को अलग करता है, और PPO का उपयोग करके LLM को अनुकूलित करता है।

पुरस्कार मॉडल वर्गीकरण

  1. ORM: संपूर्ण आउटपुट के आधार पर पुरस्कार असाइन करता है, विलंबित प्रतिक्रिया और क्रेडिट असाइनमेंट समस्याओं से ग्रस्त है
  2. PRM: मध्यवर्ती तर्क चरणों का मूल्यांकन करता है, अधिक सूक्ष्म-दानेदार पर्यवेक्षण प्रदान करता है, लेकिन पुरस्कार हैकिंग समस्या से ग्रस्त है

तर्क में MCTS का अनुप्रयोग

MCTS को तर्क प्रक्षेपवक्र को स्वायत्त रूप से एनोटेट करने की विधि के रूप में प्रस्तावित किया गया है, लेकिन कम्प्यूटेशनल लागत खोज वृक्ष की गहराई और चौड़ाई के साथ घातीय रूप से बढ़ती है।

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. HRM ने PRM की पुरस्कार हैकिंग समस्या को प्रभावी ढंग से कम किया है, पदानुक्रमित पर्यवेक्षण के माध्यम से अधिक स्थिर और विश्वसनीय मूल्यांकन प्रदान करता है
  2. HNC एक कुशल डेटा संवर्धन रणनीति है, अत्यंत कम लागत के साथ प्रशिक्षण डेटा गुणवत्ता को काफी हद तक बढ़ाता है
  3. HRM उत्कृष्ट सामान्यीकरण क्षमता प्रदर्शित करता है, कई गणितीय तर्क डेटासेट पर लगातार PRM से बेहतर है

सीमाएं

  1. मिश्रित चरण सीमा: वर्तमान में केवल दो क्रमिक चरणों को मिलाता है, अधिक चरणों को मिलाने से लेबल संयोजन जटिलता में तेजी से वृद्धि होगी
  2. डोमेन सीमा: मुख्य रूप से गणितीय तर्क पर केंद्रित है, अन्य संरचित तर्क डोमेन में प्रयोज्यता को आगे सत्यापित करने की आवश्यकता है
  3. कम्प्यूटेशनल बाधा: MCTS कॉन्फ़िगरेशन कम्प्यूटेशनल संसाधन सीमाओं से प्रभावित है, जो उत्पन्न डेटा की विविधता को प्रभावित कर सकता है

भविष्य की दिशा

  1. अधिक जटिल पदानुक्रमित संरचना डिजाइन की खोज करना
  2. अन्य संरचित तर्क कार्यों तक विस्तार करना
  3. कम्प्यूटेशनल लागत को कम करने के लिए अधिक कुशल खोज एल्गोरिदम के साथ संयोजन करना
  4. बहु-चरण मिश्रण को संभालने के लिए अधिक परिष्कृत लेबल रणनीति का अनुसंधान करना

गहन मूल्यांकन

शक्तियां

  1. मजबूत नवाचार: HRM की पदानुक्रमित पर्यवेक्षण डिजाइन स्थानीय सटीकता और वैश्विक सुसंगतता को चतुराई से संयोजित करता है
  2. व्यापक प्रयोग: कई डेटासेट और नीति मॉडल पर व्यापक मूल्यांकन किया गया है
  3. उच्च व्यावहारिक मूल्य: HNC कम लागत वाले डेटा संवर्धन समाधान प्रदान करता है
  4. ठोस सैद्धांतिक आधार: पुरस्कार हैकिंग समस्या का विश्लेषण गहन है, समाधान लक्षित है

कमियां

  1. विधि जटिलता: PRM की तुलना में, HRM की प्रशिक्षण डेटा निर्माण और लेबल रणनीति अधिक जटिल है
  2. स्केलेबिलिटी: वर्तमान में केवल दो-चरण मिश्रण का समर्थन करता है, विधि की विस्तारशीलता को सीमित करता है
  3. डोमेन विशिष्टता: मुख्य रूप से गणितीय तर्क कार्यों को सत्यापित किया गया है, अन्य क्षेत्रों में प्रयोज्यता पूरी तरह से सत्यापित नहीं है

प्रभाव

  1. शैक्षणिक योगदान: पुरस्कार मॉडल डिजाइन के लिए नई पदानुक्रमित सोच प्रदान करता है
  2. व्यावहारिक मूल्य: HNC विधि को मौजूदा MCTS प्रवाह में सीधे लागू किया जा सकता है
  3. पुनरुत्पादनशीलता: विस्तृत प्रायोगिक सेटअप और हाइपरपैरामीटर कॉन्फ़िगरेशन प्रदान करता है

प्रयोज्य परिदृश्य

  1. गणितीय तर्क कार्य: विशेष रूप से बहु-चरण तर्क की आवश्यकता वाली जटिल गणितीय समस्याओं के लिए उपयुक्त
  2. आत्म-सुधार की आवश्यकता वाले तर्क कार्य: HRM तर्क प्रक्रिया में त्रुटि सुधार की पहचान और पुरस्कृत कर सकता है
  3. संसाधन-सीमित परिदृश्य: HNC विधि कम लागत वाले डेटा संवर्धन समाधान प्रदान करती है

संदर्भ

पेपर इस क्षेत्र के महत्वपूर्ण कार्यों का हवाला देता है, जिनमें शामिल हैं:

  • Lightman et al. (2023) - Let's verify step by step (PRM800K डेटासेट)
  • Cobbe et al. (2021) - Training verifiers to solve math word problems
  • Wei et al. (2022) - Chain-of-thought prompting
  • Ouyang et al. (2022) - Training language models to follow instructions with human feedback

समग्र मूल्यांकन: यह एक उच्च-गुणवत्ता वाला अनुसंधान पेपर है जो PRM की महत्वपूर्ण समस्याओं के लिए नोवल समाधान प्रस्तावित करता है। HRM की पदानुक्रमित पर्यवेक्षण डिजाइन सैद्धांतिक रूप से ध्वनि है, प्रायोगिक सत्यापन व्यापक है, HNC विधि में बहुत मजबूत व्यावहारिक मूल्य है। पेपर तकनीकी नवाचार, प्रायोगिक डिजाइन और परिणाम विश्लेषण के सभी पहलुओं में उत्कृष्ट प्रदर्शन करता है, बड़े भाषा मॉडल की तर्क क्षमता में सुधार के लिए मूल्यवान योगदान प्रदान करता है।