Recent studies show that Large Language Models (LLMs) achieve strong reasoning capabilities through supervised fine-tuning or reinforcement learning. However, a key approach, the Process Reward Model (PRM), suffers from reward hacking, making it unreliable in identifying the best intermediate step. In addition, the cost of annotating reasoning processes for reward modeling is high, making large-scale collection of high-quality data challenging. To address this, we propose a novel reward model approach called the Hierarchical Reward Model (HRM), which evaluates both individual and consecutive reasoning steps at both fine-grained and coarse-grained levels. HRM excels at assessing multi-step reasoning coherence, especially when flawed steps are later corrected through self-reflection. To further reduce the cost of generating training data, we introduce a lightweight and effective data augmentation strategy called Hierarchical Node Compression (HNC), which merges two consecutive reasoning steps into one within the tree structure. By applying HNC to MCTS-generated reasoning trajectories, we enhance the diversity and robustness of HRM training data while introducing controlled noise with minimal computational overhead. Empirical results on the PRM800K dataset show that HRM, together with HNC, provides more stable and reliable evaluations than PRM. Furthermore, cross-domain evaluations on the MATH500 and GSM8K datasets demonstrate HRM's strong generalization and robustness across a variety of reasoning tasks.
- पेपर ID: 2503.13551
- शीर्षक: Towards Hierarchical Multi-Step Reward Models for Enhanced Reasoning in Large Language Models
- लेखक: Teng Wang, Zhangyi Jiang, Zhenqi He, Hailei Gong, Shenyang Tong, Wenhan Yang, Zeyu Li, Yanan Zheng, Zifan He, Zewen Ye, Shengjie Ma, Jianping Zhang
- वर्गीकरण: cs.CL cs.AI
- प्रकाशन समय/सम्मेलन: arXiv प्रीप्रिंट (अक्टूबर 2025)
- पेपर लिंक: https://arxiv.org/abs/2503.13551
हाल के अनुसंधान से पता चलता है कि बड़े भाषा मॉडल (LLMs) पर्यवेक्षित सूक्ष्म-ट्यूनिंग या सुदृढ़ीकरण सीखने के माध्यम से शक्तिशाली तर्क क्षमताएं प्राप्त कर सकते हैं। हालांकि, प्रक्रिया पुरस्कार मॉडल (PRM) जैसी महत्वपूर्ण विधियों में पुरस्कार हैकिंग की समस्या है, जो इन्हें सर्वोत्तम मध्यवर्ती चरणों की पहचान करने में अविश्वसनीय बनाती है। इसके अलावा, पुरस्कार मॉडलिंग के लिए तर्क प्रक्रियाओं को एनोटेट करने की लागत अधिक है, जिससे बड़े पैमाने पर उच्च-गुणवत्ता वाले डेटा एकत्र करना चुनौतीपूर्ण है। इन समस्याओं को हल करने के लिए, यह पेपर एक नोवल पुरस्कार मॉडल दृष्टिकोण प्रस्तावित करता है—पदानुक्रमित पुरस्कार मॉडल (HRM), जो सूक्ष्म-दानेदार और मोटे-दानेदार स्तरों पर व्यक्तिगत और क्रमिक तर्क चरणों का मूल्यांकन करता है। HRM बहु-चरण तर्क की सुसंगतता का मूल्यांकन करने में उत्कृष्ट है, विशेष रूप से जब त्रुटिपूर्ण चरणों को बाद में स्व-प्रतिबिंब के माध्यम से सुधारा जाता है। प्रशिक्षण डेटा उत्पन्न करने की लागत को और कम करने के लिए, यह पेपर एक हल्के और प्रभावी डेटा संवर्धन रणनीति—पदानुक्रमित नोड संपीड़न (HNC) का परिचय देता है, जो वृक्ष संरचना में दो क्रमिक तर्क चरणों को एक में मिलाता है। MCTS द्वारा उत्पन्न तर्क प्रक्षेपवक्र पर HNC लागू करके, हम न्यूनतम कम्प्यूटेशनल ओवरहेड के साथ HRM प्रशिक्षण डेटा की विविधता और मजबूती को बढ़ाते हैं, साथ ही नियंत्रित शोर का परिचय देते हैं। PRM800K डेटासेट पर प्रायोगिक परिणाम दर्शाते हैं कि HRM और HNC का संयोजन PRM की तुलना में अधिक स्थिर और विश्वसनीय मूल्यांकन प्रदान करता है। इसके अलावा, MATH500 और GSM8K डेटासेट पर क्रॉस-डोमेन मूल्यांकन विभिन्न तर्क कार्यों में HRM की मजबूत सामान्यीकरण क्षमता और मजबूती को प्रदर्शित करता है।
यह अनुसंधान बड़े भाषा मॉडल में गणितीय तर्क कार्यों की दो महत्वपूर्ण समस्याओं को संबोधित करता है:
- पुरस्कार हैकिंग समस्या: मौजूदा प्रक्रिया पुरस्कार मॉडल (PRM) आसानी से मॉडल द्वारा उपयोग किए जा सकते हैं, मॉडल वास्तविक तर्क में सुधार के बजाय पुरस्कार संकेत का लाभ उठाकर उच्च स्कोर प्राप्त कर सकते हैं, जो जटिल कार्यों में विश्वसनीयता को नुकसान पहुंचाता है।
- उच्च एनोटेशन लागत: PRM को तर्क चरणों के महंगे बड़े पैमाने पर मानव एनोटेशन की आवश्यकता होती है, जो इसकी विश्वसनीयता और स्केलेबिलिटी को सीमित करता है।
गणितीय तर्क LLM की तर्क क्षमताओं का मूल्यांकन करने के लिए एक महत्वपूर्ण कार्य है, मौजूदा विधियां जैसे चेन-ऑफ-थॉट (CoT) और थॉट ट्री (ToT) हालांकि प्रदर्शन में सुधार करते हैं, फिर भी महत्वपूर्ण सीमाएं हैं:
- CoT मॉडल में मध्यवर्ती तर्क त्रुटियों का पता लगाने और सुधार करने की कोई तंत्र नहीं है
- ToT विधियां प्रत्येक मध्यवर्ती चरण को सत्यापित नहीं कर सकती या सर्वोत्तम तर्क प्रक्षेपवक्र की पुनः प्राप्ति की गारंटी नहीं दे सकती
- परिणाम पुरस्कार मॉडल (ORM): विलंबित प्रतिक्रिया और क्रेडिट असाइनमेंट समस्याओं से ग्रस्त है, यह निर्धारित करना मुश्किल है कि कौन से तर्क चरण अंतिम उत्तर में योगदान देते हैं
- प्रक्रिया पुरस्कार मॉडल (PRM): हालांकि अधिक सूक्ष्म-दानेदार पर्यवेक्षण प्रदान करता है, लेकिन पुरस्कार हैकिंग के लिए अतिसंवेदनशील है, और एनोटेशन लागत अधिक है
उपरोक्त समस्याओं के आधार पर, यह पेपर PRM की सीमाओं को कम करने के लिए पदानुक्रमित पुरस्कार मॉडल (HRM) प्रस्तावित करता है, प्रशिक्षण समय में सूक्ष्म-दानेदार (एकल-चरण) और मोटे-दानेदार (क्रमिक बहु-चरण) स्तरों पर पदानुक्रमित पर्यवेक्षण संकेतों को संयोजित करके, HRM को तर्क में स्थानीय और वैश्विक सुसंगतता को पकड़ने में सक्षम बनाता है।
- पदानुक्रमित पुरस्कार मॉडल (HRM) प्रस्तावित करना: एकल-चरण और बहु-चरण स्तरों पर प्रशिक्षण डेटा में पदानुक्रमित पर्यवेक्षण का उपयोग करके, बहु-चरण तर्क में सुसंगतता और आत्म-सुधार क्षमता को बढ़ावा देना, PRM800K डेटासेट पर HRM की मजबूती को सत्यापित करना।
- पदानुक्रमित नोड संपीड़न (HNC) का परिचय देना: एक हल्के MCTS डेटा संवर्धन विधि, न्यूनतम कम्प्यूटेशनल लागत के साथ HRM प्रशिक्षण डेटा की विविधता और मजबूती को काफी हद तक बढ़ाना।
- नीति मॉडल प्रदर्शन को बढ़ाना: MCTS द्वारा फ़िल्टर किए गए उच्च-गुणवत्ता वाले तर्क प्रक्षेपवक्र पर सूक्ष्म-ट्यूनिंग के माध्यम से, तर्क प्रदर्शन को और बढ़ाना।
- सामान्यीकरण क्षमता को सत्यापित करना: GSM8K और MATH500 डेटासेट पर HRM की तुलना में PRM की बेहतर तर्क सुसंगतता और सामान्यीकरण क्षमता का प्रदर्शन करना।
यह पेपर गणितीय तर्क कार्यों पर केंद्रित है, लक्ष्य बहु-चरण गणितीय समस्या समाधान में LLM के प्रदर्शन का मूल्यांकन और सुधार करना है। इनपुट गणितीय समस्या है, आउटपुट चरण-दर-चरण तर्क प्रक्रिया और अंतिम उत्तर है, बाधा यह है कि तर्क चरणों की सही्ता और सुसंगतता सुनिश्चित करने की आवश्यकता है।
HRM का मूल विचार प्रशिक्षण समय में पदानुक्रमित पर्यवेक्षण को अपनाना है, व्यक्तिगत और क्रमिक तर्क चरणों का मूल्यांकन करना:
प्रशिक्षण डेटा निर्माण:
- PRM प्रशिक्षण डेटा: DPRM={(si,R(si))∣1≤i≤N}
- HRM प्रशिक्षण डेटा: DHRM=DPRM∪{(si+si+1,R(si+si+1))∣1≤i<N}
जहां si i-वें तर्क चरण को दर्शाता है, R(⋅) पुरस्कार फ़ंक्शन है, N तर्क अनुक्रम के कुल चरणों की संख्या है।
पदानुक्रमित पर्यवेक्षण उद्देश्य:
- सूक्ष्म-दानेदार और मोटे-दानेदार सुसंगतता को पकड़ना
- आत्म-प्रतिबिंब और त्रुटि सुधार को लागू करना
अनुमान चरण: हालांकि प्रशिक्षण समय में मिश्रित तर्क चरणों का उपयोग किया जाता है, HRM अनुमान समय में अभी भी चरण-दर-चरण मूल्यांकन करता है, केवल वर्तमान चरण si के आधार पर पुरस्कार असाइन करता है, PRM के समान।
HNC एक डेटा संवर्धन विधि है, MCTS वृक्ष संरचना में क्रमिक नोड्स को मिलाकर प्रशिक्षण डेटा विविधता बढ़ाता है:
मुख्य तंत्र:
- दो क्रमिक नोड्स को यादृच्छिक रूप से मिलाना, प्रत्येक एक तर्क चरण के अनुरूप
- नोड्स के बीच सीधे कनेक्शन को हटाना
- कनेक्शन संबंधों को पुनः निर्देशित करना
शोर परिचय: जब एक यादृच्छिक नोड को हटाया जाता है, तो शेष उप-नोड्स का वजन N1 से N−11 में पुनः वितरित किया जाता है, विचरण Nσ2 से N−1σ2 तक बढ़ता है, नियंत्रित शोर का परिचय देता है।
- पदानुक्रमित पर्यवेक्षण डिजाइन: PRM केवल व्यक्तिगत चरणों का मूल्यांकन करने के विपरीत, HRM बहु-चरण के बीच पारस्परिक क्रिया पर विचार करता है, बाद के चरणों द्वारा प्रारंभिक त्रुटियों के सुधार की पहचान कर सकता है।
- आत्म-सुधार क्षमता: पारंपरिक PRM त्रुटिपूर्ण एकल चरणों को दंडित करता है बिना बाद के तर्क में संभावित सुधार पर विचार किए, HRM बहु-चरण के बीच तर्क सुसंगतता का मूल्यांकन करता है।
- कम लागत डेटा संवर्धन: HNC अत्यंत कम कम्प्यूटेशनल ओवरहेड (लगभग 30 मिनट CPU समय) के साथ डेटा संवर्धन को लागू करता है, MCTS के 2457 A100 GPU घंटों की तुलना में लगभग नगण्य।
- PRM800K: मैनुअल रूप से एनोटेट किए गए तर्क प्रक्षेपवक्र शामिल हैं, ORM, PRM और HRM को प्रशिक्षित करने के लिए आधार के रूप में कार्य करता है
- MATH500: हाई स्कूल और विश्वविद्यालय स्तर की गणितीय समस्याएं, सामान्यीकरण क्षमता का मूल्यांकन करने के लिए
- GSM8K: प्राथमिक गणित अनुप्रयोग समस्याएं, 1000 परीक्षण समस्याओं को शामिल करता है
- सटीकता: Best-of-N रणनीति के तहत समस्या समाधान सटीकता
- स्थिरता: N बढ़ने पर प्रदर्शन की स्थिरता की डिग्री
- मजबूती: विभिन्न नीति मॉडल और डेटासेट में सुसंगत प्रदर्शन
- ORM (Outcome Reward Model): संपूर्ण तर्क श्रृंखला के आधार पर मूल्यांकन
- PRM (Process Reward Model): तर्क प्रक्रिया का चरण-दर-चरण मूल्यांकन
- HRM (Hierarchical Reward Model): इस पेपर द्वारा प्रस्तावित पदानुक्रमित पुरस्कार मॉडल
- पुरस्कार मॉडल: Qwen2.5-1.5B-Math पर आधारित सूक्ष्म-ट्यूनिंग
- नीति मॉडल: Qwen2.5-72B-Math-Instruct, DeepSeek-Math-7B, Qwen2.5-7B-Math-Instruct
- MCTS कॉन्फ़िगरेशन: प्रत्येक पैरेंट नोड के लिए 5-6 चाइल्ड नोड्स, अधिकतम वृक्ष गहराई 7
- प्रशिक्षण अनुकूलन: FlashAttention, DeepSpeed और मिश्रित परिशुद्धता प्रशिक्षण का उपयोग
PRM800K डेटासेट पर Best-of-N प्रदर्शन:
| N | 2 | 4 | 8 | 16 | 24 |
|---|
| ORM | 0.622 | 0.677 | 0.655 | 0.655 | 0.633 |
| PRM | 0.700 | 0.644 | 0.611 | 0.588 | 0.577 |
| HRM | 0.722 | 0.711 | 0.744 | 0.800 | 0.800 |
मुख्य निष्कर्ष:
- HRM N बढ़ने पर स्थिर प्रदर्शन बनाए रखता है, सटीकता 80% पर स्थिर रहती है
- ORM और PRM महत्वपूर्ण उतार-चढ़ाव दिखाते हैं, N वृद्धि के साथ सटीकता में गिरावट
- HRM सर्वोत्तम स्थिरता और विश्वसनीयता प्रदर्शित करता है
GSM8K और MATH500 डेटासेट परिणाम:
| डेटासेट | विधि | N=2 | N=64 | N=256 | N=512 |
|---|
| GSM8K | PRM | 0.784 | 0.905 | 0.927 | 0.918 |
| GSM8K | HRM | 0.784 | 0.907 | 0.930 | 0.926 |
| MATH500 | PRM | 0.468 | 0.656 | 0.686 | 0.688 |
| MATH500 | HRM | 0.490 | 0.742 | 0.740 | 0.736 |
महत्वपूर्ण अवलोकन:
- जटिल MATH500 डेटासेट पर, HRM PRM से काफी बेहतर है
- अपेक्षाकृत सरल GSM8K पर, अंतर छोटा है लेकिन HRM अभी भी थोड़ा बेहतर है
- HRM अधिक मजबूत क्रॉस-डोमेन मजबूती प्रदर्शित करता है
विभिन्न नीति मॉडल की तुलना:
MCTS द्वारा उत्पन्न स्वचालित एनोटेट किए गए डेटा पर प्रशिक्षित HRM कई नीति मॉडल पर PRM की तुलना में बेहतर स्थिरता प्रदर्शित करता है:
- DeepSeek-Math-7B
- Qwen2.5-72B-Math
- Qwen2.5-7B-Math
KL विचलन नियमितकरण के साथ पर्यवेक्षित सूक्ष्म-ट्यूनिंग के माध्यम से नीति मॉडल प्रदर्शन को और बढ़ाया गया, उच्च-गुणवत्ता वाले तर्क डेटा के मूल्य को सत्यापित किया।
यह पेपर मानव प्रतिक्रिया से सुदृढ़ीकरण सीखने (RLHF) फ्रेमवर्क पर आधारित है, जो पुरस्कार मॉडल के माध्यम से उच्च-गुणवत्ता और निम्न-गुणवत्ता प्रतिक्रियाओं को अलग करता है, और PPO का उपयोग करके LLM को अनुकूलित करता है।
- ORM: संपूर्ण आउटपुट के आधार पर पुरस्कार असाइन करता है, विलंबित प्रतिक्रिया और क्रेडिट असाइनमेंट समस्याओं से ग्रस्त है
- PRM: मध्यवर्ती तर्क चरणों का मूल्यांकन करता है, अधिक सूक्ष्म-दानेदार पर्यवेक्षण प्रदान करता है, लेकिन पुरस्कार हैकिंग समस्या से ग्रस्त है
MCTS को तर्क प्रक्षेपवक्र को स्वायत्त रूप से एनोटेट करने की विधि के रूप में प्रस्तावित किया गया है, लेकिन कम्प्यूटेशनल लागत खोज वृक्ष की गहराई और चौड़ाई के साथ घातीय रूप से बढ़ती है।
- HRM ने PRM की पुरस्कार हैकिंग समस्या को प्रभावी ढंग से कम किया है, पदानुक्रमित पर्यवेक्षण के माध्यम से अधिक स्थिर और विश्वसनीय मूल्यांकन प्रदान करता है
- HNC एक कुशल डेटा संवर्धन रणनीति है, अत्यंत कम लागत के साथ प्रशिक्षण डेटा गुणवत्ता को काफी हद तक बढ़ाता है
- HRM उत्कृष्ट सामान्यीकरण क्षमता प्रदर्शित करता है, कई गणितीय तर्क डेटासेट पर लगातार PRM से बेहतर है
- मिश्रित चरण सीमा: वर्तमान में केवल दो क्रमिक चरणों को मिलाता है, अधिक चरणों को मिलाने से लेबल संयोजन जटिलता में तेजी से वृद्धि होगी
- डोमेन सीमा: मुख्य रूप से गणितीय तर्क पर केंद्रित है, अन्य संरचित तर्क डोमेन में प्रयोज्यता को आगे सत्यापित करने की आवश्यकता है
- कम्प्यूटेशनल बाधा: MCTS कॉन्फ़िगरेशन कम्प्यूटेशनल संसाधन सीमाओं से प्रभावित है, जो उत्पन्न डेटा की विविधता को प्रभावित कर सकता है
- अधिक जटिल पदानुक्रमित संरचना डिजाइन की खोज करना
- अन्य संरचित तर्क कार्यों तक विस्तार करना
- कम्प्यूटेशनल लागत को कम करने के लिए अधिक कुशल खोज एल्गोरिदम के साथ संयोजन करना
- बहु-चरण मिश्रण को संभालने के लिए अधिक परिष्कृत लेबल रणनीति का अनुसंधान करना
- मजबूत नवाचार: HRM की पदानुक्रमित पर्यवेक्षण डिजाइन स्थानीय सटीकता और वैश्विक सुसंगतता को चतुराई से संयोजित करता है
- व्यापक प्रयोग: कई डेटासेट और नीति मॉडल पर व्यापक मूल्यांकन किया गया है
- उच्च व्यावहारिक मूल्य: HNC कम लागत वाले डेटा संवर्धन समाधान प्रदान करता है
- ठोस सैद्धांतिक आधार: पुरस्कार हैकिंग समस्या का विश्लेषण गहन है, समाधान लक्षित है
- विधि जटिलता: PRM की तुलना में, HRM की प्रशिक्षण डेटा निर्माण और लेबल रणनीति अधिक जटिल है
- स्केलेबिलिटी: वर्तमान में केवल दो-चरण मिश्रण का समर्थन करता है, विधि की विस्तारशीलता को सीमित करता है
- डोमेन विशिष्टता: मुख्य रूप से गणितीय तर्क कार्यों को सत्यापित किया गया है, अन्य क्षेत्रों में प्रयोज्यता पूरी तरह से सत्यापित नहीं है
- शैक्षणिक योगदान: पुरस्कार मॉडल डिजाइन के लिए नई पदानुक्रमित सोच प्रदान करता है
- व्यावहारिक मूल्य: HNC विधि को मौजूदा MCTS प्रवाह में सीधे लागू किया जा सकता है
- पुनरुत्पादनशीलता: विस्तृत प्रायोगिक सेटअप और हाइपरपैरामीटर कॉन्फ़िगरेशन प्रदान करता है
- गणितीय तर्क कार्य: विशेष रूप से बहु-चरण तर्क की आवश्यकता वाली जटिल गणितीय समस्याओं के लिए उपयुक्त
- आत्म-सुधार की आवश्यकता वाले तर्क कार्य: HRM तर्क प्रक्रिया में त्रुटि सुधार की पहचान और पुरस्कृत कर सकता है
- संसाधन-सीमित परिदृश्य: HNC विधि कम लागत वाले डेटा संवर्धन समाधान प्रदान करती है
पेपर इस क्षेत्र के महत्वपूर्ण कार्यों का हवाला देता है, जिनमें शामिल हैं:
- Lightman et al. (2023) - Let's verify step by step (PRM800K डेटासेट)
- Cobbe et al. (2021) - Training verifiers to solve math word problems
- Wei et al. (2022) - Chain-of-thought prompting
- Ouyang et al. (2022) - Training language models to follow instructions with human feedback
समग्र मूल्यांकन: यह एक उच्च-गुणवत्ता वाला अनुसंधान पेपर है जो PRM की महत्वपूर्ण समस्याओं के लिए नोवल समाधान प्रस्तावित करता है। HRM की पदानुक्रमित पर्यवेक्षण डिजाइन सैद्धांतिक रूप से ध्वनि है, प्रायोगिक सत्यापन व्यापक है, HNC विधि में बहुत मजबूत व्यावहारिक मूल्य है। पेपर तकनीकी नवाचार, प्रायोगिक डिजाइन और परिणाम विश्लेषण के सभी पहलुओं में उत्कृष्ट प्रदर्शन करता है, बड़े भाषा मॉडल की तर्क क्षमता में सुधार के लिए मूल्यवान योगदान प्रदान करता है।