2025-11-15T10:52:11.758296

From <Answer> to <Think>: Multidimensional Supervision of Reasoning Process for LLM Optimization

Wang, Su, Tian et al.
Improving the multi-step reasoning ability of Large Language Models (LLMs) is a critical yet challenging task. The dominant paradigm, outcome-supervised reinforcement learning (RLVR), rewards only correct final answers, often propagating flawed reasoning and suffering from sparse reward signals. While process-level reward models (PRMs) provide denser, step-by-step feedback, they lack generalizability and interpretability, requiring task-specific segmentation of the reasoning process. To this end, we propose the Dimension-level Reward Model (DRM), a new supervision framework that bridges the gap between these two approaches. DRM evaluates the quality of a reasoning process along three fundamental, complementary, and interpretable dimensions: Confidence for uncertainty calibration, Relevance for semantic alignment, and Coherence for logical consistency. Together, these dimensions capture aspects beyond final answer correctness and enable interpretable assessment without requiring ground truth answers. Experimental results show that DRM provides effective supervision signals, guides the optimization of LLMs and enhances their reasoning ability. In particular, DRM-supervised training achieves consistent gains on both in-distribution and out-of-distribution open-domain tasks, including mathematics, question answering, code execution, and puzzles. Our findings demonstrate that multidimensional supervision of the reasoning process can improve the generalized reasoning ability of LLMs beyond the training distribution.
academic

से तक: LLM अनुकूलन के लिए तर्क प्रक्रिया की बहुआयामी निरीक्षण

मूल जानकारी

  • पेपर ID: 2510.11457
  • शीर्षक: From to : Multidimensional Supervision of Reasoning Process for LLM Optimization
  • लेखक: Beining Wang, Weihang Su, Hongtao Tian, Tao Yang, Yujia Zhou, Ting Yao, Qingyao Ai, Yiqun Liu
  • वर्गीकरण: cs.AI
  • प्रकाशन तिथि: 13 अक्टूबर 2025
  • पेपर लिंक: https://arxiv.org/abs/2510.11457

सारांश

बड़े भाषा मॉडल (LLMs) की बहु-चरणीय तर्क क्षमता में सुधार एक महत्वपूर्ण लेकिन चुनौतीपूर्ण कार्य है। मुख्यधारा का दृष्टिकोण—परिणाम निरीक्षण सुदृढ़ीकरण सीखना (RLVR)—केवल सही अंतिम उत्तरों को पुरस्कृत करता है, अक्सर त्रुटिपूर्ण तर्क को प्रसारित करता है और विरल पुरस्कार संकेतों से ग्रस्त है। यद्यपि प्रक्रिया-स्तरीय पुरस्कार मॉडल (PRMs) अधिक सघन चरण-दर-चरण प्रतिक्रिया प्रदान करते हैं, लेकिन उनमें सामान्यीकरण और व्याख्यात्मकता की कमी है, जिसके लिए कार्य-विशिष्ट तर्क प्रक्रिया विभाजन की आवश्यकता है। इसके लिए, लेखकों ने आयाम-स्तरीय पुरस्कार मॉडल (DRM) का प्रस्ताव दिया है, जो इन दोनों दृष्टिकोणों के बीच की खाई को पाटने वाली एक नई निरीक्षण रूपरेखा है। DRM तीन मौलिक, पूरक और व्याख्यात्मक आयामों के साथ तर्क प्रक्रिया की गुणवत्ता का मूल्यांकन करता है: आत्मविश्वास (अनिश्चितता अंशांकन), प्रासंगिकता (शब्दार्थ संरेखण) और सुसंगतता (तार्किक सामंजस्य)। ये आयाम सामूहिक रूप से अंतिम उत्तर की शुद्धता से परे के पहलुओं को पकड़ते हैं, वास्तविक उत्तर की आवश्यकता के बिना व्याख्यात्मक मूल्यांकन को सक्षम करते हैं। प्रायोगिक परिणाम दर्शाते हैं कि DRM प्रभावी निरीक्षण संकेत प्रदान करता है जो LLMs के अनुकूलन को निर्देशित करता है और उनकी तर्क क्षमता को बढ़ाता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

वर्तमान LLMs को बहु-चरणीय तर्क कार्यों में सामना करने वाली मूल समस्या यह है: तर्क प्रक्रिया की गुणवत्ता की प्रभावी रूप से निरीक्षण और अनुकूलन कैसे करें, न कि केवल अंतिम उत्तर की शुद्धता पर ध्यान केंद्रित करें।

मौजूदा विधियों की सीमाएं

  1. RLVR की समस्याएं:
    • केवल अंतिम उत्तर के आधार पर द्विआधारी पुरस्कार, तर्क प्रक्रिया की गुणवत्ता को अनदेखा करता है
    • "सही उत्तर लेकिन गलत तर्क" की स्थिति को पुरस्कृत कर सकता है
    • जब मॉडल बहुत मजबूत या कमजोर हो तो पुरस्कार संकेत स्थिर हो जाता है, मार्गदर्शन सीमित है
  2. PRMs की सीमाएं:
    • तर्क प्रक्रिया को स्वतंत्र चरणों में विभाजित करने की आवश्यकता है, यह विभाजन अक्सर कार्य-विशिष्ट होता है
    • सामान्यीकरण की कमी, खुली डोमेन कार्यों के अनुकूल होना कठिन है
    • ब्लैक बॉक्स मूल्यांकनकर्ता के रूप में, व्याख्यात्मकता की कमी है

अनुसंधान प्रेरणा

लेखकों ने देखा कि उच्च गुणवत्ता की तर्क प्रक्रिया में तीन मुख्य विशेषताएं होनी चाहिए: आउटपुट के प्रति निश्चितता बनाए रखना, दिए गए इनपुट पर आधारित होना, आंतरिक रूप से सुसंगत होना। इस अंतर्दृष्टि के आधार पर, एक बहुआयामी निरीक्षण रूपरेखा का प्रस्ताव दिया गया।

मूल योगदान

  1. DRM रूपरेखा का प्रस्ताव: पहली बार तर्क निरीक्षण को तीन पूरक आयामों (आत्मविश्वास, प्रासंगिकता, सुसंगतता) में विघटित किया, सघन और व्याख्यात्मक निरीक्षण संकेत प्रदान किए
  2. मौजूदा विधियों की सीमाओं को हल करना: RLVR की विरल पुरस्कार समस्या और PRMs की कार्य-विशिष्ट विभाजन आवश्यकता से बचा गया
  3. महत्वपूर्ण प्रदर्शन सुधार: कई खुली डोमेन कार्यों पर सुसंगत सुधार प्राप्त किया, जैसे MATH500(+8.8), 2WIKI RAG(+8.7), CRUXEVAL(+7.1)
  4. सैद्धांतिक और व्यावहारिक अंतर्दृष्टि प्रदान: साबित किया कि बहुआयामी तर्क निरीक्षण प्रशिक्षण वितरण से परे LLMs की सामान्यीकरण तर्क क्षमता को बढ़ा सकता है

विधि विवरण

कार्य परिभाषा

औपचारिक परिभाषा: इनपुट I दिया गया है, मॉडल आउटपुट O को तर्क प्रक्रिया R और उत्तर A में विघटित किया जाता है। खुली डोमेन परिदृश्य में, I में प्रश्न Q और अतिरिक्त जानकारी D शामिल है। संपूर्ण इनपुट-आउटपुट संरचना को चतुर्भुज के रूप में दर्शाया जाता है: (Q,D,R,A)।

DRM त्रि-आयाम रूपरेखा

1. आत्मविश्वास (Confidence)

उद्देश्य: अपने आउटपुट के प्रति मॉडल की निश्चितता का मूल्यांकन करना कार्यान्वयन:

scoreConf_R = (1/|R|) * Σ log p  (R में सभी टोकन की औसत लॉग संभावना)
scoreConf_A = Σ log p  (A में सभी टोकन की लॉग संभावना का योग)
scoreConf = scoreConf_R + scoreConf_A

2. प्रासंगिकता (Relevance)

उद्देश्य: तर्क प्रक्रिया और अन्य घटकों के बीच शब्दार्थ संबंध का मूल्यांकन करना कार्यान्वयन: तीन संबंधों का मूल्यांकन करना

  • Q→R: प्राकृतिक भाषा अनुमान (NLI) निहितार्थ संबंध के माध्यम से
  • R↔D: शब्दार्थ प्रासंगिकता माप के माध्यम से
  • R→A: NLI निहितार्थ संबंध के माध्यम से

3. सुसंगतता (Coherence)

उद्देश्य: तर्क प्रक्रिया की तार्किक सामंजस्य और पाठ गुणवत्ता का मूल्यांकन करना कार्यान्वयन: तार्किक सामंजस्य, प्रवाह और समग्र पाठ गुणवत्ता का मूल्यांकन करने के लिए बाहरी परिणाम-स्तरीय पुरस्कार मॉडल (ORM) का उपयोग करना

समग्र पुरस्कार गणना

R^DRM_i = Σ_D w_D * s̃core^D_i

जहां D ∈ {Conf, Rel, Coh}, s̃core^D_i सामान्यीकृत आयाम स्कोर है, वजन सत्यापन सेट ग्रिड खोज के माध्यम से निर्धारित किए जाते हैं।

अनुकूलन रणनीति

ऑफ-पॉलिसी अनुकूलन (DPO)

L_DPO(θ) = -E[(I,O+,O-)] [log σ(β log π_θ(O+|I)/π_ref(O+|I) - β log π_θ(O-|I)/π_ref(O-|I))]

जहां O+ = argmax RDRM, O- = argmin RDRM

ऑन-पॉलिसी अनुकूलन (GRPO)

DRM लाभ को मूल GRPO लाभ के साथ संयोजित करना:

A_i,t = Â_i,t + Â^DRM_i,t

प्रायोगिक सेटअप

मॉडल

  • LLaMA-3.1-8B-Instruct: अंतर्निहित तर्क क्षमता की कमी वाला आधार मॉडल
  • R1-Distil-Llama8B: विशेष तर्क मॉडल
  • Qwen3-8B: हाइब्रिड तर्क मॉडल

डेटासेट

17 खुली डोमेन कार्यों को शामिल करता है:

  • कोड कार्य: CodeMMLU, CodeScope, Cruxeval, Execution-v2
  • वरीयता कार्य: RM-Bench, UltraFeedback
  • गणित कार्य: AIME24, AMC23, GSM8K, Math500
  • विज्ञान प्रश्नोत्तरी: MMLU-Pro, GPQA
  • तार्किक तर्क: MuSR, DROP, QASC
  • प्रश्नोत्तरी और RAG: 2WikiMultihopQA, HotpotQA और उनके RAG वेरिएंट

मूल्यांकन मेट्रिक्स

  • गणित कार्य: MATH-VERIFY स्वचालित समाधान सत्यापन
  • अन्य कार्य: सटीक मिलान (Exact Match)

प्रायोगिक परिणाम

मुख्य परिणाम

RQ1: क्या DRM विश्वसनीय रूप से अंतिम उत्तर की शुद्धता निर्धारित कर सकता है?

RewardBench 2 पर परिणाम दर्शाते हैं कि DRM लगातार यादृच्छिक नमूने से अधिक सटीकता प्राप्त करता है:

  • LLaMA3.1-8B-Instruct: 78.57% vs 67.17%
  • R1-Distil-Llama8B: 76.16% vs 63.46%
  • Qwen3-8B: 85.65% vs 84.87%

RQ2&RQ3: DRM निरीक्षण की प्रभावशीलता

ऑफ-पॉलिसी DPO प्रशिक्षण परिणाम दर्शाते हैं कि DRM@ANY लगातार RLVR@T+F से बेहतर है:

कार्य क्षेत्रडेटासेटNativeRLVR@T+FDRM@ANY
CodeCruxeval50.452.657.5
MathMath50039.643.448.4
QA-RAG2wiki RAG31.235.839.9

RQ4: RLVR और DRM को संयोजित करने का प्रभाव

ऑन-पॉलिसी GRPO प्रशिक्षण दर्शाता है कि संयुक्त विधि आमतौर पर सर्वश्रेष्ठ या एकल सर्वश्रेष्ठ विधि के बराबर प्रदर्शन करती है।

विलोपन प्रयोग

एकल-आयाम निरीक्षण प्रयोग दर्शाते हैं:

  • एकल आयाम कुछ कार्यों पर सुधार करता है, लेकिन अन्य कार्यों पर गिरावट भी ला सकता है
  • कोई भी एकल आयाम सभी कार्यों पर मजबूत सुधार के लिए पर्याप्त नहीं है
  • बहुआयामी संयोजन सहक्रियात्मक प्रभाव उत्पन्न करता है, व्यापक सुसंगत सुधार प्राप्त करता है

केस विश्लेषण

GPT-4o मूल्यांकन दर्शाता है कि DRM निरीक्षण "सही उत्तर लेकिन गलत तर्क" उदाहरणों की संख्या में महत्वपूर्ण रूप से कमी करता है, साबित करता है कि DRM उच्च तर्क गुणवत्ता वाले उदाहरणों को प्राथमिकता देता है।

संबंधित कार्य

सुदृढ़ीकरण सीखना और सत्यापन योग्य पुरस्कार (RLVR)

RLVR स्वचालित रूप से सत्यापन योग्य शुद्धता संकेतों को पुरस्कार के रूप में उपयोग करके LLM तर्क क्षमता को प्रभावी रूप से बढ़ाता है, लेकिन विरल पुरस्कार और तर्क प्रक्रिया गुणवत्ता को अनदेखा करने की समस्याएं हैं।

पुरस्कार मॉडल

  • परिणाम-स्तरीय पुरस्कार मॉडल (ORMs): समग्र प्रतिक्रिया गुणवत्ता का मूल्यांकन करता है, लेकिन गलत तर्क के माध्यम से सही उत्तर प्राप्त करने की स्थिति में उच्च स्कोर दे सकता है
  • प्रक्रिया-स्तरीय पुरस्कार मॉडल (PRMs): तर्क प्रक्रिया का मूल्यांकन करता है न कि केवल अंतिम उत्तर, लेकिन कार्य-विशिष्ट चरण विभाजन की आवश्यकता है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. DRM प्रभावी निरीक्षण संकेत प्रदान करता है जो LLM अनुकूलन को निर्देशित कर सकता है और तर्क क्षमता को बढ़ा सकता है
  2. बहुआयामी तर्क निरीक्षण वितरण-भीतर और वितरण-बाहर दोनों कार्यों पर सुसंगत सुधार प्राप्त करता है
  3. DRM ने RLVR और PRMs की मुख्य सीमाओं को सफलतापूर्वक हल किया है

सीमाएं

  1. वजन सेटिंग को सत्यापन सेट पर ग्रिड खोज की आवश्यकता है, जो क्रॉस-डोमेन सामान्यीकरण को सीमित कर सकता है
  2. प्रासंगिकता और सुसंगतता मूल्यांकन के लिए बाहरी मॉडल पर निर्भरता, गणनात्मक ओवरहेड बढ़ाता है
  3. कुछ तर्क-गहन या ज्ञान-गहन कार्यों पर, प्रत्यक्ष RLVR अनुकूलन के साथ हस्तक्षेप कर सकता है

भविष्य की दिशाएं

  1. स्व-अनुकूली वजन समायोजन तंत्र की खोज करना
  2. अधिक कुशल आयाम मूल्यांकन विधियों का अनुसंधान करना
  3. अधिक तर्क आयामों और कार्य प्रकारों तक विस्तार करना

गहन मूल्यांकन

शक्तियां

  1. उच्च नवीनता: पहली बार आयाम-स्तरीय तर्क निरीक्षण का प्रस्ताव, RLVR और PRMs के बीच की खाई को भरता है
  2. ठोस सैद्धांतिक आधार: उच्च गुणवत्ता की तर्क की तीन मुख्य विशेषताओं पर आधारित रूपरेखा डिजाइन
  3. व्यापक प्रयोग: 17 विभिन्न कार्यों पर सत्यापन, कई क्षेत्रों को शामिल करता है
  4. अच्छी व्याख्यात्मकता: तीन आयामों में स्पष्ट शब्दार्थ अर्थ और व्याख्यात्मकता है
  5. उच्च व्यावहारिक मूल्य: कार्य-विशिष्ट डेटा या प्रशिक्षण की आवश्यकता के बिना सुधार प्राप्त करना

कमियां

  1. गणनात्मक ओवरहेड: आयाम मूल्यांकन के लिए कई बाहरी मॉडलों की आवश्यकता, अनुमान लागत बढ़ाता है
  2. वजन संवेदनशीलता: विभिन्न मॉडलों के लिए इष्टतम वजन कॉन्फ़िगरेशन भिन्न होता है, सामान्यीकरण को प्रभावित कर सकता है
  3. मूल्यांकन निर्भरता: प्रासंगिकता और सुसंगतता मूल्यांकन बाहरी मॉडल गुणवत्ता पर निर्भर है
  4. अपर्याप्त सैद्धांतिक विश्लेषण: इस बात का सैद्धांतिक विश्लेषण नहीं कि ये तीन आयाम इष्टतम क्यों हैं

प्रभाव

  1. शैक्षणिक योगदान: तर्क निरीक्षण के लिए नई अनुसंधान दिशा और रूपरेखा प्रदान करता है
  2. व्यावहारिक मूल्य: मौजूदा LLM प्रशिक्षण प्रवाह में सीधे लागू किया जा सकता है
  3. पुनरुत्पादनीयता: कोड और डेटासेट सार्वजनिक हैं, पुनरुत्पादन और विस्तार में सुविधा प्रदान करते हैं

लागू परिदृश्य

  1. उच्च गुणवत्ता की तर्क प्रक्रिया की आवश्यकता वाले अनुप्रयोग परिदृश्य
  2. खुली डोमेन बहु-चरणीय तर्क कार्य
  3. तर्क चरणों के बड़े पैमाने पर एनोटेट डेटा की कमी वाले परिदृश्य
  4. व्याख्यात्मक तर्क मूल्यांकन की आवश्यकता वाले अनुप्रयोग

संदर्भ

पेपर तर्क मूल्यांकन, सुदृढ़ीकरण सीखना, पुरस्कार मॉडलिंग आदि संबंधित क्षेत्रों के महत्वपूर्ण कार्यों का संदर्भ देता है, जो इस अनुसंधान के लिए ठोस सैद्धांतिक आधार और तुलनात्मक आधार प्रदान करता है।


समग्र मूल्यांकन: यह एक उच्च गुणवत्ता का अनुसंधान पत्र है जो तर्क निरीक्षण के लिए एक नवीन बहुआयामी रूपरेखा प्रस्तावित करता है, मौजूदा विधियों की सीमाओं को प्रभावी रूप से हल करता है। प्रयोग डिजाइन व्यापक है, परिणाम प्रेरक हैं, और LLM तर्क क्षमता में सुधार के लिए महत्वपूर्ण सैद्धांतिक और व्यावहारिक मूल्य है।