2025-11-15T10:52:11.758296

From <Answer> to <Think>: Multidimensional Supervision of Reasoning Process for LLM Optimization

Wang, Su, Tian et al.

Improving the multi-step reasoning ability of Large Language Models (LLMs) is a critical yet challenging task. The dominant paradigm, outcome-supervised reinforcement learning (RLVR), rewards only correct final answers, often propagating flawed reasoning and suffering from sparse reward signals. While process-level reward models (PRMs) provide denser, step-by-step feedback, they lack generalizability and interpretability, requiring task-specific segmentation of the reasoning process. To this end, we propose the Dimension-level Reward Model (DRM), a new supervision framework that bridges the gap between these two approaches. DRM evaluates the quality of a reasoning process along three fundamental, complementary, and interpretable dimensions: Confidence for uncertainty calibration, Relevance for semantic alignment, and Coherence for logical consistency. Together, these dimensions capture aspects beyond final answer correctness and enable interpretable assessment without requiring ground truth answers. Experimental results show that DRM provides effective supervision signals, guides the optimization of LLMs and enhances their reasoning ability. In particular, DRM-supervised training achieves consistent gains on both in-distribution and out-of-distribution open-domain tasks, including mathematics, question answering, code execution, and puzzles. Our findings demonstrate that multidimensional supervision of the reasoning process can improve the generalized reasoning ability of LLMs beyond the training distribution.

academic

থেকে : LLM অপ্টিমাইজেশনের জন্য যুক্তিপ্রক্রিয়ার বহুমাত্রিক তত্ত্বাবধান

মৌলিক তথ্য

পেপার আইডি: 2510.11457
শিরোনাম: From to : Multidimensional Supervision of Reasoning Process for LLM Optimization
লেখক: Beining Wang, Weihang Su, Hongtao Tian, Tao Yang, Yujia Zhou, Ting Yao, Qingyao Ai, Yiqun Liu
শ্রেণীবিভাগ: cs.AI
প্রকাশের সময়: ২০২৫ সালের ১৩ অক্টোবর
পেপার লিংক: https://arxiv.org/abs/2510.11457

সারসংক্ষেপ

বৃহৎ ভাষা মডেল (LLM) এর বহু-পদক্ষেপ যুক্তিপ্রক্রিয়া ক্ষমতা বৃদ্ধি করা একটি গুরুত্বপূর্ণ কিন্তু চ্যালেঞ্জিং কাজ। প্রধান প্যারাডাইম—ফলাফল-ভিত্তিক শক্তিশালীকরণ শিক্ষা (RLVR) শুধুমাত্র সঠিক চূড়ান্ত উত্তরকে পুরস্কৃত করে, যা প্রায়শই ত্রুটিপূর্ণ যুক্তিপ্রক্রিয়া ছড়িয়ে দেয় এবং বিরল পুরস্কার সংকেত দ্বারা ভুগছে। যদিও প্রক্রিয়া-স্তরের পুরস্কার মডেল (PRM) আরও ঘন পদক-দর-পদক প্রতিক্রিয়া প্রদান করে, তবে তারা সাধারণীকরণ এবং ব্যাখ্যাযোগ্যতার অভাব রয়েছে এবং কাজ-নির্দিষ্ট যুক্তিপ্রক্রিয়া বিভাজনের প্রয়োজন। এই সমস্যার সমাধানের জন্য, লেখকরা মাত্রা-স্তরের পুরস্কার মডেল (DRM) প্রস্তাব করেছেন, যা এই দুটি পদ্ধতির মধ্যে ব্যবধান পূরণ করে এমন একটি নতুন তত্ত্বাবধান কাঠামো। DRM তিনটি মৌলিক, পরিপূরক এবং ব্যাখ্যাযোগ্য মাত্রা বরাবর যুক্তিপ্রক্রিয়ার গুণমান মূল্যায়ন করে: আত্মবিশ্বাস (অনিশ্চয়তা ক্যালিব্রেশন), প্রাসঙ্গিকতা (শব্দার্থিক সারিবদ্ধতা) এবং সুসংগতি (যুক্তিগত সামঞ্জস্য)। এই মাত্রাগুলি সম্মিলিতভাবে চূড়ান্ত উত্তরের সঠিকতার বাইরে এমন দিকগুলি ক্যাপচার করে, সত্য উত্তর ছাড়াই ব্যাখ্যাযোগ্য মূল্যায়ন সক্ষম করে। পরীক্ষামূলক ফলাফলগুলি দেখায় যে DRM কার্যকর তত্ত্বাবধান সংকেত প্রদান করে যা LLM অপ্টিমাইজেশন পরিচালনা করে এবং তাদের যুক্তিপ্রক্রিয়া ক্ষমতা বৃদ্ধি করে।

গবেষণা পটভূমি এবং প্রেরণা

সমস্যা সংজ্ঞা

বর্তমান LLM গুলি বহু-পদক্ষেপ যুক্তিপ্রক্রিয়া কাজে যে মূল সমস্যার সম্মুখীন হয় তা হল: কীভাবে কার্যকরভাবে যুক্তিপ্রক্রিয়ার গুণমান তত্ত্বাবধান এবং অপ্টিমাইজ করা যায়, শুধুমাত্র চূড়ান্ত উত্তরের সঠিকতার উপর ফোকাস না করে।

বিদ্যমান পদ্ধতির সীমাবদ্ধতা

RLVR এর সমস্যা:
- শুধুমাত্র চূড়ান্ত উত্তরের উপর ভিত্তি করে দ্বিমুখী পুরস্কার, যুক্তিপ্রক্রিয়ার গুণমান উপেক্ষা করে
- "সঠিক উত্তর কিন্তু ভুল যুক্তিপ্রক্রিয়া" এর ক্ষেত্রে পুরস্কৃত করতে পারে
- যখন মডেল খুব শক্তিশালী বা দুর্বল হয়, পুরস্কার সংকেত ধ্রুবকের দিকে ঝুঁকে পড়ে, নির্দেশনামূলক কর্ম সীমিত
PRM এর সীমাবদ্ধতা:
- যুক্তিপ্রক্রিয়াকে স্বাধীন পদক্ষেপে বিভক্ত করার প্রয়োজন, এই বিভাজন প্রায়শই কাজ-নির্দিষ্ট
- সাধারণীকরণের অভাব, খোলা ডোমেইন কাজের সাথে খাপ খাইয়ে নেওয়া কঠিন
- ব্ল্যাক বক্স মূল্যায়নকারী হিসাবে, ব্যাখ্যাযোগ্যতার অভাব

গবেষণা প্রেরণা

লেখকরা পর্যবেক্ষণ করেছেন যে উচ্চ-মানের যুক্তিপ্রক্রিয়ার তিনটি মূল বৈশিষ্ট্য থাকা উচিত: আউটপুটের প্রতি নিশ্চয়তা বজায় রাখা, প্রদত্ত ইনপুটের উপর ভিত্তি করে, অভ্যন্তরীণভাবে সামঞ্জস্যপূর্ণ থাকা। এই অন্তর্দৃষ্টির উপর ভিত্তি করে, তারা একটি বহুমাত্রিক তত্ত্বাবধান কাঠামো প্রস্তাব করেছেন।

মূল অবদান

DRM কাঠামো প্রস্তাব: প্রথমবারের মতো যুক্তিপ্রক্রিয়া তত্ত্বাবধানকে তিনটি পরিপূরক মাত্রায় বিয়োজিত করা (আত্মবিশ্বাস, প্রাসঙ্গিকতা, সুসংগতি), ঘন এবং ব্যাখ্যাযোগ্য তত্ত্বাবধান সংকেত প্রদান করা
বিদ্যমান পদ্ধতির সীমাবদ্ধতা সমাধান: RLVR এর বিরল পুরস্কার সমস্যা এবং PRM এর কাজ-নির্দিষ্ট বিভাজনের প্রয়োজন এড়ানো
উল্লেখযোগ্য কর্মক্ষমতা উন্নতি অর্জন: একাধিক খোলা ডোমেইন কাজে সামঞ্জস্যপূর্ণ উন্নতি, যেমন MATH500(+8.8), 2WIKI RAG(+8.7), CRUXEVAL(+7.1)
তাত্ত্বিক এবং ব্যবহারিক অন্তর্দৃষ্টি প্রদান: প্রমাণ করা যে বহুমাত্রিক যুক্তিপ্রক্রিয়া তত্ত্বাবধান প্রশিক্ষণ বিতরণের বাইরে LLM এর সাধারণীকরণ যুক্তিপ্রক্রিয়া ক্ষমতা উন্নত করতে পারে

পদ্ধতি বিস্তারিত

কাজের সংজ্ঞা

আনুষ্ঠানিক সংজ্ঞা: ইনপুট I দেওয়া, মডেল আউটপুট O যুক্তিপ্রক্রিয়া R এবং উত্তর A তে বিয়োজিত। খোলা ডোমেইন পরিস্থিতিতে, I প্রশ্ন Q এবং অতিরিক্ত তথ্য D অন্তর্ভুক্ত করে। সম্পূর্ণ ইনপুট-আউটপুট কাঠামো চতুর্মুখী হিসাবে প্রতিনিধিত্ব করা হয়: (Q,D,R,A)।

DRM ত্রিমাত্রিক কাঠামো

1. আত্মবিশ্বাস (Confidence)

লক্ষ্য: মডেলের আউটপুটের প্রতি নিশ্চয়তা মূল্যায়ন করা বাস্তবায়ন:

scoreConf_R = (1/|R|) * Σ log p  (R তে সমস্ত টোকেনের গড় লগ সম্ভাবনা)
scoreConf_A = Σ log p  (A তে সমস্ত টোকেনের লগ সম্ভাবনার যোগফল)
scoreConf = scoreConf_R + scoreConf_A

2. প্রাসঙ্গিকতা (Relevance)

লক্ষ্য: যুক্তিপ্রক্রিয়া এবং অন্যান্য উপাদানের মধ্যে শব্দার্থিক সম্পর্ক মূল্যায়ন করা বাস্তবায়ন: তিনটি সম্পর্ক মূল্যায়ন করা

Q→R: প্রাকৃতিক ভাষা অনুমান (NLI) অন্তর্ভুক্তি সম্পর্কের মাধ্যমে
R↔D: শব্দার্থিক প্রাসঙ্গিকতা পরিমাপের মাধ্যমে
R→A: NLI অন্তর্ভুক্তি সম্পর্কের মাধ্যমে

3. সুসংগতি (Coherence)

লক্ষ্য: যুক্তিপ্রক্রিয়ার যুক্তিগত সামঞ্জস্য এবং পাঠ্য গুণমান মূল্যায়ন করা বাস্তবায়ন: বাহ্যিক ফলাফল-স্তরের পুরস্কার মডেল (ORM) ব্যবহার করে যুক্তিগত সামঞ্জস্য, প্রবাহিততা এবং সামগ্রিক পাঠ্য গুণমান মূল্যায়ন করা

সমন্বিত পুরস্কার গণনা

R^DRM_i = Σ_D w_D * s̃core^D_i

যেখানে D ∈ {Conf, Rel, Coh}, s̃core^D_i হল স্বাভাবিকৃত মাত্রা স্কোর, ওজন যাচাইকরণ সেটে গ্রিড অনুসন্ধানের মাধ্যমে নির্ধারিত।

অপ্টিমাইজেশন কৌশল

অফ-নীতি অপ্টিমাইজেশন (DPO)

L_DPO(θ) = -E[(I,O+,O-)] [log σ(β log π_θ(O+|I)/π_ref(O+|I) - β log π_θ(O-|I)/π_ref(O-|I))]

যেখানে O+ = argmax RDRM, O- = argmin RDRM

অন-নীতি অপ্টিমাইজেশন (GRPO)

DRM সুবিধা মূল GRPO সুবিধার সাথে একত্রিত করা:

A_i,t = Â_i,t + Â^DRM_i,t

পরীক্ষামূলক সেটআপ

মডেল

LLaMA-3.1-8B-Instruct: অন্তর্নিহিত যুক্তিপ্রক্রিয়া ক্ষমতার অভাব সহ ভিত্তি মডেল
R1-Distil-Llama8B: বিশেষায়িত যুক্তিপ্রক্রিয়া মডেল
Qwen3-8B: হাইব্রিড যুক্তিপ্রক্রিয়া মডেল

ডেটাসেট

১৭টি খোলা ডোমেইন কাজ জুড়ে:

কোড কাজ: CodeMMLU, CodeScope, Cruxeval, Execution-v2
পছন্দ কাজ: RM-Bench, UltraFeedback
গণিত কাজ: AIME24, AMC23, GSM8K, Math500
বিজ্ঞান প্রশ্নোত্তর: MMLU-Pro, GPQA
যুক্তিগত অনুমান: MuSR, DROP, QASC
প্রশ্নোত্তর এবং RAG: 2WikiMultihopQA, HotpotQA এবং তাদের RAG ভেরিয়েন্ট

মূল্যায়ন মেট্রিক্স

গণিত কাজ: MATH-VERIFY স্বয়ংক্রিয় সমাধান যাচাইকরণ
অন্যান্য কাজ: সঠিক ম্যাচ (Exact Match)

পরীক্ষামূলক ফলাফল

প্রধান ফলাফল

RQ1: DRM কি নির্ভরযোগ্যভাবে চূড়ান্ত উত্তরের সঠিকতা নির্ধারণ করতে পারে?

RewardBench 2 এ ফলাফল দেখায় যে DRM ধারাবাহিকভাবে র্যান্ডম স্যাম্পলিংয়ের চেয়ে উচ্চতর নির্ভুলতা অর্জন করে:

LLaMA3.1-8B-Instruct: 78.57% বনাম 67.17%
R1-Distil-Llama8B: 76.16% বনাম 63.46%
Qwen3-8B: 85.65% বনাম 84.87%

RQ2&RQ3: DRM তত্ত্বাবধানের কার্যকারিতা

অফ-নীতি DPO প্রশিক্ষণ ফলাফল দেখায় যে DRM@ANY ধারাবাহিকভাবে RLVR@T+F এর চেয়ে উন্নত:

কাজের ক্ষেত্র	ডেটাসেট	নেটিভ	RLVR@T+F	DRM@ANY
কোড	Cruxeval	50.4	52.6	57.5
গণিত	Math500	39.6	43.4	48.4
QA-RAG	2wiki RAG	31.2	35.8	39.9

RQ4: RLVR এবং DRM একত্রিত করার প্রভাব

অন-নীতি GRPO প্রশিক্ষণ দেখায় যে সংমিশ্রণ পদ্ধতি সাধারণত সেরা বা একক সেরা পদ্ধতির সাথে সমান পারফর্ম করে।

বিলোপন পরীক্ষা

একক-মাত্রা তত্ত্বাবধান পরীক্ষা দেখায় যে:

একক মাত্রা কিছু কাজে উন্নতি করে, কিন্তু অন্যান্য কাজে হ্রাস পেতে পারে
কোনও একক মাত্রা সমস্ত কাজে শক্তিশালী উন্নতি অর্জনের জন্য যথেষ্ট নয়
বহুমাত্রিক সমন্বয় সমন্বয় প্রভাব তৈরি করে, আরও ব্যাপক সামঞ্জস্যপূর্ণ উন্নতি অর্জন করে

কেস বিশ্লেষণ

GPT-4o মূল্যায়ন দেখায় যে DRM তত্ত্বাবধান উল্লেখযোগ্যভাবে "সঠিক উত্তর কিন্তু ভুল যুক্তিপ্রক্রিয়া" এর উদাহরণ সংখ্যা হ্রাস করে, প্রমাণ করে যে DRM উচ্চতর যুক্তিপ্রক্রিয়া গুণমান সহ উদাহরণ নির্বাচন করতে অগ্রাধিকার দেয়।

উপসংহার এবং আলোচনা

প্রধান উপসংহার

DRM কার্যকর তত্ত্বাবধান সংকেত প্রদান করে যা LLM অপ্টিমাইজেশন পরিচালনা করতে এবং যুক্তিপ্রক্রিয়া ক্ষমতা বৃদ্ধি করতে পারে
বহুমাত্রিক যুক্তিপ্রক্রিয়া তত্ত্বাবধান বিতরণ-মধ্য এবং বিতরণ-বাইরে কাজ উভয়েই সামঞ্জস্যপূর্ণ উন্নতি অর্জন করে
DRM সফলভাবে RLVR এবং PRM এর মূল সীমাবদ্ধতা সমাধান করে

সীমাবদ্ধতা

ওজন সেটিং যাচাইকরণ সেটে গ্রিড অনুসন্ধানের প্রয়োজন, যা ক্রস-ডোমেইন সাধারণীকরণ সীমিত করতে পারে
প্রাসঙ্গিকতা এবং সুসংগতি মূল্যায়নের জন্য বাহ্যিক মডেলের উপর নির্ভরশীল, গণনা ওভারহেড বৃদ্ধি করে
কিছু যুক্তিপ্রক্রিয়া-ঘন বা জ্ঞান-ঘন কাজে, সরাসরি RLVR অপ্টিমাইজেশনের সাথে হস্তক্ষেপ করতে পারে

ভবিষ্যত দিকনির্দেশনা

স্বয়ংক্রিয় ওজন সমন্বয় প্রক্রিয়া অন্বেষণ করা
আরও দক্ষ মাত্রা মূল্যায়ন পদ্ধতি গবেষণা করা
আরও যুক্তিপ্রক্রিয়া মাত্রা এবং কাজের ধরন প্রসারিত করা

গভীর মূল্যায়ন

শক্তি

শক্তিশালী উদ্ভাবনী: প্রথমবারের মতো মাত্রা-স্তরের যুক্তিপ্রক্রিয়া তত্ত্বাবধান প্রস্তাব, RLVR এবং PRM এর মধ্যে ব্যবধান পূরণ করা
দৃঢ় তাত্ত্বিক ভিত্তি: উচ্চ-মানের যুক্তিপ্রক্রিয়ার তিনটি মূল বৈশিষ্ট্যের উপর ভিত্তি করে কাঠামো ডিজাইন করা
ব্যাপক পরীক্ষা: ১৭টি বিভিন্ন কাজে যাচাইকরণ, একাধিক ক্ষেত্র জুড়ে
ভাল ব্যাখ্যাযোগ্যতা: তিনটি মাত্রা স্পষ্ট শব্দার্থিক অর্থ এবং ব্যাখ্যাযোগ্যতা রয়েছে
উচ্চ ব্যবহারিক মূল্য: কাজ-নির্দিষ্ট ডেটা বা প্রশিক্ষণ ছাড়াই উন্নতি অর্জন করা সম্ভব

অপূর্ণতা

গণনা ওভারহেড: মাত্রা মূল্যায়নের জন্য একাধিক বাহ্যিক মডেলের প্রয়োজন, অনুমান খরচ বৃদ্ধি করে
ওজন সংবেদনশীলতা: বিভিন্ন মডেলের জন্য সর্বোত্তম ওজন কনফিগারেশন আলাদা, সাধারণীকরণকে প্রভাবিত করতে পারে
মূল্যায়ন নির্ভরতা: প্রাসঙ্গিকতা এবং সুসংগতি মূল্যায়ন বাহ্যিক মডেল গুণমানের উপর নির্ভরশীল
অপর্যাপ্ত তাত্ত্বিক বিশ্লেষণ: এই তিনটি মাত্রা কেন সর্বোত্তম পছন্দ তার তাত্ত্বিক বিশ্লেষণের অভাব

প্রভাব

একাডেমিক অবদান: যুক্তিপ্রক্রিয়া তত্ত্বাবধানের জন্য নতুন গবেষণা দিকনির্দেশনা এবং কাঠামো প্রদান করা
ব্যবহারিক মূল্য: বিদ্যমান LLM প্রশিক্ষণ প্রক্রিয়ায় সরাসরি প্রয়োগ করা যায়
পুনরুৎপাদনযোগ্যতা: কোড এবং ডেটাসেট সর্বজনীন, পুনরুৎপাদন এবং সম্প্রসারণ সহজতর করে

প্রযোজ্য পরিস্থিতি

উচ্চ-মানের যুক্তিপ্রক্রিয়া প্রয়োজন এমন প্রয়োগ পরিস্থিতি
খোলা ডোমেইন বহু-পদক্ষেপ যুক্তিপ্রক্রিয়া কাজ
যুক্তিপ্রক্রিয়া পদক্ষেপের বড় পরিমাণ মন্তব্যকৃত ডেটার অভাব সহ পরিস্থিতি
ব্যাখ্যাযোগ্য যুক্তিপ্রক্রিয়া মূল্যায়ন প্রয়োজন এমন প্রয়োগ

সংদর্ভ

পেপারটি যুক্তিপ্রক্রিয়া মূল্যায়ন, শক্তিশালীকরণ শিক্ষা, পুরস্কার মডেলিং এবং অন্যান্য সম্পর্কিত ক্ষেত্রের গুরুত্বপূর্ণ কাজ উদ্ধৃত করে, এই গবেষণার জন্য দৃঢ় তাত্ত্বিক ভিত্তি এবং তুলনা baseline প্রদান করে।

সামগ্রিক মূল্যায়ন: এটি একটি উচ্চ-মানের গবেষণা পত্র যা উদ্ভাবনী বহুমাত্রিক যুক্তিপ্রক্রিয়া তত্ত্বাবধান কাঠামো প্রস্তাব করে, বিদ্যমান পদ্ধতির সীমাবদ্ধতা কার্যকরভাবে সমাধান করে। পরীক্ষামূলক ডিজাইন ব্যাপক, ফলাফল বিশ্বাসযোগ্য, এবং LLM যুক্তিপ্রক্রিয়া ক্ষমতা উন্নতির জন্য গুরুত্বপূর্ণ তাত্ত্বিক এবং ব্যবহারিক মূল্য রয়েছে।