Multi-Agent Collaborative Reward Design for Enhancing Reasoning in Reinforcement Learning
Yang, Zhang, Wang et al.
We present CRM (Multi-Agent Collaborative Reward Model), a framework that replaces a single black-box reward model with a coordinated team of specialist evaluators to improve robustness and interpretability in RLHF. Conventional reward models struggle to jointly optimize multiple, sometimes conflicting, preference dimensions (e.g., factuality, helpfulness, safety) and offer limited transparency into why a score is assigned. CRM addresses these issues by decomposing preference evaluation into domain-specific agents that each produce partial signals, alongside global evaluators such as ranker-based and embedding-similarity rewards. A centralized aggregator fuses these signals at each timestep, balancing factors like step-wise correctness, multi-agent agreement, and repetition penalties, yielding a single training reward compatible with standard RL pipelines. The policy is optimized with advantage-based updates (e.g., GAE), while a value model regresses to the aggregated reward, enabling multi-perspective reward shaping without requiring additional human annotations beyond those used to train the evaluators. To support training and assessment, we introduce rewardBench, a benchmark and training suite aligned with the collaborative structure of CRM. Together, CRM and rewardBench provide a practical, modular path to more transparent reward modeling and more stable optimization.
academic
শক্তিশালী করণ শিক্ষায় যুক্তি বৃদ্ধির জন্য বহু-এজেন্ট সহযোগিতামূলক পুরস্কার ডিজাইন
শিরোনাম: Multi-Agent Collaborative Reward Design for Enhancing Reasoning in Reinforcement Learning
লেখক: Pei Yang (Gradient), Ke Zhang (Waseda University), Ji Wang (Columbia University), Xiao Chen (Hong Kong Polytechnic University), Yuxin Tang (Rice University & Gradient Network), Eric Yang, Lynn Ai, Bill Shi (Gradient)
শ্রেণীবিভাগ: cs.AI
প্রকাশনার সময়: ২০২৫ সালের নভেম্বর ২০ তারিখ (arXiv প্রি-প্রিন্ট, পর্যালোচনাধীন)
এই পেপারটি CRM (Collaborative Reward Model, সহযোগিতামূলক পুরস্কার মডেল) কাঠামো প্রস্তাব করে, যা একক ব্ল্যাক-বক্স পুরস্কার মডেলের পরিবর্তে সমন্বিত বিশেষজ্ঞ মূল্যায়ন দল ব্যবহার করে RLHF (মানব প্রতিক্রিয়া থেকে শক্তিশালী করণ শিক্ষা) এর দৃঢ়তা এবং ব্যাখ্যাযোগ্যতা বৃদ্ধি করে। ঐতিহ্যবাহী পুরস্কার মডেলগুলি একাধিক সম্ভাব্য সংঘর্ষপূর্ণ পছন্দের মাত্রা (যেমন সত্যতা, উপযোগিতা, নিরাপত্তা) একসাথে অপ্টিমাইজ করতে এবং স্কোরিং কারণগুলির স্বচ্ছতা প্রদান করতে কঠিন। CRM পছন্দ মূল্যায়নকে ডোমেইন-নির্দিষ্ট এজেন্টগুলিতে বিভক্ত করে এই সমস্যাগুলি সমাধান করে, যেখানে প্রতিটি এজেন্ট আংশিক সংকেত উৎপন্ন করে, র্যাঙ্কিং এবং এমবেডিং সাদৃশ্যের উপর ভিত্তি করে একটি বৈশ্বিক মূল্যায়নকারীর সাথে। একটি কেন্দ্রীভূত সমন্বয়কারী প্রতিটি সময় পদক্ষেপে এই সংকেতগুলি একত্রিত করে, ক্রমান্বয়ে সঠিকতা, বহু-এজেন্ট সামঞ্জস্য এবং পুনরাবৃত্তি শাস্তি ভারসাম্য রেখে, মান RL পাইপলাইনের সাথে সামঞ্জস্যপূর্ণ একটি একক প্রশিক্ষণ পুরস্কার উৎপন্ন করে। পেপারটি RewardBench বেঞ্চমার্ক স্যুটও চালু করে, যা মডুলার, ব্যাখ্যাযোগ্য পুরস্কার মডেলিংয়ের জন্য ব্যবহারিক পথ প্রদান করে।
বড় ভাষা মডেলগুলির (LLMs) সারিবদ্ধকরণ সাধারণত RLHF প্রযুক্তির উপর নির্ভর করে, যেখানে শেখা পুরস্কার মডেল নীতিকে পছন্দের আচরণের দিকে পরিচালিত করে। তবে, ঐতিহ্যবাহী একক স্কেলার পুরস্কার মডেলগুলি নিম্নলিখিত মূল সমস্যাগুলির সম্মুখীন হয়:
বহু-মাত্রিক পছন্দের ভারসাম্য রক্ষা করা কঠিন: মানুষের পছন্দ প্রকৃতিগতভাবে বহু-মাত্রিক, যা তথ্যগত নির্ভুলতা, সুসংগততা, উপযোগিতা এবং নিরাপত্তা অন্তর্ভুক্ত করে, যখন একক স্কেলার পুরস্কার এই কখনও কখনও প্রতিযোগিতামূলক মানদণ্ডগুলির মধ্যে ভারসাম্য সহজে ক্যাপচার করতে পারে না
অপর্যাপ্ত ব্যাখ্যাযোগ্যতা: ঐতিহ্যবাহী পুরস্কার মডেলগুলি সীমিত অন্তর্দৃষ্টি প্রদান করে, কেন একটি আউটপুট উচ্চ বা নিম্ন স্কোর পেয়েছে তা বোঝা কঠিন
পুরস্কার হ্যাকিং ঝুঁকি: অস্বচ্ছতা ত্রুটি নির্ণয় করা কঠিন করে তোলে, নীতি শিক্ষার ঝুঁকি বৃদ্ধি করে যা পুরস্কার ফাংশনের দুর্বলতা ব্যবহার করে (উচ্চ স্কোর কিন্তু প্রকৃত উদ্দেশ্যের সাথে অসামঞ্জস্যপূর্ণ আউটপুট উৎপন্ন করে)
গুরুত্বপূর্ণ অ্যাপ্লিকেশনে LLMs এর স্থাপনা ক্রমবর্ধমান হওয়ার সাথে সাথে, মডেল আচরণের নির্ভরযোগ্যতা, নিরাপত্তা এবং ব্যাখ্যাযোগ্যতা নিশ্চিত করা অত্যন্ত গুরুত্বপূর্ণ হয়ে উঠেছে। সারিবদ্ধকরণ পাইপলাইনের মূল উপাদান হিসাবে পুরস্কার মডেল, এর গুণমান চূড়ান্ত মডেলের কর্মক্ষমতা এবং বিশ্বাসযোগ্যতা সরাসরি প্রভাবিত করে।
সমন্বয় পদ্ধতি: যদিও কিছু গবেষণা অতিরিক্ত অপ্টিমাইজেশন প্রশমিত করার জন্য সমন্বয়-ভিত্তিক পুরস্কার মডেলগুলি অন্বেষণ করে, তবুও কাঠামোগত মূল্যায়ন বিয়োজন অভাব রয়েছে
বহু-উদ্দেশ্য সূত্র: বিদ্যমান কাজ প্রতিক্রিয়াকে ব্যাখ্যাযোগ্য মাত্রায় বিয়োজন করে এবং শেখা মিশ্রণের মাধ্যমে পুনরায় একত্রিত করে, কিন্তু রিয়েল-টাইম বহু-দৃষ্টিভঙ্গি প্রতিক্রিয়া প্রক্রিয়া অভাব রয়েছে
স্ব-প্রতিফলন পদ্ধতি: যেমন Critique-out-Loud আউটপুট স্কোর এবং সমালোচনা ব্যাখ্যাযোগ্যতা উন্নত করতে, কিন্তু বিশেষজ্ঞ এজেন্টগুলিকে পুরস্কার মডেলিংয়ে একীভূত করেনি
এই পেপারের মূল প্রেরণা পুরস্কার মডেলিংকে একক ব্ল্যাক-বক্স oracle থেকে স্ব-অভিযোজনযোগ্য, ব্যাখ্যাযোগ্য এবং স্কেলেবল বহু-এজেন্ট মূল্যায়ন ইকোসিস্টেমে পুনর্সংজ্ঞায়িত করা, সমন্বিত বিতরণকৃত মূল্যায়নকারীদের মাধ্যমে আরও স্বচ্ছ এবং দৃঢ় পুরস্কার গঠন অর্জন করা।
নতুন প্যারাডাইম: RLHF প্রসারিত করার জন্য একটি সহযোগিতামূলক বহু-এজেন্ট মূল্যায়ন নতুন প্যারাডাইম প্রস্তাব করে, একক ব্ল্যাক-বক্স পুরস্কার মডেলের তুলনায় ব্যাখ্যাযোগ্যতা এবং দৃঢ়তা উন্নত করে
কাঠামোগত সহযোগিতা প্রক্রিয়া: MARM (Multi-Agent Reward Model) কাঠামোগত সহযোগিতা পুরস্কার প্রক্রিয়া ডিজাইন করে, যা বিশেষজ্ঞ মূল্যায়নকারী এবং কেন্দ্রীভূত সমন্বয়কারী অন্তর্ভুক্ত করে, বহু-মাত্রিক ব্যাখ্যাযোগ্য সংকেতগুলিকে মান নীতি গ্রেডিয়েন্ট পদ্ধতির জন্য ব্যবহারযোগ্য একক পুরস্কারে একত্রিত করে
RewardBench বেঞ্চমার্ক: বহু-এজেন্ট পছন্দের চারপাশে সংগঠিত বেঞ্চমার্ক পরীক্ষা এবং প্রশিক্ষণ স্যুট প্রকাশ করে, মডুলার, ব্যাখ্যাযোগ্য পুরস্কার মডেলিং গবেষণার জন্য সাধারণ প্ল্যাটফর্ম প্রদান করে
উল্লেখযোগ্য কর্মক্ষমতা উন্নতি: জটিল যুক্তি কাজে উল্লেখযোগ্য লাভ অর্জন করে, একক RM বেসলাইনের তুলনায় উচ্চতর নির্ভুলতা এবং স্থিতিশীলতা সহ, প্রবাহিততা এবং নিরাপত্তা বজায় রেখে, বহু-দৃষ্টিভঙ্গি পুরস্কার গঠনের কার্যকারিতা প্রমাণ করে
বড় স্কেল নীতি মডেল πθ এবং প্রম্পট সেট x দেওয়া, মডেল বহু-পদক্ষেপ যুক্তি ট্র্যাজেক্টরি এবং চূড়ান্ত উত্তর সহ কাঠামোগত আউটপুট o = πθ(x) উৎপন্ন করে। লক্ষ্য হল স্থির স্কেলার পুরস্কার অপ্টিমাইজ করার পরিবর্তে বহু-মাত্রিক মূল্যায়ন স্থান জুড়ে শিখা।
CRM পরবর্তী-প্রশিক্ষণকে বিতরণকৃত, প্রতিক্রিয়া-চালিত অপ্টিমাইজেশন প্রক্রিয়ায় পুনর্গঠন করে, বড় মডেল আউটপুট পরিপূরক দৃষ্টিভঙ্গি থেকে সহযোগিতামূলকভাবে মূল্যায়ন করার জন্য বিশেষজ্ঞ এজেন্ট দল চালু করে:
চারটি মূল এজেন্ট:
ডেটা অপ্টিমাইজার (Data Optimizer): আউটপুট দক্ষতা এবং বৈচিত্র্য পরিমাণ করে, অপ্রয়োজনীয় যুক্তি ট্র্যাজেক্টরি শাস্তি দেয় যখন অন্বেষণ ভারসাম্য উৎসাহিত করে
গুণমান মূল্যায়নকারী (Quality Assessor): সূক্ষ্ম-দানাদার রায় প্রদান করে, যুক্তি নির্ভুলতা, তথ্যগত সামঞ্জস্য এবং মধ্যবর্তী পদক্ষেপের যুক্তিগত সুসংগততা মূল্যায়ন করে
ডেটা সংশ্লেষক (Data Synthesizer): সংশ্লেষিত বিঘ্ন ইনজেকশন এবং বাহ্যিক জ্ঞান একীকরণের মাধ্যমে তত্ত্বাবধান বৃদ্ধি করে, দৃঢ়তা এবং ডোমেইন সাধারণীকরণ ক্ষমতা উন্নত করে
ডেটা বিশ্লেষক (Data Analyzer): ক্রমাগত পুরস্কার সংকেতের পরিসংখ্যানগত প্রবণতা পর্যবেক্ষণ করে, স্থিতিশীলতা জোরদার করে এবং ধসন বা প্যাটার্ন ড্রিফট প্রতিরোধ করে
বিতরণকৃত মূল্যায়ন আর্কিটেকচার: প্রথমবারের মতো পুরস্কার মডেলিংকে বহু-এজেন্ট সহযোগিতা প্রক্রিয়ায় সিস্টেমেটাইজ করে, প্রতিটি এজেন্ট নির্দিষ্ট মূল্যায়ন মাত্রায় ফোকাস করে
ব্যাখ্যাযোগ্যতা বৃদ্ধি: প্রতিটি এজেন্টের স্কোর মানুষ-বোধগম্য মূল্যায়ন প্রতিনিধিত্ব করে (যেমন তথ্যগত নির্ভুলতা), সম্মিলিতভাবে আউটপুট গুণমানের বহু-মাত্রিক চিত্র গঠন করে
মডুলার ডিজাইন: নতুন মূল্যায়নকারীদের প্লাগইন এজেন্ট হিসাবে চালু করার অনুমতি দেয়, স্ব-নিয়ন্ত্রণ এবং ব্যাখ্যাযোগ্য পুরস্কার সারিবদ্ধকরণের জন্য স্কেলেবল পথ প্রদান করে
অতিরিক্ত টীকা প্রয়োজন নেই: বহু-দৃষ্টিভঙ্গি পুরস্কার গঠন প্রশিক্ষণ মূল্যায়নকারীদের জন্য ব্যবহৃত অতিরিক্ত মানব টীকার প্রয়োজন নেই
মান সামঞ্জস্যতা: মান RL পাইপলাইনের সাথে সম্পূর্ণভাবে সামঞ্জস্যপূর্ণ একক প্রশিক্ষণ পুরস্কার উৎপন্ন করে (যেমন GRPO, PPO)
গুণমান মূল্যায়নকারী সূক্ষ্ম-দানাদার মূল্যায়ন প্রতিক্রিয়া চালু করে, কাঠামো সুসংগততা এবং ক্রমান্বয়ে যুক্তিগত যুক্তিসঙ্গততা আরও ভালভাবে ক্যাপচার করে
তিন এজেন্ট→চার এজেন্ট:
সমন্বয় যুক্তি এবং তথ্য সংশ্লেষণ কাজ আরও উন্নত করে
ডেটা সংশ্লেষক স্থানীয় অতিফিটিং প্রশমিত করে মডেল সাধারণীকরণ উন্নত করে
মধ্যবর্তী যুক্তি শৃঙ্খলার সিমান্টিক সম্পূর্ণতা উন্নত করে
সমন্বয় কৌশলের প্রভাব:
পুনর্র্যাঙ্কিং পদ্ধতি: উচ্চ নির্ভুলতা যুক্তি কাজে ক্রমাগত অন্যান্য ভেরিয়েন্টকে ছাড়িয়ে যায়, স্পষ্ট পছন্দ মডেলিং এবং জোড়া র্যাঙ্কিং আরও বৈষম্যমূলক পুরস্কার গঠনে অবদান রাখে
এমবেডিং পদ্ধতি: জটিল বহু-এজেন্ট সমন্বয়ে উন্নত স্থিতিশীলতা এবং স্কেলেবিলিটি প্রদর্শন করে
বহু-দৃষ্টিভঙ্গি মূল্যায়নের কার্যকারিতা: সহযোগিতা কাঠামো যুক্তি দৃঢ়তা এবং গাণিতিক নির্ভুলতায় উল্লেখযোগ্য উন্নতি অর্জন করে, কথোপকথন গুণমান ক্ষতি না করে
মডুলার সুবিধা: বিভিন্ন এজেন্টের প্রবর্তন ক্রমান্বয়ে উন্নতি নিয়ে আসে, মূল্যায়ন বিয়োজনের মূল্য যাচাই করে
স্থিতিশীলতা রক্ষা: সাধারণ কথোপকথন কাজে (Chat, Chat Hard) কর্মক্ষমতা তুলনামূলকভাবে স্থিতিশীল থাকে, পুরস্কার সংমিশ্রণ প্রক্রিয়া কার্যকরভাবে বহু-মাত্রিক উদ্দেশ্য ভারসাম্য রাখে
সাধারণীকরণ ক্ষমতা: ডেটা সংশ্লেষকের প্রবর্তন সমন্বয় যুক্তি কাজ প্রয়োজন মডেলের কর্মক্ষমতা উল্লেখযোগ্যভাবে উন্নত করে
প্যারাডাইম পরিবর্তন: MARM সফলভাবে পুরস্কার মডেলিংকে বহু-এজেন্ট মূল্যায়ন প্রক্রিয়ায় পুনর্সংজ্ঞায়িত করে, একক ব্ল্যাক-বক্স oracle এর পরিবর্তে
কর্মক্ষমতা যাচাইকরণ: RewardBench, Math এবং GSM8K-তে ব্যাপক পরীক্ষা প্রমাণ করে যে বহু-এজেন্ট সহযোগিতা যুক্তি নির্ভুলতা, গাণিতিক নির্ভুলতা এবং সামগ্রিক স্থিতিশীলতা উল্লেখযোগ্যভাবে বৃদ্ধি করে, কথোপকথন গুণমান ক্ষতি না করে
মডুলার সুবিধা: গুণমান মূল্যায়নকারী এবং ডেটা সংশ্লেষকের মতো ভূমিকার প্রবর্তন সামঞ্জস্য এবং সাধারণীকরণ ক্ষমতা আরও উন্নত করে, ডোমেইন-নির্দিষ্ট বিয়োজন এবং সমন্বিত প্রতিক্রিয়ার সুবিধা তুলে ধরে
ব্যবহারিক মূল্য: স্কেলেবল এবং মডুলার ডিজাইন প্রদান করে, নতুন মূল্যায়নকারীদের প্লাগইন এজেন্ট হিসাবে একীভূত করা সমর্থন করে, বিদ্যমান RLHF পাইপলাইনের সাথে সামঞ্জস্যপূর্ণ
এজেন্ট ডিজাইন: পেপারটি কীভাবে বিভিন্ন বিশেষজ্ঞ এজেন্ট প্রশিক্ষণ দিতে হয় এবং তাদের মূল্যায়ন গুণমান নিশ্চিত করতে হয় তা বিস্তারিতভাবে ব্যাখ্যা করে না
স্কেল যাচাইকরণ: পরীক্ষা প্রধানত ছোট মডেলে (৪৯৪M প্যারামিটার) পরিচালিত হয়, বড় মডেলে কর্মক্ষমতা অজানা
কথোপকথন গুণমান ট্রেড-অফ: যদিও পেপার কথোপকথন গুণমান বজায় রাখার দাবি করে, টেবিল ডেটা থেকে দেখা যায় Chat এবং Chat Hard মাত্রার কর্মক্ষমতা সামান্য হ্রাস পায়
Christiano et al. (2017) - Deep reinforcement learning from human preferences
Ouyang et al. (2022) - InstructGPT: Training language models to follow instructions with human feedback
পুরস্কার মডেলিং:
Coste et al. (2023) - Reward model ensembles help mitigate overoptimization
Wang et al. (2024) - Interpretable preferences via multi-objective reward modeling
বহু-এজেন্ট মূল্যায়ন:
Irving et al. (2018) - AI safety via debate
Chan et al. (2023) - ChatEval: Towards better LLM-based evaluators through multi-agent debate
সূক্ষ্ম-দানাদার প্রতিক্রিয়া:
Zheng et al. (2024) - GRPO: Guided reinforcement preference optimization
Ankner et al. (2024) - Critique-out-loud reward models
সামগ্রিক মূল্যায়ন: এই পেপারটি RLHF ব্যাখ্যাযোগ্যতা এবং যুক্তি ক্ষমতা উন্নয়নে গুরুত্বপূর্ণ অবদান রাখে একটি উদ্ভাবনী এবং ব্যবহারিক বহু-এজেন্ট সহযোগিতা পুরস্কার মডেলিং কাঠামো প্রস্তাব করে। যদিও পরীক্ষা স্কেল সীমিত এবং বাস্তবায়ন বিবরণ অপর্যাপ্ত ইত্যাদি সমস্যা রয়েছে, এর মূল ধারণা উল্লেখযোগ্য একাডেমিক মূল্য এবং প্রয়োগ সম্ভাবনা রয়েছে। আমরা লেখকদের পরবর্তী কাজে আরও বাস্তবায়ন বিবরণ, পরীক্ষা স্কেল সম্প্রসারণ এবং সম্পর্কিত কোড এবং মডেল ওপেন-সোর্স করার প্রত্যাশা করি সম্প্রদায় উন্নয়ন প্রচার করতে।