Multi-Agent Collaborative Reward Design for Enhancing Reasoning in Reinforcement Learning
Yang, Zhang, Wang et al.
We present CRM (Multi-Agent Collaborative Reward Model), a framework that replaces a single black-box reward model with a coordinated team of specialist evaluators to improve robustness and interpretability in RLHF. Conventional reward models struggle to jointly optimize multiple, sometimes conflicting, preference dimensions (e.g., factuality, helpfulness, safety) and offer limited transparency into why a score is assigned. CRM addresses these issues by decomposing preference evaluation into domain-specific agents that each produce partial signals, alongside global evaluators such as ranker-based and embedding-similarity rewards. A centralized aggregator fuses these signals at each timestep, balancing factors like step-wise correctness, multi-agent agreement, and repetition penalties, yielding a single training reward compatible with standard RL pipelines. The policy is optimized with advantage-based updates (e.g., GAE), while a value model regresses to the aggregated reward, enabling multi-perspective reward shaping without requiring additional human annotations beyond those used to train the evaluators. To support training and assessment, we introduce rewardBench, a benchmark and training suite aligned with the collaborative structure of CRM. Together, CRM and rewardBench provide a practical, modular path to more transparent reward modeling and more stable optimization.
academic
बहु-एजेंट सहयोगी पुरस्कार डिजाइन सुदृढ़ीकरण सीखने में तर्क को बढ़ाने के लिए
शीर्षक: Multi-Agent Collaborative Reward Design for Enhancing Reasoning in Reinforcement Learning
लेखक: Pei Yang (Gradient), Ke Zhang (Waseda University), Ji Wang (Columbia University), Xiao Chen (Hong Kong Polytechnic University), Yuxin Tang (Rice University & Gradient Network), Eric Yang, Lynn Ai, Bill Shi (Gradient)
वर्गीकरण: cs.AI
प्रकाशन तिथि: 20 नवंबर 2025 (arXiv प्रीप्रिंट, समीक्षाधीन)
यह पेपर CRM (Collaborative Reward Model, बहु-एजेंट सहयोगी पुरस्कार मॉडल) ढांचा प्रस्तावित करता है, जो एकल ब्लैक-बॉक्स पुरस्कार मॉडल को समन्वित विशेषज्ञ मूल्यांकन दल से बदलकर RLHF (मानव प्रतिक्रिया से सुदृढ़ीकरण सीखना) की मजबूती और व्याख्यात्मकता में सुधार करता है। पारंपरिक पुरस्कार मॉडल एक साथ कई संभावित रूप से परस्पर विरोधी प्राथमिकता आयामों (जैसे तथ्यात्मकता, उपयोगिता, सुरक्षा) को अनुकूलित करने में कठिनाई रखते हैं, और स्कोरिंग कारणों की पारदर्शिता सीमित है। CRM प्राथमिकता मूल्यांकन को विशेष डोमेन एजेंटों में विघटित करके इन समस्याओं को हल करता है, जहां प्रत्येक एजेंट आंशिक संकेत उत्पन्न करता है, साथ ही रैंकिंग और एम्बेडिंग समानता पर आधारित वैश्विक मूल्यांकनकर्ता के साथ। केंद्रीकृत एकत्रीकरण प्रत्येक समय चरण पर इन संकेतों को मिलाता है, क्रमिक सही होने, बहु-एजेंट सामंजस्य और दोहराए गए दंड को संतुलित करता है, जो मानक RL पाइपलाइन के साथ संगत एक एकल प्रशिक्षण पुरस्कार उत्पन्न करता है। पेपर RewardBench बेंचमार्क सूट भी पेश करता है, जो मॉड्यूलर, व्याख्यात्मक पुरस्कार मॉडलिंग के लिए व्यावहारिक पथ प्रदान करता है।
बड़े भाषा मॉडल (LLMs) का संरेखण आमतौर पर RLHF तकनीक पर निर्भर करता है, जिसमें सीखा गया पुरस्कार मॉडल नीति को पसंदीदा व्यवहार की ओर निर्देशित करता है। हालांकि, पारंपरिक एकल अदिश पुरस्कार मॉडल निम्नलिखित मुख्य समस्याओं का सामना करते हैं:
बहु-आयामी प्राथमिकता संतुलन कठिन: मानव प्राथमिकता स्वाभाविक रूप से बहु-आयामी है, जिसमें तथ्यात्मक सटीकता, सुसंगतता, उपयोगिता और सुरक्षा जैसे कारक शामिल हैं, जबकि एकल अदिश पुरस्कार इन कभी-कभी परस्पर प्रतिस्पर्धी मानदंडों के बीच व्यापार को आसानी से कैप्चर नहीं कर सकता
अपर्याप्त व्याख्यात्मकता: पारंपरिक पुरस्कार मॉडल सीमित अंतर्दृष्टि प्रदान करते हैं, यह समझना कठिन है कि किसी आउटपुट को उच्च या निम्न स्कोर क्यों दिया गया
पुरस्कार हैकिंग जोखिम: अपारदर्शिता त्रुटियों का निदान करना मुश्किल बनाती है, रणनीति के पुरस्कार फ़ंक्शन में खामियों का दोहन करने का जोखिम बढ़ाती है (उच्च स्कोर वाले लेकिन वास्तविक इरादे के साथ असंगत आउटपुट उत्पन्न करना)
महत्वपूर्ण अनुप्रयोगों में LLMs के तैनाती में वृद्धि के साथ, मॉडल व्यवहार की विश्वसनीयता, सुरक्षा और व्याख्यात्मकता सुनिश्चित करना महत्वपूर्ण हो गया है। पुरस्कार मॉडल संरेखण पाइपलाइन के मूल घटक के रूप में, इसकी गुणवत्ता अंतिम मॉडल के प्रदर्शन और विश्वसनीयता को सीधे प्रभावित करती है।
समूह विधियां: हालांकि कुछ अनुसंधान अत्यधिक अनुकूलन को कम करने के लिए समूह-आधारित पुरस्कार मॉडलों की खोज करते हैं, फिर भी संरचित मूल्यांकन विघटन की कमी है
बहु-उद्देश्य सूत्रीकरण: मौजूदा कार्य प्रतिक्रिया को व्याख्यात्मक आयामों में विघटित करते हैं और सीखे गए मिश्रण के माध्यम से पुनः एकत्रित करते हैं, लेकिन वास्तविक समय बहु-दृष्टिकोण प्रतिक्रिया तंत्र की कमी है
आत्म-प्रतिबिंब विधियां: जैसे Critique-out-Loud आउटपुट स्कोर और व्याख्यात्मकता में सुधार के लिए आलोचना, लेकिन पुरस्कार मॉडलिंग में विशेषज्ञ एजेंटों को एकीकृत नहीं करते
इस पेपर की मूल प्रेरणा पुरस्कार मॉडलिंग को एकल ब्लैक-बॉक्स oracle से समायोजन योग्य, व्याख्यात्मक और स्केलेबल बहु-एजेंट मूल्यांकन पारिस्थितिकी तंत्र में पुनर्परिभाषित करना है, समन्वित वितरित मूल्यांकनकर्ताओं के माध्यम से अधिक पारदर्शी और मजबूत पुरस्कार आकार प्रदान करना।
नया प्रतिमान: RLHF को विस्तारित करने के लिए सहयोगी बहु-एजेंट मूल्यांकन का एक नया प्रतिमान प्रस्तावित करता है, जो एकल ब्लैक-बॉक्स पुरस्कार मॉडल की तुलना में व्याख्यात्मकता और मजबूती में सुधार करता है
संरचित सहयोग तंत्र: MARM (Multi-Agent Reward Model) संरचित सहयोग पुरस्कार तंत्र डिजाइन करता है, जिसमें विशेषज्ञ मूल्यांकनकर्ता और केंद्रीकृत एकत्रीकरण शामिल है, जो बहु-आयामी व्याख्यात्मक संकेतों को मानक नीति ढाल विधियों के लिए उपयोगी एकल पुरस्कार में मिलाता है
RewardBench बेंचमार्क: बहु-एजेंट प्राथमिकता के चारों ओर संगठित बेंचमार्क परीक्षण और प्रशिक्षण सूट जारी करता है, जो मॉड्यूलर, व्याख्यात्मक पुरस्कार मॉडलिंग के लिए सामान्य मंच प्रदान करता है
महत्वपूर्ण प्रदर्शन सुधार: जटिल तर्क कार्यों पर महत्वपूर्ण लाभ प्राप्त करता है, एकल RM आधारभूत की तुलना में उच्च सटीकता और स्थिरता के साथ, जबकि प्रवाहिता और सुरक्षा बनाए रखता है, बहु-दृष्टिकोण पुरस्कार आकार की प्रभावशीलता को प्रमाणित करता है
बड़े पैमाने पर नीति मॉडल πθ और प्रॉम्प्ट सेट x दिए गए, मॉडल बहु-चरण तर्क प्रक्षेपवक्र और अंतिम उत्तर युक्त संरचित आउटपुट o = πθ(x) उत्पन्न करता है। लक्ष्य निश्चित अदिश पुरस्कार को अनुकूलित करने के बजाय बहु-आयामी मूल्यांकन स्थान के माध्यम से सीखना है।
CRM पश्च-प्रशिक्षण को वितरित, प्रतिक्रिया-संचालित अनुकूलन प्रक्रिया में पुनर्गठित करता है, विशेषज्ञ एजेंटों की एक टीम पेश करता है जो पूरक दृष्टिकोण से बड़े मॉडल आउटपुट का सहयोगी मूल्यांकन करते हैं:
चार मूल एजेंट:
डेटा अनुकूलक (Data Optimizer): आउटपुट दक्षता और विविधता को मापता है, अनावश्यक तर्क प्रक्षेपवक्र को दंडित करते हुए संतुलित अन्वेषण को प्रोत्साहित करता है
गुणवत्ता मूल्यांकनकर्ता (Quality Assessor): सूक्ष्म-दानेदार निर्णय प्रदान करता है, तर्क सटीकता, तथ्यात्मक सुसंगतता और मध्यवर्ती चरणों की तार्किक सुसंगतता का मूल्यांकन करता है
डेटा संश्लेषक (Data Synthesizer): कृत्रिम व्यवधान को इंजेक्ट करके और बाहरी ज्ञान को एकीकृत करके पर्यवेक्षण को बढ़ाता है, मजबूती और डोमेन सामान्यीकरण क्षमता में सुधार करता है
डेटा विश्लेषक (Data Analyzer): पुरस्कार संकेतों के सांख्यिकीय प्रवृत्तियों की निरंतर निगरानी करता है, स्थिरता को लागू करता है और पतन या पैटर्न बहाव को रोकता है
वितरित मूल्यांकन आर्किटेक्चर: पहली बार पुरस्कार मॉडलिंग को बहु-एजेंट सहयोग प्रक्रिया में व्यवस्थित रूप से परिवर्तित करता है, प्रत्येक एजेंट विशिष्ट मूल्यांकन आयाम पर केंद्रित है
व्याख्यात्मकता वृद्धि: प्रत्येक एजेंट का स्कोर मानव-समझने योग्य मूल्यांकन (जैसे तथ्यात्मक सटीकता) का प्रतिनिधित्व करता है, सामूहिक रूप से आउटपुट गुणवत्ता का बहु-आयामी चित्र बनाता है
मॉड्यूलर डिजाइन: नए मूल्यांकनकर्ताओं को प्लग-इन एजेंटों के रूप में पेश करने की अनुमति देता है, आत्म-समायोजन और व्याख्यात्मक पुरस्कार संरेखण के लिए स्केलेबल पथ प्रदान करता है
अतिरिक्त एनोटेशन की आवश्यकता नहीं: बहु-दृष्टिकोण पुरस्कार आकार को प्रशिक्षण मूल्यांकनकर्ताओं के लिए उपयोग किए गए अतिरिक्त मानव एनोटेशन की आवश्यकता नहीं है
मानक संगतता: मानक RL पाइपलाइन (जैसे GRPO, PPO) के साथ पूरी तरह से संगत एकल प्रशिक्षण पुरस्कार उत्पन्न करता है
गुणवत्ता मूल्यांकनकर्ता सूक्ष्म-दानेदार मूल्यांकन प्रतिक्रिया पेश करता है, संरचना सुसंगतता और क्रमिक तार्किक उचितता को बेहतर ढंग से कैप्चर करता है
तीन एजेंट→चार एजेंट:
संयुक्त तर्क और तथ्यात्मक संश्लेषण कार्यों में आगे सुधार
डेटा संश्लेषक स्थानीय अति-फिटिंग को कम करके मॉडल सामान्यीकरण को बढ़ाता है
मध्यवर्ती तर्क श्रृंखला की सिमेंटिक पूर्णता में सुधार
एकत्रीकरण रणनीति का प्रभाव:
पुनः रैंकिंग विधि: उच्च सटीकता तर्क कार्यों पर लगातार अन्य वेरिएंटों से बेहतर, स्पष्ट प्राथमिकता मॉडलिंग और जोड़ी रैंकिंग अधिक विभेदकारी पुरस्कार आकार में योगदान देते हैं
एम्बेडिंग विधि: जटिल बहु-एजेंट समन्वय में बेहतर स्थिरता और स्केलेबिलिटी प्रदर्शित करता है
बहु-दृष्टिकोण मूल्यांकन की प्रभावशीलता: सहयोगी ढांचा तर्क मजबूती और गणितीय सटीकता में महत्वपूर्ण सुधार प्राप्त करता है, जबकि संवाद गुणवत्ता को नुकसान नहीं पहुंचाता
मॉड्यूलर लाभ: गुणवत्ता मूल्यांकनकर्ता और डेटा संश्लेषक जैसी भूमिकाओं का परिचय सुसंगतता और सामान्यीकरण क्षमता में आगे सुधार करता है, पुरस्कार मॉडलिंग में डोमेन-विशिष्ट विघटन और समन्वित प्रतिक्रिया के लाभों को उजागर करता है
स्थिरता रखरखाव: सामान्य संवाद कार्यों (Chat, Chat Hard) पर प्रदर्शन अपेक्षाकृत स्थिर रहता है, यह दर्शाता है कि पुरस्कार संलयन तंत्र बहु-आयामी उद्देश्यों को प्रभावी ढंग से संतुलित करता है
प्रतिमान परिवर्तन: MARM पुरस्कार मॉडलिंग को एकल ब्लैक-बॉक्स oracle के बजाय बहु-एजेंट मूल्यांकन प्रक्रिया में सफलतापूर्वक पुनर्परिभाषित करता है
प्रदर्शन सत्यापन: RewardBench, Math और GSM8K पर व्यापक प्रयोग प्रमाणित करते हैं कि बहु-एजेंट सहयोग तर्क सटीकता, गणितीय सटीकता और समग्र स्थिरता में काफी सुधार करता है, जबकि संवाद गुणवत्ता को नुकसान नहीं पहुंचाता
मॉड्यूलर लाभ: गुणवत्ता मूल्यांकनकर्ता और डेटा संश्लेषक जैसी भूमिकाओं का परिचय सुसंगतता और सामान्यीकरण क्षमता में आगे सुधार करता है, पुरस्कार मॉडलिंग में डोमेन-विशिष्ट विघटन और समन्वित प्रतिक्रिया के लाभों को उजागर करता है
व्यावहारिक मूल्य: स्केलेबल और मॉड्यूलर डिजाइन प्रदान करता है, नए मूल्यांकनकर्ताओं को प्लग-इन एजेंटों के रूप में एकीकृत करने का समर्थन करता है, मौजूदा RLHF पाइपलाइन के साथ संगत
कम्प्यूटेशनल ओवरहेड: बहु-एजेंट मूल्यांकन एकल पुरस्कार मॉडल की तुलना में अधिक कम्प्यूटेशनल संसाधनों की आवश्यकता है, प्रत्येक एजेंट को स्वतंत्र मूल्यांकन की आवश्यकता है
भार समायोजन: सहयोगी भार गुणांक (α, β, γ, δ, η) को अनुभवजन्य समायोजन की आवश्यकता है, स्वचालित अनुकूलन तंत्र की कमी है
एजेंट डिजाइन: पेपर विभिन्न विशेषज्ञ एजेंटों को प्रशिक्षित करने के तरीके पर विस्तार से नहीं बताता है, और उनकी मूल्यांकन गुणवत्ता कैसे सुनिश्चित करें
स्केल सत्यापन: प्रयोग मुख्य रूप से छोटे मॉडल (494M पैरामीटर) पर किए गए हैं, बड़े पैमाने के मॉडलों पर प्रदर्शन अज्ञात है
संवाद गुणवत्ता व्यापार: हालांकि पेपर संवाद गुणवत्ता बनाए रखने का दावा करता है, लेकिन तालिका डेटा से Chat और Chat Hard आयामों का प्रदर्शन थोड़ा कम हो गया है
Christiano et al. (2017) - Deep reinforcement learning from human preferences
Ouyang et al. (2022) - InstructGPT: Training language models to follow instructions with human feedback
पुरस्कार मॉडलिंग:
Coste et al. (2023) - Reward model ensembles help mitigate overoptimization
Wang et al. (2024) - Interpretable preferences via multi-objective reward modeling
बहु-एजेंट मूल्यांकन:
Irving et al. (2018) - AI safety via debate
Chan et al. (2023) - ChatEval: Towards better LLM-based evaluators through multi-agent debate
सूक्ष्म-दानेदार प्रतिक्रिया:
Zheng et al. (2024) - GRPO: Guided reinforcement preference optimization
Ankner et al. (2024) - Critique-out-loud reward models
समग्र मूल्यांकन: यह पेपर एक नवीन और व्यावहारिक बहु-एजेंट सहयोगी पुरस्कार मॉडलिंग ढांचा प्रस्तावित करता है, जो RLHF की व्याख्यात्मकता और तर्क क्षमता में सुधार में महत्वपूर्ण योगदान देता है। हालांकि प्रयोगात्मक पैमाने सीमित और कार्यान्वयन विवरण अपर्याप्त हैं, इसके मूल विचार में महत्वपूर्ण शैक्षणिक मूल्य और अनुप्रयोग संभावनाएं हैं। भविष्य के कार्य में अधिक कार्यान्वयन विवरण, प्रयोगात्मक पैमाने का विस्तार, और संबंधित कोड और मॉडलों के खुले स्रोत होने की प्रत्याशा है ताकि समुदाय विकास को बढ़ावा दिया जा सके।