Multi-Agent Collaborative Reward Design for Enhancing Reasoning in Reinforcement Learning
Yang, Zhang, Wang et al.
We present CRM (Multi-Agent Collaborative Reward Model), a framework that replaces a single black-box reward model with a coordinated team of specialist evaluators to improve robustness and interpretability in RLHF. Conventional reward models struggle to jointly optimize multiple, sometimes conflicting, preference dimensions (e.g., factuality, helpfulness, safety) and offer limited transparency into why a score is assigned. CRM addresses these issues by decomposing preference evaluation into domain-specific agents that each produce partial signals, alongside global evaluators such as ranker-based and embedding-similarity rewards. A centralized aggregator fuses these signals at each timestep, balancing factors like step-wise correctness, multi-agent agreement, and repetition penalties, yielding a single training reward compatible with standard RL pipelines. The policy is optimized with advantage-based updates (e.g., GAE), while a value model regresses to the aggregated reward, enabling multi-perspective reward shaping without requiring additional human annotations beyond those used to train the evaluators. To support training and assessment, we introduce rewardBench, a benchmark and training suite aligned with the collaborative structure of CRM. Together, CRM and rewardBench provide a practical, modular path to more transparent reward modeling and more stable optimization.
academic
تصميم المكافآت التعاوني متعدد الوكلاء لتعزيز التفكير في التعلم المعزز
العنوان: Multi-Agent Collaborative Reward Design for Enhancing Reasoning in Reinforcement Learning
المؤلفون: Pei Yang (Gradient)، Ke Zhang (جامعة Waseda)، Ji Wang (جامعة Columbia)، Xiao Chen (جامعة Hong Kong Polytechnic)، Yuxin Tang (جامعة Rice و Gradient Network)، Eric Yang، Lynn Ai، Bill Shi (Gradient)
التصنيف: cs.AI
تاريخ النشر: 20 نوفمبر 2025 (نسخة أولية على arXiv، قيد المراجعة)
تقترح هذه الورقة إطار عمل CRM (نموذج المكافآت التعاوني متعدد الوكلاء)، الذي يحل محل نموذج المكافآت الأسود الموحد بفريق متنسق من المقيّمين المتخصصين لتحسين قوة واستدامة RLHF (التعلم المعزز من التغذية الراجعة البشرية). تواجه نماذج المكافآت التقليدية صعوبة في تحسين أبعاد تفضيل متعددة قد تتعارض (مثل الدقة الواقعية والفائدة والأمان)، مع شفافية محدودة بشأن أسباب التقييم. يحل CRM هذه المشاكل بتقسيم تقييم التفضيل إلى وكلاء متخصصين حسب المجال، حيث ينتج كل وكيل إشارة جزئية، مع مقيّم عام يعتمد على الترتيب والتشابه المدمج. يدمج المجمّع المركزي هذه الإشارات في كل خطوة زمنية، موازناً بين الصحة التدريجية واتساق متعدد الوكلاء والعقوبات المتكررة، مما ينتج عنه مكافأة تدريب واحدة متوافقة مع خطوط أنابيب RL القياسية. تقدم الورقة أيضاً مجموعة معايير RewardBench، التي توفر مساراً عملياً لنمذجة المكافآت القابلة للتعديل والقابلة للتفسير.
يعتمد محاذاة نماذج اللغة الكبيرة (LLMs) عادة على تقنية RLHF، حيث يوجه نموذج المكافآت المتعلم السياسة نحو السلوك المفضل. ومع ذلك، يواجه نموذج المكافآت القياسي الموحد المشاكل الرئيسية التالية:
صعوبة الموازنة بين التفضيلات متعددة الأبعاد: التفضيلات البشرية متعددة الأبعاد بطبيعتها، تشمل الدقة الواقعية والتماسك والفائدة والأمان وعوامل أخرى، بينما لا يمكن لمكافأة قياسية موحدة أن تلتقط بسهولة المقايضات بين هذه المعايير المتنافسة أحياناً
نقص الاستدامة: توفر نماذج المكافآت التقليدية رؤى محدودة، مما يصعب فهم سبب تقييم مخرجات معينة بدرجة عالية أو منخفضة
مخاطر اختراق المكافآت: تزيد عدم الشفافية من صعوبة تشخيص الأخطاء، مما يزيد من خطر تعلم السياسة بالاستفادة من ثغرات دالة المكافآت (إنتاج مخرجات تحصل على درجات عالية لكنها لا تتوافق مع النية الحقيقية)
مع زيادة نشر LLMs في التطبيقات الحرجة، أصبح ضمان موثوقية وأمان وقابلية تفسير سلوك النموذج أمراً حاسماً. نموذج المكافآت، كمكون أساسي في خط أنابيب المحاذاة، يؤثر مباشرة على أداء وموثوقية النموذج النهائي.
طرق التجميع: بينما استكشفت بعض الأبحاث نماذج مكافآت قائمة على التجميع لتخفيف الإفراط في التحسين، لا تزال تفتقر إلى تحلل تقييم منظم
الصيغ متعددة الأهداف: تقسم الأعمال الموجودة التغذية الراجعة إلى أبعاد قابلة للتفسير وإعادة التجميع من خلال التعلم، لكنها تفتقر إلى آلية تغذية راجعة متعددة الآفاق في الوقت الفعلي
طرق التأمل الذاتي: مثل Critique-out-Loud التي تنتج درجات وانتقادات لتحسين الاستدامة، لكنها لم تدمج وكلاء متخصصين في نمذجة المكافآت
الدافع الأساسي للورقة هو إعادة تعريف نمذجة المكافآت من oracle أسود موحد إلى نظام بيئي تقييم متعدد الوكلاء متكيف وقابل للتفسير وقابل للتوسع، من خلال تحقيق تقييم موزع منسق لتحقيق تشكيل مكافآت أكثر شفافية وقوة.
نموذج جديد: اقتراح نموذج جديد لتقييم متعدد الوكلاء تعاوني يوسع RLHF، مع تحسين الاستدامة والقوة مقارنة بنموذج المكافآت الأسود الموحد
آلية تعاون منظمة: تصميم آلية مكافآت تعاونية منظمة (MARM) تتضمن مقيّمين متخصصين ومجمّع مركزي، يدمج إشارات قابلة للتفسير متعددة الأبعاد في مكافأة تدريب واحدة قابلة للاستخدام بطرق تدرج السياسة القياسية
معيار RewardBench: إطلاق مجموعة معايير وتدريب منظمة حول التفضيلات متعددة الوكلاء، توفر منصة عامة لأبحاث نمذجة المكافآت القابلة للتعديل والقابلة للتفسير
تحسينات أداء كبيرة: تحقيق مكاسب كبيرة في مهام التفكير المعقدة، مع دقة وثبات أعلى مقارنة بخطوط أساس RM الموحدة، مع الحفاظ على السلاسة والأمان، مما يثبت فعالية تشكيل المكافآت متعددة الآفاق
بالنظر إلى نموذج سياسة واسع النطاق πθ ومجموعة من الأسئلة x، ينتج النموذج مخرجات منظمة تتضمن مسارات تفكير متعددة الخطوات والإجابة النهائية o = πθ(x). الهدف هو التعلم عبر فضاء تقييم متعدد الأبعاد، بدلاً من تحسين مكافأة قياسية ثابتة.
تعيد CRM هيكلة ما بعد التدريب كعملية تحسين موزعة ومدفوعة بالتغذية الراجعة، مما يقدم فريق وكلاء متخصصين للتقييم التعاوني لمخرجات النموذج الكبير من آفاق متكاملة:
الوكلاء الأساسيون الأربعة:
محسّن البيانات (Data Optimizer): يحدد كمية كفاءة المخرجات والتنوع، يعاقب مسارات التفكير المكررة بينما يشجع التوازن الاستكشافي
يقدم مقيّم الجودة تغذية راجعة تقييم دقيقة، يلتقط بشكل أفضل التماسك الهيكلي والمعقولية المنطقية التدريجية
ثلاثة وكلاء → أربعة وكلاء:
تحسن إضافي في مهام التفكير والتركيب الواقعي
يعزز مركب البيانات التعميم من خلال تخفيف الإفراط في التدريب المحلي
يحسن الاكتمال الدلالي لسلسلة التفكير الوسيطة
تأثير استراتيجية التجميع:
طريقة إعادة الترتيب: تتفوق بشكل مستمر على المتغيرات الأخرى في مهام التفكير عالية الدقة، يساهم النمذجة الصريحة للتفضيل وترتيب الأزواج في تشكيل مكافآت أكثر تمييزاً
طريقة التضمين: تظهر استقراراً وقابلية توسع أفضل في التنسيق المعقد متعدد الوكلاء
فعالية التقييم متعدد الآفاق: يحقق الإطار التعاوني تحسينات كبيرة في قوة التفكير ودقة الرياضيات، دون الإضرار بجودة المحادثة
مزايا التصميم القابل للتعديل: يجلب إدخال وكلاء مختلفين تحسينات تدريجية، مما يتحقق من قيمة تحلل التقييم
الحفاظ على الاستقرار: يبقى الأداء مستقراً نسبياً في مهام المحادثة العامة (Chat و Chat Hard)، مما يشير إلى أن آلية دمج المكافآت توازن بفعالية بين الأهداف متعددة الأبعاد
القدرة على التعميم: يحسن إدخال مركب البيانات بشكل كبير أداء النموذج في مهام التفكير التركيبي
تحول النموذج: يعيد MARM بنجاح تعريف نمذجة المكافآت كعملية تقييم متعددة الوكلاء، بدلاً من oracle أسود موحد
التحقق من الأداء: تثبت التجارب الشاملة على RewardBench و Math و GSM8K أن التعاون متعدد الوكلاء يعزز بشكل كبير دقة التفكير والدقة الرياضية والاستقرار الشامل، دون الإضرار بجودة المحادثة
مزايا التصميم القابل للتعديل: يجلب إدخال أدوار مثل مقيّم الجودة ومركب البيانات تحسينات إضافية في الاتساق والقدرة على التعميم، مما يبرز قيمة التحلل المتخصص حسب المجال والتغذية الراجعة المنسقة في نمذجة المكافآت
القيمة العملية: توفر تصميماً قابلاً للتوسع وقابلاً للتعديل يدعم دمج مقيّمين جدد كوكلاء إضافيين، متوافق مع خطوط أنابيب RLHF الموجودة
Christiano et al. (2017) - التعلم المعزز العميق من تفضيلات الإنسان
Ouyang et al. (2022) - InstructGPT: تدريب نماذج اللغة لاتباع التعليمات مع التغذية الراجعة البشرية
نمذجة المكافآت:
Coste et al. (2023) - تجميع نماذج المكافآت يساعد في تخفيف الإفراط في التحسين
Wang et al. (2024) - التفضيلات القابلة للتفسير من خلال نمذجة المكافآت متعددة الأهداف
التقييم متعدد الوكلاء:
Irving et al. (2018) - سلامة الذكاء الاصطناعي من خلال النقاش
Chan et al. (2023) - ChatEval: نحو مقيّمين أفضل قائمين على LLM من خلال النقاش متعدد الوكلاء
التغذية الراجعة الدقيقة الحبيبات:
Zheng et al. (2024) - GRPO: تحسين السياسة المعززة الموجهة
Ankner et al. (2024) - نماذج المكافآت الناقدة بصوت عالٍ
التقييم الشامل: تقدم هذه الورقة إطار عمل مبتكراً وعملياً لنمذجة المكافآت التعاونية متعددة الوكلاء، مما يحقق مساهمات مهمة في تحسين الاستدامة والقدرة على التفكير في RLHF. على الرغم من وجود مشاكل مثل حجم التجارب المحدود ونقص تفاصيل التنفيذ، فإن الفكرة الأساسية لها قيمة أكاديمية وآفاق تطبيقية مهمة. ننتظر من المؤلفين تقديم المزيد من تفاصيل التنفيذ وتوسيع نطاق التجارب وفتح الأكواس والنماذج ذات الصلة لتعزيز تطور المجتمع.