We present CRM (Multi-Agent Collaborative Reward Model), a framework that replaces a single black-box reward model with a coordinated team of specialist evaluators to improve robustness and interpretability in RLHF. Conventional reward models struggle to jointly optimize multiple, sometimes conflicting, preference dimensions (e.g., factuality, helpfulness, safety) and offer limited transparency into why a score is assigned. CRM addresses these issues by decomposing preference evaluation into domain-specific agents that each produce partial signals, alongside global evaluators such as ranker-based and embedding-similarity rewards. A centralized aggregator fuses these signals at each timestep, balancing factors like step-wise correctness, multi-agent agreement, and repetition penalties, yielding a single training reward compatible with standard RL pipelines. The policy is optimized with advantage-based updates (e.g., GAE), while a value model regresses to the aggregated reward, enabling multi-perspective reward shaping without requiring additional human annotations beyond those used to train the evaluators. To support training and assessment, we introduce rewardBench, a benchmark and training suite aligned with the collaborative structure of CRM. Together, CRM and rewardBench provide a practical, modular path to more transparent reward modeling and more stable optimization.
论文ID : 2511.16202标题 : Multi-Agent Collaborative Reward Design for Enhancing Reasoning in Reinforcement Learning作者 : Pei Yang (Gradient), Ke Zhang (Waseda University), Ji Wang (Columbia University), Xiao Chen (Hong Kong Polytechnic University), Yuxin Tang (Rice University & Gradient Network), Eric Yang, Lynn Ai, Bill Shi (Gradient)分类 : cs.AI发表时间 : 2025年11月20日(arXiv预印本,正在审稿中)论文链接 : https://arxiv.org/abs/2511.16202 本文提出了CRM(Collaborative Reward Model,多智能体协作奖励模型)框架,通过协调的专家评估团队替代单一黑盒奖励模型,以提高RLHF(从人类反馈中强化学习)的鲁棒性和可解释性。传统奖励模型难以同时优化多个可能冲突的偏好维度(如事实性、有用性、安全性),且对评分原因的透明度有限。CRM通过将偏好评估分解为特定领域的智能体来解决这些问题,每个智能体产生部分信号,同时配合基于排序和嵌入相似度的全局评估器。中心化聚合器在每个时间步融合这些信号,平衡逐步正确性、多智能体一致性和重复惩罚等因素,产生与标准RL管道兼容的单一训练奖励。论文还引入了RewardBench基准测试套件,为模块化、可解释的奖励建模提供实用路径。
大语言模型(LLMs)的对齐通常依赖于RLHF技术,其中学习到的奖励模型引导策略朝向偏好行为。然而,传统的单一标量奖励模型存在以下关键问题:
多维度偏好难以权衡 :人类偏好本质上是多维的,涵盖事实准确性、连贯性、有用性和安全性等因素,而单一标量奖励无法轻易捕捉这些有时相互竞争的标准之间的权衡可解释性不足 :传统奖励模型提供的洞察有限,难以理解为什么某个输出被评为高分或低分奖励黑客风险 :不透明性使得诊断错误变得困难,增加了策略学习利用奖励函数漏洞的风险(产生得分高但与真实意图不一致的输出)随着LLMs在关键应用中的部署日益增加,确保模型行为的可靠性、安全性和可解释性变得至关重要。奖励模型作为对齐管道的核心组件,其质量直接影响最终模型的表现和可信度。
集成方法 :虽然有研究探索基于集成的奖励模型来缓解过度优化,但仍缺乏结构化的评估分解多目标公式 :现有工作将反馈分解为可解释维度并通过学习混合重新聚合,但缺乏实时多视角反馈机制自反思方法 :如Critique-out-Loud输出分数和批评以提高可解释性,但未将专家智能体集成到奖励建模中本文的核心动机是将奖励建模从单一黑盒oracle重新定义为自适应、可解释和可扩展的多智能体评估生态系统,通过协调分布式评估器实现更透明和鲁棒的奖励塑形。
新范式 :提出了一种扩展RLHF的协作多智能体评估新范式,相比单一黑盒奖励模型提高了可解释性和鲁棒性结构化协作机制 :设计了MARM(Multi-Agent Reward Model)结构化协作奖励机制,包含专家评估器和中心化聚合器,将多维可解释信号融合为标准策略梯度方法可用的单一奖励RewardBench基准 :发布了围绕多智能体偏好组织的基准测试和训练套件,为研究模块化、可解释的奖励建模提供通用平台显著性能提升 :在复杂推理任务上取得显著收益,相比单一RM基线具有更高的准确性和稳定性,同时保持流畅性和安全性,证明了多视角奖励塑形的有效性给定大规模策略模型 πθ 和提示集合 x,模型生成包含多步推理轨迹和最终答案的结构化输出 o = πθ(x)。目标是通过多维评估空间学习,而非优化固定标量奖励。
形式化目标为:
max_θ E_{x~D}[F(αR_ranker(o) + βR_similarity(o) + Σ_{i=1}^K λ_i R_i(o))]
其中:
F(·) 是中心聚合器,将异构信号转换为标量奖励 {α, β, λ_i} 是训练期间学习或调整的自适应权重 A = {a1, a2, ..., aK} 是智能体集合,每个智能体 ai 针对特定评估维度输出分数 Ri(o) CRM将后训练重构为分布式、反馈驱动的优化过程,引入专家智能体团队从互补视角协作评估大模型输出:
四大核心智能体 :
数据优化器(Data Optimizer) :量化输出效率和多样性,惩罚冗余推理轨迹同时鼓励探索平衡质量评估器(Quality Assessor) :提供细粒度判断,评估推理准确性、事实一致性和中间步骤的逻辑连贯性数据合成器(Data Synthesizer) :通过注入合成扰动和整合外部知识增强监督,提高鲁棒性和领域泛化能力数据分析器(Data Analyzer) :持续监控奖励信号的统计趋势,强制稳定性并防止崩溃或模式漂移步骤级奖励 :
结果奖励(Outcome Reward) :验证部分推理是否符合中间期望增强数据奖励(Enhanced Data Reward) :利用数据合成器生成的增强或反事实样本提供更强监督模型级奖励 :
使用all-MiniLM-L6-v2编码器计算预测与参考嵌入之间的余弦相似度:
R_sim = cos(h_pred, h_ref)
多维评估组件 :
准确性奖励(R_acc) :通过符号比较验证数学等价性(使用latex2sympy2、math_verify)格式奖励(R_fmt) :强制遵守由和标签定义的推理格式 推理步骤奖励(R_step) :鼓励有组织的、可解释的多步骤解释余弦缩放奖励(R_cs) :通过完成长度调制准确性奖励以防止冗长重复惩罚(R_rep) :惩罚数据分析器检测到的n-gram冗余和退化循环协作权重机制 :
R_collab = αR_acc + βR_sim + γR_fmt + δR_step - ηR_rep
其中系数 (α, β, γ, δ, η) 通过经验调整以平衡事实正确性、推理清晰度和语言流畅性。
中心化聚合 :
r_t = F(R_collab(o_t), R_enhanced(o_t))
其中F是非线性融合算子,平衡推理格式、准确性和重复惩罚。
策略优化 :
使用广义优势估计(GAE)更新策略模型:
L_policy = -E_t[Â_t log π_θ(a_t|s_t)]
价值模型优化 :
通过对中心化奖励的回归优化:
L_value = E_t[(V_φ(s_t) - r_t)²]
其中 Â_t 是优势函数,V_φ 是价值模型。
分布式评估架构 :首次将奖励建模系统化为多智能体协作过程,每个智能体专注于特定评估维度可解释性增强 :每个智能体的分数代表人类可理解的评估(如事实准确性),共同形成输出质量的多维画像模块化设计 :允许新评估器作为插件智能体引入,提供向自我调节和可解释奖励对齐的可扩展路径无需额外标注 :多视角奖励塑形不需要超出训练评估器所用的额外人类标注标准兼容性 :产生与标准RL管道(如GRPO、PPO)完全兼容的单一训练奖励主要数据集 :
RewardBench :围绕多智能体偏好组织的基准测试,包含多个评估维度:Chat:对话质量 Chat Hard:困难对话场景 Safety:安全性评估 Reasoning:推理能力 GSM8K :数学推理数据集Math :数学问题求解数据集AI-MO/NuminaMath-TIR :准确率 :各任务类别的正确率推理质量 :逻辑连贯性和步骤完整性对话质量 :流畅性和有用性安全性 :输出的安全性评分基线模型 :Qwen2.5-0.5B-Instruct(约494M参数)
实验配置 :
两智能体:数据分析器 + 数据优化器 三智能体:数据分析器 + 数据优化器 + 质量评估器 四智能体:数据分析器 + 数据优化器 + 质量评估器 + 数据合成器 变体 :
MARM:基础协作模型 MARM(rerank):带重排序的版本 MARM(emb):基于嵌入的版本 优化框架 :GRPO(广义强化策略优化)基础模型 :Qwen/Qwen2.5-0.5B-Instruct(494M参数)提示格式 :使用结构化提示,推理过程在<think>...</think>标签内,最终答案在<answer>...</answer>标签内嵌入模型 :all-MiniLM-L6-v2用于语义相似度计算表1:MARM在RewardBench、Math和GSM8K上的结果
方法 Chat Chat Hard Safety Reasoning Math GSM8K Qwen2.5-0.5B-ins 0.193 0.561 0.561 0.598 0.139 0.08% MARM 0.190 0.557 0.553 0.659 0.149 19.64% MARM(rerank) 0.182 0.545 0.566 0.423 0.136 22.16% MARM(emb) 0.198 0.561 0.536 0.567 0.131 22.33%
关键发现 :
GSM8K准确率从0.08%提升至22.33%,提升约279倍 推理维度从0.598提升至0.659(MARM基础版) 方法 Chat Chat Hard Safety Reasoning Math GSM8K MARM(rerank) 0.190 0.567 0.538 0.398 0.143 22.87% MARM(emb) 0.199 0.532 0.570 0.637 0.141 23.15%
关键发现 :
质量评估器的加入进一步提升GSM8K至23.15% 推理相关指标持续改进 方法 Chat Chat Hard Safety Reasoning Math GSM8K MARM(rerank) 0.182 0.568 0.527 0.610 0.192 29.87% MARM(emb) 0.179 0.557 0.573 0.578 0.152 27.60%
最佳性能 :
GSM8K准确率达到29.87% (MARM(rerank)),相比基线提升约374倍 Math维度达到0.192,显著优于其他配置 智能体数量的影响 :
两智能体→三智能体 :推理准确性显著提升 RewardBench(rerank)从0.639提升至0.689 质量评估器引入细粒度评估反馈,更好捕捉结构连贯性和逐步逻辑合理性 三智能体→四智能体 :组合推理和事实合成任务进一步提升 数据合成器通过缓解局部过拟合增强模型泛化 改善中间推理链的语义完整性 聚合策略的影响 :
Reranking方法 :在高精度推理任务上持续优于其他变体,显式偏好建模和成对排序贡献更具区分性的奖励塑形Embedding方法 :在复杂多智能体协调中展现更好的稳定性和可扩展性论文通过结构化提示展示了模型行为:
推理过程 :在<think>标签内展示逐步推理,使奖励模型能够评估推理质量最终答案 :在<answer>标签内提供最终结果,便于正确性验证这种结构化输出使得各智能体能够分别评估推理链的不同方面。
多视角评估的有效性 :协作框架在推理鲁棒性和数学精度上取得显著提升,而不损害对话质量模块化优势 :不同智能体的引入带来渐进式改进,验证了分解评估的价值稳定性保持 :在一般对话任务(Chat、Chat Hard)上性能保持相对稳定,表明奖励融合机制有效平衡了多维目标泛化能力 :数据合成器的引入显著提升了模型在需要组合推理任务上的表现经典方法 :InstructGPT、GPT-4等使用标量奖励模型,但透明度有限集成方法 :通过奖励模型集成缓解过度优化多目标方法 :将反馈分解为可解释维度(有用性、诚实性、冗长度)自反思方法 :Critique-out-Loud输出分数和批评以提高可解释性AI Safety via Debate :开创性地引入两个模型辩论、第三方评估的机制RLAIF风格设置 :智能体模拟不同视角的评审者或裁判ChatEval :将多个LLMs聚合为裁判小组进行辩论和投票CRM的区别 :
不仅在评估时使用智能体,还将其集成到奖励建模中 专家智能体作为训练期间奖励信号的实时贡献者 提供结构感知的多视角反馈 GRPO :引导强化偏好优化SPIN :来自结构化反馈的强化学习RAFT :带反馈树的奖励对齐CRM与这些技术互补,专注于多智能体协作的奖励分解。
范式转变 :MARM成功将奖励建模重新定义为多智能体评估过程,而非单一黑盒oracle性能验证 :在RewardBench、Math和GSM8K上的综合实验证明,多智能体协作显著增强推理准确性、数学精度和整体稳定性,而不损害对话质量模块化优势 :质量评估器和数据合成器等角色的引入进一步提升一致性和泛化能力,突显了领域特定分解和协调反馈在奖励建模中的优势实用价值 :提供可扩展和模块化的设计,支持新评估器作为插件智能体集成,与现有RLHF管道兼容计算开销 :多智能体评估相比单一奖励模型需要更多计算资源,每个智能体都需要独立评估权重调优 :协作权重系数 (α, β, γ, δ, η) 需要经验调整,缺乏自动优化机制智能体设计 :论文未详细说明如何训练各个专家智能体,以及如何确保它们的评估质量规模验证 :实验主要在较小模型(494M参数)上进行,在大规模模型上的表现未知对话质量权衡 :虽然论文声称保持对话质量,但从表格数据看,Chat和Chat Hard维度的性能略有下降自动权重学习 :开发自适应机制自动学习和调整协作权重智能体训练方法 :系统化专家智能体的训练流程和质量保证机制大规模验证 :在更大规模模型上验证框架的有效性和可扩展性动态智能体选择 :根据任务类型动态选择和组合相关智能体跨领域泛化 :扩展到更多领域和任务类型创新性强 :首次系统化地将奖励建模转变为多智能体协作过程 提出的分布式评估架构具有原创性 模块化设计理念先进 可解释性突破 :每个智能体提供人类可理解的评估维度 相比黑盒奖励模型显著提升透明度 有助于诊断和调试模型行为 实验验证充分 :在多个基准上进行了系统评估 包含多种智能体配置的消融实验 GSM8K上的巨大提升(279-374倍)令人印象深刻 实用价值高 :与标准RL管道兼容 提供RewardBench基准促进后续研究 模块化设计便于扩展和定制 理论基础扎实 :方法细节不足 :各专家智能体的具体训练方法未详细说明 权重系数的调优过程缺乏详细描述 聚合函数F(·)的具体实现不够清晰 实验局限 :仅在小模型(494M参数)上验证 缺乏与更多SOTA方法的对比 未报告统计显著性检验 对话质量维度略有下降但未深入分析 计算效率分析缺失 :未报告训练时间和推理速度 多智能体评估的计算开销未量化 缺乏效率与性能的权衡分析 可复现性问题 :超参数设置不够详细 智能体实现细节不足 代码和模型未声明是否开源 泛化性验证不足 :主要聚焦数学推理任务 在其他领域(如代码生成、创意写作)的表现未知 跨语言能力未评估 理论分析欠缺 :缺乏收敛性分析 未从理论角度解释为何多智能体优于单一模型 智能体数量与性能的关系缺乏理论指导 学术贡献 :为RLHF领域提供了新的研究方向 多智能体奖励建模可能成为新范式 RewardBench基准有助于标准化评估 实用价值 :提高大模型对齐的可解释性 在数学推理等需要高准确性的任务上有明显优势 模块化设计便于工业应用 潜在影响 :可能推动奖励建模从黑盒向白盒转变 为安全AI和可信AI研究提供工具 启发更多多智能体协作研究 复现性 :方法描述相对清晰 但缺少实现细节可能影响复现 期待作者开源代码和模型 高度适用 :
数学推理任务 :实验证明在GSM8K等数学基准上效果显著多维度评估需求 :需要同时考虑准确性、安全性、有用性等多个维度的应用高可解释性要求 :金融、医疗等需要解释决策原因的领域结构化输出任务 :需要逐步推理的问题求解谨慎使用 :
对话生成 :实验显示对话质量略有下降,需要权衡创意任务 :过度结构化可能限制创造性实时应用 :多智能体评估可能增加延迟资源受限场景 :计算开销较大需要验证 :
大规模模型 :在数十亿参数模型上的表现未知跨语言场景 :非英语任务的适用性待验证长文本生成 :在长篇写作等任务上的效果不明其他模态 :图像、音频等多模态任务的扩展性关键引用 :
RLHF基础 :Christiano et al. (2017) - Deep reinforcement learning from human preferences Ouyang et al. (2022) - InstructGPT: Training language models to follow instructions with human feedback 奖励建模 :Coste et al. (2023) - Reward model ensembles help mitigate overoptimization Wang et al. (2024) - Interpretable preferences via multi-objective reward modeling 多智能体评估 :Irving et al. (2018) - AI safety via debate Chan et al. (2023) - ChatEval: Towards better LLM-based evaluators through multi-agent debate 细粒度反馈 :Zheng et al. (2024) - GRPO: Guided reinforcement preference optimization Ankner et al. (2024) - Critique-out-loud reward models 总体评价 :本文提出了一个创新且实用的多智能体协作奖励建模框架,在提升RLHF可解释性和推理能力方面做出了重要贡献。尽管存在实验规模有限、实现细节不足等问题,但其核心思想具有重要的学术价值和应用前景。期待作者在后续工作中补充更多实现细节、扩大实验规模,并开源相关代码和模型以促进社区发展。