Recent studies show that Large Language Models (LLMs) achieve strong reasoning capabilities through supervised fine-tuning or reinforcement learning. However, a key approach, the Process Reward Model (PRM), suffers from reward hacking, making it unreliable in identifying the best intermediate step. In addition, the cost of annotating reasoning processes for reward modeling is high, making large-scale collection of high-quality data challenging. To address this, we propose a novel reward model approach called the Hierarchical Reward Model (HRM), which evaluates both individual and consecutive reasoning steps at both fine-grained and coarse-grained levels. HRM excels at assessing multi-step reasoning coherence, especially when flawed steps are later corrected through self-reflection. To further reduce the cost of generating training data, we introduce a lightweight and effective data augmentation strategy called Hierarchical Node Compression (HNC), which merges two consecutive reasoning steps into one within the tree structure. By applying HNC to MCTS-generated reasoning trajectories, we enhance the diversity and robustness of HRM training data while introducing controlled noise with minimal computational overhead. Empirical results on the PRM800K dataset show that HRM, together with HNC, provides more stable and reliable evaluations than PRM. Furthermore, cross-domain evaluations on the MATH500 and GSM8K datasets demonstrate HRM's strong generalization and robustness across a variety of reasoning tasks.
- 论文ID: 2503.13551
- 标题: Towards Hierarchical Multi-Step Reward Models for Enhanced Reasoning in Large Language Models
- 作者: Teng Wang, Zhangyi Jiang, Zhenqi He, Hailei Gong, Shenyang Tong, Wenhan Yang, Zeyu Li, Yanan Zheng, Zifan He, Zewen Ye, Shengjie Ma, Jianping Zhang
- 分类: cs.CL cs.AI
- 发表时间/会议: arXiv预印本 (2025年10月)
- 论文链接: https://arxiv.org/abs/2503.13551
近期研究表明,大型语言模型(LLMs)通过监督微调或强化学习可以获得强大的推理能力。然而,关键方法过程奖励模型(PRM)存在奖励黑客攻击问题,使其在识别最佳中间步骤时不可靠。此外,为奖励建模标注推理过程的成本很高,使得大规模收集高质量数据具有挑战性。为解决这些问题,本文提出了一种新颖的奖励模型方法——层次奖励模型(HRM),它在细粒度和粗粒度层面评估单个和连续推理步骤。HRM擅长评估多步推理的连贯性,特别是当错误步骤后来通过自我反思得到纠正时。为进一步降低生成训练数据的成本,本文引入了一种轻量级且有效的数据增强策略——层次节点压缩(HNC),它将树结构中的两个连续推理步骤合并为一个。通过将HNC应用于MCTS生成的推理轨迹,我们以最小的计算开销增强了HRM训练数据的多样性和鲁棒性,同时引入了受控噪声。在PRM800K数据集上的实验结果表明,HRM与HNC结合比PRM提供更稳定可靠的评估。此外,在MATH500和GSM8K数据集上的跨域评估证明了HRM在各种推理任务中的强大泛化能力和鲁棒性。
本研究主要解决大型语言模型在数学推理任务中的两个关键问题:
- 奖励黑客攻击问题:现有的过程奖励模型(PRM)容易被模型利用,模型可能通过利用奖励信号而非真正改善推理来获得高分,这损害了复杂任务中的可靠性。
- 高昂的标注成本:PRM需要对推理步骤进行昂贵的大规模人工标注,限制了其可靠性和可扩展性。
数学推理是评估LLM推理能力的重要任务,现有方法如链式思维(CoT)和思维树(ToT)虽然提升了性能,但仍存在关键局限:
- CoT模型缺乏检测和纠正中间推理错误的机制
- ToT方法不能固有地验证每个中间步骤或保证检索最优推理轨迹
- 结果奖励模型(ORM):存在延迟反馈和信用分配问题,难以确定哪些推理步骤对最终答案有贡献
- 过程奖励模型(PRM):虽然提供更细粒度的监督,但容易受到奖励黑客攻击,且标注成本高昂
基于上述问题,本文提出层次奖励模型(HRM)来缓解PRM的局限性,通过在训练时结合细粒度(单步)和粗粒度(连续多步)层面的层次监督信号,使HRM能够捕获推理中的局部和全局连贯性。
- 提出层次奖励模型(HRM):利用训练数据在单步和多步层面的层次监督,促进多步推理中的连贯性和自我纠正能力,在PRM800K数据集上验证了HRM的鲁棒性。
- 引入层次节点压缩(HNC):一种轻量级的MCTS数据增强方法,以最小的计算成本大幅增加HRM训练数据的多样性和鲁棒性。
- 增强策略模型性能:通过在从MCTS过滤的高质量推理轨迹上进行微调,进一步提升推理性能。
- 验证泛化能力:在GSM8K和MATH500数据集上展示了HRM相比PRM的优越推理一致性和泛化能力。
本文聚焦于数学推理任务,目标是评估和改进LLM在多步数学问题求解中的表现。输入为数学问题,输出为逐步推理过程和最终答案,约束条件是需要保证推理步骤的正确性和连贯性。
HRM的核心思想是在训练时采用层次监督,评估单个和连续的推理步骤:
训练数据构建:
- PRM训练数据:DPRM={(si,R(si))∣1≤i≤N}
- HRM训练数据:DHRM=DPRM∪{(si+si+1,R(si+si+1))∣1≤i<N}
其中si表示第i个推理步骤,R(⋅)为奖励函数,N为推理序列总步数。
层次监督目标:
- 捕获细粒度和粗粒度的一致性
- 实现自我反思和错误纠正
推理阶段:虽然训练时使用合并的推理步骤,但HRM在推理时仍然逐步评估,仅基于当前步骤si分配奖励,类似于PRM。
HNC是一种数据增强方法,通过合并MCTS树结构中的连续节点来增加训练数据多样性:
核心机制:
- 随机合并两个连续节点,每个对应一个推理步骤
- 移除节点间的直接连接
- 重新定向连接关系
噪声引入:当移除一个随机节点后,剩余子节点的权重从N1重新分配到N−11,方差从Nσ2增加到N−1σ2,引入受控噪声。
- 层次监督设计:与PRM仅评估单个步骤不同,HRM考虑多步骤间的相互作用,能够识别后续步骤对早期错误的修正。
- 自我纠错能力:传统PRM对错误单步进行惩罚而不考虑后续推理中的潜在纠正,HRM评估多步骤间的推理连贯性。
- 低成本数据增强:HNC以极低的计算开销(约30分钟CPU时间)实现数据增强,相比MCTS的2457 A100 GPU小时几乎可忽略。
- PRM800K:包含手动标注的推理轨迹,作为训练ORM、PRM和HRM的基础
- MATH500:高中和大学级别的数学问题,用于评估泛化能力
- GSM8K:小学数学应用题,包含1000个测试问题
- 准确率:在Best-of-N策略下的问题求解准确率
- 稳定性:随N增加时性能的稳定程度
- 鲁棒性:跨不同策略模型和数据集的一致性表现
- ORM (Outcome Reward Model):基于整个推理链评估
- PRM (Process Reward Model):逐步评估推理过程
- HRM (Hierarchical Reward Model):本文提出的层次奖励模型
- 奖励模型:基于Qwen2.5-1.5B-Math微调
- 策略模型:Qwen2.5-72B-Math-Instruct、DeepSeek-Math-7B、Qwen2.5-7B-Math-Instruct
- MCTS配置:每个父节点5-6个子节点,最大树深度7
- 训练优化:使用FlashAttention、DeepSpeed和混合精度训练
PRM800K数据集上的Best-of-N性能:
| N | 2 | 4 | 8 | 16 | 24 |
|---|
| ORM | 0.622 | 0.677 | 0.655 | 0.655 | 0.633 |
| PRM | 0.700 | 0.644 | 0.611 | 0.588 | 0.577 |
| HRM | 0.722 | 0.711 | 0.744 | 0.800 | 0.800 |
关键发现:
- HRM随N增加保持稳定性能,准确率稳定在80%
- ORM和PRM表现出显著波动,随N增长准确率下降
- HRM展现出最佳的稳定性和可靠性
GSM8K和MATH500数据集结果:
| 数据集 | 方法 | N=2 | N=64 | N=256 | N=512 |
|---|
| GSM8K | PRM | 0.784 | 0.905 | 0.927 | 0.918 |
| GSM8K | HRM | 0.784 | 0.907 | 0.930 | 0.926 |
| MATH500 | PRM | 0.468 | 0.656 | 0.686 | 0.688 |
| MATH500 | HRM | 0.490 | 0.742 | 0.740 | 0.736 |
重要观察:
- 在复杂的MATH500数据集上,HRM显著优于PRM
- 在相对简单的GSM8K上,差异较小但HRM仍略优
- HRM展现出更强的跨域鲁棒性
不同策略模型的对比:
使用MCTS生成的自动标注数据训练的HRM在多个策略模型上都展现出比PRM更好的稳定性:
- DeepSeek-Math-7B
- Qwen2.5-72B-Math
- Qwen2.5-7B-Math
通过KL散度正则化的监督微调进一步提升了策略模型性能,验证了高质量推理数据的价值。
本文基于人类反馈强化学习(RLHF)框架,该框架通过奖励模型区分高质量和低质量响应,并使用PPO优化LLM。
- ORM:基于整体输出分配奖励,存在延迟反馈和信用分配问题
- PRM:评估中间推理步骤,提供更细粒度监督,但存在奖励黑客攻击问题
MCTS被提出作为自主标注推理轨迹的方法,但计算成本随搜索树深度和宽度指数增长。
- HRM有效缓解了PRM的奖励黑客攻击问题,通过层次监督提供更稳定可靠的评估
- HNC是一种高效的数据增强策略,以极低成本显著提升训练数据质量
- HRM展现出优秀的泛化能力,在多个数学推理数据集上持续优于PRM
- 合并步骤限制:目前仅合并两个连续步骤,合并更多步骤会导致标签组合复杂性急剧增加
- 领域限制:主要聚焦于数学推理,其他结构化推理域的适用性需进一步验证
- 计算约束:MCTS配置受计算资源限制,可能影响生成数据的多样性
- 探索更复杂的层次结构设计
- 扩展到其他结构化推理任务
- 结合更高效的搜索算法降低计算成本
- 研究更sophisticated的标签策略处理多步合并
- 创新性强:HRM的层次监督设计巧妙地结合了局部准确性和全局连贯性
- 实验充分:在多个数据集和策略模型上进行了全面评估
- 实用价值高:HNC提供了低成本的数据增强解决方案
- 理论基础扎实:对奖励黑客攻击问题的分析深入,解决方案针对性强
- 方法复杂度:相比PRM,HRM的训练数据构建和标签策略更复杂
- 可扩展性:当前只支持两步合并,限制了方法的扩展性
- 领域特定性:主要验证了数学推理任务,其他领域的适用性未充分验证
- 学术贡献:为奖励模型设计提供了新的层次化思路
- 实用价值:HNC方法可直接应用于现有MCTS流程
- 可复现性:提供了详细的实验设置和超参数配置
- 数学推理任务:特别适合需要多步推理的复杂数学问题
- 需要自我纠错的推理任务:HRM能够识别和奖励推理过程中的错误修正
- 资源受限的场景:HNC提供了低成本的数据增强方案
论文引用了该领域的重要工作,包括:
- Lightman et al. (2023) - Let's verify step by step (PRM800K数据集)
- Cobbe et al. (2021) - Training verifiers to solve math word problems
- Wei et al. (2022) - Chain-of-thought prompting
- Ouyang et al. (2022) - Training language models to follow instructions with human feedback
总体评价:这是一篇高质量的研究论文,针对PRM的关键问题提出了创新解决方案。HRM的层次监督设计理论上合理,实验验证充分,HNC方法具有很强的实用价值。论文在技术创新、实验设计和结果分析方面都表现出色,为大型语言模型的推理能力提升提供了有价值的贡献。