2025-11-11T12:43:08.939159

Towards Hierarchical Multi-Step Reward Models for Enhanced Reasoning in Large Language Models

Wang, Jiang, He et al.

Recent studies show that Large Language Models (LLMs) achieve strong reasoning capabilities through supervised fine-tuning or reinforcement learning. However, a key approach, the Process Reward Model (PRM), suffers from reward hacking, making it unreliable in identifying the best intermediate step. In addition, the cost of annotating reasoning processes for reward modeling is high, making large-scale collection of high-quality data challenging. To address this, we propose a novel reward model approach called the Hierarchical Reward Model (HRM), which evaluates both individual and consecutive reasoning steps at both fine-grained and coarse-grained levels. HRM excels at assessing multi-step reasoning coherence, especially when flawed steps are later corrected through self-reflection. To further reduce the cost of generating training data, we introduce a lightweight and effective data augmentation strategy called Hierarchical Node Compression (HNC), which merges two consecutive reasoning steps into one within the tree structure. By applying HNC to MCTS-generated reasoning trajectories, we enhance the diversity and robustness of HRM training data while introducing controlled noise with minimal computational overhead. Empirical results on the PRM800K dataset show that HRM, together with HNC, provides more stable and reliable evaluations than PRM. Furthermore, cross-domain evaluations on the MATH500 and GSM8K datasets demonstrate HRM's strong generalization and robustness across a variety of reasoning tasks.

academic

Towards Hierarchical Multi-Step Reward Models for Enhanced Reasoning in Large Language Models

基本信息

论文ID: 2503.13551
标题: Towards Hierarchical Multi-Step Reward Models for Enhanced Reasoning in Large Language Models
作者: Teng Wang, Zhangyi Jiang, Zhenqi He, Hailei Gong, Shenyang Tong, Wenhan Yang, Zeyu Li, Yanan Zheng, Zifan He, Zewen Ye, Shengjie Ma, Jianping Zhang
分类: cs.CL cs.AI
发表时间/会议: arXiv预印本 (2025年10月)
论文链接: https://arxiv.org/abs/2503.13551

摘要

近期研究表明，大型语言模型(LLMs)通过监督微调或强化学习可以获得强大的推理能力。然而，关键方法过程奖励模型(PRM)存在奖励黑客攻击问题，使其在识别最佳中间步骤时不可靠。此外，为奖励建模标注推理过程的成本很高，使得大规模收集高质量数据具有挑战性。为解决这些问题，本文提出了一种新颖的奖励模型方法——层次奖励模型(HRM)，它在细粒度和粗粒度层面评估单个和连续推理步骤。HRM擅长评估多步推理的连贯性，特别是当错误步骤后来通过自我反思得到纠正时。为进一步降低生成训练数据的成本，本文引入了一种轻量级且有效的数据增强策略——层次节点压缩(HNC)，它将树结构中的两个连续推理步骤合并为一个。通过将HNC应用于MCTS生成的推理轨迹，我们以最小的计算开销增强了HRM训练数据的多样性和鲁棒性，同时引入了受控噪声。在PRM800K数据集上的实验结果表明，HRM与HNC结合比PRM提供更稳定可靠的评估。此外，在MATH500和GSM8K数据集上的跨域评估证明了HRM在各种推理任务中的强大泛化能力和鲁棒性。

研究背景与动机

问题定义

本研究主要解决大型语言模型在数学推理任务中的两个关键问题：

奖励黑客攻击问题：现有的过程奖励模型(PRM)容易被模型利用，模型可能通过利用奖励信号而非真正改善推理来获得高分，这损害了复杂任务中的可靠性。
高昂的标注成本：PRM需要对推理步骤进行昂贵的大规模人工标注，限制了其可靠性和可扩展性。

研究重要性

数学推理是评估LLM推理能力的重要任务，现有方法如链式思维(CoT)和思维树(ToT)虽然提升了性能，但仍存在关键局限：

CoT模型缺乏检测和纠正中间推理错误的机制
ToT方法不能固有地验证每个中间步骤或保证检索最优推理轨迹

现有方法局限性

结果奖励模型(ORM)：存在延迟反馈和信用分配问题，难以确定哪些推理步骤对最终答案有贡献
过程奖励模型(PRM)：虽然提供更细粒度的监督，但容易受到奖励黑客攻击，且标注成本高昂

研究动机

基于上述问题，本文提出层次奖励模型(HRM)来缓解PRM的局限性，通过在训练时结合细粒度(单步)和粗粒度(连续多步)层面的层次监督信号，使HRM能够捕获推理中的局部和全局连贯性。

核心贡献

提出层次奖励模型(HRM)：利用训练数据在单步和多步层面的层次监督，促进多步推理中的连贯性和自我纠正能力，在PRM800K数据集上验证了HRM的鲁棒性。
引入层次节点压缩(HNC)：一种轻量级的MCTS数据增强方法，以最小的计算成本大幅增加HRM训练数据的多样性和鲁棒性。
增强策略模型性能：通过在从MCTS过滤的高质量推理轨迹上进行微调，进一步提升推理性能。
验证泛化能力：在GSM8K和MATH500数据集上展示了HRM相比PRM的优越推理一致性和泛化能力。

方法详解

任务定义

本文聚焦于数学推理任务，目标是评估和改进LLM在多步数学问题求解中的表现。输入为数学问题，输出为逐步推理过程和最终答案，约束条件是需要保证推理步骤的正确性和连贯性。

模型架构

层次奖励模型(HRM)

HRM的核心思想是在训练时采用层次监督，评估单个和连续的推理步骤：

训练数据构建：

PRM训练数据： $D_{PRM} = \{(s_i, R(s_i)) | 1 \leq i \leq N\}$
HRM训练数据： $D_{HRM} = D_{PRM} \cup \{(s_i + s_{i+1}, R(s_i + s_{i+1})) | 1 \leq i < N\}$

其中 $s_i$ 表示第 $i$ 个推理步骤， $R(\cdot)$ 为奖励函数， $N$ 为推理序列总步数。

层次监督目标：

捕获细粒度和粗粒度的一致性
实现自我反思和错误纠正

推理阶段：虽然训练时使用合并的推理步骤，但HRM在推理时仍然逐步评估，仅基于当前步骤 $s_i$ 分配奖励，类似于PRM。

层次节点压缩(HNC)

HNC是一种数据增强方法，通过合并MCTS树结构中的连续节点来增加训练数据多样性：

核心机制：

随机合并两个连续节点，每个对应一个推理步骤
移除节点间的直接连接
重新定向连接关系

噪声引入：当移除一个随机节点后，剩余子节点的权重从 $\frac{1}{N}$ 重新分配到 $\frac{1}{N-1}$ ，方差从 $\frac{\sigma^2}{N}$ 增加到 $\frac{\sigma^2}{N-1}$ ，引入受控噪声。

技术创新点

层次监督设计：与PRM仅评估单个步骤不同，HRM考虑多步骤间的相互作用，能够识别后续步骤对早期错误的修正。
自我纠错能力：传统PRM对错误单步进行惩罚而不考虑后续推理中的潜在纠正，HRM评估多步骤间的推理连贯性。
低成本数据增强：HNC以极低的计算开销(约30分钟CPU时间)实现数据增强，相比MCTS的2457 A100 GPU小时几乎可忽略。

实验设置

数据集

PRM800K：包含手动标注的推理轨迹，作为训练ORM、PRM和HRM的基础
MATH500：高中和大学级别的数学问题，用于评估泛化能力
GSM8K：小学数学应用题，包含1000个测试问题

评价指标

准确率：在Best-of-N策略下的问题求解准确率
稳定性：随N增加时性能的稳定程度
鲁棒性：跨不同策略模型和数据集的一致性表现

对比方法

ORM (Outcome Reward Model)：基于整个推理链评估
PRM (Process Reward Model)：逐步评估推理过程
HRM (Hierarchical Reward Model)：本文提出的层次奖励模型

实现细节

奖励模型：基于Qwen2.5-1.5B-Math微调
策略模型：Qwen2.5-72B-Math-Instruct、DeepSeek-Math-7B、Qwen2.5-7B-Math-Instruct
MCTS配置：每个父节点5-6个子节点，最大树深度7
训练优化：使用FlashAttention、DeepSpeed和混合精度训练

实验结果

主要结果

PRM800K数据集上的Best-of-N性能：

N	2	4	8	16	24
ORM	0.622	0.677	0.655	0.655	0.633
PRM	0.700	0.644	0.611	0.588	0.577
HRM	0.722	0.711	0.744	0.800	0.800

关键发现：

HRM随N增加保持稳定性能，准确率稳定在80%
ORM和PRM表现出显著波动，随N增长准确率下降
HRM展现出最佳的稳定性和可靠性

跨域泛化实验

GSM8K和MATH500数据集结果：

数据集	方法	N=2	N=64	N=256	N=512
GSM8K	PRM	0.784	0.905	0.927	0.918
GSM8K	HRM	0.784	0.907	0.930	0.926
MATH500	PRM	0.468	0.656	0.686	0.688
MATH500	HRM	0.490	0.742	0.740	0.736

重要观察：

在复杂的MATH500数据集上，HRM显著优于PRM
在相对简单的GSM8K上，差异较小但HRM仍略优
HRM展现出更强的跨域鲁棒性

消融实验

不同策略模型的对比：使用MCTS生成的自动标注数据训练的HRM在多个策略模型上都展现出比PRM更好的稳定性：

DeepSeek-Math-7B
Qwen2.5-72B-Math
Qwen2.5-7B-Math

自训练实验

通过KL散度正则化的监督微调进一步提升了策略模型性能，验证了高质量推理数据的价值。

结论与讨论

主要结论

HRM有效缓解了PRM的奖励黑客攻击问题，通过层次监督提供更稳定可靠的评估
HNC是一种高效的数据增强策略，以极低成本显著提升训练数据质量
HRM展现出优秀的泛化能力，在多个数学推理数据集上持续优于PRM

局限性

合并步骤限制：目前仅合并两个连续步骤，合并更多步骤会导致标签组合复杂性急剧增加
领域限制：主要聚焦于数学推理，其他结构化推理域的适用性需进一步验证
计算约束：MCTS配置受计算资源限制，可能影响生成数据的多样性

未来方向

探索更复杂的层次结构设计
扩展到其他结构化推理任务
结合更高效的搜索算法降低计算成本
研究更sophisticated的标签策略处理多步合并

深度评价

优点

创新性强：HRM的层次监督设计巧妙地结合了局部准确性和全局连贯性
实验充分：在多个数据集和策略模型上进行了全面评估
实用价值高：HNC提供了低成本的数据增强解决方案
理论基础扎实：对奖励黑客攻击问题的分析深入，解决方案针对性强

不足

方法复杂度：相比PRM，HRM的训练数据构建和标签策略更复杂
可扩展性：当前只支持两步合并，限制了方法的扩展性
领域特定性：主要验证了数学推理任务，其他领域的适用性未充分验证

影响力

学术贡献：为奖励模型设计提供了新的层次化思路
实用价值：HNC方法可直接应用于现有MCTS流程
可复现性：提供了详细的实验设置和超参数配置

适用场景

数学推理任务：特别适合需要多步推理的复杂数学问题
需要自我纠错的推理任务：HRM能够识别和奖励推理过程中的错误修正
资源受限的场景：HNC提供了低成本的数据增强方案

参考文献

论文引用了该领域的重要工作，包括：

Lightman et al. (2023) - Let's verify step by step (PRM800K数据集)
Cobbe et al. (2021) - Training verifiers to solve math word problems
Wei et al. (2022) - Chain-of-thought prompting
Ouyang et al. (2022) - Training language models to follow instructions with human feedback

总体评价：这是一篇高质量的研究论文，针对PRM的关键问题提出了创新解决方案。HRM的层次监督设计理论上合理，实验验证充分，HNC方法具有很强的实用价值。论文在技术创新、实验设计和结果分析方面都表现出色，为大型语言模型的推理能力提升提供了有价值的贡献。

Towards Hierarchical Multi-Step Reward Models for Enhanced Reasoning in Large Language Models

Towards Hierarchical Multi-Step Reward Models for Enhanced Reasoning in Large Language Models

基本信息

摘要

研究背景与动机

问题定义

研究重要性

现有方法局限性

研究动机

核心贡献

方法详解

任务定义

模型架构

层次奖励模型(HRM)

层次节点压缩(HNC)

技术创新点

实验设置

数据集

评价指标

对比方法

实现细节

实验结果

主要结果

跨域泛化实验

消融实验

自训练实验

相关工作

RLHF框架

奖励模型分类

MCTS在推理中的应用

结论与讨论

主要结论

局限性

未来方向

深度评价

优点

不足

影响力

适用场景

参考文献