2025-11-11T12:43:08.939159

Towards Hierarchical Multi-Step Reward Models for Enhanced Reasoning in Large Language Models

Wang, Jiang, He et al.
Recent studies show that Large Language Models (LLMs) achieve strong reasoning capabilities through supervised fine-tuning or reinforcement learning. However, a key approach, the Process Reward Model (PRM), suffers from reward hacking, making it unreliable in identifying the best intermediate step. In addition, the cost of annotating reasoning processes for reward modeling is high, making large-scale collection of high-quality data challenging. To address this, we propose a novel reward model approach called the Hierarchical Reward Model (HRM), which evaluates both individual and consecutive reasoning steps at both fine-grained and coarse-grained levels. HRM excels at assessing multi-step reasoning coherence, especially when flawed steps are later corrected through self-reflection. To further reduce the cost of generating training data, we introduce a lightweight and effective data augmentation strategy called Hierarchical Node Compression (HNC), which merges two consecutive reasoning steps into one within the tree structure. By applying HNC to MCTS-generated reasoning trajectories, we enhance the diversity and robustness of HRM training data while introducing controlled noise with minimal computational overhead. Empirical results on the PRM800K dataset show that HRM, together with HNC, provides more stable and reliable evaluations than PRM. Furthermore, cross-domain evaluations on the MATH500 and GSM8K datasets demonstrate HRM's strong generalization and robustness across a variety of reasoning tasks.
academic

大規模言語モデルにおける推論能力向上のための階層的マルチステップ報酬モデルに向けて

基本情報

  • 論文ID: 2503.13551
  • タイトル: Towards Hierarchical Multi-Step Reward Models for Enhanced Reasoning in Large Language Models
  • 著者: Teng Wang, Zhangyi Jiang, Zhenqi He, Hailei Gong, Shenyang Tong, Wenhan Yang, Zeyu Li, Yanan Zheng, Zifan He, Zewen Ye, Shengjie Ma, Jianping Zhang
  • 分類: cs.CL cs.AI
  • 発表時期/会議: arXiv プレプリント (2025年10月)
  • 論文リンク: https://arxiv.org/abs/2503.13551

要約

最近の研究により、大規模言語モデル(LLM)は教師あり微調整または強化学習を通じて強力な推論能力を獲得できることが示されています。しかし、重要な手法であるプロセス報酬モデル(PRM)は報酬ハッキング問題に直面しており、最適な中間ステップの識別において信頼性が低下しています。さらに、報酬モデリングのための推論プロセスのアノテーションコストが高く、大規模な高品質データ収集が困難です。これらの問題に対処するため、本論文は新規な報酬モデル手法——階層的報酬モデル(HRM)を提案します。HRMは細粒度および粗粒度レベルで個別および連続的な推論ステップを評価します。HRMは特に、誤ったステップがその後の自己反省によって修正される場合に、マルチステップ推論の一貫性評価に優れています。訓練データ生成コストをさらに削減するため、本論文は軽量で効果的なデータ拡張戦略——階層的ノード圧縮(HNC)を導入します。HNCはツリー構造内の2つの連続的な推論ステップを1つに統合します。MCTSで生成された推論軌跡にHNCを適用することで、最小限の計算オーバーヘッドでHRM訓練データの多様性と堅牢性を強化し、同時に制御されたノイズを導入します。PRM800Kデータセット上の実験結果は、HRMとHNCの組み合わせがPRMより安定した信頼性の高い評価を提供することを示しています。さらに、MATH500およびGSM8Kデータセット上のクロスドメイン評価は、様々な推論タスクにおけるHRMの強力な汎化能力と堅牢性を実証しています。

研究背景と動機

問題定義

本研究は大規模言語モデルの数学推論タスクにおける2つの重要な問題に対処します:

  1. 報酬ハッキング問題: 既存のプロセス報酬モデル(PRM)は容易に悪用される傾向があり、モデルは真の推論改善ではなく報酬信号を利用することで高スコアを獲得する可能性があり、複雑なタスクにおける信頼性を損なっています。
  2. 高い注釈付けコスト: PRMは推論ステップの大規模な人間による注釈付けを必要とし、その信頼性とスケーラビリティを制限しています。

研究の重要性

数学推論はLLMの推論能力を評価するための重要なタスクであり、思考の連鎖(CoT)や思考の木(ToT)などの既存手法はパフォーマンスを向上させていますが、重要な制限が存在します:

  • CoTモデルは中間推論エラーの検出と修正メカニズムを欠いています
  • ToT手法は本質的に各中間ステップを検証したり、最適な推論軌跡の取得を保証したりできません

既存手法の制限

  1. 結果報酬モデル(ORM): 遅延フィードバックと信用割り当ての問題に直面しており、どの推論ステップが最終的な答えに貢献しているかを判断することが困難です
  2. プロセス報酬モデル(PRM): より細粒度の監督を提供しますが、報酬ハッキングに対して脆弱であり、注釈付けコストが高くなります

研究動機

上記の問題に基づき、本論文はPRMの制限を緩和するための階層的報酬モデル(HRM)を提案します。訓練時に細粒度(単一ステップ)および粗粒度(連続マルチステップ)レベルでの階層的監督信号を組み合わせることで、HRMは推論における局所的および全体的な一貫性を捉えることができます。

核心的貢献

  1. 階層的報酬モデル(HRM)の提案: 訓練データの単一ステップおよびマルチステップレベルでの階層的監督を活用し、マルチステップ推論における一貫性と自己修正能力を促進し、PRM800Kデータセット上でHRMの堅牢性を検証しました。
  2. 階層的ノード圧縮(HNC)の導入: 軽量なMCTSデータ拡張手法であり、最小限の計算コストでHRM訓練データの多様性と堅牢性を大幅に増加させます。
  3. 戦略モデルのパフォーマンス向上: MCTSでフィルタリングされた高品質推論軌跡での微調整を通じて、推論パフォーマンスをさらに向上させます。
  4. 汎化能力の検証: GSM8KおよびMATH500データセット上でHRMがPRMと比較して優れた推論一貫性と汎化能力を示しました。

方法の詳細

タスク定義

本論文はマルティステップ数学推論タスクに焦点を当てており、目標はLLMの複雑な数学問題解決における表現を評価および改善することです。入力は数学問題であり、出力は段階的な推論プロセスと最終的な答えであり、制約条件は推論ステップの正確性と一貫性を保証する必要があります。

モデルアーキテクチャ

階層的報酬モデル(HRM)

HRMの核心的な考え方は、訓練時に階層的監督を採用し、個別および連続的な推論ステップを評価することです:

訓練データ構築:

  • PRM訓練データ: DPRM={(si,R(si))1iN}D_{PRM} = \{(s_i, R(s_i)) | 1 \leq i \leq N\}
  • HRM訓練データ: DHRM=DPRM{(si+si+1,R(si+si+1))1i<N}D_{HRM} = D_{PRM} \cup \{(s_i + s_{i+1}, R(s_i + s_{i+1})) | 1 \leq i < N\}

ここでsis_iは第ii番目の推論ステップを表し、R()R(\cdot)は報酬関数であり、NNは推論シーケンスの総ステップ数です。

階層的監督目標:

  1. 細粒度および粗粒度の一貫性を捉える
  2. 自己反省とエラー修正を実現する

推論段階: 訓練時に統合された推論ステップを使用しますが、HRMは推論時には依然としてステップバイステップで評価し、現在のステップsis_iに基づいてのみ報酬を割り当てます(PRMと同様)。

階層的ノード圧縮(HNC)

HNCはデータ拡張手法であり、MCTSツリー構造内の連続ノードを統合することで訓練データの多様性を増加させます:

核心メカニズム:

  1. 2つの連続ノードをランダムに統合し、各ノードは推論ステップに対応します
  2. ノード間の直接接続を削除します
  3. 接続関係を再方向付けします

ノイズ導入: ランダムノードを削除した後、残りの子ノードの重みは1N\frac{1}{N}から1N1\frac{1}{N-1}に再配分され、分散はσ2N\frac{\sigma^2}{N}からσ2N1\frac{\sigma^2}{N-1}に増加し、制御されたノイズが導入されます。

技術的革新点

  1. 階層的監督設計: PRMが個別ステップのみを評価するのと異なり、HRMはマルチステップ間の相互作用を考慮し、後続ステップによる早期エラーの修正を識別できます。
  2. 自己修正能力: 従来のPRMは誤った単一ステップに対して罰を与えますが後続推論での潜在的な修正は考慮しません。HRMはマルチステップ間の推論一貫性を評価します。
  3. 低コストデータ拡張: HNCは極めて低い計算オーバーヘッド(約30分のCPU時間)でデータ拡張を実現し、MCTSの2457 A100 GPU時間と比較してほぼ無視できます。

実験設定

データセット

  1. PRM800K: 手動でアノテーションされた推論軌跡を含み、ORM、PRM、HRMの訓練の基礎として機能します
  2. MATH500: 高校および大学レベルの数学問題で、汎化能力を評価するために使用されます
  3. GSM8K: 小学校の数学応用問題で、1000個のテストサンプルを含みます

評価指標

  • 精度: Best-of-N戦略下での問題解決精度
  • 安定性: N増加時のパフォーマンスの安定性
  • 堅牢性: 異なる戦略モデルとデータセット間での一貫したパフォーマンス

比較手法

  • ORM (結果報酬モデル): 推論チーン全体に基づいて評価
  • PRM (プロセス報酬モデル): 推論プロセスをステップバイステップで評価
  • HRM (階層的報酬モデル): 本論文で提案される階層的報酬モデル

実装詳細

  • 報酬モデル: Qwen2.5-1.5B-Mathに基づいて微調整
  • 戦略モデル: Qwen2.5-72B-Math-Instruct、DeepSeek-Math-7B、Qwen2.5-7B-Math-Instruct
  • MCTS設定: 各親ノードあたり5-6個の子ノード、最大ツリー深度7
  • 訓練最適化: FlashAttention、DeepSpeed、混合精度訓練を使用

実験結果

主要結果

PRM800Kデータセット上のBest-of-Nパフォーマンス:

N2481624
ORM0.6220.6770.6550.6550.633
PRM0.7000.6440.6110.5880.577
HRM0.7220.7110.7440.8000.800

重要な発見:

  • HRMはN増加時に安定したパフォーマンスを維持し、精度は80%で安定しています
  • ORMとPRMは顕著な変動を示し、N増加に伴い精度が低下します
  • HRMは最高の安定性と信頼性を示します

クロスドメイン汎化実験

GSM8KおよびMATH500データセット結果:

データセット手法N=2N=64N=256N=512
GSM8KPRM0.7840.9050.9270.918
GSM8KHRM0.7840.9070.9300.926
MATH500PRM0.4680.6560.6860.688
MATH500HRM0.4900.7420.7400.736

重要な観察:

  • 複雑なMATH500データセットでは、HRMはPRMを大幅に上回ります
  • 比較的単純なGSM8Kでは差異は小さいですがHRMは依然としてわずかに優れています
  • HRMはより強いクロスドメイン堅牢性を示します

アブレーション実験

異なる戦略モデルの比較: MCTSで生成された自動アノテーションデータで訓練されたHRMは複数の戦略モデルでPRMより優れた安定性を示します:

  • DeepSeek-Math-7B
  • Qwen2.5-72B-Math
  • Qwen2.5-7B-Math

自己訓練実験

KL発散正則化による教師あり微調整を通じて戦略モデルのパフォーマンスをさらに向上させ、高品質推論データの価値を検証しました。

関連研究

RLHFフレームワーク

本論文は人間フィードバック強化学習(RLHF)フレームワークに基づいており、報酬モデルを通じて高品質および低品質の応答を区別し、PPOを使用してLLMを最適化します。

報酬モデルの分類

  1. ORM: 全体的な出力に基づいて報酬を割り当て、遅延フィードバックと信用割り当ての問題に直面しています
  2. PRM: 中間推論ステップを評価し、より細粒度の監督を提供しますが、報酬ハッキング問題に直面しています

推論におけるMCTSの応用

MCTSは推論軌跡の自動アノテーション手法として提案されていますが、計算コストは探索ツリーの深さと幅に伴い指数関数的に増加します。

結論と議論

主要な結論

  1. HRMはPRMの報酬ハッキング問題を効果的に緩和します。階層的監督を通じてより安定した信頼性の高い評価を提供します
  2. HNCは効率的なデータ拡張戦略です。最小限のコストで訓練データの品質を大幅に向上させます
  3. HRMは優れた汎化能力を示します。複数の数学推論データセットで一貫してPRMを上回ります

制限事項

  1. ステップ統合の制限: 現在は2つの連続ステップのみを統合し、より多くのステップの統合はラベル組み合わせの複雑性を急速に増加させます
  2. 領域の制限: 主に数学推論に焦点を当てており、他の構造化推論領域への適用可能性はさらなる検証が必要です
  3. 計算制約: MCTS設定は計算リソースによって制限され、生成されたデータの多様性に影響を与える可能性があります

将来の方向性

  1. より複雑な階層構造設計の探索
  2. 他の構造化推論タスクへの拡張
  3. より効率的な探索アルゴリズムとの組み合わせによる計算コストの削減
  4. マルチステップ統合を処理するためのより洗練されたラベル戦略の研究

深い評価

利点

  1. 革新性が強い: HRMの階層的監督設計は局所的正確性と全体的一貫性を巧妙に組み合わせています
  2. 実験が充分: 複数のデータセットと戦略モデルでの包括的な評価が実施されています
  3. 実用的価値が高い: HNCは低コストのデータ拡張ソリューションを提供します
  4. 理論的基礎が堅実: 報酬ハッキング問題の分析は深く、ソリューションは対象を絞ったものです

不足点

  1. 方法の複雑性: PRMと比較して、HRMの訓練データ構築とラベル戦略はより複雑です
  2. スケーラビリティ: 現在は2ステップ統合のみをサポートしており、方法の拡張性を制限しています
  3. 領域特異性: 主に数学推論タスクで検証されており、他の領域への適用可能性は十分に検証されていません

影響力

  1. 学術的貢献: 報酬モデル設計に新しい階層化の考え方を提供します
  2. 実用的価値: HNC手法は既存のMCTSプロセスに直接適用できます
  3. 再現可能性: 詳細な実験設定とハイパーパラメータ設定が提供されています

適用シナリオ

  1. 数学推論タスク: 特に複雑な数学問題を必要とするマルチステップ推論に適しています
  2. 自己修正が必要な推論タスク: HRMは推論プロセスにおけるエラー修正を識別および報酬付けできます
  3. リソース制約のあるシナリオ: HNCは低コストのデータ拡張ソリューションを提供します

参考文献

論文は当該分野の重要な研究を引用しており、以下を含みます:

  • Lightman et al. (2023) - Let's verify step by step (PRM800Kデータセット)
  • Cobbe et al. (2021) - Training verifiers to solve math word problems
  • Wei et al. (2022) - Chain-of-thought prompting
  • Ouyang et al. (2022) - Training language models to follow instructions with human feedback

総合評価: これは高品質な研究論文であり、PRMの重要な問題に対して革新的なソリューションを提案しています。HRMの階層的監督設計は理論的に合理的であり、実験検証は充分であり、HNC手法は非常に実用的な価値があります。論文は技術革新、実験設計、結果分析のすべての側面で優れた表現を示しており、大規模言語モデルの推論能力向上に価値のある貢献を提供しています。