2025-11-19T10:19:14.428770

Enhancing LLM Reasoning via Non-Human-Like Reasoning Path Preference Optimization

Lu, Liu, Qu et al.
Current approaches for strengthening LLM reasoning tend to introduce a training bias toward human-like reasoning trajectories. In step-wise preference optimization, in particular, dependence on human or higher-capacity model annotations for intermediate steps limits exploration of alternative, non-human-like reasoning paths and thus constrains achievable performance. Furthermore, through a small-scale pilot study, we observed that in approximately 75% of cases, the model's first erroneous step occurs after the lowest-confidence point. This suggests that guiding the model at its lowest-confidence point before an error provides more accurate supervision than locating the first explicit error. In this paper, we propose Confidence-Guided Reasoning Path Preference Optimization (CGPO), a method that leverages a confidence signal to identify points of maximal uncertainty in the model's reasoning process and applies self-generated, non-human-like reasoning-path guidance to mitigate trajectory drift. Our experiments span diverse models applied to both code and mathematical reasoning tasks. The results show that, with the same amount of training data, our method using data generated by a small model can achieve better performance in most cases compared with approaches using data generated by a strong model or human-annotated.
academic

LLM推論能力の強化:非人間的推論経路選好度最適化

基本情報

  • 論文ID: 2510.11104
  • タイトル: Enhancing LLM Reasoning via Non-Human-Like Reasoning Path Preference Optimization
  • 著者: Junjie Lu, Yuliang Liu, Chaofeng Qu, Wei Shen, Zhouhan Lin, Min Xu
  • 分類: cs.CL cs.AI
  • 発表日: 2025年10月13日(arXivプレプリント)
  • 論文リンク: https://arxiv.org/abs/2510.11104

要約

大規模言語モデル(LLM)の推論能力を強化する現在の方法は、人間の推論軌跡に対する訓練バイアスをしばしば導入している。特に段階的選好度最適化において、人間または高能力モデルの中間ステップ注釈への依存は、代替的な非人間的推論経路の探索を制限し、達成可能なパフォーマンスを制約している。小規模パイロット研究を通じて、著者らは約75%のケースにおいて、モデルの最初の誤りステップが最低信頼度ポイントの後に出現することを観察した。これは、誤りが発生する前の最低信頼度ポイントでモデルを導くことが、最初の明示的な誤りを特定するよりも、より正確な監督を提供することを示唆している。本論文は信頼度ガイド推論経路選好度最適化(CGPO)を提案し、この手法は推論プロセス中の最大不確実性ポイントを識別するために信頼度信号を活用し、自己生成された非人間的推論経路ガイダンスを適用して軌跡ドリフトを緩和する。

研究背景と動機

問題定義

現在のLLM推論能力強化方法が直面する核心的な課題は以下の通りである:

  1. 人間的バイアスの制限:既存の方法は人間または強力なモデルの推論軌跡に過度に依存し、非人間的推論経路の探索を制限している
  2. 誤り位置特定の不正確性:従来の方法は最初の明示的な誤りを特定することで監督を行うが、これはしばしば最適な介入ポイントではない
  3. 注釈コストの高さ:段階的選好度最適化は大量の人間または強力なモデルによる注釈を必要とし、実際の応用コストが高い

研究動機

著者らの分析を通じて、約75%の誤りケースにおいて、モデルの最初の誤りステップがその信頼度が最も低いポイントの後に出現することが発見された。この観察は、人間の認知ではなくモデルの信頼度に基づく推論経路最適化の思想を刺激した。

既存手法の限界

  1. Step-DPOなどの手法:人間または強力なモデルの注釈に依存して誤りステップを特定し、コストが高く探索空間が限定されている
  2. 従来のRLHF:主に結果最適化に焦点を当て、推論軌跡の中間ステップへの関心が不足している
  3. 人間的アライメントバイアス:モデルに人間の推論パターンに従うことを強制することは、その潜在能力を制限する可能性がある

核心的貢献

  1. CGPO手法の提案:信頼度ガイドに基づく推論経路選好度最適化手法であり、より強力なモデルまたは人間の監督に依存しない
  2. 非人間的推論経路の探索:モデル自身の信頼度信号を利用して選好度学習データを構築し、非人間的推論経路を探索する
  3. 複数領域での検証:数学推論とコード生成タスクで手法の有効性を検証し、手法の汎用性を証明する
  4. オープンソース貢献:完全なコードベース、データセット、訓練済みモデルの公開を約束し、再現性を促進する

手法の詳細説明

タスク定義

入力問題xが与えられたとき、初期ポリシーモデルπ₀は推論シーケンスy = (y₁, y₂, ..., yₜ)を生成する。ここでyₜ ∈ V(語彙表)である。デコード時間ステップtにおいて、モデルの信頼度は以下のように定義される:

cₜ ≜ p(yₜ|π₀, x, y<t)

モデルアーキテクチャ

1. 推論ステップの定義

  • 信頼度閾値τを使用して推論ステップを分割し、τはデータセット内のすべての信頼度値の分布に基づいて決定される
  • τより低い信頼度を持つトークンが分割ポイントとして機能し、シーケンスyがステップシーケンスs = (s₁, s₂, ..., sⱼ)に再構成される

2. 選好度ペア構築プロセス

初期軌跡の決定

  • 最も不確実なステップの前のシーケンスを共有初期推論軌跡sᵢₙᵢₜとして選択する

Chosen/Rejectedペアの構築

  • 報酬モデルRを導入して、与えられた(x, sᵢₙᵢₜ)のトップk候補トークンを評価する
  • 最高スコアと最低スコアのトークンをそれぞれ選択されたブランチと拒否されたブランチの開始トークンとして選択する
  • π₀はまたはτより低い信頼度のトークンに遭遇するまでサンプリングを継続する

3. 訓練目標

DPOスタイルの目的関数を採用する:

L_CGPO(θ) = -E_{(s_init,s+,s-)~D}[log σ(β(Δ))]

ここで:

Δ = Δ_θ - Δ_ref
Δ_θ ≜ log π_θ(s+ | s_init) - log π_θ(s- | s_init)
Δ_ref ≜ log π_ref(s+ | s_init) - log π_ref(s- | s_init)

技術的革新点

  1. 信頼度駆動のステップ分割:事前定義されたアンカーポイントから脱却し、モデルの内在的な不確実性に基づいてステップを分割する
  2. 自己監督選好度構築:最も不確実なポイントで最適/最劣トークンを選択するために報酬モデルを活用し、人間の注釈を不要にする
  3. 非人間的推論の探索:人間の認知習慣に適合しないが、より効果的である可能性のある推論経路の探索をモデルに許可する

実験設定

データセット

数学推論タスク

  • 訓練データ:Step-DPO-10kデータセットの10,795個のプロンプト
  • 評価データセット:GSM8K、MATH、Omni-Math
  • モデル:MetaMath-Mistral-7B、MetaMath-LLaMA-8B、Qwen2-7B-SFTなど

コード生成タスク

  • 訓練データ:LeetCodeDataset訓練セットの2,641個のサンプル
  • 評価データセット:LiveCodeBench、LeetCodeDataset
  • モデル:Deepseek-Coder-7B-Instruct-v1.5

評価指標

  • 数学推論:完全一致精度(最終答案が標準答案と完全に一致)
  • コード生成:通過率(生成されたコードがサンドボックス環境のすべてのテストケースを通過)

比較手法

  • ベースモデル:元の基礎モデル
  • Step-DPO:人間の注釈に基づく段階的選好度最適化手法

実装詳細

  • 信頼度閾値:データセット信頼度分布の2パーセンタイル
  • トップk候補:k=8
  • 訓練設定:β=0.3-0.4、学習率5e-7、バッチサイズ128、訓練エポック数4-8

実験結果

主要結果

数学推論タスクのパフォーマンス

  • GSM8K:CGPOはすべてのモデルでStep-DPOを上回り、MetaMath-Llama-8Bで最も顕著な改善(+4.3% vs ベース)
  • MATH:MetaMath-Llama-8BおよびQwen2-7B-SFTでStep-DPOを上回る
  • 重要な発見:Step-DPOのパフォーマンスが低下する場合でも(例:MetaMath-Mistral-7B)、CGPOは依然として改善をもたらす

コード生成タスクのパフォーマンス

  • LiveCodeBench:2.1%の改善(19.3% → 19.7%)
  • LeetCodeDataset:4.0%の改善(12.7% → 13.2%)

アブレーション実験

1. スケーラビリティ分析

訓練データ規模を増加させることで(10k → 80k)手法のスケーラビリティを検証:

  • MetaMath-Llama-8B(GSM8K):85.3%から86.4%へ改善
  • Qwen2-7B-SFT(GSM8K):88.6%から89.5%へ改善
  • CGPOが良好なデータスケーラビリティを有することを示す

2. 報酬モデルの影響

ASPRMとMath-Shepherdの2つの報酬モデルを比較:

  • ASPRMがより優れたパフォーマンスを示すが、より弱いMath-Shepherdを使用しても依然として改善がある
  • 細粒度トークンレベル評価の重要性を証明する

3. 信頼度閾値分析

  • 閾値の上昇は通常、パフォーマンスの改善をもたらすが、過度に高いと短いシーケンスになる
  • 異なるモデルの最適閾値は異なり、ターゲット調整が必要である

汎化能力の検証

Omni-Math(オリンピック級数学競技問題)でのパフォーマンス:

  • CGPOが4/5個のモデルでStep-DPOを上回る
  • 手法が良好な分布外汎化能力を有することを証明する

ケース分析

200個の誤りサンプルの分析を通じて核心的仮説を検証:

  • MetaMath-Llama-8B:78%の誤りが最低信頼度ポイントの後に発生
  • Qwen2-7B-SFT:72%の誤りが最低信頼度ポイントの後に発生
  • 信頼度に基づく早期介入設計理念をサポートする

関連研究

選好度最適化手法

  • PPO:複雑性が高いが効果が安定している
  • DPO/SimPO:ペアリングされた選好度信号を直接最適化し、計算オーバーヘッドが低い
  • 本論文の貢献:選好度最適化を推論経路の中間ステップに拡張する

信頼度認識手法

  • 直接確率法:予測トークンの確率を使用(本論文で採用)
  • 生成一貫性法:答案一貫性を通じて信頼度を測定する
  • 本論文の革新:信頼度を推論経路のステップ分割と最適化に使用する

推論軌跡最適化

  • 教師あり微調整:注釈されたシーケンスへの直接アライメント
  • RLHF:より高いスコアの軌跡への最適化
  • 本論文の利点:強力なモデル注釈を不要にし、非人間的推論経路を探索する

結論と考察

主要な結論

  1. 非人間的推論経路の価値:モデルは非人間的推論経路の探索を通じてより良いパフォーマンスを達成できる
  2. 信頼度信号の有効性:モデルの信頼度は推論困難ポイントを識別するための有効な指標である
  3. 自己監督学習の可能性:強力なモデルまたは人間の注釈なしに、効果的な推論能力の向上を実現できる

限界

  1. 計算リソースの制限:より大規模なモデル(70B等)でのスケーラビリティ検証ができていない
  2. 領域の限定性:主に数学とコード領域で検証され、常識推論などの領域での適用性は未検証である
  3. 報酬モデルへの依存:依然として領域固有の細粒度評価モデルが必要である

将来の方向性

  1. より大規模な検証:より大規模なモデルとより多くの領域での手法の有効性検証
  2. 汎用報酬モデル:領域横断的な汎用細粒度評価モデルの開発
  3. 理論分析:非人間的推論経路がより効果的である理由の理論的基礎の深化

深層評価

利点

  1. 問題洞察の深さ:既存手法の人間的バイアス問題を識別し、新規な解決思想を提案している
  2. 手法設計の巧妙さ:信頼度信号と選好度最適化を結合し、教師なし推論経路最適化を実現している
  3. 実験検証の充実:複数モデル、複数タスク、複数角度の実験検証により、結果の説得力が強い
  4. 実用価値の高さ:強力なモデル注釈への依存を低減し、手法の実際の利用可能性を向上させている

不足点

  1. 理論的基礎の不足:非人間的推論経路がなぜより効果的であるかについての深層的な理論的説明が欠けている
  2. 適用範囲の限定:主に構造化推論タスクで検証され、開放的なタスクでの適用性が不明である
  3. 信頼度の信頼性:モデルの信頼度自体が十分に信頼できない可能性があり、特に分布外データでは顕著である
  4. 計算コスト分析の欠如:ベースライン手法との比較における計算コスト変化の詳細分析がない

影響力

  1. 学術的価値:推論能力最適化に新しい研究方向を提供し、関連研究をさらに刺激する可能性がある
  2. 実用的価値:注釈コストを低減しながらパフォーマンスを向上させ、重要な工学的応用価値を有する
  3. 再現性:完全なコードとデータの公開を約束し、手法の推進と改善に有利である

適用シーン

  1. リソース制約環境:強力なモデル注釈を取得できない場合の推論能力向上
  2. 構造化推論タスク:数学、コード、論理推論など明確な評価基準を有するタスク
  3. モデルの自己改善:モデルの継続学習と自己最適化の技術コンポーネント

参考文献

論文は推論最適化、選好度学習、信頼度推定などの関連領域の重要な研究を引用し、手法設計に堅実な理論的基礎を提供している。特にStep-DPO、DPOなどの直接関連する選好度最適化手法との比較分析に注目する価値がある。


総合評価:これは大規模言語モデルの推論能力最適化領域における重要な貢献を有する論文である。非人間的推論経路の概念と信頼度ベースの最適化戦略を導入することで、この領域に新しい研究思想を提供している。理論的説明と適用範囲の面でまだ改善の余地があるが、その実用的価値と革新性により、この領域における重要な進展となっている。