Current approaches for strengthening LLM reasoning tend to introduce a training bias toward human-like reasoning trajectories. In step-wise preference optimization, in particular, dependence on human or higher-capacity model annotations for intermediate steps limits exploration of alternative, non-human-like reasoning paths and thus constrains achievable performance. Furthermore, through a small-scale pilot study, we observed that in approximately 75% of cases, the model's first erroneous step occurs after the lowest-confidence point. This suggests that guiding the model at its lowest-confidence point before an error provides more accurate supervision than locating the first explicit error. In this paper, we propose Confidence-Guided Reasoning Path Preference Optimization (CGPO), a method that leverages a confidence signal to identify points of maximal uncertainty in the model's reasoning process and applies self-generated, non-human-like reasoning-path guidance to mitigate trajectory drift. Our experiments span diverse models applied to both code and mathematical reasoning tasks. The results show that, with the same amount of training data, our method using data generated by a small model can achieve better performance in most cases compared with approaches using data generated by a strong model or human-annotated.
論文ID : 2510.11104タイトル : Enhancing LLM Reasoning via Non-Human-Like Reasoning Path Preference Optimization著者 : Junjie Lu, Yuliang Liu, Chaofeng Qu, Wei Shen, Zhouhan Lin, Min Xu分類 : cs.CL cs.AI発表日 : 2025年10月13日(arXivプレプリント)論文リンク : https://arxiv.org/abs/2510.11104 大規模言語モデル(LLM)の推論能力を強化する現在の方法は、人間の推論軌跡に対する訓練バイアスをしばしば導入している。特に段階的選好度最適化において、人間または高能力モデルの中間ステップ注釈への依存は、代替的な非人間的推論経路の探索を制限し、達成可能なパフォーマンスを制約している。小規模パイロット研究を通じて、著者らは約75%のケースにおいて、モデルの最初の誤りステップが最低信頼度ポイントの後に出現することを観察した。これは、誤りが発生する前の最低信頼度ポイントでモデルを導くことが、最初の明示的な誤りを特定するよりも、より正確な監督を提供することを示唆している。本論文は信頼度ガイド推論経路選好度最適化(CGPO)を提案し、この手法は推論プロセス中の最大不確実性ポイントを識別するために信頼度信号を活用し、自己生成された非人間的推論経路ガイダンスを適用して軌跡ドリフトを緩和する。
現在のLLM推論能力強化方法が直面する核心的な課題は以下の通りである:
人間的バイアスの制限 :既存の方法は人間または強力なモデルの推論軌跡に過度に依存し、非人間的推論経路の探索を制限している誤り位置特定の不正確性 :従来の方法は最初の明示的な誤りを特定することで監督を行うが、これはしばしば最適な介入ポイントではない注釈コストの高さ :段階的選好度最適化は大量の人間または強力なモデルによる注釈を必要とし、実際の応用コストが高い著者らの分析を通じて、約75%の誤りケースにおいて、モデルの最初の誤りステップがその信頼度が最も低いポイントの後に出現することが発見された。この観察は、人間の認知ではなくモデルの信頼度に基づく推論経路最適化の思想を刺激した。
Step-DPOなどの手法 :人間または強力なモデルの注釈に依存して誤りステップを特定し、コストが高く探索空間が限定されている従来のRLHF :主に結果最適化に焦点を当て、推論軌跡の中間ステップへの関心が不足している人間的アライメントバイアス :モデルに人間の推論パターンに従うことを強制することは、その潜在能力を制限する可能性があるCGPO手法の提案 :信頼度ガイドに基づく推論経路選好度最適化手法であり、より強力なモデルまたは人間の監督に依存しない非人間的推論経路の探索 :モデル自身の信頼度信号を利用して選好度学習データを構築し、非人間的推論経路を探索する複数領域での検証 :数学推論とコード生成タスクで手法の有効性を検証し、手法の汎用性を証明するオープンソース貢献 :完全なコードベース、データセット、訓練済みモデルの公開を約束し、再現性を促進する入力問題xが与えられたとき、初期ポリシーモデルπ₀は推論シーケンスy = (y₁, y₂, ..., yₜ)を生成する。ここでyₜ ∈ V(語彙表)である。デコード時間ステップtにおいて、モデルの信頼度は以下のように定義される:
信頼度閾値τを使用して推論ステップを分割し、τはデータセット内のすべての信頼度値の分布に基づいて決定される τより低い信頼度を持つトークンが分割ポイントとして機能し、シーケンスyがステップシーケンスs = (s₁, s₂, ..., sⱼ)に再構成される 初期軌跡の決定 :
最も不確実なステップの前のシーケンスを共有初期推論軌跡sᵢₙᵢₜとして選択する Chosen/Rejectedペアの構築 :
報酬モデルRを導入して、与えられた(x, sᵢₙᵢₜ)のトップk候補トークンを評価する 最高スコアと最低スコアのトークンをそれぞれ選択されたブランチと拒否されたブランチの開始トークンとして選択する π₀はまたはτより低い信頼度のトークンに遭遇するまでサンプリングを継続する DPOスタイルの目的関数を採用する:
L_CGPO(θ) = -E_{(s_init,s+,s-)~D}[log σ(β(Δ))]
ここで:
Δ = Δ_θ - Δ_ref
Δ_θ ≜ log π_θ(s+ | s_init) - log π_θ(s- | s_init)
Δ_ref ≜ log π_ref(s+ | s_init) - log π_ref(s- | s_init)
信頼度駆動のステップ分割 :事前定義されたアンカーポイントから脱却し、モデルの内在的な不確実性に基づいてステップを分割する自己監督選好度構築 :最も不確実なポイントで最適/最劣トークンを選択するために報酬モデルを活用し、人間の注釈を不要にする非人間的推論の探索 :人間の認知習慣に適合しないが、より効果的である可能性のある推論経路の探索をモデルに許可する数学推論タスク :
訓練データ:Step-DPO-10kデータセットの10,795個のプロンプト 評価データセット:GSM8K、MATH、Omni-Math モデル:MetaMath-Mistral-7B、MetaMath-LLaMA-8B、Qwen2-7B-SFTなど コード生成タスク :
訓練データ:LeetCodeDataset訓練セットの2,641個のサンプル 評価データセット:LiveCodeBench、LeetCodeDataset モデル:Deepseek-Coder-7B-Instruct-v1.5 数学推論 :完全一致精度(最終答案が標準答案と完全に一致)コード生成 :通過率(生成されたコードがサンドボックス環境のすべてのテストケースを通過)ベースモデル :元の基礎モデルStep-DPO :人間の注釈に基づく段階的選好度最適化手法信頼度閾値:データセット信頼度分布の2パーセンタイル トップk候補:k=8 訓練設定:β=0.3-0.4、学習率5e-7、バッチサイズ128、訓練エポック数4-8 数学推論タスクのパフォーマンス :
GSM8K :CGPOはすべてのモデルでStep-DPOを上回り、MetaMath-Llama-8Bで最も顕著な改善(+4.3% vs ベース)MATH :MetaMath-Llama-8BおよびQwen2-7B-SFTでStep-DPOを上回る重要な発見 :Step-DPOのパフォーマンスが低下する場合でも(例:MetaMath-Mistral-7B)、CGPOは依然として改善をもたらすコード生成タスクのパフォーマンス :
LiveCodeBench :2.1%の改善(19.3% → 19.7%)LeetCodeDataset :4.0%の改善(12.7% → 13.2%)訓練データ規模を増加させることで(10k → 80k)手法のスケーラビリティを検証:
MetaMath-Llama-8B(GSM8K):85.3%から86.4%へ改善 Qwen2-7B-SFT(GSM8K):88.6%から89.5%へ改善 CGPOが良好なデータスケーラビリティを有することを示す ASPRMとMath-Shepherdの2つの報酬モデルを比較:
ASPRMがより優れたパフォーマンスを示すが、より弱いMath-Shepherdを使用しても依然として改善がある 細粒度トークンレベル評価の重要性を証明する 閾値の上昇は通常、パフォーマンスの改善をもたらすが、過度に高いと短いシーケンスになる 異なるモデルの最適閾値は異なり、ターゲット調整が必要である Omni-Math(オリンピック級数学競技問題)でのパフォーマンス:
CGPOが4/5個のモデルでStep-DPOを上回る 手法が良好な分布外汎化能力を有することを証明する 200個の誤りサンプルの分析を通じて核心的仮説を検証:
MetaMath-Llama-8B:78%の誤りが最低信頼度ポイントの後に発生 Qwen2-7B-SFT:72%の誤りが最低信頼度ポイントの後に発生 信頼度に基づく早期介入設計理念をサポートする PPO :複雑性が高いが効果が安定しているDPO/SimPO :ペアリングされた選好度信号を直接最適化し、計算オーバーヘッドが低い本論文の貢献 :選好度最適化を推論経路の中間ステップに拡張する直接確率法 :予測トークンの確率を使用(本論文で採用)生成一貫性法 :答案一貫性を通じて信頼度を測定する本論文の革新 :信頼度を推論経路のステップ分割と最適化に使用する教師あり微調整 :注釈されたシーケンスへの直接アライメントRLHF :より高いスコアの軌跡への最適化本論文の利点 :強力なモデル注釈を不要にし、非人間的推論経路を探索する非人間的推論経路の価値 :モデルは非人間的推論経路の探索を通じてより良いパフォーマンスを達成できる信頼度信号の有効性 :モデルの信頼度は推論困難ポイントを識別するための有効な指標である自己監督学習の可能性 :強力なモデルまたは人間の注釈なしに、効果的な推論能力の向上を実現できる計算リソースの制限 :より大規模なモデル(70B等)でのスケーラビリティ検証ができていない領域の限定性 :主に数学とコード領域で検証され、常識推論などの領域での適用性は未検証である報酬モデルへの依存 :依然として領域固有の細粒度評価モデルが必要であるより大規模な検証 :より大規模なモデルとより多くの領域での手法の有効性検証汎用報酬モデル :領域横断的な汎用細粒度評価モデルの開発理論分析 :非人間的推論経路がより効果的である理由の理論的基礎の深化問題洞察の深さ :既存手法の人間的バイアス問題を識別し、新規な解決思想を提案している手法設計の巧妙さ :信頼度信号と選好度最適化を結合し、教師なし推論経路最適化を実現している実験検証の充実 :複数モデル、複数タスク、複数角度の実験検証により、結果の説得力が強い実用価値の高さ :強力なモデル注釈への依存を低減し、手法の実際の利用可能性を向上させている理論的基礎の不足 :非人間的推論経路がなぜより効果的であるかについての深層的な理論的説明が欠けている適用範囲の限定 :主に構造化推論タスクで検証され、開放的なタスクでの適用性が不明である信頼度の信頼性 :モデルの信頼度自体が十分に信頼できない可能性があり、特に分布外データでは顕著である計算コスト分析の欠如 :ベースライン手法との比較における計算コスト変化の詳細分析がない学術的価値 :推論能力最適化に新しい研究方向を提供し、関連研究をさらに刺激する可能性がある実用的価値 :注釈コストを低減しながらパフォーマンスを向上させ、重要な工学的応用価値を有する再現性 :完全なコードとデータの公開を約束し、手法の推進と改善に有利であるリソース制約環境 :強力なモデル注釈を取得できない場合の推論能力向上構造化推論タスク :数学、コード、論理推論など明確な評価基準を有するタスクモデルの自己改善 :モデルの継続学習と自己最適化の技術コンポーネント論文は推論最適化、選好度学習、信頼度推定などの関連領域の重要な研究を引用し、手法設計に堅実な理論的基礎を提供している。特にStep-DPO、DPOなどの直接関連する選好度最適化手法との比較分析に注目する価値がある。
総合評価 :これは大規模言語モデルの推論能力最適化領域における重要な貢献を有する論文である。非人間的推論経路の概念と信頼度ベースの最適化戦略を導入することで、この領域に新しい研究思想を提供している。理論的説明と適用範囲の面でまだ改善の余地があるが、その実用的価値と革新性により、この領域における重要な進展となっている。