2025-11-30T00:01:19.060859

Do Not Step Into the Same River Twice: Learning to Reason from Trial and Error

Tang, Huang, Liu et al.
Reinforcement learning with verifiable rewards (RLVR) has significantly boosted the reasoning capability of large language models (LLMs) recently. However, existing RLVR approaches merely train LLMs based on their own generated responses and are constrained by the initial capability of LLMs, thus prone to exploration stagnation, in which LLMs fail to solve more training problems and cannot further learn from the training data. Some work tries to address this by leveraging off-policy solutions to training problems but requires external guidance from experts which suffers from limited availability. In this work, we propose LTE (Learning to reason from Trial and Error), an approach hinting LLMs with their previously self-generated incorrect answers and problem of overlong responses, which does not require any external expert guidance. Experiments validate the effectiveness of LTE, which outperforms the normal group relative policy optimization (GRPO) by 6.38 in Pass@1 and 9.00 in Pass@k on average across six mathematics benchmarks for Qwen3-4B-Base. Further analysis confirms that LTE successfully mitigates the problem of exploration stagnation and enhances both exploitation and exploration during training.
academic

同じ川に二度入るなかれ:試行錯誤から推論を学ぶ

基本情報

  • 論文ID: 2510.26109
  • タイトル: Do Not Step Into the Same River Twice: Learning to Reason from Trial and Error
  • 著者: Chenming Tang, Hsiu-Yuan Huang, Weijie Liu, Saiyong Yang, Yunfang Wu(北京大学&テンセント)
  • 分類: cs.LG(機械学習)
  • 発表日: 2025年10月30日(arXivプレプリント)
  • 論文リンク: https://arxiv.org/abs/2510.26109v1

要約

本論文はLTE(Learning to reason from Trial and Error)手法を提案し、大規模言語モデル(LLMs)における検証可能報酬強化学習(RLVR)での探索停滞問題の解決を目指している。既存のRLVR手法はモデル自身が生成した応答のみで訓練されるため、初期能力に制限され、能力上限を超える問題の解決が困難である。LTEはモデルが以前生成した誤答をプロンプトとして活用することで、外部専門家の指導なしに能力ボトルネックを突破する。Qwen3-4B-Baseでの実験により、LTEは6つの数学ベンチマークで標準GRPO手法を平均6.38(Pass@1)および9.00(Pass@k)上回ることが示された。

研究背景と動機

解決すべき核心問題

本論文は大規模言語モデルの強化学習訓練における**探索停滞(exploration stagnation)**問題に対処している。具体的には、訓練サンプルの難度がモデルの現在の能力上限を超える場合、サンプリングされたすべての応答が検証に合格しない(none-passサンプル)ため、すべてのアドバンテージ関数がゼロになり、モデルがこれらのサンプルから学習できない状況を指す。

問題の重要性

  1. 能力ボトルネック: 既存のRLVR手法はモデルを初期能力範囲内に閉じ込め、自身の上限を突破できない
  2. 訓練効率: 多くの訓練サンプルが探索停滞により有効な学習信号を提供できない
  3. 推論能力: 数学推理など深い思考を必要とするタスクでのパフォーマンス向上を制限

既存手法の限界

既存のソリューションは主に外部指導に依存している:

  • 人間による標注答: コスト高く、スケーラビリティが低い
  • より強力なモデルが生成した推論チェーン: フラッグシップモデルの訓練時には利用不可
  • 単純なサンプリング数の増加: 既存のロールアウト情報を活用せず、効率が低い

研究動機

モデル自身の試行錯誤経験のみを利用し、外部専門家の指導なしに探索ボトルネックを突破できる自主学習手法を提案する。

核心的貢献

  1. LTE手法の提案: LLM自身の試行錯誤経験(誤答)をプロンプトとして活用して探索停滞を解決する初の手法。外部専門家指導不要
  2. 混合政策最適化メカニズム: オンポリシーとオフポリシーサンプルを組み合わせた訓練フレームワークを設計。正則化重要度サンプリングでプロンプト生成の正解を処理
  3. 包括的な実験検証: 2つのLLM(4B、8B)と6つの数学ベンチマークで有効性を検証。Pass@1とPass@kのパフォーマンスを大幅に向上
  4. 深い機構分析:
    • LTEが正解到達確率を増加させることを理論的に証明
    • LTEが探索停滞を効果的に緩和することを実証的に確認
    • LTEが搾取(exploitation)と探索(exploration)の両能力を強化することを明らかに

手法の詳細

タスク定義

入力: 数学問題クエリ qDq \sim D
出力: 推論チェーンと最終答 oo
目標: RLVRを通じて正解生成確率を最大化しながら、モデルの初期能力上限を突破

全体フレームワーク

LTEのコア流程は3つのステージで構成される:

1. 初期ロールアウト

各訓練問題 qq に対して GG 個の応答 {o1,o2,...,oG}\{o_1, o_2, ..., o_G\} をサンプリングし、正確性を検証する。

2. ヒント付き追加ロールアウト(主要な革新)

none-passサンプル(すべての初期ロールアウトが失敗)に対して、切り詰め状況に基づいてプロンプト戦略を選択:

a) すべて切り詰め(All-truncated)

プロンプトテンプレート: "Let's think concisely and output the final answer within \boxed{}."

応答が長すぎることに起因すると判断し、簡潔な思考を促す。

b) 部分的に切り詰め(Some-truncated)

プロンプトテンプレート: "Hint: possible incorrect answers include [a1, a2, ...]
Do not use or mention the hint explicitly. Let's think concisely..."

切り詰められていない応答の誤答を収集してプロンプトとして使用。同時に簡潔性を要求。

c) 切り詰めなし(None-truncated)

プロンプトテンプレート: "Hint: possible incorrect answers include [a1, a2, ...]
Do not use or mention the hint explicitly. Let's think step by step..."

誤答プロンプトのみを提供し、通常の長さの推論を許可。

選択されたプロンプトテンプレートに基づいて、さらに GG 個の追加ロールアウト {o1hinted,o2hinted,...,oGhinted}\{o_1^{hinted}, o_2^{hinted}, ..., o_G^{hinted}\} をサンプリング。

3. 混合政策最適化

追加ロールアウトに GG' 個の正解 {o1,...,oG}\{o'_1, ..., o'_{G'}\} が含まれる場合、初期ロールアウト内の GG' 個の応答をランダムに置き換える。

主要技術: オフポリシーサンプルを処理するための正則化重要度サンプリング:

r^i,t(θ)=πθ(oi,tq,oi,<t)πθold(oi,tHq,q,oi,<t)\hat{r}'_{i,t}(\theta) = \frac{\pi_\theta(o'_{i,t} | q, o_{i,<t})}{\pi_{\theta_{old}}(o'_{i,t} | H_q, q, o_{i,<t})}

f(r^i,t(θ))=r^i,t(θ)r^i,t(θ)+γf(\hat{r}'_{i,t}(\theta)) = \frac{\hat{r}'_{i,t}(\theta)}{\hat{r}'_{i,t}(\theta) + \gamma}

ここで γ=0.1\gamma = 0.1HqH_q はプロンプト情報。

混合政策目的関数:

JMixed(θ)=Eq,{oi,osi}[1Zi=1Gt=1oi(f(r^i,t(θ))A^i,t)+1Zi=1GGt=1osiCLIP(rsi,t(θ),A^si,t,ϵ)]J_{Mixed}(\theta) = \mathbb{E}_{q,\{o'_i, o_{s_i}\}} \left[ \frac{1}{Z'} \sum_{i=1}^{G'} \sum_{t=1}^{|o'_i|} (f(\hat{r}'_{i,t}(\theta)) \cdot \hat{A}'_{i,t}) + \frac{1}{Z} \sum_{i=1}^{G-G'} \sum_{t=1}^{|o_{s_i}|} \text{CLIP}(r_{s_i,t}(\theta), \hat{A}_{s_i,t}, \epsilon) \right]

技術的革新点

  1. 自主学習メカニズム: 外部監督に依存せず、モデル自身の誤った試行のみを活用
    • 誤答を「反面教師」として機能させ、解空間を縮小
    • モデルに同じ誤りを繰り返さないよう指示
  2. 状態空間剪定: 理論分析により、プロンプトが状態空間を SqS_q から Sq=Sq\SqfS'_q = S_q \backslash S^f_q(失敗部分空間を除外)に剪定し、正解到達確率を増加させることを示す
  3. 適応的プロンプト戦略: 切り詰め状況に基づいてプロンプト内容を動的に調整
    • 長すぎる応答問題に対処
    • 探索深度と効率のバランスを取る
  4. 混合政策訓練: オンポリシーとオフポリシーデータを優雅に処理
    • 訓練の安定性を維持
    • 追加ロールアウト情報を十分に活用

実験設定

データセット

訓練データ: Skywork-OR1-RL-Data

  • Qwen3-4B-Base: レベル1サブセット、9,189サンプル
  • Qwen3-8B-Base: レベル3サブセット、3,236サンプル
  • 選択基準: 中程度の難度、最適な学習可能性を確保

評価指標

6つの数学ベンチマークテスト:

  1. MATH-500: 4回サンプリング、Mean@4およびPass@4を報告
  2. Minerva: 4回サンプリング、Mean@4およびPass@4を報告
  3. OlympiadBench: 4回サンプリング、Mean@4およびPass@4を報告
  4. AMC'23: 16回サンプリング、Mean@16およびPass@16を報告
  5. AIME'24: 16回サンプリング、Mean@16およびPass@16を報告
  6. AIME'25: 16回サンプリング、Mean@16およびPass@16を報告

主要指標:

  • Pass@1: 単一サンプリング精度(搾取能力)
  • Pass@k: k回のサンプリング中に少なくとも1回正解する確率(探索上限)

比較手法

  1. Base: ベースモデルのパフォーマンス
  2. GRPO: 標準Group Relative Policy Optimization
  3. GRPO + Extra Rollouts: none-passサンプルに対する単純なロールアウト増加(プロンプトなし)
  4. LTE: 本論文の手法

各手法は2つのバージョンでテスト:

  • エントロピー損失なし: エントロピー損失を使用しない
  • エントロピー損失あり: 係数0.003のエントロピー損失を追加

実装詳細

訓練フレームワーク: verl
主要ハイパーパラメータ:

  • 学習率: 1e-6
  • 訓練ステップ: 300
  • バッチサイズ: 128
  • プロンプトあたりのサンプリング数: 8
  • 温度: 1.0(訓練)、0.6(評価)
  • 最大応答長: 16,384(訓練)、32,768(評価)
  • KL係数: 0.001
  • クリップ比率: 0.2

評価設定: 標準プロトコルを厳密に遵守。訓練時のプロンプトは訓練段階のみで使用し、評価時には使用しない。

実験結果

主要結果

Pass@1パフォーマンス(表1)

Qwen3-4B-Base:

手法MATH-500MinervaOlympiadAMC'23AIME'24AIME'25平均
Base45.4019.4922.8135.318.753.7522.59
GRPO(エントロピー損失なし)69.6532.1734.3350.6212.084.3833.87
Extra Rollouts(エントロピー損失なし)69.3031.9935.5955.7811.886.4635.17
LTE(エントロピー損失なし)71.9533.8238.4458.9116.8812.2938.72
LTE(エントロピー損失あり)76.0034.0140.6365.1624.1718.9643.16

主要な発見:

  • LTE(エントロピー損失あり)はGRPO + Extra Rolloutsと比較して平均**+6.38**ポイント向上
  • AIME'24およびAIME'25などの高難度タスクでの向上が特に顕著(+5.00および+10.00)

Qwen3-8B-Base:

  • LTE(エントロピー損失あり)の平均スコア42.40、GRPO比+1.78
  • 訓練データサイズが小さい(3,236サンプル)ため、パフォーマンスは比較的不安定

Pass@kパフォーマンス(表3)

Qwen3-4B-Base:

手法MATH-500MinervaOlympiadAMC'23AIME'24AIME'25平均
Base69.8037.8739.7082.5033.3326.6748.31
GRPO(エントロピー損失なし)77.2037.5042.0775.0026.6726.6747.52
LTE(エントロピー損失あり)82.4042.2851.1190.0060.0040.0060.97

重要な発見:

  • 標準GRPOはPass@kを低下させた(47.52対48.31ベースライン)。探索能力が損なわれたことを示す
  • LTE(エントロピー損失あり)はPass@kを60.97に大幅向上。ベースラインと比較して**+12.66**
  • LTEは探索上限を損なわないだけでなく、探索能力を大幅に強化することを証明

訓練データ分析

None-passサンプルの変化(図3a):

  • GRPOは200ステップ後に停滞し、none-passサンプルをさらに解決できない
  • Extra Rolloutsはわずかな改善のみ
  • LTEはnone-passサンプルを継続的に削減。訓練後期でも下降傾向を維持
  • LTE(エントロピー損失あり)はnone-passサンプルを初期の80+から約45に削減

Some-passサンプルの変化(図3b):

  • LTEは訓練後期でより高いsome-passサンプル数を維持(60対50)
  • Some-passサンプルはゼロでない勾配を提供し、主要な学習信号源

All-passサンプルの変化(図3c):

  • LTEは低いall-passサンプル数を維持(5対15-20)
  • 過度な確定性収束を回避し、探索能力を保持

訓練ダイナミクス分析

検証セットのパフォーマンス(図4a-b):

  • Pass@1: ベースライン手法は100ステップ後に停滞。LTEは75%+に継続的に向上
  • Pass@4: ベースライン手法は100ステップ後に低下。LTEは82%+に継続的に向上

政策エントロピー(図4c):

  • すべての手法がエントロピー減衰を経験
  • LTEは訓練後期で相対的に高いエントロピーを維持(0.2対0.05)
  • LTEが一定の不確実性と探索能力を維持していることを示す

応答長(図4d):

  • ベースライン手法の応答長は緩やかに増加し、250ステップ後に停滞(~2500トークン)
  • LTEは訓練後期に応答長を3500+トークンに大幅増加
  • LTEがテスト時の深い思考(test-time deep thinking)を暗黙的に促進していることを証明

アブレーション実験の発見

エントロピー損失の役割:

  • すべての手法にパフォーマンス向上をもたらす
  • LTEとの組み合わせで最良の効果。エントロピー制御と自主的探索の相乗効果を示す

Extra Rolloutsの限界:

  • 単純なロールアウト増加は既存情報を十分に活用しない
  • 場合によっては負の影響さえもたらす(例:8Bモデルの特定指標)

理論分析

状態空間剪定の証明

失敗部分空間の定義: Sqf={sSq:Extract(s)Aq}S^f_q = \{s \in S_q : \text{Extract}(s) \in A_q\}。ここでAqA_qは生成された誤答の集合

剪定部分空間の定義: Sq=Sq\SqfS'_q = S_q \backslash S^f_q

核心定理: プロンプトHqH_q(誤答を含む)が与えられた場合、正解到達確率は増加する:

P(sMqq,Hq,πθ)P(sMqq,πθ)α(1+δ1τ1/n)\frac{P(s \in M_q | q, H_q, \pi_\theta)}{P(s \in M_q | q, \pi_\theta)} \geq \alpha \cdot \left(1 + \frac{\delta}{1-\tau^{1/n}}\right)

ここで:

  • MqM_q: 正解状態の集合
  • δ>0\delta > 0: プロンプトによる失敗部分空間確率の削減量
  • τ\tau: n回連続失敗を観測する信頼水準
  • αΩ(1)\alpha \sim \Omega(1): プロンプトが剪定部分空間内の推論能力に与える影響因子

結論: α\alphaが1より大きく異なるべきではないため、この比率は1より大きく、プロンプトが正解到達確率を増加させることを証明する。

情報利得分析

情報論的観点から:

ILTEIGRPO=I(πθ;HD)0I_{LTE} - I_{GRPO} = I(\pi_\theta; H | D) \geq 0

LTEがプロンプト集合HHから追加の相互情報を獲得し、理論的にGRPOより優れていることを証明する。

関連研究

探索能力の強化

  1. エントロピー制御手法:
    • Clip-CovおよびKL-Cov(Cui et al., 2025)
    • Clip-Higher(Yu et al., 2025)
    • 適応的エントロピー損失(He et al., 2025)
  2. エントロピー制御なしの手法:
    • 履歴リプレイ(Dou et al., 2025)
    • Pass@k報酬(Chen et al., 2025)
    • 多様性促進(Song et al., 2025)

外部指導学習

  • ハイブリッド訓練(Yan et al., 2025; Ma et al., 2025)
  • プロンプト手法(Zhang et al., 2025a)
  • 限界: 人間による標注またはより強力なモデルに依存。コスト高く利用可能性が限定的

本論文との相違

  • EvoCoT(Liu et al., 2025a): グラウンドトゥルース答をプロンプトとして使用
  • LTE: 自身の誤答を使用。計算情報をより充分に活用し、報酬ハッキングを回避

ロールアウト拡張

  • 極端なロールアウト拡張(Hu et al., 2025)
  • 適応的ロールアウト戦略(Li et al., 2025; Zhang et al., 2025c)
  • LTE利点: 試行錯誤情報を活用。単純なサンプリング増加ではない

結論と考察

主要な結論

  1. 有効性の検証: LTEは2つのLLMと6つのベンチマークでGRPOおよび単純なextra rolloutsを大幅に上回る
  2. 探索停滞の緩和: none-passサンプルを効果的に削減し、訓練データから継続的に学習
  3. 二重能力の向上: 搾取(Pass@1)と探索(Pass@k)の両能力を同時に強化
  4. 自主学習: 外部専門家指導なしに能力ボトルネックを突破

限界

  1. タスク限定: 現在は数学推理のみに適用。答の形式が簡潔
    • コード生成などのタスクに対応するには修正が必要
  2. エントロピー制御: 明示的な適応的エントロピー制御を統合していない。最適に達していない可能性
  3. 規模制限: 計算リソースの制約により、大規模モデル(>10B)での検証未実施
  4. 8Bモデルの不安定性: 訓練データが小さすぎる(3,236サンプル)ため過学習

今後の方向

著者は4つの研究方向を明確に提示:

  1. 適応的エントロピー制御: LTEと動的エントロピー調整メカニズムの結合
  2. プロンプト情報の強化: 報酬ハッキングを回避しながらグラウンドトゥルース情報を融合
  3. 細粒度プロンプト: 単一ロールアウトレベルで累積誤答プロンプトを適用
  4. タスク拡張: コード生成、定理証明などの領域への推広

深い評価

利点

1. 手法の革新性 ⭐⭐⭐⭐⭐

  • 核心的革新: LLM自身の誤答をプロンプトとして探索指導に活用する初の体系的手法
  • 理論的支援: 状態空間剪定と情報利得の理論的証明を提供
  • 実用的価値: 外部リソース不要。コスト低く、スケーラビリティが高い

2. 実験の充分性 ⭐⭐⭐⭐

  • 多次元評価: 6つのベンチマーク、2つのモデル、2つの指標次元を網羅
  • 深い分析:
    • 訓練データダイナミクス(none/some/all-pass)
    • 訓練プロセスダイナミクス(エントロピー、応答長)
    • アブレーション実験(エントロピー損失の影響)
  • 比較の包括性: 複数のベースラインと変体を含む

3. 技術詳細 ⭐⭐⭐⭐⭐

  • 適応的プロンプト戦略: 切り詰め状況に基づいて動的に調整。配慮が周到
  • 混合政策最適化: 正則化重要度サンプリングでオフポリシーデータを処理。技術が成熟
  • 実装の完全性: 詳細なハイパーパラメータとアルゴリズム疑似コードを提供

4. 文章の明確性 ⭐⭐⭐⭐

  • タイトルが哲学的(「同じ川に二度入るなかれ」)
  • 図表が豊富(フレームワーク図、プロンプトテンプレート、訓練曲線)
  • 論理が明確。問題→手法→実験→分析へと段階的に進行

不足

1. 手法の限界

  • タスク特異性: 抽出可能な答形式に依存。開放型生成タスクへの直接的な移行が困難
  • 切り詰め処理の簡略化: すべての切り詰め応答を無効と見なす。有用な情報が失われる可能性
  • プロンプト設計: 固定のプロンプトテンプレートが最適でない可能性。自動最適化メカニズムが欠如

2. 実験設定の欠陥

  • 訓練データの不均衡: 8Bモデルはわずか3,236サンプル。結果が不安定
  • モデル規模の制限: 10B+規模での検証未実施。汎化性が不確実
  • 人間による評価の欠如: 生成推論チェーンの質に対する人工分析が不足

3. 分析の深さ

  • 誤答の質: どのタイプの誤答がより有効かの分析が不足
  • プロンプト感度: プロンプト形式、誤答数の影響を体系的に研究していない
  • 計算コスト: 追加ロールアウトがもたらす訓練時間と計算オーバーヘッドを報告していない

4. 理論と実践のギャップ

  • 理論的仮定: 状態空間剪定分析におけるαΩ(1)\alpha \sim \Omega(1)の仮定に実証的検証が不足
  • 簡略化処理: 重要度サンプリングでπθold\pi_{\theta_{old}}を1と見なす。理論的正確性をさらに論証する必要

影響力評価

学術的価値 ⭐⭐⭐⭐

  • パラダイムシフト: 外部指導への依存から自主学習へ。啓発性が高い
  • 理論的貢献: 強化学習探索とLLM推論を連結。学際的意義
  • 後続研究: 「失敗から学ぶ」パラダイムへの広範な関心を喚起

実用的価値 ⭐⭐⭐⭐

  • 実装の容易さ: プロンプトとサンプリング戦略の修正のみ。エンジニアリングに優しい
  • コスト効率: 追加データ標注やより強力なモデルが不要
  • 即座の利益: 実験で顕著で一貫したパフォーマンス向上を示す

再現性 ⭐⭐⭐⭐

  • 詳細の完全性: 完全なハイパーパラメータと訓練設定を提供
  • オープンソース対応: verlフレームワークに基づく。コード実装が比較的簡単
  • データ公開: 公開データセットSkywork-OR1-RL-Dataを使用

適用シーン

高度に適用可能 ✅

  1. 数学推理: 答が検証可能で形式が規範的
  2. コード生成: テストケースで検証可能(適応が必要)
  3. 論理推理: 明確な正誤判定があるタスク
  4. リソース制約シーン: より強力なモデルや人間による標注が得られない

中程度に適用可能 ⚠️

  1. 開放型QA: 答抽出と検証メカニズムの設計が必要
  2. マルチモーダル推理: 非テキストモダリティへの拡張が必要
  3. 長文生成: 切り詰め処理にはより細かい戦略が必要

適用不可 ❌

  1. 創作文章: 客観的な正誤基準がない
  2. 主観的タスク: 感情分析、スタイル変換など
  3. 検証器なしタスク: 自動検証メカニズムが欠如

主要な洞察

  1. 「失敗は情報」: 誤答はノイズではなく、解空間を縮小する価値ある信号
  2. 探索-搾取バランス: LTEは自主学習を通じて両者を同時に強化。従来のトレードオフを打破
  3. 深い思考の出現: 応答長の増加はモデルがより多くの計算リソースを投入することを学んだことを証明
  4. 簡潔性のパラドックス: 「簡潔に思考する」プロンプトが複雑な問題解決を支援。質が量に優ることを体現

参考文献(精選)

  1. DeepSeek-AI(2025): DeepSeek-R1 - 強化学習が推論能力を促進する開拓的研究
  2. Shao et al.(2024): GRPO算法 - 本論文の基礎手法
  3. Yan et al.(2025): オフポリシー指導学習 - 混合政策最適化の啓発源
  4. Cui et al.(2025): エントロピーメカニズム分析 - 探索能力の理論的基礎

総合評価: ⭐⭐⭐⭐(4.5/5)

推奨読者: LLM推理、強化学習、数学問題解法に従事する研究者に強く推奨。手法は簡潔で有効。理論と実践が緊密に結合。RLVR領域の重要な進展。