2025-11-30T00:01:19.060859

Do Not Step Into the Same River Twice: Learning to Reason from Trial and Error

Tang, Huang, Liu et al.

Reinforcement learning with verifiable rewards (RLVR) has significantly boosted the reasoning capability of large language models (LLMs) recently. However, existing RLVR approaches merely train LLMs based on their own generated responses and are constrained by the initial capability of LLMs, thus prone to exploration stagnation, in which LLMs fail to solve more training problems and cannot further learn from the training data. Some work tries to address this by leveraging off-policy solutions to training problems but requires external guidance from experts which suffers from limited availability. In this work, we propose LTE (Learning to reason from Trial and Error), an approach hinting LLMs with their previously self-generated incorrect answers and problem of overlong responses, which does not require any external expert guidance. Experiments validate the effectiveness of LTE, which outperforms the normal group relative policy optimization (GRPO) by 6.38 in Pass@1 and 9.00 in Pass@k on average across six mathematics benchmarks for Qwen3-4B-Base. Further analysis confirms that LTE successfully mitigates the problem of exploration stagnation and enhances both exploitation and exploration during training.

academic

同じ川に二度入るなかれ：試行錯誤から推論を学ぶ

基本情報

論文ID: 2510.26109
タイトル: Do Not Step Into the Same River Twice: Learning to Reason from Trial and Error
著者: Chenming Tang, Hsiu-Yuan Huang, Weijie Liu, Saiyong Yang, Yunfang Wu（北京大学＆テンセント）
分類: cs.LG（機械学習）
発表日: 2025年10月30日（arXivプレプリント）
論文リンク: https://arxiv.org/abs/2510.26109v1

要約

本論文はLTE（Learning to reason from Trial and Error）手法を提案し、大規模言語モデル（LLMs）における検証可能報酬強化学習（RLVR）での探索停滞問題の解決を目指している。既存のRLVR手法はモデル自身が生成した応答のみで訓練されるため、初期能力に制限され、能力上限を超える問題の解決が困難である。LTEはモデルが以前生成した誤答をプロンプトとして活用することで、外部専門家の指導なしに能力ボトルネックを突破する。Qwen3-4B-Baseでの実験により、LTEは6つの数学ベンチマークで標準GRPO手法を平均6.38（Pass@1）および9.00（Pass@k）上回ることが示された。

研究背景と動機

解決すべき核心問題

本論文は大規模言語モデルの強化学習訓練における**探索停滞（exploration stagnation）**問題に対処している。具体的には、訓練サンプルの難度がモデルの現在の能力上限を超える場合、サンプリングされたすべての応答が検証に合格しない（none-passサンプル）ため、すべてのアドバンテージ関数がゼロになり、モデルがこれらのサンプルから学習できない状況を指す。

問題の重要性

能力ボトルネック: 既存のRLVR手法はモデルを初期能力範囲内に閉じ込め、自身の上限を突破できない
訓練効率: 多くの訓練サンプルが探索停滞により有効な学習信号を提供できない
推論能力: 数学推理など深い思考を必要とするタスクでのパフォーマンス向上を制限

既存手法の限界

既存のソリューションは主に外部指導に依存している：

人間による標注答: コスト高く、スケーラビリティが低い
より強力なモデルが生成した推論チェーン: フラッグシップモデルの訓練時には利用不可
単純なサンプリング数の増加: 既存のロールアウト情報を活用せず、効率が低い

研究動機

モデル自身の試行錯誤経験のみを利用し、外部専門家の指導なしに探索ボトルネックを突破できる自主学習手法を提案する。

核心的貢献

LTE手法の提案: LLM自身の試行錯誤経験（誤答）をプロンプトとして活用して探索停滞を解決する初の手法。外部専門家指導不要
混合政策最適化メカニズム: オンポリシーとオフポリシーサンプルを組み合わせた訓練フレームワークを設計。正則化重要度サンプリングでプロンプト生成の正解を処理
包括的な実験検証: 2つのLLM（4B、8B）と6つの数学ベンチマークで有効性を検証。Pass@1とPass@kのパフォーマンスを大幅に向上
深い機構分析:
- LTEが正解到達確率を増加させることを理論的に証明
- LTEが探索停滞を効果的に緩和することを実証的に確認
- LTEが搾取（exploitation）と探索（exploration）の両能力を強化することを明らかに

手法の詳細

タスク定義

入力: 数学問題クエリ $q \sim D$
出力: 推論チェーンと最終答 $o$
目標: RLVRを通じて正解生成確率を最大化しながら、モデルの初期能力上限を突破

全体フレームワーク

LTEのコア流程は3つのステージで構成される：

1. 初期ロールアウト

各訓練問題 $q$ に対して $G$ 個の応答 $\{o_1, o_2, ..., o_G\}$ をサンプリングし、正確性を検証する。

2. ヒント付き追加ロールアウト（主要な革新）

none-passサンプル（すべての初期ロールアウトが失敗）に対して、切り詰め状況に基づいてプロンプト戦略を選択：

a) すべて切り詰め（All-truncated）

プロンプトテンプレート: "Let's think concisely and output the final answer within \boxed{}."

応答が長すぎることに起因すると判断し、簡潔な思考を促す。

b) 部分的に切り詰め（Some-truncated）

プロンプトテンプレート: "Hint: possible incorrect answers include [a1, a2, ...]
Do not use or mention the hint explicitly. Let's think concisely..."

切り詰められていない応答の誤答を収集してプロンプトとして使用。同時に簡潔性を要求。

c) 切り詰めなし（None-truncated）

プロンプトテンプレート: "Hint: possible incorrect answers include [a1, a2, ...]
Do not use or mention the hint explicitly. Let's think step by step..."

誤答プロンプトのみを提供し、通常の長さの推論を許可。

選択されたプロンプトテンプレートに基づいて、さらに $G$ 個の追加ロールアウト $\{o_1^{hinted}, o_2^{hinted}, ..., o_G^{hinted}\}$ をサンプリング。

3. 混合政策最適化

追加ロールアウトに $G'$ 個の正解 $\{o'_1, ..., o'_{G'}\}$ が含まれる場合、初期ロールアウト内の $G'$ 個の応答をランダムに置き換える。

主要技術: オフポリシーサンプルを処理するための正則化重要度サンプリング：

$\hat{r}'_{i,t}(\theta) = \frac{\pi_\theta(o'_{i,t} | q, o_{i,<t})}{\pi_{\theta_{old}}(o'_{i,t} | H_q, q, o_{i,<t})}$

$f(\hat{r}'_{i,t}(\theta)) = \frac{\hat{r}'_{i,t}(\theta)}{\hat{r}'_{i,t}(\theta) + \gamma}$

ここで $\gamma = 0.1$ 、 $H_q$ はプロンプト情報。

混合政策目的関数:

$J_{Mixed}(\theta) = \mathbb{E}_{q,\{o'_i, o_{s_i}\}} \left[ \frac{1}{Z'} \sum_{i=1}^{G'} \sum_{t=1}^{|o'_i|} (f(\hat{r}'_{i,t}(\theta)) \cdot \hat{A}'_{i,t}) + \frac{1}{Z} \sum_{i=1}^{G-G'} \sum_{t=1}^{|o_{s_i}|} \text{CLIP}(r_{s_i,t}(\theta), \hat{A}_{s_i,t}, \epsilon) \right]$

技術的革新点

自主学習メカニズム: 外部監督に依存せず、モデル自身の誤った試行のみを活用
- 誤答を「反面教師」として機能させ、解空間を縮小
- モデルに同じ誤りを繰り返さないよう指示
状態空間剪定: 理論分析により、プロンプトが状態空間を $S_q$ から $S'_q = S_q \backslash S^f_q$ （失敗部分空間を除外）に剪定し、正解到達確率を増加させることを示す
適応的プロンプト戦略: 切り詰め状況に基づいてプロンプト内容を動的に調整
- 長すぎる応答問題に対処
- 探索深度と効率のバランスを取る
混合政策訓練: オンポリシーとオフポリシーデータを優雅に処理
- 訓練の安定性を維持
- 追加ロールアウト情報を十分に活用

実験設定

データセット

訓練データ: Skywork-OR1-RL-Data

Qwen3-4B-Base: レベル1サブセット、9,189サンプル
Qwen3-8B-Base: レベル3サブセット、3,236サンプル
選択基準: 中程度の難度、最適な学習可能性を確保

評価指標

6つの数学ベンチマークテスト:

MATH-500: 4回サンプリング、Mean@4およびPass@4を報告
Minerva: 4回サンプリング、Mean@4およびPass@4を報告
OlympiadBench: 4回サンプリング、Mean@4およびPass@4を報告
AMC'23: 16回サンプリング、Mean@16およびPass@16を報告
AIME'24: 16回サンプリング、Mean@16およびPass@16を報告
AIME'25: 16回サンプリング、Mean@16およびPass@16を報告

主要指標:

Pass@1: 単一サンプリング精度（搾取能力）
Pass@k: k回のサンプリング中に少なくとも1回正解する確率（探索上限）

比較手法

Base: ベースモデルのパフォーマンス
GRPO: 標準Group Relative Policy Optimization
GRPO + Extra Rollouts: none-passサンプルに対する単純なロールアウト増加（プロンプトなし）
LTE: 本論文の手法

各手法は2つのバージョンでテスト：

エントロピー損失なし: エントロピー損失を使用しない
エントロピー損失あり: 係数0.003のエントロピー損失を追加

実装詳細

訓練フレームワーク: verl
主要ハイパーパラメータ:

学習率: 1e-6
訓練ステップ: 300
バッチサイズ: 128
プロンプトあたりのサンプリング数: 8
温度: 1.0（訓練）、0.6（評価）
最大応答長: 16,384（訓練）、32,768（評価）
KL係数: 0.001
クリップ比率: 0.2

評価設定: 標準プロトコルを厳密に遵守。訓練時のプロンプトは訓練段階のみで使用し、評価時には使用しない。

手法	MATH-500	Minerva	Olympiad	AMC'23	AIME'24	AIME'25	平均
Base	45.40	19.49	22.81	35.31	8.75	3.75	22.59
GRPO（エントロピー損失なし）	69.65	32.17	34.33	50.62	12.08	4.38	33.87
Extra Rollouts（エントロピー損失なし）	69.30	31.99	35.59	55.78	11.88	6.46	35.17
LTE（エントロピー損失なし）	71.95	33.82	38.44	58.91	16.88	12.29	38.72
LTE（エントロピー損失あり）	76.00	34.01	40.63	65.16	24.17	18.96	43.16

主要な発見:

LTE（エントロピー損失あり）はGRPO + Extra Rolloutsと比較して平均**+6.38**ポイント向上
AIME'24およびAIME'25などの高難度タスクでの向上が特に顕著（+5.00および+10.00）

Qwen3-8B-Base:

LTE（エントロピー損失あり）の平均スコア42.40、GRPO比+1.78
訓練データサイズが小さい（3,236サンプル）ため、パフォーマンスは比較的不安定

Pass@kパフォーマンス（表3）

Qwen3-4B-Base:

手法	MATH-500	Minerva	Olympiad	AMC'23	AIME'24	AIME'25	平均
Base	69.80	37.87	39.70	82.50	33.33	26.67	48.31
GRPO（エントロピー損失なし）	77.20	37.50	42.07	75.00	26.67	26.67	47.52
LTE（エントロピー損失あり）	82.40	42.28	51.11	90.00	60.00	40.00	60.97

重要な発見:

標準GRPOはPass@kを低下させた（47.52対48.31ベースライン）。探索能力が損なわれたことを示す
LTE（エントロピー損失あり）はPass@kを60.97に大幅向上。ベースラインと比較して**+12.66**
LTEは探索上限を損なわないだけでなく、探索能力を大幅に強化することを証明

訓練データ分析

None-passサンプルの変化（図3a）:

GRPOは200ステップ後に停滞し、none-passサンプルをさらに解決できない
Extra Rolloutsはわずかな改善のみ
LTEはnone-passサンプルを継続的に削減。訓練後期でも下降傾向を維持
LTE（エントロピー損失あり）はnone-passサンプルを初期の80+から約45に削減

Some-passサンプルの変化（図3b）:

LTEは訓練後期でより高いsome-passサンプル数を維持（~~60対~~50）
Some-passサンプルはゼロでない勾配を提供し、主要な学習信号源

All-passサンプルの変化（図3c）:

LTEは低いall-passサンプル数を維持（5対15-20）
過度な確定性収束を回避し、探索能力を保持

訓練ダイナミクス分析

検証セットのパフォーマンス（図4a-b）:

Pass@1: ベースライン手法は100ステップ後に停滞。LTEは75%+に継続的に向上
Pass@4: ベースライン手法は100ステップ後に低下。LTEは82%+に継続的に向上

政策エントロピー（図4c）:

すべての手法がエントロピー減衰を経験
LTEは訓練後期で相対的に高いエントロピーを維持（~~0.2対~~0.05）
LTEが一定の不確実性と探索能力を維持していることを示す

応答長（図4d）:

ベースライン手法の応答長は緩やかに増加し、250ステップ後に停滞（~2500トークン）
LTEは訓練後期に応答長を3500+トークンに大幅増加
LTEがテスト時の深い思考（test-time deep thinking）を暗黙的に促進していることを証明

アブレーション実験の発見

エントロピー損失の役割:

すべての手法にパフォーマンス向上をもたらす
LTEとの組み合わせで最良の効果。エントロピー制御と自主的探索の相乗効果を示す

Extra Rolloutsの限界:

単純なロールアウト増加は既存情報を十分に活用しない
場合によっては負の影響さえもたらす（例：8Bモデルの特定指標）

理論分析

状態空間剪定の証明

失敗部分空間の定義: $S^f_q = \{s \in S_q : \text{Extract}(s) \in A_q\}$ 。ここで $A_q$ は生成された誤答の集合

剪定部分空間の定義: $S'_q = S_q \backslash S^f_q$

核心定理: プロンプト $H_q$ （誤答を含む）が与えられた場合、正解到達確率は増加する：

$\frac{P(s \in M_q | q, H_q, \pi_\theta)}{P(s \in M_q | q, \pi_\theta)} \geq \alpha \cdot \left(1 + \frac{\delta}{1-\tau^{1/n}}\right)$

ここで：

$M_q$ : 正解状態の集合
$\delta > 0$ : プロンプトによる失敗部分空間確率の削減量
$\tau$ : n回連続失敗を観測する信頼水準
$\alpha \sim \Omega(1)$ : プロンプトが剪定部分空間内の推論能力に与える影響因子

結論: $\alpha$ が1より大きく異なるべきではないため、この比率は1より大きく、プロンプトが正解到達確率を増加させることを証明する。

情報利得分析

情報論的観点から：

$I_{LTE} - I_{GRPO} = I(\pi_\theta; H | D) \geq 0$

LTEがプロンプト集合 $H$ から追加の相互情報を獲得し、理論的にGRPOより優れていることを証明する。

結論と考察

主要な結論

有効性の検証: LTEは2つのLLMと6つのベンチマークでGRPOおよび単純なextra rolloutsを大幅に上回る
探索停滞の緩和: none-passサンプルを効果的に削減し、訓練データから継続的に学習
二重能力の向上: 搾取（Pass@1）と探索（Pass@k）の両能力を同時に強化
自主学習: 外部専門家指導なしに能力ボトルネックを突破

限界

タスク限定: 現在は数学推理のみに適用。答の形式が簡潔
- コード生成などのタスクに対応するには修正が必要
エントロピー制御: 明示的な適応的エントロピー制御を統合していない。最適に達していない可能性
規模制限: 計算リソースの制約により、大規模モデル（>10B）での検証未実施
8Bモデルの不安定性: 訓練データが小さすぎる（3,236サンプル）ため過学習

今後の方向

著者は4つの研究方向を明確に提示：

適応的エントロピー制御: LTEと動的エントロピー調整メカニズムの結合
プロンプト情報の強化: 報酬ハッキングを回避しながらグラウンドトゥルース情報を融合
細粒度プロンプト: 単一ロールアウトレベルで累積誤答プロンプトを適用
タスク拡張: コード生成、定理証明などの領域への推広

核心的革新: LLM自身の誤答をプロンプトとして探索指導に活用する初の体系的手法
理論的支援: 状態空間剪定と情報利得の理論的証明を提供
実用的価値: 外部リソース不要。コスト低く、スケーラビリティが高い

2. 実験の充分性 ⭐⭐⭐⭐

多次元評価: 6つのベンチマーク、2つのモデル、2つの指標次元を網羅
深い分析:
- 訓練データダイナミクス（none/some/all-pass）
- 訓練プロセスダイナミクス（エントロピー、応答長）
- アブレーション実験（エントロピー損失の影響）
比較の包括性: 複数のベースラインと変体を含む