2025-11-30T00:01:19.060859

Do Not Step Into the Same River Twice: Learning to Reason from Trial and Error

Tang, Huang, Liu et al.
Reinforcement learning with verifiable rewards (RLVR) has significantly boosted the reasoning capability of large language models (LLMs) recently. However, existing RLVR approaches merely train LLMs based on their own generated responses and are constrained by the initial capability of LLMs, thus prone to exploration stagnation, in which LLMs fail to solve more training problems and cannot further learn from the training data. Some work tries to address this by leveraging off-policy solutions to training problems but requires external guidance from experts which suffers from limited availability. In this work, we propose LTE (Learning to reason from Trial and Error), an approach hinting LLMs with their previously self-generated incorrect answers and problem of overlong responses, which does not require any external expert guidance. Experiments validate the effectiveness of LTE, which outperforms the normal group relative policy optimization (GRPO) by 6.38 in Pass@1 and 9.00 in Pass@k on average across six mathematics benchmarks for Qwen3-4B-Base. Further analysis confirms that LTE successfully mitigates the problem of exploration stagnation and enhances both exploitation and exploration during training.
academic

Do Not Step Into the Same River Twice: Learning to Reason from Trial and Error

基本信息

  • 论文ID: 2510.26109
  • 标题: Do Not Step Into the Same River Twice: Learning to Reason from Trial and Error
  • 作者: Chenming Tang, Hsiu-Yuan Huang, Weijie Liu, Saiyong Yang, Yunfang Wu (北京大学 & 腾讯)
  • 分类: cs.LG (机器学习)
  • 发表时间: 2025年10月30日 (arXiv预印本)
  • 论文链接: https://arxiv.org/abs/2510.26109v1

摘要

本文提出LTE (Learning to reason from Trial and Error)方法,旨在解决大语言模型(LLMs)在可验证奖励强化学习(RLVR)中的探索停滞问题。现有RLVR方法仅基于模型自身生成的响应进行训练,受限于初始能力,难以解决超出能力上界的问题。LTE通过利用模型先前生成的错误答案作为提示,无需外部专家指导即可突破能力瓶颈。在Qwen3-4B-Base上的实验表明,LTE在六个数学基准上平均超越标准GRPO方法6.38 (Pass@1)和9.00 (Pass@k)。

研究背景与动机

要解决的核心问题

本文针对大语言模型强化学习训练中的**探索停滞(exploration stagnation)**问题。具体表现为:当训练样本难度超出模型当前能力上界时,所有采样的响应都无法通过验证(即none-pass样本),导致所有优势函数为零,模型无法从这些样本中学习。

问题的重要性

  1. 能力瓶颈: 现有RLVR方法使模型被困在初始能力范围内,无法突破自身上界
  2. 训练效率: 大量训练样本因探索停滞而无法提供有效学习信号
  3. 推理能力: 限制了模型在数学推理等需要深度思考任务上的性能提升

现有方法的局限性

现有解决方案主要依赖外部指导:

  • 人工标注的标准答案: 成本高昂,可扩展性差
  • 更强模型生成的推理链: 在训练旗舰模型时不可用
  • 简单增加采样次数: 未利用已有rollout信息,效率低下

研究动机

提出一种自主学习的方法,仅利用模型自身的试错经验,无需任何外部专家指导即可突破探索瓶颈。

核心贡献

  1. 提出LTE方法: 首个利用LLM自身试错经验(错误答案)作为提示来解决探索停滞的方法,无需外部专家指导
  2. 混合策略优化机制: 设计了结合on-policy和off-policy样本的训练框架,通过正则化重要性采样处理提示生成的正确解
  3. 全面实验验证: 在两个LLM(4B和8B)和六个数学基准上验证有效性,显著提升Pass@1和Pass@k性能
  4. 深入机制分析:
    • 理论证明LTE增加了到达正确答案的概率
    • 实证分析确认LTE成功缓解探索停滞
    • 揭示LTE同时增强exploitation和exploration能力

方法详解

任务定义

输入: 数学问题查询 qDq \sim D
输出: 推理链和最终答案 oo
目标: 通过RLVR最大化生成正确答案的概率,同时突破模型初始能力上界

整体框架

LTE的核心流程包括三个阶段:

1. 初始Rollouts

对每个训练问题 qq,采样 GG 个响应 {o1,o2,...,oG}\{o_1, o_2, ..., o_G\},并验证正确性。

2. Hinted Extra Rollouts(关键创新)

对于none-pass样本(所有初始rollout都失败),根据截断情况选择提示策略:

a) All-truncated(所有响应都被截断)

提示模板: "Let's think concisely and output the final answer within \boxed{}."

归因于响应过长,提示模型简洁思考。

b) Some-truncated(部分响应被截断)

提示模板: "Hint: possible incorrect answers include [a1, a2, ...]
Do not use or mention the hint explicitly. Let's think concisely..."

收集未截断响应的错误答案作为提示,同时要求简洁。

c) None-truncated(无截断响应)

提示模板: "Hint: possible incorrect answers include [a1, a2, ...]
Do not use or mention the hint explicitly. Let's think step by step..."

仅提供错误答案提示,允许正常长度推理。

基于选定的提示模板,再采样 GG 个额外rollouts {o1hinted,o2hinted,...,oGhinted}\{o_1^{hinted}, o_2^{hinted}, ..., o_G^{hinted}\}

3. Mixed-policy Optimization

如果额外rollouts中有 GG' 个正确解 {o1,...,oG}\{o'_1, ..., o'_{G'}\},随机替换初始rollouts中的 GG' 个响应。

关键技术: 使用正则化重要性采样处理off-policy样本:

r^i,t(θ)=πθ(oi,tq,oi,<t)πθold(oi,tHq,q,oi,<t)\hat{r}'_{i,t}(\theta) = \frac{\pi_\theta(o'_{i,t} | q, o_{i,<t})}{\pi_{\theta_{old}}(o'_{i,t} | H_q, q, o_{i,<t})}

f(r^i,t(θ))=r^i,t(θ)r^i,t(θ)+γf(\hat{r}'_{i,t}(\theta)) = \frac{\hat{r}'_{i,t}(\theta)}{\hat{r}'_{i,t}(\theta) + \gamma}

其中 γ=0.1\gamma = 0.1HqH_q 是提示信息。

混合策略目标函数:

JMixed(θ)=Eq,{oi,osi}[1Zi=1Gt=1oi(f(r^i,t(θ))A^i,t)+1Zi=1GGt=1osiCLIP(rsi,t(θ),A^si,t,ϵ)]J_{Mixed}(\theta) = \mathbb{E}_{q,\{o'_i, o_{s_i}\}} \left[ \frac{1}{Z'} \sum_{i=1}^{G'} \sum_{t=1}^{|o'_i|} (f(\hat{r}'_{i,t}(\theta)) \cdot \hat{A}'_{i,t}) + \frac{1}{Z} \sum_{i=1}^{G-G'} \sum_{t=1}^{|o_{s_i}|} \text{CLIP}(r_{s_i,t}(\theta), \hat{A}_{s_i,t}, \epsilon) \right]

技术创新点

  1. 自主学习机制: 不依赖外部监督,仅利用模型自身的错误尝试
    • 错误答案作为"反面教材",缩小解空间
    • 指示模型避免重复相同错误
  2. 状态空间剪枝: 理论分析表明,提示将状态空间从 SqS_q 剪枝到 Sq=Sq\SqfS'_q = S_q \backslash S^f_q(排除失败子空间),增加到达正确答案的概率
  3. 自适应提示策略: 根据截断情况动态调整提示内容
    • 处理过长响应问题
    • 平衡探索深度和效率
  4. 混合策略训练: 优雅处理on-policy和off-policy数据
    • 保持训练稳定性
    • 充分利用额外rollouts的信息

实验设置

数据集

训练数据: Skywork-OR1-RL-Data

  • Qwen3-4B-Base: Level 1子集,9,189个样本
  • Qwen3-8B-Base: Level 3子集,3,236个样本
  • 选择标准: 中等难度,确保最佳可学习性

评价指标

六个数学基准测试:

  1. MATH-500: 采样4次,报告Mean@4和Pass@4
  2. Minerva: 采样4次,报告Mean@4和Pass@4
  3. OlympiadBench: 采样4次,报告Mean@4和Pass@4
  4. AMC'23: 采样16次,报告Mean@16和Pass@16
  5. AIME'24: 采样16次,报告Mean@16和Pass@16
  6. AIME'25: 采样16次,报告Mean@16和Pass@16

核心指标:

  • Pass@1: 单次采样准确率(exploitation能力)
  • Pass@k: k次采样中至少一次正确的概率(exploration上界)

对比方法

  1. Base: 基础模型性能
  2. GRPO: 标准Group Relative Policy Optimization
  3. GRPO + Extra Rollouts: 对none-pass样本简单增加rollouts(无提示)
  4. LTE: 本文方法

每种方法测试两个版本:

  • w/o Entropy Loss: 不使用熵损失
  • w/ Entropy Loss: 添加系数为0.003的熵损失

实现细节

训练框架: verl
关键超参数:

  • 学习率: 1e-6
  • 训练步数: 300
  • 批大小: 128
  • 每个prompt采样数: 8
  • 温度: 1.0(训练),0.6(评估)
  • 最大响应长度: 16,384(训练),32,768(评估)
  • KL系数: 0.001
  • Clip ratio: 0.2

评估设置: 严格遵循标准协议,训练时的提示仅用于训练阶段,评估时不使用。

实验结果

主要结果

Pass@1性能(表1)

Qwen3-4B-Base:

方法MATH-500MinervaOlympiadAMC'23AIME'24AIME'25Avg.
Base45.4019.4922.8135.318.753.7522.59
GRPO (w/o entropy)69.6532.1734.3350.6212.084.3833.87
Extra Rollouts (w/o entropy)69.3031.9935.5955.7811.886.4635.17
LTE (w/o entropy)71.9533.8238.4458.9116.8812.2938.72
LTE (w/ entropy)76.0034.0140.6365.1624.1718.9643.16

关键发现:

  • LTE (w/ entropy)相比GRPO + Extra Rollouts提升**+6.38**平均分
  • 在AIME'24和AIME'25等高难度任务上提升尤为显著(+5.00和+10.00)

Qwen3-8B-Base:

  • LTE (w/ entropy)平均得分42.40,相比GRPO提升+1.78
  • 表现相对不稳定,归因于训练数据规模过小(3,236样本)

Pass@k性能(表3)

Qwen3-4B-Base:

方法MATH-500MinervaOlympiadAMC'23AIME'24AIME'25Avg.
Base69.8037.8739.7082.5033.3326.6748.31
GRPO (w/o entropy)77.2037.5042.0775.0026.6726.6747.52
LTE (w/ entropy)82.4042.2851.1190.0060.0040.0060.97

重要发现:

  • 标准GRPO降低了Pass@k(47.52 vs 48.31基线),表明探索能力受损
  • LTE (w/ entropy)大幅提升Pass@k至60.97,相比基线**+12.66**
  • 证明LTE不仅不损害探索上界,反而显著增强探索能力

训练数据分析

None-pass样本变化(图3a):

  • GRPO在200步后陷入停滞,无法进一步解决none-pass样本
  • Extra Rollouts仅带来边际改善
  • LTE持续减少none-pass样本,在训练后期仍保持下降趋势
  • LTE (w/ entropy)将none-pass样本从初始80+降至约45

Some-pass样本变化(图3b):

  • LTE在训练后期保持更高的some-pass样本数量(~60 vs ~50)
  • Some-pass样本提供非零梯度,是主要学习信号来源

All-pass样本变化(图3c):

  • LTE保持较低的all-pass样本数量(~5 vs ~15-20)
  • 避免过度确定性收敛,保持探索能力

训练动态分析

验证集性能(图4a-b):

  • Pass@1: 基线方法在100步后停滞,LTE持续提升至75%+
  • Pass@4: 基线方法在100步后下降,LTE持续提升至82%+

策略熵(图4c):

  • 所有方法都经历熵衰减
  • LTE在训练后期保持相对较高的熵(~0.2 vs ~0.05)
  • 表明LTE维持了一定的不确定性和探索能力

响应长度(图4d):

  • 基线方法响应长度缓慢增长,在250步后停滞(~2500 tokens)
  • LTE在训练后期大幅增加响应长度至3500+ tokens
  • 证明LTE隐式鼓励测试时深度思考(test-time deep thinking)

消融实验发现

熵损失的作用:

  • 对所有方法都带来性能提升
  • 与LTE结合效果最佳,表明熵控制与自主探索的协同作用

Extra Rollouts的局限性:

  • 简单增加rollouts未充分利用已有信息
  • 有时甚至带来负面影响(如8B模型的某些指标)

理论分析

状态空间剪枝证明

定义失败子空间: Sqf={sSq:Extract(s)Aq}S^f_q = \{s \in S_q : \text{Extract}(s) \in A_q\},其中AqA_q是已生成的错误答案集

定义剪枝子空间: Sq=Sq\SqfS'_q = S_q \backslash S^f_q

核心定理: 给定提示HqH_q(包含错误答案),到达正确答案的概率增加:

P(sMqq,Hq,πθ)P(sMqq,πθ)α(1+δ1τ1/n)\frac{P(s \in M_q | q, H_q, \pi_\theta)}{P(s \in M_q | q, \pi_\theta)} \geq \alpha \cdot \left(1 + \frac{\delta}{1-\tau^{1/n}}\right)

其中:

  • MqM_q: 正确答案状态集合
  • δ>0\delta > 0: 提示导致的失败子空间概率减少量
  • τ\tau: 观察到n次连续失败的置信水平
  • αΩ(1)\alpha \sim \Omega(1): 提示对剪枝子空间内推理能力的影响因子

结论: 由于α\alpha不应远小于1,该比值大于1,证明提示增加了到达正确答案的概率。

信息增益分析

从信息论角度:

ILTEIGRPO=I(πθ;HD)0I_{LTE} - I_{GRPO} = I(\pi_\theta; H | D) \geq 0

证明LTE从提示集HH中获得了额外的互信息,理论上优于GRPO。

相关工作

探索能力增强

  1. 熵控制方法:
    • Clip-Cov和KL-Cov (Cui et al., 2025)
    • Clip-Higher (Yu et al., 2025)
    • 自适应熵损失 (He et al., 2025)
  2. 无熵控制方法:
    • 历史回放 (Dou et al., 2025)
    • Pass@k奖励 (Chen et al., 2025)
    • 多样性促进 (Song et al., 2025)

外部指导学习

  • 混合训练 (Yan et al., 2025; Ma et al., 2025)
  • 提示方法 (Zhang et al., 2025a)
  • 局限: 依赖人工标注或更强模型,成本高且可用性受限

本文差异

  • EvoCoT (Liu et al., 2025a): 使用ground truth答案作为提示
  • LTE: 使用自身错误答案,更充分利用计算信息,避免奖励黑客

扩展Rollouts

  • 极端扩展rollouts (Hu et al., 2025)
  • 自适应rollout策略 (Li et al., 2025; Zhang et al., 2025c)
  • LTE优势: 利用试错信息,而非单纯增加采样

结论与讨论

主要结论

  1. 有效性验证: LTE在两个LLM和六个基准上显著优于GRPO和简单extra rollouts
  2. 探索停滞缓解: 成功减少none-pass样本,持续从训练数据中学习
  3. 双重能力提升: 同时增强exploitation(Pass@1)和exploration(Pass@k)
  4. 自主学习: 无需外部专家指导即可突破能力瓶颈

局限性

  1. 任务局限: 当前仅适用于数学推理,答案格式简洁
    • 需要修改才能支持代码生成等任务
  2. 熵控制: 未集成显式自适应熵控制,可能仍未达到最优
  3. 规模限制: 受限于计算资源,未在大规模模型(>10B)上验证
  4. 8B模型不稳定: 训练数据过小(3,236样本)导致过拟合

未来方向

作者明确提出四个研究方向:

  1. 自适应熵控制: 结合LTE与动态熵调整机制
  2. 增强提示信息: 在避免奖励黑客的前提下融入ground truth信息
  3. 细粒度提示: 在单个rollout级别应用累积错误答案提示
  4. 任务扩展: 推广到代码生成、定理证明等领域

深度评价

优点

1. 方法创新性 ⭐⭐⭐⭐⭐

  • 核心创新: 首次系统性地利用LLM自身错误答案作为探索指导
  • 理论支撑: 提供状态空间剪枝和信息增益的理论证明
  • 实用价值: 无需外部资源,成本低,可扩展性强

2. 实验充分性 ⭐⭐⭐⭐

  • 多维评估: 涵盖6个基准、2个模型、2个指标维度
  • 深入分析:
    • 训练数据动态(none/some/all-pass)
    • 训练过程动态(熵、响应长度)
    • 消融实验(熵损失影响)
  • 对比全面: 包含多个baseline和变体

3. 技术细节 ⭐⭐⭐⭐⭐

  • 自适应提示策略: 根据截断情况动态调整,考虑周到
  • 混合策略优化: 正则化重要性采样处理off-policy数据,技术成熟
  • 实现完整: 提供详细超参数和算法伪代码

4. 写作清晰度 ⭐⭐⭐⭐

  • 标题富有哲理("不踏入同一条河流两次")
  • 图表丰富(框架图、prompt模板、训练曲线)
  • 逻辑清晰,从问题→方法→实验→分析层层递进

不足

1. 方法局限性

  • 任务特异性: 依赖可提取的答案格式,难以直接迁移到开放式生成任务
  • 截断处理简化: 将所有截断响应视为无效,可能丢失部分有用信息
  • 提示设计: 固定的提示模板可能不是最优,缺乏自动优化机制

2. 实验设置缺陷

  • 训练数据不平衡: 8B模型仅3,236样本,导致结果不稳定
  • 模型规模受限: 未在10B+规模验证,泛化性存疑
  • 缺少人类评估: 对生成推理链的质量缺乏人工分析

3. 分析深度

  • 错误答案质量: 未分析哪些类型的错误答案更有效
  • 提示敏感性: 未系统研究提示格式、错误答案数量的影响
  • 计算成本: 未报告额外rollouts带来的训练时间和计算开销

4. 理论与实践gap

  • 理论假设: 状态空间剪枝分析中αΩ(1)\alpha \sim \Omega(1)的假设缺乏实证验证
  • 简化处理: 重要性采样中将πθold\pi_{\theta_{old}}视为1,理论正确性需进一步论证

影响力评估

学术价值 ⭐⭐⭐⭐

  • 范式转变: 从依赖外部指导转向自主学习,启发性强
  • 理论贡献: 连接强化学习探索与LLM推理,跨领域意义
  • 后续研究: 已引发对"从失败中学习"范式的广泛关注

实用价值 ⭐⭐⭐⭐

  • 易实现: 仅需修改prompt和采样策略,工程友好
  • 成本友好: 无需额外数据标注或更强模型
  • 即时收益: 实验显示显著且一致的性能提升

可复现性 ⭐⭐⭐⭐

  • 细节完整: 提供完整超参数和训练配置
  • 开源友好: 基于verl框架,代码实现相对简单
  • 数据公开: 使用公开数据集Skywork-OR1-RL-Data

适用场景

高度适用 ✅

  1. 数学推理: 答案可验证,格式规范
  2. 代码生成: 可通过测试用例验证(需适配)
  3. 逻辑推理: 有明确正误判断的任务
  4. 资源受限场景: 无法获取更强模型或人工标注

中度适用 ⚠️

  1. 开放式QA: 需要设计答案提取和验证机制
  2. 多模态推理: 需扩展到非文本模态
  3. 长文本生成: 截断处理需要更精细的策略

不适用 ❌

  1. 创意写作: 无客观正误标准
  2. 主观任务: 如情感分析、风格迁移
  3. 无验证器任务: 缺乏自动验证机制

关键洞察

  1. "失败即信息": 错误答案不是噪声,而是缩小解空间的有价值信号
  2. 探索-利用平衡: LTE通过自主学习同时增强两者,打破传统trade-off
  3. 深度思考涌现: 响应长度增加证明模型学会了投入更多计算资源
  4. 简洁性悖论: 提示"简洁思考"反而帮助解决复杂问题,体现质量优于数量

参考文献(精选)

  1. DeepSeek-AI (2025): DeepSeek-R1 - 强化学习激励推理能力的开创性工作
  2. Shao et al. (2024): GRPO算法 - 本文的基础方法
  3. Yan et al. (2025): 离策略指导学习 - 混合策略优化的启发来源
  4. Cui et al. (2025): 熵机制分析 - 探索能力的理论基础

总体评分: ⭐⭐⭐⭐ (4.5/5)

推荐阅读: 强烈推荐给从事LLM推理、强化学习和数学问题求解的研究者。方法简洁有效,理论与实践结合紧密,是RLVR领域的重要进展。