Reinforcement learning with verifiable rewards (RLVR) has significantly boosted the reasoning capability of large language models (LLMs) recently. However, existing RLVR approaches merely train LLMs based on their own generated responses and are constrained by the initial capability of LLMs, thus prone to exploration stagnation, in which LLMs fail to solve more training problems and cannot further learn from the training data. Some work tries to address this by leveraging off-policy solutions to training problems but requires external guidance from experts which suffers from limited availability. In this work, we propose LTE (Learning to reason from Trial and Error), an approach hinting LLMs with their previously self-generated incorrect answers and problem of overlong responses, which does not require any external expert guidance. Experiments validate the effectiveness of LTE, which outperforms the normal group relative policy optimization (GRPO) by 6.38 in Pass@1 and 9.00 in Pass@k on average across six mathematics benchmarks for Qwen3-4B-Base. Further analysis confirms that LTE successfully mitigates the problem of exploration stagnation and enhances both exploitation and exploration during training.
Do Not Step Into the Same River Twice: Learning to Reason from Trial and Error 论文ID : 2510.26109标题 : Do Not Step Into the Same River Twice: Learning to Reason from Trial and Error作者 : Chenming Tang, Hsiu-Yuan Huang, Weijie Liu, Saiyong Yang, Yunfang Wu (北京大学 & 腾讯)分类 : cs.LG (机器学习)发表时间 : 2025年10月30日 (arXiv预印本)论文链接 : https://arxiv.org/abs/2510.26109v1 本文提出LTE (Learning to reason from Trial and Error)方法,旨在解决大语言模型(LLMs)在可验证奖励强化学习(RLVR)中的探索停滞问题。现有RLVR方法仅基于模型自身生成的响应进行训练,受限于初始能力,难以解决超出能力上界的问题。LTE通过利用模型先前生成的错误答案作为提示,无需外部专家指导即可突破能力瓶颈。在Qwen3-4B-Base上的实验表明,LTE在六个数学基准上平均超越标准GRPO方法6.38 (Pass@1)和9.00 (Pass@k)。
本文针对大语言模型强化学习训练中的**探索停滞(exploration stagnation)**问题。具体表现为:当训练样本难度超出模型当前能力上界时,所有采样的响应都无法通过验证(即none-pass样本),导致所有优势函数为零,模型无法从这些样本中学习。
能力瓶颈 : 现有RLVR方法使模型被困在初始能力范围内,无法突破自身上界训练效率 : 大量训练样本因探索停滞而无法提供有效学习信号推理能力 : 限制了模型在数学推理等需要深度思考任务上的性能提升现有解决方案主要依赖外部指导:
人工标注的标准答案 : 成本高昂,可扩展性差更强模型生成的推理链 : 在训练旗舰模型时不可用简单增加采样次数 : 未利用已有rollout信息,效率低下提出一种自主学习 的方法,仅利用模型自身的试错经验,无需任何外部专家指导即可突破探索瓶颈。
提出LTE方法 : 首个利用LLM自身试错经验(错误答案)作为提示来解决探索停滞的方法,无需外部专家指导混合策略优化机制 : 设计了结合on-policy和off-policy样本的训练框架,通过正则化重要性采样处理提示生成的正确解全面实验验证 : 在两个LLM(4B和8B)和六个数学基准上验证有效性,显著提升Pass@1和Pass@k性能深入机制分析 :理论证明LTE增加了到达正确答案的概率 实证分析确认LTE成功缓解探索停滞 揭示LTE同时增强exploitation和exploration能力 输入 : 数学问题查询 q ∼ D q \sim D q ∼ D 输出 : 推理链和最终答案 o o o 目标 : 通过RLVR最大化生成正确答案的概率,同时突破模型初始能力上界
LTE的核心流程包括三个阶段:
对每个训练问题 q q q ,采样 G G G 个响应 { o 1 , o 2 , . . . , o G } \{o_1, o_2, ..., o_G\} { o 1 , o 2 , ... , o G } ,并验证正确性。
对于none-pass样本 (所有初始rollout都失败),根据截断情况选择提示策略:
a) All-truncated(所有响应都被截断)
提示模板: "Let's think concisely and output the final answer within \boxed{}."
归因于响应过长,提示模型简洁思考。
b) Some-truncated(部分响应被截断)
提示模板: "Hint: possible incorrect answers include [a1, a2, ...]
Do not use or mention the hint explicitly. Let's think concisely..."
收集未截断响应的错误答案作为提示,同时要求简洁。
c) None-truncated(无截断响应)
提示模板: "Hint: possible incorrect answers include [a1, a2, ...]
Do not use or mention the hint explicitly. Let's think step by step..."
仅提供错误答案提示,允许正常长度推理。
基于选定的提示模板,再采样 G G G 个额外rollouts { o 1 h i n t e d , o 2 h i n t e d , . . . , o G h i n t e d } \{o_1^{hinted}, o_2^{hinted}, ..., o_G^{hinted}\} { o 1 hin t e d , o 2 hin t e d , ... , o G hin t e d } 。
如果额外rollouts中有 G ′ G' G ′ 个正确解 { o 1 ′ , . . . , o G ′ ′ } \{o'_1, ..., o'_{G'}\} { o 1 ′ , ... , o G ′ ′ } ,随机替换初始rollouts中的 G ′ G' G ′ 个响应。
关键技术 : 使用正则化重要性采样处理off-policy样本:
r ^ i , t ′ ( θ ) = π θ ( o i , t ′ ∣ q , o i , < t ) π θ o l d ( o i , t ′ ∣ H q , q , o i , < t ) \hat{r}'_{i,t}(\theta) = \frac{\pi_\theta(o'_{i,t} | q, o_{i,<t})}{\pi_{\theta_{old}}(o'_{i,t} | H_q, q, o_{i,<t})} r ^ i , t ′ ( θ ) = π θ o l d ( o i , t ′ ∣ H q , q , o i , < t ) π θ ( o i , t ′ ∣ q , o i , < t )
f ( r ^ i , t ′ ( θ ) ) = r ^ i , t ′ ( θ ) r ^ i , t ′ ( θ ) + γ f(\hat{r}'_{i,t}(\theta)) = \frac{\hat{r}'_{i,t}(\theta)}{\hat{r}'_{i,t}(\theta) + \gamma} f ( r ^ i , t ′ ( θ )) = r ^ i , t ′ ( θ ) + γ r ^ i , t ′ ( θ )
其中 γ = 0.1 \gamma = 0.1 γ = 0.1 ,H q H_q H q 是提示信息。
混合策略目标函数 :
J M i x e d ( θ ) = E q , { o i ′ , o s i } [ 1 Z ′ ∑ i = 1 G ′ ∑ t = 1 ∣ o i ′ ∣ ( f ( r ^ i , t ′ ( θ ) ) ⋅ A ^ i , t ′ ) + 1 Z ∑ i = 1 G − G ′ ∑ t = 1 ∣ o s i ∣ CLIP ( r s i , t ( θ ) , A ^ s i , t , ϵ ) ] J_{Mixed}(\theta) = \mathbb{E}_{q,\{o'_i, o_{s_i}\}} \left[ \frac{1}{Z'} \sum_{i=1}^{G'} \sum_{t=1}^{|o'_i|} (f(\hat{r}'_{i,t}(\theta)) \cdot \hat{A}'_{i,t}) + \frac{1}{Z} \sum_{i=1}^{G-G'} \sum_{t=1}^{|o_{s_i}|} \text{CLIP}(r_{s_i,t}(\theta), \hat{A}_{s_i,t}, \epsilon) \right] J M i x e d ( θ ) = E q , { o i ′ , o s i } [ Z ′ 1 ∑ i = 1 G ′ ∑ t = 1 ∣ o i ′ ∣ ( f ( r ^ i , t ′ ( θ )) ⋅ A ^ i , t ′ ) + Z 1 ∑ i = 1 G − G ′ ∑ t = 1 ∣ o s i ∣ CLIP ( r s i , t ( θ ) , A ^ s i , t , ϵ ) ]
自主学习机制 : 不依赖外部监督,仅利用模型自身的错误尝试错误答案作为"反面教材",缩小解空间 指示模型避免重复相同错误 状态空间剪枝 : 理论分析表明,提示将状态空间从 S q S_q S q 剪枝到 S q ′ = S q \ S q f S'_q = S_q \backslash S^f_q S q ′ = S q \ S q f (排除失败子空间),增加到达正确答案的概率自适应提示策略 : 根据截断情况动态调整提示内容混合策略训练 : 优雅处理on-policy和off-policy数据训练数据 : Skywork-OR1-RL-Data
Qwen3-4B-Base: Level 1子集,9,189个样本 Qwen3-8B-Base: Level 3子集,3,236个样本 选择标准: 中等难度,确保最佳可学习性 六个数学基准测试 :
MATH-500 : 采样4次,报告Mean@4和Pass@4Minerva : 采样4次,报告Mean@4和Pass@4OlympiadBench : 采样4次,报告Mean@4和Pass@4AMC'23 : 采样16次,报告Mean@16和Pass@16AIME'24 : 采样16次,报告Mean@16和Pass@16AIME'25 : 采样16次,报告Mean@16和Pass@16核心指标 :
Pass@1 : 单次采样准确率(exploitation能力)Pass@k : k次采样中至少一次正确的概率(exploration上界)Base : 基础模型性能GRPO : 标准Group Relative Policy OptimizationGRPO + Extra Rollouts : 对none-pass样本简单增加rollouts(无提示)LTE : 本文方法每种方法测试两个版本:
w/o Entropy Loss : 不使用熵损失w/ Entropy Loss : 添加系数为0.003的熵损失训练框架 : verl关键超参数 :
学习率: 1e-6 训练步数: 300 批大小: 128 每个prompt采样数: 8 温度: 1.0(训练),0.6(评估) 最大响应长度: 16,384(训练),32,768(评估) KL系数: 0.001 Clip ratio: 0.2 评估设置 : 严格遵循标准协议,训练时的提示仅用于训练阶段,评估时不使用。
Qwen3-4B-Base :
方法 MATH-500 Minerva Olympiad AMC'23 AIME'24 AIME'25 Avg. Base 45.40 19.49 22.81 35.31 8.75 3.75 22.59 GRPO (w/o entropy) 69.65 32.17 34.33 50.62 12.08 4.38 33.87 Extra Rollouts (w/o entropy) 69.30 31.99 35.59 55.78 11.88 6.46 35.17 LTE (w/o entropy) 71.95 33.82 38.44 58.91 16.88 12.29 38.72 LTE (w/ entropy) 76.00 34.01 40.63 65.16 24.17 18.96 43.16
关键发现 :
LTE (w/ entropy)相比GRPO + Extra Rollouts提升**+6.38**平均分 在AIME'24和AIME'25等高难度任务上提升尤为显著(+5.00和+10.00) Qwen3-8B-Base :
LTE (w/ entropy)平均得分42.40,相比GRPO提升+1.78 表现相对不稳定,归因于训练数据规模过小(3,236样本) Qwen3-4B-Base :
方法 MATH-500 Minerva Olympiad AMC'23 AIME'24 AIME'25 Avg. Base 69.80 37.87 39.70 82.50 33.33 26.67 48.31 GRPO (w/o entropy) 77.20 37.50 42.07 75.00 26.67 26.67 47.52 LTE (w/ entropy) 82.40 42.28 51.11 90.00 60.00 40.00 60.97
重要发现 :
标准GRPO降低了Pass@k(47.52 vs 48.31基线),表明探索能力受损 LTE (w/ entropy)大幅提升Pass@k至60.97,相比基线**+12.66** 证明LTE不仅不损害探索上界,反而显著增强探索能力 None-pass样本变化 (图3a):
GRPO在200步后陷入停滞,无法进一步解决none-pass样本 Extra Rollouts仅带来边际改善 LTE持续减少none-pass样本 ,在训练后期仍保持下降趋势LTE (w/ entropy)将none-pass样本从初始80+降至约45 Some-pass样本变化 (图3b):
LTE在训练后期保持更高的some-pass样本数量(~60 vs ~50) Some-pass样本提供非零梯度,是主要学习信号来源 All-pass样本变化 (图3c):
LTE保持较低的all-pass样本数量(~5 vs ~15-20) 避免过度确定性收敛,保持探索能力 验证集性能 (图4a-b):
Pass@1: 基线方法在100步后停滞,LTE持续提升至75%+ Pass@4: 基线方法在100步后下降,LTE持续提升至82%+ 策略熵 (图4c):
所有方法都经历熵衰减 LTE在训练后期保持相对较高的熵(~0.2 vs ~0.05) 表明LTE维持了一定的不确定性和探索能力 响应长度 (图4d):
基线方法响应长度缓慢增长,在250步后停滞(~2500 tokens) LTE在训练后期大幅增加响应长度至3500+ tokens 证明LTE隐式鼓励测试时深度思考(test-time deep thinking) 熵损失的作用 :
对所有方法都带来性能提升 与LTE结合效果最佳,表明熵控制与自主探索的协同作用 Extra Rollouts的局限性 :
简单增加rollouts未充分利用已有信息 有时甚至带来负面影响(如8B模型的某些指标) 定义失败子空间 : S q f = { s ∈ S q : Extract ( s ) ∈ A q } S^f_q = \{s \in S_q : \text{Extract}(s) \in A_q\} S q f = { s ∈ S q : Extract ( s ) ∈ A q } ,其中A q A_q A q 是已生成的错误答案集
定义剪枝子空间 : S q ′ = S q \ S q f S'_q = S_q \backslash S^f_q S q ′ = S q \ S q f
核心定理 : 给定提示H q H_q H q (包含错误答案),到达正确答案的概率增加:
P ( s ∈ M q ∣ q , H q , π θ ) P ( s ∈ M q ∣ q , π θ ) ≥ α ⋅ ( 1 + δ 1 − τ 1 / n ) \frac{P(s \in M_q | q, H_q, \pi_\theta)}{P(s \in M_q | q, \pi_\theta)} \geq \alpha \cdot \left(1 + \frac{\delta}{1-\tau^{1/n}}\right) P ( s ∈ M q ∣ q , π θ ) P ( s ∈ M q ∣ q , H q , π θ ) ≥ α ⋅ ( 1 + 1 − τ 1/ n δ )
其中:
M q M_q M q : 正确答案状态集合δ > 0 \delta > 0 δ > 0 : 提示导致的失败子空间概率减少量τ \tau τ : 观察到n次连续失败的置信水平α ∼ Ω ( 1 ) \alpha \sim \Omega(1) α ∼ Ω ( 1 ) : 提示对剪枝子空间内推理能力的影响因子结论 : 由于α \alpha α 不应远小于1,该比值大于1,证明提示增加了到达正确答案的概率。
从信息论角度:
I L T E − I G R P O = I ( π θ ; H ∣ D ) ≥ 0 I_{LTE} - I_{GRPO} = I(\pi_\theta; H | D) \geq 0 I L TE − I GRPO = I ( π θ ; H ∣ D ) ≥ 0
证明LTE从提示集H H H 中获得了额外的互信息,理论上优于GRPO。
熵控制方法 :Clip-Cov和KL-Cov (Cui et al., 2025) Clip-Higher (Yu et al., 2025) 自适应熵损失 (He et al., 2025) 无熵控制方法 :历史回放 (Dou et al., 2025) Pass@k奖励 (Chen et al., 2025) 多样性促进 (Song et al., 2025) 混合训练 (Yan et al., 2025; Ma et al., 2025) 提示方法 (Zhang et al., 2025a) 局限 : 依赖人工标注或更强模型,成本高且可用性受限EvoCoT (Liu et al., 2025a): 使用ground truth答案作为提示LTE : 使用自身错误答案,更充分利用计算信息,避免奖励黑客极端扩展rollouts (Hu et al., 2025) 自适应rollout策略 (Li et al., 2025; Zhang et al., 2025c) LTE优势 : 利用试错信息,而非单纯增加采样有效性验证 : LTE在两个LLM和六个基准上显著优于GRPO和简单extra rollouts探索停滞缓解 : 成功减少none-pass样本,持续从训练数据中学习双重能力提升 : 同时增强exploitation(Pass@1)和exploration(Pass@k)自主学习 : 无需外部专家指导即可突破能力瓶颈任务局限 : 当前仅适用于数学推理,答案格式简洁熵控制 : 未集成显式自适应熵控制,可能仍未达到最优规模限制 : 受限于计算资源,未在大规模模型(>10B)上验证8B模型不稳定 : 训练数据过小(3,236样本)导致过拟合作者明确提出四个研究方向:
自适应熵控制 : 结合LTE与动态熵调整机制增强提示信息 : 在避免奖励黑客的前提下融入ground truth信息细粒度提示 : 在单个rollout级别应用累积错误答案提示任务扩展 : 推广到代码生成、定理证明等领域核心创新 : 首次系统性地利用LLM自身错误答案作为探索指导理论支撑 : 提供状态空间剪枝和信息增益的理论证明实用价值 : 无需外部资源,成本低,可扩展性强多维评估 : 涵盖6个基准、2个模型、2个指标维度深入分析 :
训练数据动态(none/some/all-pass) 训练过程动态(熵、响应长度) 消融实验(熵损失影响) 对比全面 : 包含多个baseline和变体自适应提示策略 : 根据截断情况动态调整,考虑周到混合策略优化 : 正则化重要性采样处理off-policy数据,技术成熟实现完整 : 提供详细超参数和算法伪代码标题富有哲理("不踏入同一条河流两次") 图表丰富(框架图、prompt模板、训练曲线) 逻辑清晰,从问题→方法→实验→分析层层递进 任务特异性 : 依赖可提取的答案格式,难以直接迁移到开放式生成任务截断处理简化 : 将所有截断响应视为无效,可能丢失部分有用信息提示设计 : 固定的提示模板可能不是最优,缺乏自动优化机制训练数据不平衡 : 8B模型仅3,236样本,导致结果不稳定模型规模受限 : 未在10B+规模验证,泛化性存疑缺少人类评估 : 对生成推理链的质量缺乏人工分析错误答案质量 : 未分析哪些类型的错误答案更有效提示敏感性 : 未系统研究提示格式、错误答案数量的影响计算成本 : 未报告额外rollouts带来的训练时间和计算开销理论假设 : 状态空间剪枝分析中α ∼ Ω ( 1 ) \alpha \sim \Omega(1) α ∼ Ω ( 1 ) 的假设缺乏实证验证简化处理 : 重要性采样中将π θ o l d \pi_{\theta_{old}} π θ o l d 视为1,理论正确性需进一步论证范式转变 : 从依赖外部指导转向自主学习,启发性强理论贡献 : 连接强化学习探索与LLM推理,跨领域意义后续研究 : 已引发对"从失败中学习"范式的广泛关注易实现 : 仅需修改prompt和采样策略,工程友好成本友好 : 无需额外数据标注或更强模型即时收益 : 实验显示显著且一致的性能提升细节完整 : 提供完整超参数和训练配置开源友好 : 基于verl框架,代码实现相对简单数据公开 : 使用公开数据集Skywork-OR1-RL-Data数学推理 : 答案可验证,格式规范代码生成 : 可通过测试用例验证(需适配)逻辑推理 : 有明确正误判断的任务资源受限场景 : 无法获取更强模型或人工标注开放式QA : 需要设计答案提取和验证机制多模态推理 : 需扩展到非文本模态长文本生成 : 截断处理需要更精细的策略创意写作 : 无客观正误标准主观任务 : 如情感分析、风格迁移无验证器任务 : 缺乏自动验证机制"失败即信息" : 错误答案不是噪声,而是缩小解空间的有价值信号探索-利用平衡 : LTE通过自主学习同时增强两者,打破传统trade-off深度思考涌现 : 响应长度增加证明模型学会了投入更多计算资源简洁性悖论 : 提示"简洁思考"反而帮助解决复杂问题,体现质量优于数量DeepSeek-AI (2025) : DeepSeek-R1 - 强化学习激励推理能力的开创性工作Shao et al. (2024) : GRPO算法 - 本文的基础方法Yan et al. (2025) : 离策略指导学习 - 混合策略优化的启发来源Cui et al. (2025) : 熵机制分析 - 探索能力的理论基础总体评分 : ⭐⭐⭐⭐ (4.5/5)
推荐阅读 : 强烈推荐给从事LLM推理、强化学习和数学问题求解的研究者。方法简洁有效,理论与实践结合紧密,是RLVR领域的重要进展。