2025-11-22T18:43:16.829121

You Need Reasoning to Learn Reasoning: The Limitations of Label-Free RL in Weak Base Models

Roy, Hajimirsadeghi, Zhai et al.
Recent advances in large language models have demonstrated the promise of unsupervised reinforcement learning (RL) methods for enhancing reasoning capabilities without external supervision. However, the generalizability of these label-free RL approaches to smaller base models with limited reasoning capabilities remains unexplored. In this work, we systematically investigate the performance of label-free RL methods across different model sizes and reasoning strengths, from 0.5B to 7B parameters. Our empirical analysis reveals critical limitations: label-free RL is highly dependent on the base model's pre-existing reasoning capability, with performance often degrading below baseline levels for weaker models. We find that smaller models fail to generate sufficiently long or diverse chain-of-thought reasoning to enable effective self-reflection, and that training data difficulty plays a crucial role in determining success. To address these challenges, we propose a simple yet effective method for label-free RL that utilizes curriculum learning to progressively introduce harder problems during training and mask no-majority rollouts during training. Additionally, we introduce a data curation pipeline to generate samples with predefined difficulty. Our approach demonstrates consistent improvements across all model sizes and reasoning capabilities, providing a path toward more robust unsupervised RL that can bootstrap reasoning abilities in resource-constrained models. We make our code available at https://github.com/BorealisAI/CuMa
academic

You Need Reasoning to Learn Reasoning: The Limitations of Label-Free RL in Weak Base Models

基本信息

  • 论文ID: 2511.04902
  • 标题: You Need Reasoning to Learn Reasoning: The Limitations of Label-Free RL in Weak Base Models
  • 作者: Shuvendu Roy, Hossein Hajimirsadeghi, Mengyao Zhai, Golnoosh Samei (RBC Borealis)
  • 分类: cs.LG, cs.AI
  • 发表会议: NeurIPS 2025 Workshop: MATH-AI
  • 论文链接: https://arxiv.org/abs/2511.04902
  • 代码链接: https://github.com/BorealisAI/CuMa

摘要

本文系统性研究了无标签强化学习(Label-Free RL)方法在不同规模(0.5B到7B参数)和推理能力的语言模型上的表现。研究揭示了一个关键局限:无标签RL高度依赖基础模型的预存推理能力,对于较弱模型,性能常常降至基线水平以下。研究发现小模型无法生成足够长或多样化的思维链(CoT)来实现有效的自我反思,且训练数据难度在决定成功与否中起关键作用。为应对这些挑战,作者提出CuMa方法,利用课程学习逐步引入更难问题,并在训练中屏蔽无多数投票结果的样本。该方法在所有模型规模上均展现出一致的改进。

研究背景与动机

要解决的核心问题

近年来,大语言模型的推理能力提升主要依赖于强化学习技术,但传统方法(如RLHF、RLVR)严重依赖外部监督信号(人工标注或领域特定的真值标签)。为解决这一可扩展性瓶颈,研究者提出了无标签RL方法(如TTRL和Intuitor),但这些方法主要在大型、推理能力较强的模型(如Qwen2.5-Math-7B)上验证。本文要解决的核心问题是:这些无标签RL方法能否泛化到推理能力有限的小型基础模型?

问题的重要性

  1. 资源受限场景:在边缘设备或计算资源受限的环境中,小型模型更具实用价值
  2. 可扩展性:理解小模型的学习机制对于构建可扩展的推理系统至关重要
  3. 理论意义:揭示推理能力自举(bootstrap)的最小前提条件

现有方法的局限性

  1. TTRL:通过多数投票在未标注测试数据上估计奖励,但小模型早期训练时正确输出太少,导致伪标签错误
  2. Intuitor:使用模型自身置信度(self-certainty)作为内在奖励,但小模型置信度校准较差
  3. 缺乏针对弱模型的研究:现有方法未考虑基础推理能力不足时的失效模式

研究动机

通过系统性实验揭示无标签RL在弱模型上失败的根本原因,并提出针对性解决方案,使资源受限模型也能从无监督RL中受益。

核心贡献

  1. 首次系统性分析:揭示了无标签RL方法在不同模型规模(0.5B-7B)上的性能差异,发现弱模型存在显著的性能退化甚至崩溃现象
  2. 关键发现
    • 无标签RL高度依赖基础模型的预存推理能力
    • 小模型无法生成足够长或多样的思维链进行自我反思
    • 训练数据难度是决定成功的关键因素
    • CoT长度不是强推理能力的直接反映
  3. 提出CuMa方法:结合课程学习、奖励屏蔽和数据生成的综合框架
    • 从简单到困难的渐进式训练策略
    • 屏蔽无多数共识样本的奖励信号
    • 基于LLM的难度可控数据生成管道
  4. 实证验证:在Math 500、GPQA、AIME24、GSM8K、LCB等多个推理基准上验证,证明方法在所有模型规模上均有效,特别对弱模型提升显著

方法详解

任务定义

输入:无标签的推理问题数据集 D={x1,...,xM}D = \{x_1, ..., x_M\}(如数学问题)
输出:优化后的策略模型 πθ\pi_\theta,能够生成正确的推理链和答案
约束:训练过程中无法访问真值标签,只能通过模型自身生成的多个候选解进行学习

模型架构

1. 课程学习框架

将数据集划分为K=5个难度级别: D=D1D2...DKD = D_1 \cup D_2 \cup ... \cup D_K 其中 D1D_1 包含最简单的问题,DKD_K 包含最困难的问题。训练按 D1DKD_1 \to D_K 顺序进行。

2. 多数投票奖励机制

对每个提示 xix_i,生成N个候选解 {yi(1),...,yi(N)}\{y_i^{(1)}, ..., y_i^{(N)}\},奖励函数定义为: r(xi,yi(j))=I[yi(j)=majority_vote({yi(1),...,yi(N)})]r(x_i, y_i^{(j)}) = \mathbb{I}[y_i^{(j)} = \text{majority\_vote}(\{y_i^{(1)}, ..., y_i^{(N)}\})]

3. 奖励屏蔽机制

当样本无多数共识时(即最多出现次数 < 2),屏蔽其学习信号: mask(xi)=I[maxj{k:yi(k)=yi(j)}2]\text{mask}(x_i) = \mathbb{I}\left[\max_j |\{k : y_i^{(k)} = y_i^{(j)}\}| \geq 2\right]

这防止模型从不确定的预测中学习噪声反馈。

4. 数据生成管道

使用LLM生成预定义难度的合成数据:

  • 结构化提示策略,明确指定难度级别(1-5)
  • 每个级别提供示例问题作为参考
  • 动态刷新示例以增加多样性
  • 每次生成25个样本,覆盖不同数学子主题

技术创新点

1. 渐进式难度调整

与baseline的区别

  • TTRL/Intuitor:在固定难度数据上训练
  • CuMa:从简单问题开始,逐步增加难度

设计合理性

  • 小模型在困难问题上几乎无法生成正确解(如图2所示,0.5B模型早期训练正确率接近0)
  • 从简单问题建立基础推理能力,再迁移到复杂问题
  • 符合人类学习的认知规律

2. 选择性学习信号

创新点:只在有明确多数共识时更新模型

解决的问题

  • 早期训练时,小模型生成的候选解高度分散
  • 无多数共识意味着模型对该问题不确定
  • 强制学习会引入噪声,导致性能退化

实验证明:表2消融实验显示,去除奖励屏蔽后性能从32.8降至30.7

3. 难度可控的数据增强

技术细节

  • 使用结构化提示工程生成不同难度的数学问题
  • 包含代数、几何、概率等多个子领域
  • 动态采样示例问题避免过拟合特定模式

作用:为课程学习提供充足的各难度级别样本

实验设置

数据集

  1. Math 500:500道高质量数学问题
  2. GPQA:研究生级别物理问答
  3. AIME24:美国数学邀请赛2024题目
  4. GSM8K:小学数学应用题(8,000+问题)
  5. LCB:逻辑推理基准

评价指标

  • 准确率(Accuracy):生成答案与标准答案完全匹配的比例
  • 所有实验报告百分比准确率

对比方法

  1. Base Model:未经RL训练的基础模型
  2. GRPO:使用真值标签的监督式强化学习(上界参考)
  3. Intuitor:基于自我置信度的无标签RL
  4. TTRL:基于多数投票的测试时RL

实现细节

  • 优化器:AdamW
  • 学习率:峰值3×10⁻⁶,余弦衰减
  • 采样策略:每个提示生成8个候选,温度0.6
  • 最大生成长度:3,072 tokens
  • 训练轮数:1个episode
  • 硬件:4×NVIDIA H100 80GB GPU
  • 模型系列:Qwen2.5(0.5B、1.5B、3B、7B)

实验结果

主要结果

1. 不同模型规模的性能对比(表1)

0.5B模型

  • Base: Math 500=23.4, GSM8K=26.38
  • TTRL: 完全崩溃(Math 500=0.0)
  • Intuitor: 性能下降(GSM8K=0.68)
  • CuMa: Math 500=32.8(+40%),GSM8K=32.9(+25%)

7B模型

  • Base: Math 500=58.2, GSM8K=81.5
  • GRPO: 73.8, 85.67(有标签上界)
  • TTRL/Intuitor: 73.6/72.2, 84.39/78.19
  • CuMa: 74.0, 84.49(接近有标签方法)

关键发现

  • 大模型上所有无标签方法均有效
  • 小模型上只有CuMa稳定改进,其他方法退化或崩溃
  • CuMa在0.5B模型上避免了崩溃,实现显著提升

2. 跨基准泛化能力

CuMa在5个不同推理基准上均展现改进:

  • Math 500:对所有模型规模均有提升
  • GPQA:7B模型从27.77→32.32
  • AIME24:7B模型从6.67→13.33(翻倍)
  • LCB:3B模型从5.20→8.04

消融实验

表2展示了CuMa各组件的贡献(0.5B模型,Math 500):

配置性能下降幅度
完整CuMa32.8-
去除奖励屏蔽30.7-6.4%
去除数据生成24.5-25.3%
去除课程学习20.1-38.7%

关键洞察

  1. 课程学习最关键:去除后性能接近崩溃(20.1 vs base 23.4)
  2. 数据生成重要:提供足够的各难度样本支撑课程学习
  3. 奖励屏蔽有效:避免从噪声信号学习,稳定训练

案例分析

图2:早期训练正确答案生成情况

  • 0.5B模型:前50步几乎无正确输出
  • 后果:TTRL的多数投票产生错误伪标签→模型崩溃
  • CuMa解决方案:从简单问题开始,早期即可生成部分正确答案

图3:训练过程中CoT长度变化

  • 7B模型:长度从500→1400 tokens,包含自我反思
  • 0.5B/1.5B模型:长度保持500-700,无显著增长
  • 发现:长度增长不是小模型的可靠指标

图4:训练数据难度的影响

在0.5B模型上测试不同难度级别(Level 1-2到1-5):

  • Math 500:L1-2时0.35→L1-4时接近0(崩溃)
  • GSM8K:从0.28逐步降至0.15
  • 结论:数据过难导致小模型无法学习

实验发现

  1. 推理能力门槛:无标签RL需要最低推理能力作为前提
  2. 数据-能力匹配:训练数据难度必须与模型能力对齐
  3. 多数投票可靠性:依赖于基础模型能生成部分正确解
  4. 课程学习普适性:对所有模型规模均有帮助,但对弱模型更关键
  5. CoT长度误导性:不能作为小模型推理改进的唯一指标

相关工作

1. 有监督强化学习

  • RLHF:通过人类反馈对齐模型偏好
  • GRPO:针对数学推理的规则奖励方法
  • DeepSeek-R1:大规模推理模型
  • 局限:依赖标注数据,可扩展性受限

2. 无标签/自我改进方法

  • Self-rewarding LMs:模型自评分
  • Self-play fine-tuning:自对弈改进
  • DPO:直接偏好优化
  • 本文区别:聚焦RL方法在弱模型上的适用性

3. 测试时优化

  • TTRL:测试时多数投票RL
  • Intuitor:基于自我置信度
  • 本文贡献:揭示这些方法在弱模型上的失效模式并提出解决方案

4. 课程学习

  • 传统课程学习主要用于监督学习
  • 本文创新:首次将课程学习系统性应用于无标签RL推理任务

结论与讨论

主要结论

  1. 核心发现:无标签RL不是"免费午餐",需要基础推理能力作为前提
  2. 失效机制
    • 弱模型无法生成足够正确解→多数投票失效
    • 缺乏多样化CoT→自我反思机制无效
    • 数据过难→学习信号稀疏
  3. 解决方案有效性:CuMa在0.5B-7B所有规模上均改进性能,特别对弱模型提升显著
  4. 理论意义:揭示了推理能力自举的最小条件和路径

局限性

  1. 模型范围:仅在Qwen系列模型上验证,其他架构(如LLaMA、Mistral)的泛化性未知
  2. 领域限制:主要聚焦数学推理,对其他推理类型(如常识推理、逻辑推理)的适用性需进一步验证
  3. 课程设计:难度分级依赖人工定义或LLM生成,缺乏自动化难度评估机制
  4. 计算成本:需要生成大量候选解(每问题8个),推理成本较高
  5. 最小能力阈值:未明确界定"足够推理能力"的定量标准
  6. 数据生成质量:合成数据的多样性和质量依赖于生成模型

未来方向

  1. 自适应课程:根据模型实时表现动态调整难度
  2. 混合奖励:结合多数投票和置信度的多信号奖励
  3. 跨领域验证:扩展到代码生成、科学推理等领域
  4. 理论分析:建立推理能力与RL有效性的形式化关系
  5. 效率优化:减少候选解生成数量,降低计算成本

深度评价

优点

1. 问题识别精准

  • 首次系统性揭示无标签RL在弱模型上的失效现象
  • 通过多维度实验(模型规模、数据难度、CoT长度)深入分析根因
  • 图2的可视化直观展示早期训练崩溃机制

2. 方法设计合理

  • 简洁有效:三个组件(课程学习、奖励屏蔽、数据生成)均有明确动机
  • 理论支撑:课程学习符合认知科学和机器学习理论
  • 工程可行:易于实现,不引入复杂新组件

3. 实验充分

  • 规模全面:覆盖0.5B-7B四个模型规模
  • 基准多样:5个不同类型的推理任务
  • 对比完整:包含有标签上界(GRPO)和多个无标签baseline
  • 消融细致:逐一验证各组件贡献

4. 实用价值高

  • 为资源受限场景(边缘设备、低成本部署)提供可行方案
  • 代码开源,可复现性强
  • 方法通用,可扩展到其他RL范式

5. 写作清晰

  • 结构逻辑严密:问题→分析→方法→验证
  • 可视化效果好(图1-4直观展示关键发现)
  • 核心贡献总结到位

不足

1. 理论深度有限

  • 缺乏形式化分析:未建立推理能力与RL收敛性的理论关系
  • 难度定义模糊:Level 1-5的划分依赖主观判断
  • 阈值未量化:何种程度的推理能力足以支撑无标签RL?

2. 实验设计缺陷

  • 单一模型系列:仅Qwen模型,架构偏差未排除
  • 数据生成依赖:合成数据质量依赖Qwen-72B,可能引入偏差
  • 统计显著性缺失:未报告多次运行的方差和置信区间
  • 计算成本未报告:训练时间、GPU时等资源消耗未披露

3. 方法局限

  • 课程固定:5个难度级别和顺序是超参数,缺乏自适应机制
  • 多数投票脆弱:仍依赖基础模型能生成部分正确解
  • 奖励屏蔽保守:可能错过有学习价值的困难样本

4. 分析不足

  • 失败案例缺失:未展示CuMa仍然失败的情况
  • 与人类学习对比:课程学习的类比未深入探讨
  • 长期效果未知:只训练1个episode,持续训练的稳定性未验证

5. 泛化性存疑

  • 任务单一:主要是数学推理,其他推理类型未充分验证
  • 语言限制:仅英文数据,多语言场景未考虑
  • 领域知识:对需要专业知识的任务(如医疗、法律)适用性未知

影响力

对领域的贡献

  1. 填补研究空白:首次系统研究无标签RL在弱模型上的行为
  2. 方法论启示:证明课程学习在RL推理任务中的有效性
  3. 实践指导:为小模型推理能力提升提供可行路径
  4. 理论基础:为后续研究推理能力自举机制奠定基础

实用价值

  • 边缘部署:使小模型也能通过RL改进,降低部署成本
  • 教育应用:渐进式学习策略可应用于个性化教育系统
  • 研究工具:开源代码和数据生成管道可供社区使用

可复现性

  • ✅ 代码开源(GitHub)
  • ✅ 超参数详细(学习率、温度、生成长度等)
  • ✅ 数据生成提示公开(附录B)
  • ⚠️ 计算资源要求高(4×H100)
  • ⚠️ 合成数据未直接公开

适用场景

适合的场景

  1. 资源受限环境:需要在小模型上实现推理能力改进
  2. 无标签数据:有大量推理问题但缺乏标准答案
  3. 渐进式学习:任务有明确难度层次(如教育、竞赛训练)
  4. 数学/代码推理:有客观正确答案的封闭域任务

不适合的场景

  1. 开放域生成:如创意写作、对话系统(无明确正确答案)
  2. 极弱模型:<0.5B或基础推理能力接近随机的模型
  3. 实时系统:需要快速响应,无法承受多次采样开销
  4. 主观任务:如情感分析、风格迁移(多数投票无意义)

参考文献

核心相关工作

  1. DeepSeekMath 1: 数学推理的开放模型基准
  2. DeepSeek-R1 2: 大规模推理模型与RL训练
  3. TTRL 3: 测试时强化学习框架
  4. Intuitor 4: 基于内在置信度的无监督RL
  5. RLHF 6: 从人类反馈学习的经典方法
  6. PPO 7: 近端策略优化算法
  7. Chain-of-Thought 8: 思维链提示技术

方法论相关

  • 强化学习基础 5: Sutton & Barto经典教材
  • DPO 17: 直接偏好优化
  • Self-rewarding LMs 14-16: 自我奖励与自我改进

总结

本文针对无标签强化学习在弱推理模型上的失效问题,进行了深入的实证研究和方法创新。核心价值在于揭示了推理能力自举的前提条件:基础模型必须具备最低限度的推理能力,才能从无监督RL中受益。CuMa方法通过课程学习、奖励屏蔽和数据生成的协同设计,成功使0.5B等弱模型也能稳定改进。

亮点:问题识别精准、方法简洁有效、实验覆盖全面、实用价值高。
不足:理论分析欠缺、泛化性验证有限、统计显著性缺失。

推荐指数:⭐⭐⭐⭐ (4/5)
适合关注小模型推理、无监督学习和课程学习的研究者阅读。对工业界在资源受限场景部署推理模型也有重要参考价值。