Recent advances in large language models have demonstrated the promise of unsupervised reinforcement learning (RL) methods for enhancing reasoning capabilities without external supervision. However, the generalizability of these label-free RL approaches to smaller base models with limited reasoning capabilities remains unexplored. In this work, we systematically investigate the performance of label-free RL methods across different model sizes and reasoning strengths, from 0.5B to 7B parameters. Our empirical analysis reveals critical limitations: label-free RL is highly dependent on the base model's pre-existing reasoning capability, with performance often degrading below baseline levels for weaker models. We find that smaller models fail to generate sufficiently long or diverse chain-of-thought reasoning to enable effective self-reflection, and that training data difficulty plays a crucial role in determining success. To address these challenges, we propose a simple yet effective method for label-free RL that utilizes curriculum learning to progressively introduce harder problems during training and mask no-majority rollouts during training. Additionally, we introduce a data curation pipeline to generate samples with predefined difficulty. Our approach demonstrates consistent improvements across all model sizes and reasoning capabilities, providing a path toward more robust unsupervised RL that can bootstrap reasoning abilities in resource-constrained models. We make our code available at https://github.com/BorealisAI/CuMa
- 论文ID: 2511.04902
- 标题: You Need Reasoning to Learn Reasoning: The Limitations of Label-Free RL in Weak Base Models
- 作者: Shuvendu Roy, Hossein Hajimirsadeghi, Mengyao Zhai, Golnoosh Samei (RBC Borealis)
- 分类: cs.LG, cs.AI
- 发表会议: NeurIPS 2025 Workshop: MATH-AI
- 论文链接: https://arxiv.org/abs/2511.04902
- 代码链接: https://github.com/BorealisAI/CuMa
本文系统性研究了无标签强化学习(Label-Free RL)方法在不同规模(0.5B到7B参数)和推理能力的语言模型上的表现。研究揭示了一个关键局限:无标签RL高度依赖基础模型的预存推理能力,对于较弱模型,性能常常降至基线水平以下。研究发现小模型无法生成足够长或多样化的思维链(CoT)来实现有效的自我反思,且训练数据难度在决定成功与否中起关键作用。为应对这些挑战,作者提出CuMa方法,利用课程学习逐步引入更难问题,并在训练中屏蔽无多数投票结果的样本。该方法在所有模型规模上均展现出一致的改进。
近年来,大语言模型的推理能力提升主要依赖于强化学习技术,但传统方法(如RLHF、RLVR)严重依赖外部监督信号(人工标注或领域特定的真值标签)。为解决这一可扩展性瓶颈,研究者提出了无标签RL方法(如TTRL和Intuitor),但这些方法主要在大型、推理能力较强的模型(如Qwen2.5-Math-7B)上验证。本文要解决的核心问题是:这些无标签RL方法能否泛化到推理能力有限的小型基础模型?
- 资源受限场景:在边缘设备或计算资源受限的环境中,小型模型更具实用价值
- 可扩展性:理解小模型的学习机制对于构建可扩展的推理系统至关重要
- 理论意义:揭示推理能力自举(bootstrap)的最小前提条件
- TTRL:通过多数投票在未标注测试数据上估计奖励,但小模型早期训练时正确输出太少,导致伪标签错误
- Intuitor:使用模型自身置信度(self-certainty)作为内在奖励,但小模型置信度校准较差
- 缺乏针对弱模型的研究:现有方法未考虑基础推理能力不足时的失效模式
通过系统性实验揭示无标签RL在弱模型上失败的根本原因,并提出针对性解决方案,使资源受限模型也能从无监督RL中受益。
- 首次系统性分析:揭示了无标签RL方法在不同模型规模(0.5B-7B)上的性能差异,发现弱模型存在显著的性能退化甚至崩溃现象
- 关键发现:
- 无标签RL高度依赖基础模型的预存推理能力
- 小模型无法生成足够长或多样的思维链进行自我反思
- 训练数据难度是决定成功的关键因素
- CoT长度不是强推理能力的直接反映
- 提出CuMa方法:结合课程学习、奖励屏蔽和数据生成的综合框架
- 从简单到困难的渐进式训练策略
- 屏蔽无多数共识样本的奖励信号
- 基于LLM的难度可控数据生成管道
- 实证验证:在Math 500、GPQA、AIME24、GSM8K、LCB等多个推理基准上验证,证明方法在所有模型规模上均有效,特别对弱模型提升显著
输入:无标签的推理问题数据集 D={x1,...,xM}(如数学问题)
输出:优化后的策略模型 πθ,能够生成正确的推理链和答案
约束:训练过程中无法访问真值标签,只能通过模型自身生成的多个候选解进行学习
将数据集划分为K=5个难度级别:
D=D1∪D2∪...∪DK
其中 D1 包含最简单的问题,DK 包含最困难的问题。训练按 D1→DK 顺序进行。
对每个提示 xi,生成N个候选解 {yi(1),...,yi(N)},奖励函数定义为:
r(xi,yi(j))=I[yi(j)=majority_vote({yi(1),...,yi(N)})]
当样本无多数共识时(即最多出现次数 < 2),屏蔽其学习信号:
mask(xi)=I[maxj∣{k:yi(k)=yi(j)}∣≥2]
这防止模型从不确定的预测中学习噪声反馈。
使用LLM生成预定义难度的合成数据:
- 结构化提示策略,明确指定难度级别(1-5)
- 每个级别提供示例问题作为参考
- 动态刷新示例以增加多样性
- 每次生成25个样本,覆盖不同数学子主题
与baseline的区别:
- TTRL/Intuitor:在固定难度数据上训练
- CuMa:从简单问题开始,逐步增加难度
设计合理性:
- 小模型在困难问题上几乎无法生成正确解(如图2所示,0.5B模型早期训练正确率接近0)
- 从简单问题建立基础推理能力,再迁移到复杂问题
- 符合人类学习的认知规律
创新点:只在有明确多数共识时更新模型
解决的问题:
- 早期训练时,小模型生成的候选解高度分散
- 无多数共识意味着模型对该问题不确定
- 强制学习会引入噪声,导致性能退化
实验证明:表2消融实验显示,去除奖励屏蔽后性能从32.8降至30.7
技术细节:
- 使用结构化提示工程生成不同难度的数学问题
- 包含代数、几何、概率等多个子领域
- 动态采样示例问题避免过拟合特定模式
作用:为课程学习提供充足的各难度级别样本
- Math 500:500道高质量数学问题
- GPQA:研究生级别物理问答
- AIME24:美国数学邀请赛2024题目
- GSM8K:小学数学应用题(8,000+问题)
- LCB:逻辑推理基准
- 准确率(Accuracy):生成答案与标准答案完全匹配的比例
- 所有实验报告百分比准确率
- Base Model:未经RL训练的基础模型
- GRPO:使用真值标签的监督式强化学习(上界参考)
- Intuitor:基于自我置信度的无标签RL
- TTRL:基于多数投票的测试时RL
- 优化器:AdamW
- 学习率:峰值3×10⁻⁶,余弦衰减
- 采样策略:每个提示生成8个候选,温度0.6
- 最大生成长度:3,072 tokens
- 训练轮数:1个episode
- 硬件:4×NVIDIA H100 80GB GPU
- 模型系列:Qwen2.5(0.5B、1.5B、3B、7B)
0.5B模型:
- Base: Math 500=23.4, GSM8K=26.38
- TTRL: 完全崩溃(Math 500=0.0)
- Intuitor: 性能下降(GSM8K=0.68)
- CuMa: Math 500=32.8(+40%),GSM8K=32.9(+25%)
7B模型:
- Base: Math 500=58.2, GSM8K=81.5
- GRPO: 73.8, 85.67(有标签上界)
- TTRL/Intuitor: 73.6/72.2, 84.39/78.19
- CuMa: 74.0, 84.49(接近有标签方法)
关键发现:
- 大模型上所有无标签方法均有效
- 小模型上只有CuMa稳定改进,其他方法退化或崩溃
- CuMa在0.5B模型上避免了崩溃,实现显著提升
CuMa在5个不同推理基准上均展现改进:
- Math 500:对所有模型规模均有提升
- GPQA:7B模型从27.77→32.32
- AIME24:7B模型从6.67→13.33(翻倍)
- LCB:3B模型从5.20→8.04
表2展示了CuMa各组件的贡献(0.5B模型,Math 500):
| 配置 | 性能 | 下降幅度 |
|---|
| 完整CuMa | 32.8 | - |
| 去除奖励屏蔽 | 30.7 | -6.4% |
| 去除数据生成 | 24.5 | -25.3% |
| 去除课程学习 | 20.1 | -38.7% |
关键洞察:
- 课程学习最关键:去除后性能接近崩溃(20.1 vs base 23.4)
- 数据生成重要:提供足够的各难度样本支撑课程学习
- 奖励屏蔽有效:避免从噪声信号学习,稳定训练
- 0.5B模型:前50步几乎无正确输出
- 后果:TTRL的多数投票产生错误伪标签→模型崩溃
- CuMa解决方案:从简单问题开始,早期即可生成部分正确答案
- 7B模型:长度从500→1400 tokens,包含自我反思
- 0.5B/1.5B模型:长度保持500-700,无显著增长
- 发现:长度增长不是小模型的可靠指标
在0.5B模型上测试不同难度级别(Level 1-2到1-5):
- Math 500:L1-2时0.35→L1-4时接近0(崩溃)
- GSM8K:从0.28逐步降至0.15
- 结论:数据过难导致小模型无法学习
- 推理能力门槛:无标签RL需要最低推理能力作为前提
- 数据-能力匹配:训练数据难度必须与模型能力对齐
- 多数投票可靠性:依赖于基础模型能生成部分正确解
- 课程学习普适性:对所有模型规模均有帮助,但对弱模型更关键
- CoT长度误导性:不能作为小模型推理改进的唯一指标
- RLHF:通过人类反馈对齐模型偏好
- GRPO:针对数学推理的规则奖励方法
- DeepSeek-R1:大规模推理模型
- 局限:依赖标注数据,可扩展性受限
- Self-rewarding LMs:模型自评分
- Self-play fine-tuning:自对弈改进
- DPO:直接偏好优化
- 本文区别:聚焦RL方法在弱模型上的适用性
- TTRL:测试时多数投票RL
- Intuitor:基于自我置信度
- 本文贡献:揭示这些方法在弱模型上的失效模式并提出解决方案
- 传统课程学习主要用于监督学习
- 本文创新:首次将课程学习系统性应用于无标签RL推理任务
- 核心发现:无标签RL不是"免费午餐",需要基础推理能力作为前提
- 失效机制:
- 弱模型无法生成足够正确解→多数投票失效
- 缺乏多样化CoT→自我反思机制无效
- 数据过难→学习信号稀疏
- 解决方案有效性:CuMa在0.5B-7B所有规模上均改进性能,特别对弱模型提升显著
- 理论意义:揭示了推理能力自举的最小条件和路径
- 模型范围:仅在Qwen系列模型上验证,其他架构(如LLaMA、Mistral)的泛化性未知
- 领域限制:主要聚焦数学推理,对其他推理类型(如常识推理、逻辑推理)的适用性需进一步验证
- 课程设计:难度分级依赖人工定义或LLM生成,缺乏自动化难度评估机制
- 计算成本:需要生成大量候选解(每问题8个),推理成本较高
- 最小能力阈值:未明确界定"足够推理能力"的定量标准
- 数据生成质量:合成数据的多样性和质量依赖于生成模型
- 自适应课程:根据模型实时表现动态调整难度
- 混合奖励:结合多数投票和置信度的多信号奖励
- 跨领域验证:扩展到代码生成、科学推理等领域
- 理论分析:建立推理能力与RL有效性的形式化关系
- 效率优化:减少候选解生成数量,降低计算成本
- 首次系统性揭示无标签RL在弱模型上的失效现象
- 通过多维度实验(模型规模、数据难度、CoT长度)深入分析根因
- 图2的可视化直观展示早期训练崩溃机制
- 简洁有效:三个组件(课程学习、奖励屏蔽、数据生成)均有明确动机
- 理论支撑:课程学习符合认知科学和机器学习理论
- 工程可行:易于实现,不引入复杂新组件
- 规模全面:覆盖0.5B-7B四个模型规模
- 基准多样:5个不同类型的推理任务
- 对比完整:包含有标签上界(GRPO)和多个无标签baseline
- 消融细致:逐一验证各组件贡献
- 为资源受限场景(边缘设备、低成本部署)提供可行方案
- 代码开源,可复现性强
- 方法通用,可扩展到其他RL范式
- 结构逻辑严密:问题→分析→方法→验证
- 可视化效果好(图1-4直观展示关键发现)
- 核心贡献总结到位
- 缺乏形式化分析:未建立推理能力与RL收敛性的理论关系
- 难度定义模糊:Level 1-5的划分依赖主观判断
- 阈值未量化:何种程度的推理能力足以支撑无标签RL?
- 单一模型系列:仅Qwen模型,架构偏差未排除
- 数据生成依赖:合成数据质量依赖Qwen-72B,可能引入偏差
- 统计显著性缺失:未报告多次运行的方差和置信区间
- 计算成本未报告:训练时间、GPU时等资源消耗未披露
- 课程固定:5个难度级别和顺序是超参数,缺乏自适应机制
- 多数投票脆弱:仍依赖基础模型能生成部分正确解
- 奖励屏蔽保守:可能错过有学习价值的困难样本
- 失败案例缺失:未展示CuMa仍然失败的情况
- 与人类学习对比:课程学习的类比未深入探讨
- 长期效果未知:只训练1个episode,持续训练的稳定性未验证
- 任务单一:主要是数学推理,其他推理类型未充分验证
- 语言限制:仅英文数据,多语言场景未考虑
- 领域知识:对需要专业知识的任务(如医疗、法律)适用性未知
- 填补研究空白:首次系统研究无标签RL在弱模型上的行为
- 方法论启示:证明课程学习在RL推理任务中的有效性
- 实践指导:为小模型推理能力提升提供可行路径
- 理论基础:为后续研究推理能力自举机制奠定基础
- 边缘部署:使小模型也能通过RL改进,降低部署成本
- 教育应用:渐进式学习策略可应用于个性化教育系统
- 研究工具:开源代码和数据生成管道可供社区使用
- ✅ 代码开源(GitHub)
- ✅ 超参数详细(学习率、温度、生成长度等)
- ✅ 数据生成提示公开(附录B)
- ⚠️ 计算资源要求高(4×H100)
- ⚠️ 合成数据未直接公开
- 资源受限环境:需要在小模型上实现推理能力改进
- 无标签数据:有大量推理问题但缺乏标准答案
- 渐进式学习:任务有明确难度层次(如教育、竞赛训练)
- 数学/代码推理:有客观正确答案的封闭域任务
- 开放域生成:如创意写作、对话系统(无明确正确答案)
- 极弱模型:<0.5B或基础推理能力接近随机的模型
- 实时系统:需要快速响应,无法承受多次采样开销
- 主观任务:如情感分析、风格迁移(多数投票无意义)
- DeepSeekMath 1: 数学推理的开放模型基准
- DeepSeek-R1 2: 大规模推理模型与RL训练
- TTRL 3: 测试时强化学习框架
- Intuitor 4: 基于内在置信度的无监督RL
- RLHF 6: 从人类反馈学习的经典方法
- PPO 7: 近端策略优化算法
- Chain-of-Thought 8: 思维链提示技术
- 强化学习基础 5: Sutton & Barto经典教材
- DPO 17: 直接偏好优化
- Self-rewarding LMs 14-16: 自我奖励与自我改进
本文针对无标签强化学习在弱推理模型上的失效问题,进行了深入的实证研究和方法创新。核心价值在于揭示了推理能力自举的前提条件:基础模型必须具备最低限度的推理能力,才能从无监督RL中受益。CuMa方法通过课程学习、奖励屏蔽和数据生成的协同设计,成功使0.5B等弱模型也能稳定改进。
亮点:问题识别精准、方法简洁有效、实验覆盖全面、实用价值高。
不足:理论分析欠缺、泛化性验证有限、统计显著性缺失。
推荐指数:⭐⭐⭐⭐ (4/5)
适合关注小模型推理、无监督学习和课程学习的研究者阅读。对工业界在资源受限场景部署推理模型也有重要参考价值。