Recent advances in large language models have demonstrated the promise of unsupervised reinforcement learning (RL) methods for enhancing reasoning capabilities without external supervision. However, the generalizability of these label-free RL approaches to smaller base models with limited reasoning capabilities remains unexplored. In this work, we systematically investigate the performance of label-free RL methods across different model sizes and reasoning strengths, from 0.5B to 7B parameters. Our empirical analysis reveals critical limitations: label-free RL is highly dependent on the base model's pre-existing reasoning capability, with performance often degrading below baseline levels for weaker models. We find that smaller models fail to generate sufficiently long or diverse chain-of-thought reasoning to enable effective self-reflection, and that training data difficulty plays a crucial role in determining success. To address these challenges, we propose a simple yet effective method for label-free RL that utilizes curriculum learning to progressively introduce harder problems during training and mask no-majority rollouts during training. Additionally, we introduce a data curation pipeline to generate samples with predefined difficulty. Our approach demonstrates consistent improvements across all model sizes and reasoning capabilities, providing a path toward more robust unsupervised RL that can bootstrap reasoning abilities in resource-constrained models. We make our code available at https://github.com/BorealisAI/CuMa
- 論文ID: 2511.04902
- タイトル: You Need Reasoning to Learn Reasoning: The Limitations of Label-Free RL in Weak Base Models
- 著者: Shuvendu Roy, Hossein Hajimirsadeghi, Mengyao Zhai, Golnoosh Samei (RBC Borealis)
- 分類: cs.LG, cs.AI
- 発表会議: NeurIPS 2025 Workshop: MATH-AI
- 論文リンク: https://arxiv.org/abs/2511.04902
- コードリンク: https://github.com/BorealisAI/CuMa
本論文は、異なるスケール(0.5B~7Bパラメータ)および推論能力を持つ言語モデル上でのラベルフリー強化学習(Label-Free RL)手法の性能を系統的に研究しています。本研究は重要な限界を明らかにしています:ラベルフリーRLは基盤モデルの既存の推論能力に大きく依存しており、より弱いモデルではパフォーマンスがベースラインを下回ることが多いということです。小規模モデルは効果的な自己反省のための十分に長い、または多様な思考連鎖(CoT)を生成できず、訓練データの難度が成功を決定する上で重要な役割を果たしていることが判明しました。これらの課題に対処するため、著者らはCuMaメソッドを提案しており、カリキュラム学習を利用してより難しい問題を段階的に導入し、訓練中に多数決投票結果のないサンプルをマスクします。このメソッドはすべてのモデルスケールで一貫した改善を示しています。
近年、大規模言語モデルの推論能力の向上は主に強化学習技術に依存していますが、従来の手法(RLHF、RLVRなど)は外部の監督信号(人間による注釈またはドメイン固有の真実ラベル)に大きく依存しています。このスケーラビリティのボトルネックを解決するため、研究者らはラベルフリーRL手法(TTRLやIntuitorなど)を提案しましたが、これらの手法は主に大規模で推論能力が強いモデル(Qwen2.5-Math-7Bなど)で検証されています。**本論文が解決しようとする中核的問題は:これらのラベルフリーRL手法は推論能力が限定的な小規模基盤モデルに一般化できるのか?**という点です。
- リソース制約シナリオ:エッジデバイスまたは計算リソースが限定的な環境では、小規模モデルがより実用的です
- スケーラビリティ:小規模モデルの学習メカニズムを理解することは、スケーラブルな推論システムの構築に不可欠です
- 理論的意義:推論能力のブートストラップの最小前提条件を明らかにします
- TTRL:未注釈テストデータ上の多数決投票を通じて報酬を推定しますが、小規模モデルの早期訓練では正しい出力が少なすぎるため、疑似ラベルエラーが発生します
- Intuitor:モデル自身の確信度(self-certainty)を内在報酬として使用しますが、小規模モデルの確信度キャリブレーションは不十分です
- 弱いモデルに対する研究の欠如:既存の手法は基本的な推論能力が不足している場合の失敗モードを考慮していません
系統的な実験を通じてラベルフリーRLが弱いモデルで失敗する根本的な原因を明らかにし、リソース制約のあるモデルも無監督RLから利益を得られるようにするための対象的なソリューションを提案します。
- 初の系統的分析:異なるモデルスケール(0.5B~7B)でのラベルフリーRL手法の性能差を明らかにし、弱いモデルで顕著なパフォーマンス低下さらには崩壊現象を発見しました
- 重要な発見:
- ラベルフリーRLは基盤モデルの既存の推論能力に大きく依存しています
- 小規模モデルは自己反省のための十分に長い、または多様な思考連鎖を生成できません
- 訓練データの難度は成功を決定する重要な要因です
- CoT長は強い推論能力の直接的な反映ではありません
- CuMaメソッドの提案:カリキュラム学習、報酬マスキング、データ生成を組み合わせた統合フレームワーク
- 簡単から困難への段階的訓練戦略
- 多数決コンセンサスのないサンプルの報酬信号をマスク
- LLMベースの難度制御可能なデータ生成パイプライン
- 実証的検証:Math 500、GPQA、AIME24、GSM8K、LCBなど複数の推論ベンチマークで検証し、すべてのモデルスケールで手法が有効であること、特に弱いモデルでの改善が顕著であることを証明しました
入力:未注釈の推論問題データセット D={x1,...,xM}(例:数学問題)
出力:最適化されたポリシーモデル πθ、正しい推論チェーンと答えを生成できます
制約:訓練プロセス中は真実ラベルにアクセスできず、モデル自身が生成した複数の候補解を通じてのみ学習できます
データセットをK=5の難度レベルに分割します:
D=D1∪D2∪...∪DK
ここで D1 は最も簡単な問題を含み、DK は最も難しい問題を含みます。訓練は D1→DK の順序で進行します。
各プロンプト xi に対して、N個の候補解 {yi(1),...,yi(N)} を生成し、報酬関数を以下のように定義します:
r(xi,yi(j))=I[yi(j)=majority_vote({yi(1),...,yi(N)})]
サンプルに多数決コンセンサスがない場合(つまり、最大出現回数 < 2)、その学習信号をマスクします:
mask(xi)=I[maxj∣{k:yi(k)=yi(j)}∣≥2]
これにより、モデルが不確実な予測からノイズフィードバックを学習することを防ぎます。
LLMを使用して事前定義された難度の合成データを生成します:
- 構造化プロンプト戦略、難度レベルの明示的指定(1~5)
- 各レベルに参照として示例問題を提供
- 多様性を増やすための動的な示例の更新
- 異なる数学サブトピックをカバーする25個のサンプルを毎回生成
ベースラインとの違い:
- TTRL/Intuitor:固定難度データで訓練
- CuMa:簡単な問題から始まり、段階的に難度を増加
設計の合理性:
- 小規模モデルは困難な問題でほぼ正しい解を生成できません(図2に示すように、0.5Bモデルの早期訓練では正解率がほぼ0です)
- 簡単な問題から基本的な推論能力を構築し、その後複雑な問題に移行
- 人間の学習の認知規則に適合しています
革新点:明確な多数決コンセンサスがある場合のみモデルを更新
解決する問題:
- 早期訓練では、小規模モデルが生成する候補解は高度に分散しています
- 多数決コンセンサスがないことは、モデルがその問題に対して不確実であることを意味します
- 強制的に学習するとノイズが導入され、パフォーマンスが低下します
実験による証明:表2のアブレーション実験では、報酬マスキングを削除するとパフォーマンスが32.8から30.7に低下しています
技術的詳細:
- 構造化プロンプトエンジニアリングを使用して異なる難度の数学問題を生成
- 代数、幾何学、確率など複数の分野を含む
- 特定のパターンへの過学習を避けるための動的な示例サンプリング
役割:カリキュラム学習に十分な各難度レベルのサンプルを提供
- Math 500:500の高品質数学問題
- GPQA:大学院レベルの物理質問応答
- AIME24:2024年アメリカ数学招待試験の問題
- GSM8K:小学校の数学応用問題(8,000以上の問題)
- LCB:論理推論ベンチマーク
- 精度(Accuracy):生成された答えが標準答えと完全に一致する割合
- すべての実験はパーセンテージ精度を報告しています
- Base Model:RL訓練を受けていない基盤モデル
- GRPO:真実ラベルを使用する監督式強化学習(上限参照)
- Intuitor:自己確信度ベースのラベルフリーRL
- TTRL:多数決投票ベースのテスト時RL
- オプティマイザ:AdamW
- 学習率:ピーク値3×10⁻⁶、コサイン減衰
- サンプリング戦略:各プロンプトあたり8個の候補を生成、温度0.6
- 最大生成長:3,072トークン
- 訓練エポック:1エピソード
- ハードウェア:4×NVIDIA H100 80GB GPU
- モデルシリーズ:Qwen2.5(0.5B、1.5B、3B、7B)
0.5Bモデル:
- Base: Math 500=23.4, GSM8K=26.38
- TTRL: 完全に崩壊(Math 500=0.0)
- Intuitor: パフォーマンス低下(GSM8K=0.68)
- CuMa: Math 500=32.8(+40%)、GSM8K=32.9(+25%)
7Bモデル:
- Base: Math 500=58.2, GSM8K=81.5
- GRPO: 73.8, 85.67(ラベル付き上限)
- TTRL/Intuitor: 73.6/72.2, 84.39/78.19
- CuMa: 74.0, 84.49(ラベル付き手法に近い)
重要な発見:
- 大規模モデルではすべてのラベルフリー手法が有効です
- 小規模モデルではCuMaのみが安定した改善を実現し、他の手法は低下または崩壊します
- CuMaは0.5Bモデルでの崩壊を回避し、顕著な改善を実現しています
CuMaは5つの異なる推論ベンチマークすべてで改善を示しています:
- Math 500:すべてのモデルスケールで改善
- GPQA:7Bモデルで27.77→32.32
- AIME24:7Bモデルで6.67→13.33(2倍)
- LCB:3Bモデルで5.20→8.04
表2はCuMaの各コンポーネントの貢献を示しています(0.5Bモデル、Math 500):
| 構成 | パフォーマンス | 低下幅 |
|---|
| 完全なCuMa | 32.8 | - |
| 報酬マスキングを削除 | 30.7 | -6.4% |
| データ生成を削除 | 24.5 | -25.3% |
| カリキュラム学習を削除 | 20.1 | -38.7% |
重要な洞察:
- カリキュラム学習が最も重要:削除するとパフォーマンスがほぼ崩壊に近づきます(20.1 vs base 23.4)
- データ生成が重要:カリキュラム学習をサポートするための各難度レベルのサンプルを提供
- 報酬マスキングが有効:ノイズ信号からの学習を防ぎ、訓練を安定化
- 0.5Bモデル:最初の50ステップではほぼ正解がありません
- 結果:TTRLの多数決投票は誤った疑似ラベルを生成→モデルが崩壊
- CuMaの解決策:簡単な問題から始まり、早期でも部分的に正解を生成できます
- 7Bモデル:長さが500→1400トークンに増加、自己反省を含む
- 0.5B/1.5Bモデル:長さが500~700で保持、顕著な増加なし
- 発見:長さの増加は小規模モデルの信頼できる指標ではありません
0.5Bモデルで異なる難度レベル(Level 1-2から1-5)をテスト:
- Math 500:L1-2時0.35→L1-4時ほぼ0(崩壊)
- GSM8K:0.28から段階的に0.15に低下
- 結論:データが難しすぎるとモデルが学習できません
- 推論能力の閾値:ラベルフリーRLは最低限の推論能力を前提として必要とします
- データ-能力マッチング:訓練データの難度はモデルの能力と一致する必要があります
- 多数決投票の信頼性:基盤モデルが部分的に正しい解を生成できることに依存しています
- カリキュラム学習の普遍性:すべてのモデルスケールで役立ちますが、弱いモデルではより重要です
- CoT長の誤解を招く性質:小規模モデルの推論改善の唯一の指標として使用することはできません
- RLHF:人間フィードバックを通じたモデルの嗜好アライメント
- GRPO:数学推論のための規則ベースの報酬手法
- DeepSeek-R1:大規模推論モデル
- 局限:注釈データに依存、スケーラビリティが限定的
- Self-rewarding LMs:モデルの自己評価
- Self-play fine-tuning:自己対戦による改善
- DPO:直接嗜好最適化
- 本論文の違い:弱いモデルでのRL手法の適用可能性に焦点
- TTRL:テスト時多数決投票RL
- Intuitor:自己確信度ベース
- 本論文の貢献:弱いモデルでのこれらの手法の失敗モードを明らかにし、解決策を提案
- 従来のカリキュラム学習は主に監督学習で使用
- 本論文の革新:カリキュラム学習を推論タスクのラベルフリーRLに初めて系統的に適用
- 中核的発見:ラベルフリーRLは「無料の昼食」ではなく、基本的な推論能力を前提として必要とします
- 失敗メカニズム:
- 弱いモデルは十分な正解を生成できない→多数決投票が失敗
- 多様なCoTの欠如→自己反省メカニズムが無効
- データが難しすぎる→学習信号が希薄
- ソリューションの有効性:CuMaはすべてのスケール(0.5B~7B)でパフォーマンスを改善し、特に弱いモデルでの改善が顕著です
- 理論的意義:推論能力のブートストラップの最小条件と経路を明らかにしています
- モデル範囲:Qwenシリーズモデルのみで検証、他のアーキテクチャ(LLaMA、Mistralなど)への一般化は不明
- 領域の制限:主に数学推論に焦点、他の推論タイプ(常識推論、論理推論など)への適用可能性は今後の検証が必要
- カリキュラム設計:難度分級は人間による定義またはLLM生成に依存、自動難度評価メカニズムが欠落
- 計算コスト:大量の候補解を生成する必要があり(問題あたり8個)、推論コストが高い
- 最小能力閾値:「十分な推論能力」の定量的基準が明確に定義されていません
- データ生成品質:合成データの多様性と品質は生成モデルに依存
- 適応的カリキュラム:モデルのリアルタイムパフォーマンスに基づいて難度を動的に調整
- 混合報酬:多数決投票と確信度を組み合わせた複数信号報酬
- クロスドメイン検証:コード生成、科学推論などの領域に拡張
- 理論的分析:推論能力とRL有効性の形式的関係を確立
- 効率最適化:候補解生成数を削減し、計算コストを低減
- ラベルフリーRLが弱いモデルで失敗する現象を初めて系統的に明らかにしました
- 多次元実験(モデルスケール、データ難度、CoT長)を通じて根本原因を深く分析
- 図2の可視化は早期訓練崩壊メカニズムを直感的に示しています
- シンプルで効果的:3つのコンポーネント(カリキュラム学習、報酬マスキング、データ生成)すべてに明確な動機
- 理論的支援:カリキュラム学習は認知科学と機械学習理論に適合
- 工学的実行可能性:実装が容易で、複雑な新しいコンポーネントを導入しません
- スケール全体:0.5B~7Bの4つのモデルスケールをカバー
- ベンチマークの多様性:5つの異なるタイプの推論タスク
- 比較の完全性:ラベル付き上限(GRPO)と複数のラベルフリーベースラインを含む
- 詳細なアブレーション:各コンポーネントの貢献を逐一検証
- リソース制約シナリオ(エッジデバイス、低コスト展開)に実行可能なソリューションを提供
- コードがオープンソース化され、再現性が強い
- 手法は汎用的で、他のRL範式に拡張可能
- 構造が論理的:問題→分析→手法→検証
- 可視化効果が良好(図1~4が重要な発見を直感的に示す)
- 中核的貢献が適切にまとめられている
- 形式的分析の欠如:推論能力とRL収束性の理論的関係が確立されていません
- 難度定義が曖昧:Level 1~5の分割は主観的判断に依存
- 閾値が定量化されていない:どの程度の推論能力がラベルフリーRLをサポートするのに十分か?
- 単一モデルシリーズ:Qwenモデルのみ、アーキテクチャバイアスが排除されていません
- データ生成への依存:合成データ品質はQwen-72Bに依存、バイアスが導入される可能性
- 統計的有意性の欠落:複数回実行の分散と信頼区間が報告されていません
- 計算コストが未報告:訓練時間、GPU時間などのリソース消費が開示されていません
- カリキュラムが固定:5つの難度レベルと順序はハイパーパラメータ、適応的メカニズムが欠落
- 多数決投票が脆弱:基盤モデルが部分的に正しい解を生成できることに依存
- 報酬マスキングが保守的:学習価値のある困難なサンプルを見落とす可能性
- 失敗ケースが欠落:CuMaがまだ失敗する場合が示されていません
- 人間の学習との比較:カリキュラム学習の類推が深く探求されていません
- 長期効果が不明:1エピソードのみの訓練、継続訓練の安定性が未検証
- タスクが単一:主に数学推論、他の推論タイプが十分に検証されていません
- 言語の制限:英語データのみ、多言語シナリオが考慮されていません
- 領域知識:専門知識が必要なタスク(医療、法律など)への適用可能性が不明
- 研究ギャップの埋充:ラベルフリーRLが弱いモデルでの行動を初めて系統的に研究
- 方法論的示唆:カリキュラム学習がRL推論タスクで有効であることを証明
- 実践的指導:小規模モデルの推論能力向上に実行可能な経路を提供
- 理論的基礎:推論能力のブートストラップメカニズムの後続研究の基盤
- エッジ展開:小規模モデルもRLを通じて改善でき、展開コストを削減
- 教育応用:段階的学習戦略を個別化教育システムに適用可能
- 研究ツール:オープンソースコードとデータ生成パイプラインをコミュニティで使用可能
- ✅ コードがオープンソース化(GitHub)
- ✅ ハイパーパラメータが詳細(学習率、温度、生成長など)
- ✅ データ生成プロンプトが公開(付録B)
- ⚠️ 計算リソース要件が高い(4×H100)
- ⚠️ 合成データが直接公開されていません
- リソース制約環境:小規模モデルでの推論能力改善が必要
- 未注釈データ:大量の推論問題があるが標準答えが不足
- 段階的学習:タスクに明確な難度層次がある(教育、競技訓練など)
- 数学/コード推論:客観的な正解がある閉域タスク
- オープンドメイン生成:創作執筆、対話システムなど(明確な正解がない)
- 極弱モデル:<0.5Bまたは基本的な推論能力がランダムに近いモデル
- リアルタイムシステム:高速応答が必要、複数サンプリングのオーバーヘッドを許容できない
- 主観的タスク:感情分析、スタイル転換など(多数決投票が無意味)
- DeepSeekMath 1:数学推論のオープンモデルベンチマーク
- DeepSeek-R1 2:大規模推論モデルとRL訓練
- TTRL 3:テスト時強化学習フレームワーク
- Intuitor 4:内在確信度ベースの無監督RL
- RLHF 6:人間フィードバックからの学習の古典的手法
- PPO 7:近端ポリシー最適化アルゴリズム
- Chain-of-Thought 8:思考連鎖プロンプト技術
- 強化学習の基礎 5:Sutton & Bartoの古典的教科書
- DPO 17:直接嗜好最適化
- Self-rewarding LMs 14-16:自己報酬と自己改善
本論文は、ラベルフリー強化学習が弱い推論モデルで失敗する問題に対して、深い実証研究と手法的革新を行っています。中核的価値は推論能力のブートストラップの前提条件を明らかにしたことにあります:基盤モデルは無監督RLから利益を得るために、最低限度の推論能力を備えている必要があります。CuMaメソッドはカリキュラム学習、報酬マスキング、データ生成の協調設計を通じて、0.5Bなどの弱いモデルでも安定した改善を実現することに成功しています。
ハイライト:問題識別が正確、手法がシンプルで効果的、実験がカバー全体的、実用的価値が高い。
不足:理論的分析が欠落、一般化可能性の検証が限定的、統計的有意性が欠落。
推奨指数:⭐⭐⭐⭐ (4/5)
小規模モデル推論、無監督学習、カリキュラム学習に関心のある研究者に適しています。リソース制約シナリオでの推論モデル展開に関心のある業界にとっても重要な参考価値があります。