Recent advances in large language models have demonstrated the promise of unsupervised reinforcement learning (RL) methods for enhancing reasoning capabilities without external supervision. However, the generalizability of these label-free RL approaches to smaller base models with limited reasoning capabilities remains unexplored. In this work, we systematically investigate the performance of label-free RL methods across different model sizes and reasoning strengths, from 0.5B to 7B parameters. Our empirical analysis reveals critical limitations: label-free RL is highly dependent on the base model's pre-existing reasoning capability, with performance often degrading below baseline levels for weaker models. We find that smaller models fail to generate sufficiently long or diverse chain-of-thought reasoning to enable effective self-reflection, and that training data difficulty plays a crucial role in determining success. To address these challenges, we propose a simple yet effective method for label-free RL that utilizes curriculum learning to progressively introduce harder problems during training and mask no-majority rollouts during training. Additionally, we introduce a data curation pipeline to generate samples with predefined difficulty. Our approach demonstrates consistent improvements across all model sizes and reasoning capabilities, providing a path toward more robust unsupervised RL that can bootstrap reasoning abilities in resource-constrained models. We make our code available at https://github.com/BorealisAI/CuMa
- Paper-ID: 2511.04902
- Titel: You Need Reasoning to Learn Reasoning: The Limitations of Label-Free RL in Weak Base Models
- Autoren: Shuvendu Roy, Hossein Hajimirsadeghi, Mengyao Zhai, Golnoosh Samei (RBC Borealis)
- Klassifizierung: cs.LG, cs.AI
- Veröffentlichungskonferenz: NeurIPS 2025 Workshop: MATH-AI
- Paper-Link: https://arxiv.org/abs/2511.04902
- Code-Link: https://github.com/BorealisAI/CuMa
Diese Arbeit untersucht systematisch die Leistung von Label-freien Reinforcement-Learning-Methoden (Label-Free RL) auf Sprachmodellen verschiedener Größen (0,5B bis 7B Parameter) und Reasoning-Fähigkeiten. Die Untersuchung offenbart eine kritische Limitation: Label-freies RL ist stark von den vorhandenen Reasoning-Fähigkeiten des Basismodells abhängig. Bei schwächeren Modellen fällt die Leistung häufig unter das Baseline-Niveau. Die Forschung zeigt, dass kleine Modelle keine ausreichend langen oder vielfältigen Chain-of-Thought-Sequenzen (CoT) generieren können, um effektive Selbstreflexion zu ermöglichen, und dass die Schwierigkeit der Trainingsdaten eine Schlüsselrolle für Erfolg oder Misserfolg spielt. Um diese Herausforderungen zu bewältigen, schlagen die Autoren die CuMa-Methode vor, die Curriculum Learning nutzt, um schrittweise schwierigere Probleme einzuführen, und während des Trainings Stichproben ohne Mehrheitsvotum maskiert. Diese Methode zeigt konsistente Verbesserungen über alle Modellgrößen hinweg.
In den letzten Jahren stützte sich die Verbesserung der Reasoning-Fähigkeiten großer Sprachmodelle hauptsächlich auf Reinforcement-Learning-Techniken. Traditionelle Methoden (wie RLHF, RLVR) sind jedoch stark von externen Überwachungssignalen abhängig (menschliche Annotationen oder domänenspezifische Ground-Truth-Labels). Um diesen Skalierungsengpass zu beheben, haben Forscher Label-freie RL-Methoden vorgeschlagen (wie TTRL und Intuitor). Diese Methoden wurden jedoch hauptsächlich auf großen, stark reasoning-fähigen Modellen (wie Qwen2.5-Math-7B) validiert. Das Kernproblem dieser Arbeit ist: Können diese Label-freien RL-Methoden auf kleine Basismodelle mit begrenzten Reasoning-Fähigkeiten verallgemeinert werden?
- Ressourcenbeschränkte Szenarien: In Edge-Geräten oder Umgebungen mit begrenzten Rechenressourcen sind kleine Modelle praktischer
- Skalierbarkeit: Das Verständnis der Lernmechanismen kleiner Modelle ist entscheidend für den Aufbau skalierbarer Reasoning-Systeme
- Theoretische Bedeutung: Offenlegung der minimalen Voraussetzungen für das Bootstrap von Reasoning-Fähigkeiten
- TTRL: Schätzt Belohnungen durch Mehrheitsvotum auf nicht annotierten Testdaten, aber kleine Modelle produzieren früh im Training zu wenige korrekte Ausgaben, was zu fehlerhaften Pseudo-Labels führt
- Intuitor: Nutzt die Selbstsicherheit des Modells als intrinsische Belohnung, aber kleine Modelle haben schlechtere Konfidenz-Kalibrierung
- Mangel an Forschung zu schwachen Modellen: Bestehende Methoden berücksichtigen nicht die Fehlermuster bei unzureichenden Basis-Reasoning-Fähigkeiten
Durch systematische Experimente die grundlegenden Ursachen für das Versagen von Label-freiem RL bei schwachen Modellen offenlegen und gezielte Lösungen vorschlagen, damit auch ressourcenbeschränkte Modelle von unbeaufsichtigtem RL profitieren können.
- Erste systematische Analyse: Offenlegung von Leistungsunterschieden bei Label-freien RL-Methoden über verschiedene Modellgrößen (0,5B-7B), mit signifikantem Leistungsabbau oder sogar Zusammenbruch bei schwachen Modellen
- Schlüsselfunde:
- Label-freies RL ist stark von vorhandenen Reasoning-Fähigkeiten des Basismodells abhängig
- Kleine Modelle können keine ausreichend langen oder vielfältigen Thought Chains für Selbstreflexion generieren
- Die Schwierigkeit der Trainingsdaten ist ein entscheidender Erfolgsfaktor
- CoT-Länge ist keine direkte Reflexion starker Reasoning-Fähigkeiten
- Vorschlag der CuMa-Methode: Ein integriertes Framework, das Curriculum Learning, Reward Masking und Datengenerierung kombiniert
- Progressive Trainings-Strategie von einfach zu schwierig
- Maskierung von Belohnungssignalen für Stichproben ohne Mehrheitskonsens
- LLM-basierte Datengenerierungs-Pipeline mit kontrollierbarer Schwierigkeit
- Empirische Validierung: Validierung über mehrere Reasoning-Benchmarks (Math 500, GPQA, AIME24, GSM8K, LCB), die zeigt, dass die Methode über alle Modellgrößen wirksam ist, besonders mit signifikanten Verbesserungen bei schwachen Modellen
Eingabe: Nicht annotierter Datensatz mit Reasoning-Problemen D={x1,...,xM} (z.B. mathematische Probleme)
Ausgabe: Optimierte Policy πθ, die korrekte Reasoning-Ketten und Antworten generieren kann
Einschränkung: Während des Trainings kein Zugriff auf Ground-Truth-Labels, nur Lernen durch mehrere vom Modell selbst generierte Kandidatenlösungen
Aufteilung des Datensatzes in K=5 Schwierigkeitsstufen:
D=D1∪D2∪...∪DK
wobei D1 die einfachsten Probleme enthält und DK die schwierigsten. Das Training erfolgt in der Reihenfolge D1→DK.
Für jeden Prompt xi werden N Kandidatenlösungen {yi(1),...,yi(N)} generiert, die Belohnungsfunktion ist definiert als:
r(xi,yi(j))=I[yi(j)=majority_vote({yi(1),...,yi(N)})]
Wenn eine Stichprobe keinen Mehrheitskonsens hat (d.h. maximale Häufigkeit < 2), wird ihr Lernsignal maskiert:
mask(xi)=I[maxj∣{k:yi(k)=yi(j)}∣≥2]
Dies verhindert, dass das Modell von unsicheren Vorhersagen lernt.
Verwendung von LLMs zur Generierung von synthetischen Daten mit vordefinierter Schwierigkeit:
- Strukturierte Prompt-Strategie mit expliziter Schwierigkeitsspezifikation (1-5)
- Beispielprobleme für jede Stufe als Referenz
- Dynamische Beispiel-Aktualisierung zur Erhöhung der Vielfalt
- 25 Stichproben pro Generierung, abdeckend verschiedene mathematische Unterthemen
Unterschied zu Baseline:
- TTRL/Intuitor: Training auf Daten mit fester Schwierigkeit
- CuMa: Start mit einfachen Problemen, schrittweise Schwierigkeitssteigerung
Designbegründung:
- Kleine Modelle können bei schwierigen Problemen kaum korrekte Lösungen generieren (wie in Abbildung 2 gezeigt, 0,5B-Modell hat früh im Training fast 0% Korrektheit)
- Aufbau grundlegender Reasoning-Fähigkeiten mit einfachen Problemen, dann Transfer zu komplexen Problemen
- Entspricht kognitiven Lernprinzipien des Menschen
Innovationspunkt: Modell-Updates nur bei klarem Mehrheitskonsens
Gelöstes Problem:
- Früh im Training sind die vom kleinen Modell generierten Kandidatenlösungen hochgradig verteilt
- Fehlender Mehrheitskonsens bedeutet Unsicherheit des Modells bei diesem Problem
- Erzwungenes Lernen führt zu Rauschen und Leistungsabbau
Experimenteller Beweis: Tabelle 2 zeigt, dass ohne Reward Masking die Leistung von 32,8 auf 30,7 sinkt
Technische Details:
- Strukturiertes Prompt Engineering zur Generierung mathematischer Probleme verschiedener Schwierigkeitsgrade
- Abdeckung von Algebra, Geometrie, Wahrscheinlichkeit und anderen Unterbereichen
- Dynamische Stichprobenentnahme von Beispielproblemen zur Vermeidung von Überanpassung an spezifische Muster
Funktion: Bereitstellung ausreichender Stichproben verschiedener Schwierigkeitsstufen für Curriculum Learning
- Math 500: 500 hochwertige mathematische Probleme
- GPQA: Physik-Fragen auf Graduiertenniveau
- AIME24: Aufgaben aus dem American Mathematics Invitational Exam 2024
- GSM8K: Mathematische Anwendungsaufgaben der Grundschule (8.000+ Probleme)
- LCB: Logik-Reasoning-Benchmark
- Genauigkeit (Accuracy): Anteil der generierten Antworten, die exakt mit der Standardantwort übereinstimmen
- Alle Experimente berichten prozentuale Genauigkeit
- Base Model: Untrainiertes Basismodell ohne RL
- GRPO: Überwachtes Reinforcement Learning mit Ground-Truth-Labels (obere Grenze)
- Intuitor: Label-freies RL basierend auf Selbstsicherheit
- TTRL: Test-Zeit RL basierend auf Mehrheitsvotum
- Optimierer: AdamW
- Lernrate: Peak 3×10⁻⁶, Kosinus-Decay
- Sampling-Strategie: 8 Kandidaten pro Prompt, Temperatur 0,6
- Maximale Generierungslänge: 3.072 Tokens
- Trainings-Episoden: 1 Episode
- Hardware: 4×NVIDIA H100 80GB GPU
- Modellreihe: Qwen2.5 (0,5B, 1,5B, 3B, 7B)
0,5B-Modell:
- Base: Math 500=23,4, GSM8K=26,38
- TTRL: Vollständiger Zusammenbruch (Math 500=0,0)
- Intuitor: Leistungsabfall (GSM8K=0,68)
- CuMa: Math 500=32,8 (+40%), GSM8K=32,9 (+25%)
7B-Modell:
- Base: Math 500=58,2, GSM8K=81,5
- GRPO: 73,8, 85,67 (obere Grenze mit Labels)
- TTRL/Intuitor: 73,6/72,2, 84,39/78,19
- CuMa: 74,0, 84,49 (nahe bei Methoden mit Labels)
Schlüsselfunde:
- Alle Label-freien Methoden sind bei großen Modellen wirksam
- Nur CuMa zeigt stabile Verbesserungen bei kleinen Modellen; andere Methoden verschlechtern sich oder brechen zusammen
- CuMa verhindert Zusammenbruch beim 0,5B-Modell und erreicht signifikante Verbesserungen
CuMa zeigt Verbesserungen über 5 verschiedene Reasoning-Benchmarks:
- Math 500: Verbesserung über alle Modellgrößen
- GPQA: 7B-Modell von 27,77→32,32
- AIME24: 7B-Modell von 6,67→13,33 (Verdopplung)
- LCB: 3B-Modell von 5,20→8,04
Tabelle 2 zeigt die Beiträge jeder CuMa-Komponente (0,5B-Modell, Math 500):
| Konfiguration | Leistung | Rückgang |
|---|
| Vollständiges CuMa | 32,8 | - |
| Ohne Reward Masking | 30,7 | -6,4% |
| Ohne Datengenerierung | 24,5 | -25,3% |
| Ohne Curriculum Learning | 20,1 | -38,7% |
Wichtige Erkenntnisse:
- Curriculum Learning am kritischsten: Ohne es fällt die Leistung nahe dem Zusammenbruch (20,1 vs. Base 23,4)
- Datengenerierung wichtig: Bietet ausreichende Stichproben verschiedener Schwierigkeitsgrade zur Unterstützung von Curriculum Learning
- Reward Masking wirksam: Verhindert Lernen von Rausch-Feedback und stabilisiert das Training
- 0,5B-Modell: In den ersten 50 Schritten fast keine korrekten Ausgaben
- Konsequenz: TTRLs Mehrheitsvotum produziert fehlerhafte Pseudo-Labels → Modell-Zusammenbruch
- CuMa-Lösung: Start mit einfachen Problemen, frühe teilweise korrekte Antworten
- 7B-Modell: Länge von 500→1400 Tokens, enthält Selbstreflexion
- 0,5B/1,5B-Modelle: Länge bleibt bei 500-700, kein signifikanter Anstieg
- Fund: Längenzuwachs ist kein zuverlässiger Indikator für kleine Modelle
Test verschiedener Schwierigkeitsstufen (Level 1-2 bis 1-5) beim 0,5B-Modell:
- Math 500: Von 0,35 bei L1-2 bis nahe 0 bei L1-4 (Zusammenbruch)
- GSM8K: Schrittweise Abnahme von 0,28 auf 0,15
- Schlussfolgerung: Zu schwierige Daten führen zum Zusammenbruch des kleinen Modells
- Reasoning-Fähigkeits-Schwellenwert: Label-freies RL benötigt minimale Reasoning-Fähigkeit als Voraussetzung
- Daten-Fähigkeits-Anpassung: Trainingsdaten-Schwierigkeit muss mit Modell-Fähigkeiten abgestimmt sein
- Mehrheitsvotum-Zuverlässigkeit: Abhängig davon, dass Basismodell teilweise korrekte Lösungen generiert
- Curriculum-Learning-Universalität: Hilft bei allen Modellgrößen, aber kritischer für schwache Modelle
- CoT-Längen-Irreführung: Kann nicht als einziger Indikator für Reasoning-Verbesserung bei kleinen Modellen verwendet werden
- RLHF: Modell-Ausrichtung durch menschliches Feedback
- GRPO: Regelbasierte Belohnungsmethode für mathematisches Reasoning
- DeepSeek-R1: Großes Reasoning-Modell
- Limitation: Abhängig von annotierten Daten, begrenzte Skalierbarkeit
- Self-rewarding LMs: Modell-Selbstbewertung
- Self-play fine-tuning: Selbstspiel-Verbesserung
- DPO: Direkte Präferenz-Optimierung
- Unterschied dieser Arbeit: Fokus auf Anwendbarkeit von RL-Methoden bei schwachen Modellen
- TTRL: Test-Zeit Mehrheitsvotum RL
- Intuitor: Basierend auf Selbstsicherheit
- Beitrag dieser Arbeit: Offenlegung von Fehlermechanismen bei schwachen Modellen und Lösungsvorschläge
- Traditionelles Curriculum Learning hauptsächlich in überwachtem Lernen
- Innovation dieser Arbeit: Erste systematische Anwendung von Curriculum Learning auf Label-freie RL-Reasoning-Aufgaben
- Kernfund: Label-freies RL ist kein "kostenloses Mittagessen", benötigt Basis-Reasoning-Fähigkeit als Voraussetzung
- Fehlermechanismen:
- Schwache Modelle können nicht genug korrekte Lösungen generieren → Mehrheitsvotum versagt
- Mangel an vielfältigen CoTs → Selbstreflexions-Mechanismus versagt
- Zu schwierige Daten → Spärliche Lernsignale
- Lösungs-Effektivität: CuMa verbessert Leistung über alle Größen 0,5B-7B, besonders signifikant bei schwachen Modellen
- Theoretische Bedeutung: Offenlegung minimaler Bedingungen und Pfade für Reasoning-Fähigkeits-Bootstrap
- Modellbereich: Nur auf Qwen-Modellen validiert, Generalisierung zu anderen Architekturen (wie LLaMA, Mistral) unbekannt
- Domänen-Einschränkung: Hauptsächlich auf mathematisches Reasoning fokussiert, Anwendbarkeit auf andere Reasoning-Typen (wie Common-Sense, Logik) benötigt weitere Validierung
- Curriculum-Design: Schwierigkeits-Klassifizierung abhängig von manueller Definition oder LLM-Generierung, fehlende automatisierte Schwierigkeits-Bewertung
- Rechenkosten: Erfordert Generierung vieler Kandidatenlösungen (8 pro Problem), höhere Inferenz-Kosten
- Minimaler Fähigkeits-Schwellenwert: Keine klare quantitative Definition von "ausreichender Reasoning-Fähigkeit"
- Qualität der Datengenerierung: Vielfalt und Qualität synthetischer Daten abhängig vom Generierungs-Modell
- Adaptives Curriculum: Dynamische Schwierigkeitsanpassung basierend auf Echtzeit-Modell-Leistung
- Hybrid-Belohnungen: Kombination von Mehrheitsvotum und Konfidenz-basierten Multi-Signal-Belohnungen
- Cross-Domain-Validierung: Erweiterung auf Code-Generierung, wissenschaftliches Reasoning und andere Domänen
- Theoretische Analyse: Formalisierung der Beziehung zwischen Reasoning-Fähigkeit und RL-Effektivität
- Effizienz-Optimierung: Reduzierung der Kandidatenlösungs-Generierung, Senkung der Rechenkosten
- Erste systematische Offenlegung von Label-freiem RL-Versagen bei schwachen Modellen
- Tiefgreifende Ursachen-Analyse durch mehrdimensionale Experimente (Modellgröße, Datenschwierigkeit, CoT-Länge)
- Abbildung 2 visualisiert intuitiv den Zusammenbruch-Mechanismus früh im Training
- Einfach und wirksam: Drei Komponenten (Curriculum Learning, Reward Masking, Datengenerierung) mit klarer Motivation
- Theoretische Unterstützung: Curriculum Learning entspricht kognitiven Wissenschaften und ML-Theorie
- Technisch umsetzbar: Leicht zu implementieren, keine komplexen neuen Komponenten
- Vollständige Abdeckung: 4 Modellgrößen von 0,5B-7B
- Vielfältige Benchmarks: 5 verschiedene Reasoning-Aufgabentypen
- Vollständige Vergleiche: Einschließlich oberer Grenze mit Labels (GRPO) und mehrerer Label-freier Baselines
- Detaillierte Ablation: Einzelne Validierung jeder Komponenten-Beitrag
- Bietet machbare Lösung für ressourcenbeschränkte Szenarien (Edge-Geräte, kostengünstige Bereitstellung)
- Open-Source-Code mit hoher Reproduzierbarkeit
- Generische Methode, erweiterbar auf andere RL-Paradigmen
- Strenge logische Struktur: Problem → Analyse → Methode → Validierung
- Effektive Visualisierungen (Abbildungen 1-4 zeigen Schlüsselfunde intuitiv)
- Prägnante Zusammenfassung der Kernbeiträge
- Fehlende formale Analyse: Keine theoretische Beziehung zwischen Reasoning-Fähigkeit und RL-Konvergenz
- Vage Schwierigkeits-Definition: Level 1-5-Einteilung beruht auf subjektiven Urteilen
- Unquantifizierter Schwellenwert: Welches Ausmaß an Reasoning-Fähigkeit ist ausreichend?
- Einzelne Modellreihe: Nur Qwen-Modelle, Architektur-Bias nicht ausgeschlossen
- Datengenerierungs-Abhängigkeit: Synthetische Datenqualität abhängig von Qwen-72B, mögliche Verzerrung
- Fehlende statistische Signifikanz: Keine Varianz und Konfidenzintervalle aus mehrfachen Läufen
- Rechenkosten nicht berichtet: Trainingszeit, GPU-Stunden und andere Ressourcenverbrauch nicht offengelegt
- Festes Curriculum: 5 Schwierigkeitsstufen und Reihenfolge sind Hyperparameter, keine adaptive Mechanik
- Mehrheitsvotum-Fragilität: Immer noch abhängig davon, dass Basismodell teilweise korrekte Lösungen generiert
- Konservatives Reward Masking: Könnte wertvolle schwierige Stichproben übersehen
- Fehlende Fehlerfälle: Keine Darstellung von Szenarien, in denen CuMa immer noch versagt
- Vergleich mit menschlichem Lernen: Curriculum-Learning-Analogie nicht tiefgreifend erforscht
- Langzeit-Effekte unbekannt: Nur 1 Episode Training, Stabilität bei kontinuierlichem Training unvalidiert
- Einzelne Aufgabenklasse: Hauptsächlich mathematisches Reasoning, andere Reasoning-Typen unzureichend validiert
- Sprachbeschränkung: Nur englische Daten, Mehrsprachige Szenarien nicht berücksichtigt
- Domänen-Wissen: Anwendbarkeit auf spezialisierte Aufgaben (Medizin, Recht) unbekannt
- Forschungslücke gefüllt: Erste systematische Untersuchung von Label-freiem RL-Verhalten bei schwachen Modellen
- Methodologische Erkenntnisse: Beweis der Effektivität von Curriculum Learning in RL-Reasoning-Aufgaben
- Praktische Anleitung: Machbarer Pfad zur Verbesserung der Reasoning-Fähigkeit kleiner Modelle
- Theoretische Grundlage: Grundlage für zukünftige Forschung zu Reasoning-Fähigkeits-Bootstrap-Mechanismen
- Edge-Bereitstellung: Ermöglicht RL-Verbesserung auch bei kleinen Modellen, senkt Bereitstellungskosten
- Bildungsanwendungen: Progressive Lernstrategie anwendbar auf personalisierte Bildungssysteme
- Forschungs-Werkzeuge: Open-Source-Code und Datengenerierungs-Pipeline für Community-Nutzung
- ✅ Code Open-Source (GitHub)
- ✅ Detaillierte Hyperparameter (Lernrate, Temperatur, Generierungslänge etc.)
- ✅ Datengenerierungs-Prompts öffentlich (Anhang B)
- ⚠️ Hohe Rechenressourcen-Anforderungen (4×H100)
- ⚠️ Synthetische Daten nicht direkt öffentlich
- Ressourcenbeschränkte Umgebungen: Benötigung von Reasoning-Fähigkeits-Verbesserung bei kleinen Modellen
- Nicht annotierte Daten: Große Mengen Reasoning-Probleme ohne Standard-Antworten
- Progressives Lernen: Aufgaben mit klaren Schwierigkeitsstufen (Bildung, Wettbewerbs-Training)
- Mathematik/Code-Reasoning: Geschlossene Domänen mit objektiv korrekten Antworten
- Offene Domänen-Generierung: Kreatives Schreiben, Dialog-Systeme (keine klare richtige Antwort)
- Extrem schwache Modelle: <0,5B oder Basis-Reasoning nahe Zufallsleistung
- Echtzeit-Systeme: Schnelle Antwort erforderlich, können mehrfaches Sampling nicht tolerieren
- Subjektive Aufgaben: Sentiment-Analyse, Stil-Transfer (Mehrheitsvotum bedeutungslos)
- DeepSeekMath 1: Open-Model-Benchmark für mathematisches Reasoning
- DeepSeek-R1 2: Großes Reasoning-Modell mit RL-Training
- TTRL 3: Test-Zeit-Reinforcement-Learning-Framework
- Intuitor 4: Unbeaufsichtigtes RL basierend auf innerer Konfidenz
- RLHF 6: Klassische Methode zum Lernen aus menschlichem Feedback
- PPO 7: Proximal Policy Optimization-Algorithmus
- Chain-of-Thought 8: Thought-Chain-Prompting-Technik
- RL-Grundlagen 5: Sutton & Barto Klassisches Lehrbuch
- DPO 17: Direkte Präferenz-Optimierung
- Self-rewarding LMs 14-16: Selbstbelohnung und Selbstverbesserung
Diese Arbeit führt eine tiefgreifende empirische Untersuchung und methodische Innovation zum Versagen von Label-freiem Reinforcement Learning bei schwachen Reasoning-Modellen durch. Der Kernwert liegt in der Offenlegung von Voraussetzungen für Reasoning-Fähigkeits-Bootstrap: Das Basismodell muss minimale Reasoning-Fähigkeiten besitzen, um von unbeaufsichtigtem RL zu profitieren. Die CuMa-Methode ermöglicht durch synergistisches Design von Curriculum Learning, Reward Masking und Datengenerierung auch schwache Modelle wie 0,5B, stabil zu verbessern.
Highlights: Präzise Problemidentifikation, einfache und wirksame Methode, umfassende Experimente, hoher praktischer Wert.
Schwächen: Begrenzte theoretische Analyse, begrenzte Generalisierungs-Validierung, fehlende statistische Signifikanz.
Empfehlungsindex: ⭐⭐⭐⭐ (4/5)
Empfohlen für Forscher, die sich mit kleinen Modellen, unbeaufsichtigtem Lernen und Curriculum Learning befassen. Auch von großem Referenzwert für die Industrie bei der Bereitstellung von Reasoning-Modellen in ressourcenbeschränkten Szenarien.