Recent advances in large language models have demonstrated the promise of unsupervised reinforcement learning (RL) methods for enhancing reasoning capabilities without external supervision. However, the generalizability of these label-free RL approaches to smaller base models with limited reasoning capabilities remains unexplored. In this work, we systematically investigate the performance of label-free RL methods across different model sizes and reasoning strengths, from 0.5B to 7B parameters. Our empirical analysis reveals critical limitations: label-free RL is highly dependent on the base model's pre-existing reasoning capability, with performance often degrading below baseline levels for weaker models. We find that smaller models fail to generate sufficiently long or diverse chain-of-thought reasoning to enable effective self-reflection, and that training data difficulty plays a crucial role in determining success. To address these challenges, we propose a simple yet effective method for label-free RL that utilizes curriculum learning to progressively introduce harder problems during training and mask no-majority rollouts during training. Additionally, we introduce a data curation pipeline to generate samples with predefined difficulty. Our approach demonstrates consistent improvements across all model sizes and reasoning capabilities, providing a path toward more robust unsupervised RL that can bootstrap reasoning abilities in resource-constrained models. We make our code available at https://github.com/BorealisAI/CuMa
- ID de l'article : 2511.04902
- Titre : You Need Reasoning to Learn Reasoning: The Limitations of Label-Free RL in Weak Base Models
- Auteurs : Shuvendu Roy, Hossein Hajimirsadeghi, Mengyao Zhai, Golnoosh Samei (RBC Borealis)
- Classification : cs.LG, cs.AI
- Conférence de Publication : NeurIPS 2025 Workshop: MATH-AI
- Lien de l'article : https://arxiv.org/abs/2511.04902
- Lien du code : https://github.com/BorealisAI/CuMa
Cet article étudie systématiquement les performances des méthodes d'apprentissage par renforcement sans étiquettes (Label-Free RL) sur des modèles de langage de différentes tailles (0,5B à 7B paramètres) et capacités de raisonnement. L'étude révèle une limitation critique : l'apprentissage par renforcement sans étiquettes dépend fortement des capacités de raisonnement préexistantes du modèle de base, et pour les modèles plus faibles, les performances chutent souvent en dessous du niveau de base. L'étude constate que les petits modèles ne peuvent pas générer des chaînes de pensée (CoT) suffisamment longues ou diversifiées pour une auto-réflexion efficace, et la difficulté des données d'entraînement joue un rôle clé dans la détermination du succès. Pour relever ces défis, les auteurs proposent la méthode CuMa, qui utilise l'apprentissage par curriculum pour introduire progressivement des problèmes plus difficiles et masque les échantillons sans résultat de vote majoritaire pendant l'entraînement. Cette méthode démontre des améliorations cohérentes sur toutes les tailles de modèles.
Récemment, l'amélioration des capacités de raisonnement des grands modèles de langage dépend principalement des techniques d'apprentissage par renforcement, mais les méthodes traditionnelles (telles que RLHF, RLVR) dépendent fortement des signaux de supervision externes (annotations humaines ou étiquettes de vérité spécifiques au domaine). Pour résoudre ce goulot d'étranglement de scalabilité, les chercheurs ont proposé des méthodes d'apprentissage par renforcement sans étiquettes (telles que TTRL et Intuitor), mais ces méthodes ont été principalement validées sur des modèles volumineux avec des capacités de raisonnement fortes (comme Qwen2.5-Math-7B). Le problème fondamental que cet article aborde est : ces méthodes d'apprentissage par renforcement sans étiquettes peuvent-elles se généraliser à des petits modèles de base avec des capacités de raisonnement limitées ?
- Scénarios avec ressources limitées : Dans les environnements de périphérie ou avec des ressources informatiques limitées, les petits modèles sont plus pratiques
- Scalabilité : Comprendre les mécanismes d'apprentissage des petits modèles est crucial pour construire des systèmes de raisonnement scalables
- Signification théorique : Révéler les conditions préalables minimales pour l'auto-amorçage des capacités de raisonnement
- TTRL : Estime les récompenses par vote majoritaire sur les données de test non annotées, mais les petits modèles produisent trop peu de sorties correctes au début de l'entraînement, entraînant des erreurs de pseudo-étiquettes
- Intuitor : Utilise la confiance du modèle (self-certainty) comme récompense intrinsèque, mais l'étalonnage de la confiance est médiocre pour les petits modèles
- Manque de recherche sur les modèles faibles : Les méthodes existantes ne considèrent pas les modes de défaillance lorsque les capacités de raisonnement de base sont insuffisantes
Révéler systématiquement par expérimentation les raisons fondamentales de l'échec des méthodes d'apprentissage par renforcement sans étiquettes sur les modèles faibles, et proposer des solutions ciblées pour permettre aux modèles avec ressources limitées de bénéficier de l'apprentissage par renforcement non supervisé.
- Première analyse systématique : Révèle les différences de performance des méthodes d'apprentissage par renforcement sans étiquettes sur différentes tailles de modèles (0,5B-7B), découvrant une dégradation significative et même un effondrement des performances pour les modèles faibles
- Découvertes clés :
- L'apprentissage par renforcement sans étiquettes dépend fortement des capacités de raisonnement préexistantes du modèle de base
- Les petits modèles ne peuvent pas générer des chaînes de pensée suffisamment longues ou diversifiées pour l'auto-réflexion
- La difficulté des données d'entraînement est un facteur clé déterminant le succès
- La longueur du CoT n'est pas un reflet direct des capacités de raisonnement fort
- Proposition de la méthode CuMa : Un cadre intégré combinant l'apprentissage par curriculum, le masquage des récompenses et la génération de données
- Stratégie d'entraînement progressive du simple au difficile
- Masquage des signaux de récompense pour les échantillons sans consensus majoritaire
- Pipeline de génération de données contrôlée par difficulté basée sur LLM
- Vérification empirique : Validation sur plusieurs repères de raisonnement (Math 500, GPQA, AIME24, GSM8K, LCB), démontrant que la méthode est efficace sur toutes les tailles de modèles, avec des améliorations particulièrement significatives pour les modèles faibles
Entrée : Ensemble de données de problèmes de raisonnement sans étiquettes D={x1,...,xM} (par exemple, problèmes mathématiques)
Sortie : Politique de modèle optimisée πθ capable de générer des chaînes de raisonnement correctes et des réponses
Contrainte : Pendant l'entraînement, impossible d'accéder aux étiquettes de vérité, l'apprentissage se fait uniquement par plusieurs solutions candidates générées par le modèle lui-même
L'ensemble de données est divisé en K=5 niveaux de difficulté :
D=D1∪D2∪...∪DK
où D1 contient les problèmes les plus simples et DK contient les problèmes les plus difficiles. L'entraînement suit l'ordre D1→DK.
Pour chaque invite xi, générer N solutions candidates {yi(1),...,yi(N)}, la fonction de récompense est définie comme :
r(xi,yi(j))=I[yi(j)=majority_vote({yi(1),...,yi(N)})]
Lorsqu'un échantillon n'a pas de consensus majoritaire (c'est-à-dire que le nombre d'occurrences maximal < 2), masquer son signal d'apprentissage :
mask(xi)=I[maxj∣{k:yi(k)=yi(j)}∣≥2]
Cela empêche le modèle d'apprendre des retours bruyants à partir de prédictions incertaines.
Utiliser LLM pour générer des données synthétiques de difficulté prédéfinie :
- Stratégie d'invite structurée, spécifiant explicitement le niveau de difficulté (1-5)
- Fournir des exemples de problèmes pour chaque niveau comme référence
- Rafraîchir dynamiquement les exemples pour augmenter la diversité
- Générer 25 échantillons à chaque fois, couvrant différents sous-thèmes mathématiques
Différence avec la baseline :
- TTRL/Intuitor : Entraînement sur des données de difficulté fixe
- CuMa : Commencer par des problèmes simples, augmenter progressivement la difficulté
Justification de la conception :
- Les petits modèles peuvent à peine générer des solutions correctes sur des problèmes difficiles (comme le montre la figure 2, le taux de correction du modèle 0,5B est proche de 0 au début de l'entraînement)
- Construire les capacités de raisonnement de base à partir de problèmes simples, puis transférer à des problèmes complexes
- Conforme à la loi d'apprentissage cognitif humain
Point d'innovation : Mettre à jour le modèle uniquement lorsqu'il y a un consensus majoritaire clair
Problème résolu :
- Au début de l'entraînement, les solutions candidates générées par les petits modèles sont hautement dispersées
- L'absence de consensus majoritaire signifie que le modèle est incertain sur ce problème
- Forcer l'apprentissage introduit du bruit, entraînant une dégradation des performances
Preuve expérimentale : L'expérience d'ablation du tableau 2 montre que sans le masquage des récompenses, les performances chutent de 32,8 à 30,7
Détails techniques :
- Utiliser l'ingénierie d'invite structurée pour générer des problèmes mathématiques de différentes difficultés
- Inclure plusieurs sous-domaines tels que l'algèbre, la géométrie, les probabilités
- Échantillonnage dynamique des exemples de problèmes pour éviter le surapprentissage de modèles spécifiques
Rôle : Fournir des échantillons suffisants de chaque niveau de difficulté pour l'apprentissage par curriculum
- Math 500 : 500 problèmes mathématiques de haute qualité
- GPQA : Questions-réponses en physique au niveau des études supérieures
- AIME24 : Problèmes du concours mathématique américain 2024
- GSM8K : Problèmes d'application mathématique du primaire (8 000+ problèmes)
- LCB : Repère de raisonnement logique
- Précision (Accuracy) : Proportion de réponses générées correspondant exactement à la réponse standard
- Tous les expériences rapportent la précision en pourcentage
- Modèle de Base : Modèle de base non entraîné par RL
- GRPO : Apprentissage par renforcement supervisé utilisant des étiquettes de vérité (référence supérieure)
- Intuitor : Apprentissage par renforcement sans étiquettes basé sur l'auto-confiance
- TTRL : Apprentissage par renforcement au moment du test basé sur le vote majoritaire
- Optimiseur : AdamW
- Taux d'apprentissage : Pic de 3×10⁻⁶, décroissance cosinus
- Stratégie d'échantillonnage : Générer 8 candidats par invite, température 0,6
- Longueur maximale de génération : 3 072 tokens
- Nombre d'épisodes d'entraînement : 1 épisode
- Matériel : 4×NVIDIA H100 80GB GPU
- Familles de modèles : Qwen2.5 (0,5B, 1,5B, 3B, 7B)
Modèle 0,5B :
- Base : Math 500=23,4, GSM8K=26,38
- TTRL : Effondrement complet (Math 500=0,0)
- Intuitor : Dégradation des performances (GSM8K=0,68)
- CuMa : Math 500=32,8 (+40%), GSM8K=32,9 (+25%)
Modèle 7B :
- Base : Math 500=58,2, GSM8K=81,5
- GRPO : 73,8, 85,67 (limite supérieure avec étiquettes)
- TTRL/Intuitor : 73,6/72,2, 84,39/78,19
- CuMa : 74,0, 84,49 (proche des méthodes avec étiquettes)
Découvertes clés :
- Toutes les méthodes sans étiquettes sont efficaces sur les grands modèles
- Seul CuMa améliore de manière stable les petits modèles, les autres méthodes se dégradent ou s'effondrent
- CuMa évite l'effondrement sur le modèle 0,5B, réalisant une amélioration significative
CuMa démontre des améliorations sur 5 repères de raisonnement différents :
- Math 500 : Amélioration pour toutes les tailles de modèles
- GPQA : Modèle 7B de 27,77→32,32
- AIME24 : Modèle 7B de 6,67→13,33 (doublement)
- LCB : Modèle 3B de 5,20→8,04
Le tableau 2 montre la contribution de chaque composant de CuMa (modèle 0,5B, Math 500) :
| Configuration | Performance | Baisse |
|---|
| CuMa Complet | 32,8 | - |
| Sans Masquage des Récompenses | 30,7 | -6,4% |
| Sans Génération de Données | 24,5 | -25,3% |
| Sans Apprentissage par Curriculum | 20,1 | -38,7% |
Aperçus clés :
- L'apprentissage par curriculum est le plus critique : Sans lui, les performances sont proches de l'effondrement (20,1 vs base 23,4)
- La génération de données est importante : Fournir suffisamment d'échantillons de chaque difficulté pour soutenir l'apprentissage par curriculum
- Le masquage des récompenses est efficace : Évite l'apprentissage à partir de signaux bruyants, stabilisant l'entraînement
- Modèle 0,5B : Presque aucune sortie correcte dans les 50 premières étapes
- Conséquence : Le vote majoritaire de TTRL produit des pseudo-étiquettes erronées → effondrement du modèle
- Solution CuMa : Commencer par des problèmes simples, générer des réponses partiellement correctes dès le début
- Modèle 7B : Longueur de 500→1400 tokens, incluant l'auto-réflexion
- Modèles 0,5B/1,5B : Longueur reste 500-700, pas de croissance significative
- Découverte : L'augmentation de longueur n'est pas un indicateur fiable pour les petits modèles
Test de différents niveaux de difficulté (Niveau 1-2 à 1-5) sur le modèle 0,5B :
- Math 500 : L1-2 à 0,35→L1-4 proche de 0 (effondrement)
- GSM8K : De 0,28 diminue progressivement à 0,15
- Conclusion : Les données trop difficiles causent l'effondrement de l'apprentissage du petit modèle
- Seuil de Capacité de Raisonnement : L'apprentissage par renforcement sans étiquettes nécessite une capacité de raisonnement minimale comme condition préalable
- Alignement Données-Capacité : La difficulté des données d'entraînement doit correspondre aux capacités du modèle
- Fiabilité du Vote Majoritaire : Dépend de la capacité du modèle de base à générer des solutions partiellement correctes
- Universalité de l'Apprentissage par Curriculum : Bénéfique pour toutes les tailles de modèles, mais plus critique pour les modèles faibles
- Nature Trompeuse de la Longueur CoT : Ne peut pas être le seul indicateur d'amélioration du raisonnement pour les petits modèles
- RLHF : Alignement des modèles via retours humains
- GRPO : Méthode de récompense basée sur les règles pour le raisonnement mathématique
- DeepSeek-R1 : Modèle de raisonnement à grande échelle
- Limitations : Dépend des données annotées, scalabilité limitée
- Self-rewarding LMs : Auto-évaluation des modèles
- Self-play fine-tuning : Amélioration par auto-jeu
- DPO : Optimisation directe des préférences
- Distinction de cet article : Se concentre sur l'applicabilité des méthodes RL aux modèles faibles
- TTRL : Apprentissage par renforcement au moment du test avec vote majoritaire
- Intuitor : Basé sur l'auto-confiance
- Contribution de cet article : Révèle les modes de défaillance de ces méthodes sur les modèles faibles et propose des solutions
- L'apprentissage par curriculum traditionnel est principalement utilisé dans l'apprentissage supervisé
- Innovation de cet article : Première application systématique de l'apprentissage par curriculum à l'apprentissage par renforcement sans étiquettes pour les tâches de raisonnement
- Découverte Fondamentale : L'apprentissage par renforcement sans étiquettes n'est pas un "déjeuner gratuit", nécessitant une capacité de raisonnement de base comme condition préalable
- Mécanismes de Défaillance :
- Les modèles faibles ne peuvent pas générer suffisamment de solutions correctes → le vote majoritaire échoue
- Manque de CoT diversifiés → le mécanisme d'auto-réflexion est inefficace
- Les données trop difficiles → signaux d'apprentissage rares
- Efficacité de la Solution : CuMa améliore les performances sur toutes les tailles de modèles (0,5B-7B), avec des améliorations particulièrement significatives pour les modèles faibles
- Signification Théorique : Révèle les conditions minimales et le chemin pour l'auto-amorçage des capacités de raisonnement
- Portée des Modèles : Validé uniquement sur les modèles Qwen, la généralisation à d'autres architectures (comme LLaMA, Mistral) est inconnue
- Restriction de Domaine : Principalement axé sur le raisonnement mathématique, l'applicabilité à d'autres types de raisonnement (comme le raisonnement de sens commun, le raisonnement logique) nécessite une vérification supplémentaire
- Conception du Curriculum : La classification par difficulté dépend de définitions manuelles ou de génération par LLM, manquant de mécanisme d'évaluation automatique de la difficulté
- Coût Computationnel : Nécessite de générer un grand nombre de solutions candidates (8 par problème), le coût d'inférence est élevé
- Seuil de Capacité Minimale : N'a pas clairement défini la norme quantitative pour "capacité de raisonnement suffisante"
- Qualité de la Génération de Données : La diversité et la qualité des données synthétiques dépendent du modèle générateur
- Curriculum Adaptatif : Ajuster dynamiquement la difficulté en fonction des performances en temps réel du modèle
- Récompenses Hybrides : Combiner les signaux de vote majoritaire et de confiance
- Vérification Interdomaines : Étendre à la génération de code, au raisonnement scientifique et autres domaines
- Analyse Théorique : Établir des relations formelles entre la capacité de raisonnement et l'efficacité du RL
- Optimisation de l'Efficacité : Réduire le nombre de solutions candidates générées, diminuer les coûts informatiques
- Première révélation systématique du phénomène d'échec du RL sans étiquettes sur les modèles faibles
- Analyse approfondie des causes profondes par expérimentation multidimensionnelle (taille du modèle, difficulté des données, longueur CoT)
- La visualisation de la figure 2 montre intuitivement le mécanisme d'effondrement au début de l'entraînement
- Simple et Efficace : Les trois composants (apprentissage par curriculum, masquage des récompenses, génération de données) ont chacun une motivation claire
- Support Théorique : L'apprentissage par curriculum est conforme à la théorie des sciences cognitives et de l'apprentissage automatique
- Faisabilité Technique : Facile à mettre en œuvre, n'introduit pas de nouveaux composants complexes
- Couverture Complète : Couvre quatre tailles de modèles de 0,5B à 7B
- Diversité des Repères : 5 tâches de raisonnement de types différents
- Comparaison Complète : Inclut la limite supérieure avec étiquettes (GRPO) et plusieurs baselines sans étiquettes
- Ablation Détaillée : Vérifie systématiquement la contribution de chaque composant
- Fournit une solution viable pour les scénarios avec ressources limitées (appareils périphériques, déploiement à faible coût)
- Code open-source, forte reproductibilité
- Méthode générale, extensible à d'autres paradigmes RL
- Structure logique rigoureuse : problème → analyse → méthode → vérification
- Excellents effets de visualisation (figures 1-4 montrant intuitivement les découvertes clés)
- Résumé clair des contributions principales
- Manque d'Analyse Formelle : N'établit pas de relation théorique entre la capacité de raisonnement et la convergence du RL
- Définition Floue de la Difficulté : La division Niveau 1-5 dépend du jugement subjectif
- Seuil Non Quantifié : Quel degré de capacité de raisonnement est suffisant pour soutenir le RL sans étiquettes ?
- Famille de Modèles Unique : Uniquement les modèles Qwen, les biais architecturaux ne sont pas exclus
- Dépendance de la Génération de Données : La qualité des données synthétiques dépend de Qwen-72B, pouvant introduire des biais
- Absence de Signification Statistique : N'a pas rapporté la variance et les intervalles de confiance de plusieurs exécutions
- Coûts Computationnels Non Rapportés : Temps d'entraînement, utilisation GPU et autres consommations de ressources non divulgués
- Curriculum Fixe : 5 niveaux de difficulté et l'ordre sont des hyperparamètres, manquant de mécanisme adaptatif
- Fragilité du Vote Majoritaire : Dépend toujours de la capacité du modèle de base à générer des solutions partiellement correctes
- Masquage des Récompenses Conservateur : Peut manquer des échantillons difficiles ayant une valeur d'apprentissage
- Absence de Cas d'Échec : N'a pas montré les cas où CuMa échoue toujours
- Comparaison avec l'Apprentissage Humain : L'analogie de l'apprentissage par curriculum n'est pas explorée en profondeur
- Effets à Long Terme Inconnus : Seulement 1 épisode d'entraînement, la stabilité de l'entraînement continu n'est pas vérifiée
- Tâches Uniques : Principalement le raisonnement mathématique, autres types de raisonnement insuffisamment vérifiés
- Limitation Linguistique : Données uniquement en anglais, scénarios multilingues non considérés
- Connaissances de Domaine : L'applicabilité aux tâches nécessitant des connaissances spécialisées (comme médical, juridique) est inconnue
- Combler une Lacune de Recherche : Première étude systématique du comportement du RL sans étiquettes sur les modèles faibles
- Inspiration Méthodologique : Prouve l'efficacité de l'apprentissage par curriculum dans les tâches RL de raisonnement
- Orientation Pratique : Fournit un chemin viable pour améliorer les capacités de raisonnement des petits modèles
- Base Théorique : Pose les fondations pour les recherches ultérieures sur les mécanismes d'auto-amorçage des capacités de raisonnement
- Déploiement Périphérique : Permet aux petits modèles d'améliorer le raisonnement via RL, réduisant les coûts de déploiement
- Applications Éducatives : La stratégie d'apprentissage progressif peut s'appliquer aux systèmes d'éducation personnalisée
- Outils de Recherche : Le code open-source et le pipeline de génération de données peuvent être utilisés par la communauté
- ✅ Code open-source (GitHub)
- ✅ Hyperparamètres détaillés (taux d'apprentissage, température, longueur de génération, etc.)
- ✅ Invites de génération de données publiques (Annexe B)
- ⚠️ Exigences de ressources informatiques élevées (4×H100)
- ⚠️ Données synthétiques non directement publiques
- Environnements avec Ressources Limitées : Nécessité d'améliorer les capacités de raisonnement sur les petits modèles
- Données sans Étiquettes : Grand nombre de problèmes de raisonnement mais manque de réponses standard
- Apprentissage Progressif : Les tâches ont des niveaux de difficulté clairs (comme l'éducation, l'entraînement aux concours)
- Raisonnement Mathématique/Code : Tâches avec réponses objectivement correctes dans des domaines fermés
- Génération en Domaine Ouvert : Comme l'écriture créative, les systèmes de dialogue (pas de réponse clairement correcte)
- Modèles Extrêmement Faibles : <0,5B ou capacité de raisonnement de base proche du hasard
- Systèmes en Temps Réel : Nécessitant une réponse rapide, ne pouvant pas supporter le surcoût de plusieurs échantillonnages
- Tâches Subjectives : Comme l'analyse de sentiment, la transposition de style (le vote majoritaire n'a pas de sens)
- DeepSeekMath 1 : Repère de modèle ouvert pour le raisonnement mathématique
- DeepSeek-R1 2 : Modèle de raisonnement à grande échelle et entraînement RL
- TTRL 3 : Cadre d'apprentissage par renforcement au moment du test
- Intuitor 4 : Apprentissage par renforcement non supervisé basé sur la confiance intrinsèque
- RLHF 6 : Méthode classique d'apprentissage à partir des retours humains
- PPO 7 : Algorithme d'optimisation de politique proximale
- Chain-of-Thought 8 : Technique de suggestion de chaîne de pensée
- Fondamentaux du Renforcement 5 : Manuel classique de Sutton & Barto
- DPO 17 : Optimisation directe des préférences
- Self-rewarding LMs 14-16 : Auto-récompense et auto-amélioration
Cet article mène une étude empirique approfondie et une innovation méthodologique sur le problème de l'échec du RL sans étiquettes sur les modèles faibles de raisonnement. La valeur fondamentale réside dans la révélation des conditions préalables pour l'auto-amorçage des capacités de raisonnement : le modèle de base doit posséder une capacité de raisonnement minimale pour bénéficier du RL non supervisé. La méthode CuMa, par la conception synergique de l'apprentissage par curriculum, du masquage des récompenses et de la génération de données, permet avec succès aux modèles faibles comme le 0,5B d'améliorer de manière stable.
Points Forts : Identification précise du problème, méthode simple et efficace, expérimentation complète, valeur pratique élevée.
Insuffisances : Analyse théorique insuffisante, vérification de généralisation limitée, absence de signification statistique.
Indice de Recommandation : ⭐⭐⭐⭐ (4/5)
Recommandé pour les chercheurs intéressés par le raisonnement des petits modèles, l'apprentissage non supervisé et l'apprentissage par curriculum. Également d'une grande valeur de référence pour l'industrie dans le déploiement de modèles de raisonnement dans des scénarios avec ressources limitées.