2025-11-22T18:43:16.829121

You Need Reasoning to Learn Reasoning: The Limitations of Label-Free RL in Weak Base Models

Roy, Hajimirsadeghi, Zhai et al.

Recent advances in large language models have demonstrated the promise of unsupervised reinforcement learning (RL) methods for enhancing reasoning capabilities without external supervision. However, the generalizability of these label-free RL approaches to smaller base models with limited reasoning capabilities remains unexplored. In this work, we systematically investigate the performance of label-free RL methods across different model sizes and reasoning strengths, from 0.5B to 7B parameters. Our empirical analysis reveals critical limitations: label-free RL is highly dependent on the base model's pre-existing reasoning capability, with performance often degrading below baseline levels for weaker models. We find that smaller models fail to generate sufficiently long or diverse chain-of-thought reasoning to enable effective self-reflection, and that training data difficulty plays a crucial role in determining success. To address these challenges, we propose a simple yet effective method for label-free RL that utilizes curriculum learning to progressively introduce harder problems during training and mask no-majority rollouts during training. Additionally, we introduce a data curation pipeline to generate samples with predefined difficulty. Our approach demonstrates consistent improvements across all model sizes and reasoning capabilities, providing a path toward more robust unsupervised RL that can bootstrap reasoning abilities in resource-constrained models. We make our code available at https://github.com/BorealisAI/CuMa

academic

Vous Avez Besoin de Raisonnement pour Apprendre le Raisonnement : Les Limitations de l'Apprentissage par Renforcement sans Étiquettes dans les Modèles de Base Faibles

Informations Fondamentales

ID de l'article : 2511.04902
Titre : You Need Reasoning to Learn Reasoning: The Limitations of Label-Free RL in Weak Base Models
Auteurs : Shuvendu Roy, Hossein Hajimirsadeghi, Mengyao Zhai, Golnoosh Samei (RBC Borealis)
Classification : cs.LG, cs.AI
Conférence de Publication : NeurIPS 2025 Workshop: MATH-AI
Lien de l'article : https://arxiv.org/abs/2511.04902
Lien du code : https://github.com/BorealisAI/CuMa

Résumé

Cet article étudie systématiquement les performances des méthodes d'apprentissage par renforcement sans étiquettes (Label-Free RL) sur des modèles de langage de différentes tailles (0,5B à 7B paramètres) et capacités de raisonnement. L'étude révèle une limitation critique : l'apprentissage par renforcement sans étiquettes dépend fortement des capacités de raisonnement préexistantes du modèle de base, et pour les modèles plus faibles, les performances chutent souvent en dessous du niveau de base. L'étude constate que les petits modèles ne peuvent pas générer des chaînes de pensée (CoT) suffisamment longues ou diversifiées pour une auto-réflexion efficace, et la difficulté des données d'entraînement joue un rôle clé dans la détermination du succès. Pour relever ces défis, les auteurs proposent la méthode CuMa, qui utilise l'apprentissage par curriculum pour introduire progressivement des problèmes plus difficiles et masque les échantillons sans résultat de vote majoritaire pendant l'entraînement. Cette méthode démontre des améliorations cohérentes sur toutes les tailles de modèles.

Contexte et Motivation de la Recherche

Problème Fondamental à Résoudre

Récemment, l'amélioration des capacités de raisonnement des grands modèles de langage dépend principalement des techniques d'apprentissage par renforcement, mais les méthodes traditionnelles (telles que RLHF, RLVR) dépendent fortement des signaux de supervision externes (annotations humaines ou étiquettes de vérité spécifiques au domaine). Pour résoudre ce goulot d'étranglement de scalabilité, les chercheurs ont proposé des méthodes d'apprentissage par renforcement sans étiquettes (telles que TTRL et Intuitor), mais ces méthodes ont été principalement validées sur des modèles volumineux avec des capacités de raisonnement fortes (comme Qwen2.5-Math-7B). Le problème fondamental que cet article aborde est : ces méthodes d'apprentissage par renforcement sans étiquettes peuvent-elles se généraliser à des petits modèles de base avec des capacités de raisonnement limitées ?

Importance du Problème

Scénarios avec ressources limitées : Dans les environnements de périphérie ou avec des ressources informatiques limitées, les petits modèles sont plus pratiques
Scalabilité : Comprendre les mécanismes d'apprentissage des petits modèles est crucial pour construire des systèmes de raisonnement scalables
Signification théorique : Révéler les conditions préalables minimales pour l'auto-amorçage des capacités de raisonnement

Limitations des Méthodes Existantes

TTRL : Estime les récompenses par vote majoritaire sur les données de test non annotées, mais les petits modèles produisent trop peu de sorties correctes au début de l'entraînement, entraînant des erreurs de pseudo-étiquettes
Intuitor : Utilise la confiance du modèle (self-certainty) comme récompense intrinsèque, mais l'étalonnage de la confiance est médiocre pour les petits modèles
Manque de recherche sur les modèles faibles : Les méthodes existantes ne considèrent pas les modes de défaillance lorsque les capacités de raisonnement de base sont insuffisantes

Motivation de la Recherche

Révéler systématiquement par expérimentation les raisons fondamentales de l'échec des méthodes d'apprentissage par renforcement sans étiquettes sur les modèles faibles, et proposer des solutions ciblées pour permettre aux modèles avec ressources limitées de bénéficier de l'apprentissage par renforcement non supervisé.

Contributions Principales

Première analyse systématique : Révèle les différences de performance des méthodes d'apprentissage par renforcement sans étiquettes sur différentes tailles de modèles (0,5B-7B), découvrant une dégradation significative et même un effondrement des performances pour les modèles faibles
Découvertes clés :
- L'apprentissage par renforcement sans étiquettes dépend fortement des capacités de raisonnement préexistantes du modèle de base
- Les petits modèles ne peuvent pas générer des chaînes de pensée suffisamment longues ou diversifiées pour l'auto-réflexion
- La difficulté des données d'entraînement est un facteur clé déterminant le succès
- La longueur du CoT n'est pas un reflet direct des capacités de raisonnement fort
Proposition de la méthode CuMa : Un cadre intégré combinant l'apprentissage par curriculum, le masquage des récompenses et la génération de données
- Stratégie d'entraînement progressive du simple au difficile
- Masquage des signaux de récompense pour les échantillons sans consensus majoritaire
- Pipeline de génération de données contrôlée par difficulté basée sur LLM
Vérification empirique : Validation sur plusieurs repères de raisonnement (Math 500, GPQA, AIME24, GSM8K, LCB), démontrant que la méthode est efficace sur toutes les tailles de modèles, avec des améliorations particulièrement significatives pour les modèles faibles

Explication Détaillée de la Méthode

Définition de la Tâche

Entrée : Ensemble de données de problèmes de raisonnement sans étiquettes $D = \{x_1, ..., x_M\}$ (par exemple, problèmes mathématiques)
Sortie : Politique de modèle optimisée $\pi_\theta$ capable de générer des chaînes de raisonnement correctes et des réponses
Contrainte : Pendant l'entraînement, impossible d'accéder aux étiquettes de vérité, l'apprentissage se fait uniquement par plusieurs solutions candidates générées par le modèle lui-même

Architecture du Modèle

1. Cadre d'Apprentissage par Curriculum

L'ensemble de données est divisé en K=5 niveaux de difficulté : $D = D_1 \cup D_2 \cup ... \cup D_K$ où $D_1$ contient les problèmes les plus simples et $D_K$ contient les problèmes les plus difficiles. L'entraînement suit l'ordre $D_1 \to D_K$ .

2. Mécanisme de Récompense par Vote Majoritaire

Pour chaque invite $x_i$ , générer N solutions candidates $\{y_i^{(1)}, ..., y_i^{(N)}\}$ , la fonction de récompense est définie comme : $r(x_i, y_i^{(j)}) = \mathbb{I}[y_i^{(j)} = \text{majority\_vote}(\{y_i^{(1)}, ..., y_i^{(N)}\})]$

3. Mécanisme de Masquage des Récompenses

Lorsqu'un échantillon n'a pas de consensus majoritaire (c'est-à-dire que le nombre d'occurrences maximal < 2), masquer son signal d'apprentissage : $\text{mask}(x_i) = \mathbb{I}\left[\max_j |\{k : y_i^{(k)} = y_i^{(j)}\}| \geq 2\right]$

Cela empêche le modèle d'apprendre des retours bruyants à partir de prédictions incertaines.

4. Pipeline de Génération de Données

Utiliser LLM pour générer des données synthétiques de difficulté prédéfinie :

Stratégie d'invite structurée, spécifiant explicitement le niveau de difficulté (1-5)
Fournir des exemples de problèmes pour chaque niveau comme référence
Rafraîchir dynamiquement les exemples pour augmenter la diversité
Générer 25 échantillons à chaque fois, couvrant différents sous-thèmes mathématiques

Points d'Innovation Technique

1. Ajustement Progressif de la Difficulté

Différence avec la baseline :

TTRL/Intuitor : Entraînement sur des données de difficulté fixe
CuMa : Commencer par des problèmes simples, augmenter progressivement la difficulté

Justification de la conception :

Les petits modèles peuvent à peine générer des solutions correctes sur des problèmes difficiles (comme le montre la figure 2, le taux de correction du modèle 0,5B est proche de 0 au début de l'entraînement)
Construire les capacités de raisonnement de base à partir de problèmes simples, puis transférer à des problèmes complexes
Conforme à la loi d'apprentissage cognitif humain

2. Signal d'Apprentissage Sélectif

Point d'innovation : Mettre à jour le modèle uniquement lorsqu'il y a un consensus majoritaire clair

Problème résolu :

Au début de l'entraînement, les solutions candidates générées par les petits modèles sont hautement dispersées
L'absence de consensus majoritaire signifie que le modèle est incertain sur ce problème
Forcer l'apprentissage introduit du bruit, entraînant une dégradation des performances

Preuve expérimentale : L'expérience d'ablation du tableau 2 montre que sans le masquage des récompenses, les performances chutent de 32,8 à 30,7

3. Augmentation de Données Contrôlée par Difficulté

Détails techniques :

Utiliser l'ingénierie d'invite structurée pour générer des problèmes mathématiques de différentes difficultés
Inclure plusieurs sous-domaines tels que l'algèbre, la géométrie, les probabilités
Échantillonnage dynamique des exemples de problèmes pour éviter le surapprentissage de modèles spécifiques

Rôle : Fournir des échantillons suffisants de chaque niveau de difficulté pour l'apprentissage par curriculum

Configuration Expérimentale

Ensembles de Données

Math 500 : 500 problèmes mathématiques de haute qualité
GPQA : Questions-réponses en physique au niveau des études supérieures
AIME24 : Problèmes du concours mathématique américain 2024
GSM8K : Problèmes d'application mathématique du primaire (8 000+ problèmes)
LCB : Repère de raisonnement logique

Métriques d'Évaluation

Précision (Accuracy) : Proportion de réponses générées correspondant exactement à la réponse standard
Tous les expériences rapportent la précision en pourcentage

Méthodes de Comparaison

Modèle de Base : Modèle de base non entraîné par RL
GRPO : Apprentissage par renforcement supervisé utilisant des étiquettes de vérité (référence supérieure)
Intuitor : Apprentissage par renforcement sans étiquettes basé sur l'auto-confiance
TTRL : Apprentissage par renforcement au moment du test basé sur le vote majoritaire

Détails d'Implémentation

Optimiseur : AdamW
Taux d'apprentissage : Pic de 3×10⁻⁶, décroissance cosinus
Stratégie d'échantillonnage : Générer 8 candidats par invite, température 0,6
Longueur maximale de génération : 3 072 tokens
Nombre d'épisodes d'entraînement : 1 épisode
Matériel : 4×NVIDIA H100 80GB GPU
Familles de modèles : Qwen2.5 (0,5B, 1,5B, 3B, 7B)

Résultats Expérimentaux

Résultats Principaux

1. Comparaison des Performances sur Différentes Tailles de Modèles (Tableau 1)

Modèle 0,5B :

Base : Math 500=23,4, GSM8K=26,38
TTRL : Effondrement complet (Math 500=0,0)
Intuitor : Dégradation des performances (GSM8K=0,68)
CuMa : Math 500=32,8 (+40%), GSM8K=32,9 (+25%)

Modèle 7B :

Base : Math 500=58,2, GSM8K=81,5
GRPO : 73,8, 85,67 (limite supérieure avec étiquettes)
TTRL/Intuitor : 73,6/72,2, 84,39/78,19
CuMa : 74,0, 84,49 (proche des méthodes avec étiquettes)

Découvertes clés :

Toutes les méthodes sans étiquettes sont efficaces sur les grands modèles
Seul CuMa améliore de manière stable les petits modèles, les autres méthodes se dégradent ou s'effondrent
CuMa évite l'effondrement sur le modèle 0,5B, réalisant une amélioration significative

2. Capacité de Généralisation Entre Repères

CuMa démontre des améliorations sur 5 repères de raisonnement différents :

Math 500 : Amélioration pour toutes les tailles de modèles
GPQA : Modèle 7B de 27,77→32,32
AIME24 : Modèle 7B de 6,67→13,33 (doublement)
LCB : Modèle 3B de 5,20→8,04

Expériences d'Ablation

Le tableau 2 montre la contribution de chaque composant de CuMa (modèle 0,5B, Math 500) :

Configuration	Performance	Baisse
CuMa Complet	32,8	-
Sans Masquage des Récompenses	30,7	-6,4%
Sans Génération de Données	24,5	-25,3%
Sans Apprentissage par Curriculum	20,1	-38,7%

Aperçus clés :

L'apprentissage par curriculum est le plus critique : Sans lui, les performances sont proches de l'effondrement (20,1 vs base 23,4)
La génération de données est importante : Fournir suffisamment d'échantillons de chaque difficulté pour soutenir l'apprentissage par curriculum
Le masquage des récompenses est efficace : Évite l'apprentissage à partir de signaux bruyants, stabilisant l'entraînement

Analyse de Cas

Figure 2 : Génération de Réponses Correctes au Début de l'Entraînement

Modèle 0,5B : Presque aucune sortie correcte dans les 50 premières étapes
Conséquence : Le vote majoritaire de TTRL produit des pseudo-étiquettes erronées → effondrement du modèle
Solution CuMa : Commencer par des problèmes simples, générer des réponses partiellement correctes dès le début

Figure 3 : Changement de Longueur CoT Pendant l'Entraînement

Modèle 7B : Longueur de 500→1400 tokens, incluant l'auto-réflexion
Modèles 0,5B/1,5B : Longueur reste 500-700, pas de croissance significative
Découverte : L'augmentation de longueur n'est pas un indicateur fiable pour les petits modèles

Figure 4 : Impact de la Difficulté des Données d'Entraînement

Test de différents niveaux de difficulté (Niveau 1-2 à 1-5) sur le modèle 0,5B :

Math 500 : L1-2 à 0,35→L1-4 proche de 0 (effondrement)
GSM8K : De 0,28 diminue progressivement à 0,15
Conclusion : Les données trop difficiles causent l'effondrement de l'apprentissage du petit modèle

Découvertes Expérimentales

Seuil de Capacité de Raisonnement : L'apprentissage par renforcement sans étiquettes nécessite une capacité de raisonnement minimale comme condition préalable
Alignement Données-Capacité : La difficulté des données d'entraînement doit correspondre aux capacités du modèle
Fiabilité du Vote Majoritaire : Dépend de la capacité du modèle de base à générer des solutions partiellement correctes
Universalité de l'Apprentissage par Curriculum : Bénéfique pour toutes les tailles de modèles, mais plus critique pour les modèles faibles
Nature Trompeuse de la Longueur CoT : Ne peut pas être le seul indicateur d'amélioration du raisonnement pour les petits modèles

Travaux Connexes

1. Apprentissage par Renforcement Supervisé

RLHF : Alignement des modèles via retours humains
GRPO : Méthode de récompense basée sur les règles pour le raisonnement mathématique
DeepSeek-R1 : Modèle de raisonnement à grande échelle
Limitations : Dépend des données annotées, scalabilité limitée

2. Méthodes d'Auto-Amélioration sans Étiquettes

Self-rewarding LMs : Auto-évaluation des modèles
Self-play fine-tuning : Amélioration par auto-jeu
DPO : Optimisation directe des préférences
Distinction de cet article : Se concentre sur l'applicabilité des méthodes RL aux modèles faibles

3. Optimisation au Moment du Test

TTRL : Apprentissage par renforcement au moment du test avec vote majoritaire
Intuitor : Basé sur l'auto-confiance
Contribution de cet article : Révèle les modes de défaillance de ces méthodes sur les modèles faibles et propose des solutions

4. Apprentissage par Curriculum

L'apprentissage par curriculum traditionnel est principalement utilisé dans l'apprentissage supervisé
Innovation de cet article : Première application systématique de l'apprentissage par curriculum à l'apprentissage par renforcement sans étiquettes pour les tâches de raisonnement

Conclusion et Discussion

Conclusions Principales

Découverte Fondamentale : L'apprentissage par renforcement sans étiquettes n'est pas un "déjeuner gratuit", nécessitant une capacité de raisonnement de base comme condition préalable
Mécanismes de Défaillance :
- Les modèles faibles ne peuvent pas générer suffisamment de solutions correctes → le vote majoritaire échoue
- Manque de CoT diversifiés → le mécanisme d'auto-réflexion est inefficace
- Les données trop difficiles → signaux d'apprentissage rares
Efficacité de la Solution : CuMa améliore les performances sur toutes les tailles de modèles (0,5B-7B), avec des améliorations particulièrement significatives pour les modèles faibles
Signification Théorique : Révèle les conditions minimales et le chemin pour l'auto-amorçage des capacités de raisonnement

Limitations

Portée des Modèles : Validé uniquement sur les modèles Qwen, la généralisation à d'autres architectures (comme LLaMA, Mistral) est inconnue
Restriction de Domaine : Principalement axé sur le raisonnement mathématique, l'applicabilité à d'autres types de raisonnement (comme le raisonnement de sens commun, le raisonnement logique) nécessite une vérification supplémentaire
Conception du Curriculum : La classification par difficulté dépend de définitions manuelles ou de génération par LLM, manquant de mécanisme d'évaluation automatique de la difficulté
Coût Computationnel : Nécessite de générer un grand nombre de solutions candidates (8 par problème), le coût d'inférence est élevé
Seuil de Capacité Minimale : N'a pas clairement défini la norme quantitative pour "capacité de raisonnement suffisante"
Qualité de la Génération de Données : La diversité et la qualité des données synthétiques dépendent du modèle générateur

Directions Futures

Curriculum Adaptatif : Ajuster dynamiquement la difficulté en fonction des performances en temps réel du modèle
Récompenses Hybrides : Combiner les signaux de vote majoritaire et de confiance
Vérification Interdomaines : Étendre à la génération de code, au raisonnement scientifique et autres domaines
Analyse Théorique : Établir des relations formelles entre la capacité de raisonnement et l'efficacité du RL
Optimisation de l'Efficacité : Réduire le nombre de solutions candidates générées, diminuer les coûts informatiques

Évaluation Approfondie

Points Forts

1. Identification Précise du Problème

Première révélation systématique du phénomène d'échec du RL sans étiquettes sur les modèles faibles
Analyse approfondie des causes profondes par expérimentation multidimensionnelle (taille du modèle, difficulté des données, longueur CoT)
La visualisation de la figure 2 montre intuitivement le mécanisme d'effondrement au début de l'entraînement

2. Conception Raisonnable de la Méthode

Simple et Efficace : Les trois composants (apprentissage par curriculum, masquage des récompenses, génération de données) ont chacun une motivation claire
Support Théorique : L'apprentissage par curriculum est conforme à la théorie des sciences cognitives et de l'apprentissage automatique
Faisabilité Technique : Facile à mettre en œuvre, n'introduit pas de nouveaux composants complexes

3. Expérimentation Suffisante

Couverture Complète : Couvre quatre tailles de modèles de 0,5B à 7B
Diversité des Repères : 5 tâches de raisonnement de types différents
Comparaison Complète : Inclut la limite supérieure avec étiquettes (GRPO) et plusieurs baselines sans étiquettes
Ablation Détaillée : Vérifie systématiquement la contribution de chaque composant

4. Valeur Pratique Élevée

Fournit une solution viable pour les scénarios avec ressources limitées (appareils périphériques, déploiement à faible coût)
Code open-source, forte reproductibilité
Méthode générale, extensible à d'autres paradigmes RL

5. Écriture Claire

Structure logique rigoureuse : problème → analyse → méthode → vérification
Excellents effets de visualisation (figures 1-4 montrant intuitivement les découvertes clés)
Résumé clair des contributions principales

Insuffisances

1. Profondeur Théorique Limitée

Manque d'Analyse Formelle : N'établit pas de relation théorique entre la capacité de raisonnement et la convergence du RL
Définition Floue de la Difficulté : La division Niveau 1-5 dépend du jugement subjectif
Seuil Non Quantifié : Quel degré de capacité de raisonnement est suffisant pour soutenir le RL sans étiquettes ?

2. Défauts de Conception Expérimentale

Famille de Modèles Unique : Uniquement les modèles Qwen, les biais architecturaux ne sont pas exclus
Dépendance de la Génération de Données : La qualité des données synthétiques dépend de Qwen-72B, pouvant introduire des biais
Absence de Signification Statistique : N'a pas rapporté la variance et les intervalles de confiance de plusieurs exécutions
Coûts Computationnels Non Rapportés : Temps d'entraînement, utilisation GPU et autres consommations de ressources non divulgués

3. Limitations de la Méthode

Curriculum Fixe : 5 niveaux de difficulté et l'ordre sont des hyperparamètres, manquant de mécanisme adaptatif
Fragilité du Vote Majoritaire : Dépend toujours de la capacité du modèle de base à générer des solutions partiellement correctes
Masquage des Récompenses Conservateur : Peut manquer des échantillons difficiles ayant une valeur d'apprentissage

4. Analyse Insuffisante

Absence de Cas d'Échec : N'a pas montré les cas où CuMa échoue toujours
Comparaison avec l'Apprentissage Humain : L'analogie de l'apprentissage par curriculum n'est pas explorée en profondeur
Effets à Long Terme Inconnus : Seulement 1 épisode d'entraînement, la stabilité de l'entraînement continu n'est pas vérifiée

5. Généralisation Douteuse

Tâches Uniques : Principalement le raisonnement mathématique, autres types de raisonnement insuffisamment vérifiés
Limitation Linguistique : Données uniquement en anglais, scénarios multilingues non considérés
Connaissances de Domaine : L'applicabilité aux tâches nécessitant des connaissances spécialisées (comme médical, juridique) est inconnue

Impact

Contribution au Domaine

Combler une Lacune de Recherche : Première étude systématique du comportement du RL sans étiquettes sur les modèles faibles
Inspiration Méthodologique : Prouve l'efficacité de l'apprentissage par curriculum dans les tâches RL de raisonnement
Orientation Pratique : Fournit un chemin viable pour améliorer les capacités de raisonnement des petits modèles
Base Théorique : Pose les fondations pour les recherches ultérieures sur les mécanismes d'auto-amorçage des capacités de raisonnement

Valeur Pratique

Déploiement Périphérique : Permet aux petits modèles d'améliorer le raisonnement via RL, réduisant les coûts de déploiement
Applications Éducatives : La stratégie d'apprentissage progressif peut s'appliquer aux systèmes d'éducation personnalisée
Outils de Recherche : Le code open-source et le pipeline de génération de données peuvent être utilisés par la communauté

Reproductibilité

✅ Code open-source (GitHub)
✅ Hyperparamètres détaillés (taux d'apprentissage, température, longueur de génération, etc.)
✅ Invites de génération de données publiques (Annexe B)
⚠️ Exigences de ressources informatiques élevées (4×H100)
⚠️ Données synthétiques non directement publiques

Scénarios Applicables

Scénarios Appropriés

Environnements avec Ressources Limitées : Nécessité d'améliorer les capacités de raisonnement sur les petits modèles
Données sans Étiquettes : Grand nombre de problèmes de raisonnement mais manque de réponses standard
Apprentissage Progressif : Les tâches ont des niveaux de difficulté clairs (comme l'éducation, l'entraînement aux concours)
Raisonnement Mathématique/Code : Tâches avec réponses objectivement correctes dans des domaines fermés

Scénarios Non Appropriés

Génération en Domaine Ouvert : Comme l'écriture créative, les systèmes de dialogue (pas de réponse clairement correcte)
Modèles Extrêmement Faibles : <0,5B ou capacité de raisonnement de base proche du hasard
Systèmes en Temps Réel : Nécessitant une réponse rapide, ne pouvant pas supporter le surcoût de plusieurs échantillonnages
Tâches Subjectives : Comme l'analyse de sentiment, la transposition de style (le vote majoritaire n'a pas de sens)

Références

Travaux Connexes Principaux

DeepSeekMath 1 : Repère de modèle ouvert pour le raisonnement mathématique
DeepSeek-R1 2 : Modèle de raisonnement à grande échelle et entraînement RL
TTRL 3 : Cadre d'apprentissage par renforcement au moment du test
Intuitor 4 : Apprentissage par renforcement non supervisé basé sur la confiance intrinsèque
RLHF 6 : Méthode classique d'apprentissage à partir des retours humains
PPO 7 : Algorithme d'optimisation de politique proximale
Chain-of-Thought 8 : Technique de suggestion de chaîne de pensée

Références Méthodologiques

Fondamentaux du Renforcement 5 : Manuel classique de Sutton & Barto
DPO 17 : Optimisation directe des préférences
Self-rewarding LMs 14-16 : Auto-récompense et auto-amélioration

Résumé

Cet article mène une étude empirique approfondie et une innovation méthodologique sur le problème de l'échec du RL sans étiquettes sur les modèles faibles de raisonnement. La valeur fondamentale réside dans la révélation des conditions préalables pour l'auto-amorçage des capacités de raisonnement : le modèle de base doit posséder une capacité de raisonnement minimale pour bénéficier du RL non supervisé. La méthode CuMa, par la conception synergique de l'apprentissage par curriculum, du masquage des récompenses et de la génération de données, permet avec succès aux modèles faibles comme le 0,5B d'améliorer de manière stable.

Points Forts : Identification précise du problème, méthode simple et efficace, expérimentation complète, valeur pratique élevée.
Insuffisances : Analyse théorique insuffisante, vérification de généralisation limitée, absence de signification statistique.

Indice de Recommandation : ⭐⭐⭐⭐ (4/5)
Recommandé pour les chercheurs intéressés par le raisonnement des petits modèles, l'apprentissage non supervisé et l'apprentissage par curriculum. Également d'une grande valeur de référence pour l'industrie dans le déploiement de modèles de raisonnement dans des scénarios avec ressources limitées.