Do Not Step Into the Same River Twice: Learning to Reason from Trial and Error
Tang, Huang, Liu et al.
Reinforcement learning with verifiable rewards (RLVR) has significantly boosted the reasoning capability of large language models (LLMs) recently. However, existing RLVR approaches merely train LLMs based on their own generated responses and are constrained by the initial capability of LLMs, thus prone to exploration stagnation, in which LLMs fail to solve more training problems and cannot further learn from the training data. Some work tries to address this by leveraging off-policy solutions to training problems but requires external guidance from experts which suffers from limited availability. In this work, we propose LTE (Learning to reason from Trial and Error), an approach hinting LLMs with their previously self-generated incorrect answers and problem of overlong responses, which does not require any external expert guidance. Experiments validate the effectiveness of LTE, which outperforms the normal group relative policy optimization (GRPO) by 6.38 in Pass@1 and 9.00 in Pass@k on average across six mathematics benchmarks for Qwen3-4B-Base. Further analysis confirms that LTE successfully mitigates the problem of exploration stagnation and enhances both exploitation and exploration during training.
academic
Ne Pas Entrer Deux Fois dans le Même Fleuve : Apprendre à Raisonner par Essai et Erreur
Cet article propose la méthode LTE (Learning to reason from Trial and Error), visant à résoudre le problème de stagnation exploratoire des grands modèles de langage (LLMs) dans l'apprentissage par renforcement avec récompense vérifiable (RLVR). Les méthodes RLVR existantes s'entraînent uniquement sur les réponses générées par le modèle lui-même, limitées par les capacités initiales, et ont du mal à résoudre les problèmes dépassant le plafond de capacité. LTE exploite les réponses incorrectes précédemment générées par le modèle comme indices, sans nécessiter de guidance externe d'experts, pour surmonter les goulots d'étranglement de capacité. Les expériences sur Qwen3-4B-Base montrent que LTE surpasse la méthode GRPO standard de 6,38 (Pass@1) et 9,00 (Pass@k) en moyenne sur six benchmarks mathématiques.
Cet article aborde le problème de stagnation exploratoire dans l'entraînement par renforcement des grands modèles de langage. Il se manifeste spécifiquement par : lorsque la difficulté des échantillons d'entraînement dépasse le plafond de capacité actuel du modèle, toutes les réponses échantillonnées échouent à la vérification (c'est-à-dire des échantillons sans-passage), entraînant des fonctions d'avantage nulles pour tous, empêchant le modèle d'apprendre de ces échantillons.
Goulot d'étranglement de capacité: Les méthodes RLVR existantes enferment le modèle dans sa plage de capacité initiale, incapable de dépasser ses propres limites
Efficacité d'entraînement: De nombreux échantillons d'entraînement ne peuvent pas fournir de signaux d'apprentissage efficaces en raison de la stagnation exploratoire
Capacité de raisonnement: Limite l'amélioration des performances du modèle sur les tâches nécessitant une réflexion profonde, comme le raisonnement mathématique
Proposer une méthode d'apprentissage autonome qui exploite uniquement l'expérience d'essai-erreur du modèle lui-même, sans aucune guidance externe d'experts, pour surmonter les goulots d'étranglement exploratoires.
Proposition de la méthode LTE: Première méthode exploitant systématiquement l'expérience d'essai-erreur des LLMs (réponses incorrectes) comme indices pour résoudre la stagnation exploratoire, sans guidance externe d'experts
Mécanisme d'optimisation de politique mixte: Conception d'un cadre d'entraînement combinant des échantillons on-policy et off-policy, traitant les solutions correctes générées par les indices via l'échantillonnage d'importance régularisé
Vérification expérimentale complète: Validation de l'efficacité sur deux LLMs (4B et 8B) et six benchmarks mathématiques, améliorations significatives des performances Pass@1 et Pass@k
Analyse approfondie des mécanismes:
Preuve théorique que LTE augmente la probabilité d'atteindre la réponse correcte
Analyse empirique confirmant que LTE atténue avec succès la stagnation exploratoire
Révélation que LTE renforce simultanément les capacités d'exploitation et d'exploration
Entrée: Requête de problème mathématique q∼D Sortie: Chaîne de raisonnement et réponse finale o Objectif: Maximiser via RLVR la probabilité de générer une réponse correcte, tout en dépassant le plafond de capacité initial du modèle
Mécanisme d'apprentissage autonome: Indépendant de la supervision externe, exploitant uniquement les tentatives erronées du modèle
Les réponses incorrectes servent de "contre-exemples", réduisant l'espace de solution
Indiquant au modèle d'éviter de répéter les mêmes erreurs
Élagage de l'espace d'état: L'analyse théorique montre que l'indice élague l'espace d'état de Sq à Sq′=Sq\Sqf (excluant le sous-espace d'échec), augmentant la probabilité d'atteindre la réponse correcte
Stratégie d'indice adaptative: Ajuster dynamiquement le contenu de l'indice selon le statut de troncature
Traiter les problèmes de réponses trop longues
Équilibrer la profondeur d'exploration et l'efficacité
Entraînement de politique mixte: Traiter élégamment les données on-policy et off-policy
Maintenir la stabilité d'entraînement
Exploiter pleinement les informations des rollouts supplémentaires
Longueur maximale de réponse: 16 384 (entraînement), 32 768 (évaluation)
Coefficient KL: 0,001
Ratio de clip: 0,2
Configuration d'évaluation: Respect strict des protocoles standards, les indices d'entraînement utilisés uniquement pendant la phase d'entraînement, non utilisés lors de l'évaluation.
Définition du sous-espace d'échec: Sqf={s∈Sq:Extract(s)∈Aq}, où Aq est l'ensemble des réponses incorrectes générées
Définition du sous-espace élaguée: Sq′=Sq\Sqf
Théorème fondamental: Étant donné l'indice Hq (contenant les réponses incorrectes), la probabilité d'atteindre la réponse correcte augmente :
P(s∈Mq∣q,πθ)P(s∈Mq∣q,Hq,πθ)≥α⋅(1+1−τ1/nδ)
où :
Mq: ensemble d'états de réponse correcte
δ>0: réduction de la probabilité du sous-espace d'échec causée par l'indice
τ: niveau de confiance d'observer n échecs consécutifs
α∼Ω(1): facteur d'impact de l'indice sur la capacité de raisonnement dans le sous-espace élaguée
Conclusion: Puisque α ne devrait pas être significativement inférieur à 1, ce ratio est supérieur à 1, prouvant que l'indice augmente la probabilité d'atteindre la réponse correcte.
"L'Échec comme Information": Les réponses incorrectes ne sont pas du bruit, mais des signaux précieux pour réduire l'espace de solution
Équilibre Exploration-Exploitation: LTE améliore simultanément les deux via apprentissage autonome, brisant le trade-off traditionnel
Émergence de Réflexion Profonde: L'augmentation de longueur de réponse prouve que le modèle a appris à investir plus de ressources de calcul
Paradoxe de Concision: Inciter à "penser de manière concise" aide paradoxalement à résoudre des problèmes complexes, démontrant que la qualité surpasse la quantité
DeepSeek-AI (2025): DeepSeek-R1 - Travail fondateur utilisant l'apprentissage par renforcement pour stimuler les capacités de raisonnement
Shao et al. (2024): Algorithme GRPO - Méthode de base de cet article
Yan et al. (2025): Apprentissage avec guidance hors-politique - Source d'inspiration pour l'optimisation de politique mixte
Cui et al. (2025): Analyse des mécanismes d'entropie - Base théorique de la capacité d'exploration
Évaluation Globale: ⭐⭐⭐⭐ (4,5/5)
Recommandation de Lecture: Fortement recommandé aux chercheurs travaillant sur le raisonnement LLM, l'apprentissage par renforcement et la résolution de problèmes mathématiques. La méthode est simple et efficace, l'intégration théorie-pratique est étroite, représentant un progrès important dans le domaine de RLVR.