2025-11-30T00:01:19.060859

Do Not Step Into the Same River Twice: Learning to Reason from Trial and Error

Tang, Huang, Liu et al.
Reinforcement learning with verifiable rewards (RLVR) has significantly boosted the reasoning capability of large language models (LLMs) recently. However, existing RLVR approaches merely train LLMs based on their own generated responses and are constrained by the initial capability of LLMs, thus prone to exploration stagnation, in which LLMs fail to solve more training problems and cannot further learn from the training data. Some work tries to address this by leveraging off-policy solutions to training problems but requires external guidance from experts which suffers from limited availability. In this work, we propose LTE (Learning to reason from Trial and Error), an approach hinting LLMs with their previously self-generated incorrect answers and problem of overlong responses, which does not require any external expert guidance. Experiments validate the effectiveness of LTE, which outperforms the normal group relative policy optimization (GRPO) by 6.38 in Pass@1 and 9.00 in Pass@k on average across six mathematics benchmarks for Qwen3-4B-Base. Further analysis confirms that LTE successfully mitigates the problem of exploration stagnation and enhances both exploitation and exploration during training.
academic

Ne Pas Entrer Deux Fois dans le Même Fleuve : Apprendre à Raisonner par Essai et Erreur

Informations Fondamentales

  • ID de l'article: 2510.26109
  • Titre: Do Not Step Into the Same River Twice: Learning to Reason from Trial and Error
  • Auteurs: Chenming Tang, Hsiu-Yuan Huang, Weijie Liu, Saiyong Yang, Yunfang Wu (Université de Pékin & Tencent)
  • Classification: cs.LG (Apprentissage automatique)
  • Date de publication: 30 octobre 2025 (prépublication arXiv)
  • Lien de l'article: https://arxiv.org/abs/2510.26109v1

Résumé

Cet article propose la méthode LTE (Learning to reason from Trial and Error), visant à résoudre le problème de stagnation exploratoire des grands modèles de langage (LLMs) dans l'apprentissage par renforcement avec récompense vérifiable (RLVR). Les méthodes RLVR existantes s'entraînent uniquement sur les réponses générées par le modèle lui-même, limitées par les capacités initiales, et ont du mal à résoudre les problèmes dépassant le plafond de capacité. LTE exploite les réponses incorrectes précédemment générées par le modèle comme indices, sans nécessiter de guidance externe d'experts, pour surmonter les goulots d'étranglement de capacité. Les expériences sur Qwen3-4B-Base montrent que LTE surpasse la méthode GRPO standard de 6,38 (Pass@1) et 9,00 (Pass@k) en moyenne sur six benchmarks mathématiques.

Contexte de Recherche et Motivation

Problème Fondamental à Résoudre

Cet article aborde le problème de stagnation exploratoire dans l'entraînement par renforcement des grands modèles de langage. Il se manifeste spécifiquement par : lorsque la difficulté des échantillons d'entraînement dépasse le plafond de capacité actuel du modèle, toutes les réponses échantillonnées échouent à la vérification (c'est-à-dire des échantillons sans-passage), entraînant des fonctions d'avantage nulles pour tous, empêchant le modèle d'apprendre de ces échantillons.

Importance du Problème

  1. Goulot d'étranglement de capacité: Les méthodes RLVR existantes enferment le modèle dans sa plage de capacité initiale, incapable de dépasser ses propres limites
  2. Efficacité d'entraînement: De nombreux échantillons d'entraînement ne peuvent pas fournir de signaux d'apprentissage efficaces en raison de la stagnation exploratoire
  3. Capacité de raisonnement: Limite l'amélioration des performances du modèle sur les tâches nécessitant une réflexion profonde, comme le raisonnement mathématique

Limitations des Approches Existantes

Les solutions existantes dépendent principalement de guidance externe :

  • Réponses standard annotées manuellement: Coût élevé, scalabilité faible
  • Chaînes de raisonnement générées par des modèles plus puissants: Indisponibles lors de l'entraînement des modèles phares
  • Augmentation simple du nombre d'échantillons: N'exploite pas les informations de rollout existantes, faible efficacité

Motivation de la Recherche

Proposer une méthode d'apprentissage autonome qui exploite uniquement l'expérience d'essai-erreur du modèle lui-même, sans aucune guidance externe d'experts, pour surmonter les goulots d'étranglement exploratoires.

Contributions Fondamentales

  1. Proposition de la méthode LTE: Première méthode exploitant systématiquement l'expérience d'essai-erreur des LLMs (réponses incorrectes) comme indices pour résoudre la stagnation exploratoire, sans guidance externe d'experts
  2. Mécanisme d'optimisation de politique mixte: Conception d'un cadre d'entraînement combinant des échantillons on-policy et off-policy, traitant les solutions correctes générées par les indices via l'échantillonnage d'importance régularisé
  3. Vérification expérimentale complète: Validation de l'efficacité sur deux LLMs (4B et 8B) et six benchmarks mathématiques, améliorations significatives des performances Pass@1 et Pass@k
  4. Analyse approfondie des mécanismes:
    • Preuve théorique que LTE augmente la probabilité d'atteindre la réponse correcte
    • Analyse empirique confirmant que LTE atténue avec succès la stagnation exploratoire
    • Révélation que LTE renforce simultanément les capacités d'exploitation et d'exploration

Détails de la Méthode

Définition de la Tâche

Entrée: Requête de problème mathématique qDq \sim D
Sortie: Chaîne de raisonnement et réponse finale oo
Objectif: Maximiser via RLVR la probabilité de générer une réponse correcte, tout en dépassant le plafond de capacité initial du modèle

Cadre Global

Le processus fondamental de LTE comprend trois étapes :

1. Rollouts Initiaux

Pour chaque problème d'entraînement qq, échantillonner GG réponses {o1,o2,...,oG}\{o_1, o_2, ..., o_G\} et vérifier leur exactitude.

2. Rollouts Supplémentaires avec Indices (Innovation Clé)

Pour les échantillons sans-passage (tous les rollouts initiaux échouent), sélectionner la stratégie d'indice selon le statut de troncature :

a) Tous-tronqués (toutes les réponses sont tronquées)

Modèle d'indice: "Let's think concisely and output the final answer within \boxed{}."

Attribué à des réponses trop longues, incitant le modèle à penser de manière concise.

b) Partiellement-tronqués (certaines réponses sont tronquées)

Modèle d'indice: "Hint: possible incorrect answers include [a1, a2, ...]
Do not use or mention the hint explicitly. Let's think concisely..."

Collecter les réponses incorrectes des réponses non-tronquées comme indices, tout en exigeant la concision.

c) Aucun-tronqué (aucune réponse tronquée)

Modèle d'indice: "Hint: possible incorrect answers include [a1, a2, ...]
Do not use or mention the hint explicitly. Let's think step by step..."

Fournir uniquement les indices de réponses incorrectes, permettant un raisonnement de longueur normale.

Sur la base du modèle d'indice sélectionné, réechantillonner GG rollouts supplémentaires {o1hinted,o2hinted,...,oGhinted}\{o_1^{hinted}, o_2^{hinted}, ..., o_G^{hinted}\}.

3. Optimisation de Politique Mixte

Si les rollouts supplémentaires contiennent GG' solutions correctes {o1,...,oG}\{o'_1, ..., o'_{G'}\}, remplacer aléatoirement GG' réponses dans les rollouts initiaux.

Technique clé: Utiliser l'échantillonnage d'importance régularisé pour traiter les échantillons off-policy :

r^i,t(θ)=πθ(oi,tq,oi,<t)πθold(oi,tHq,q,oi,<t)\hat{r}'_{i,t}(\theta) = \frac{\pi_\theta(o'_{i,t} | q, o_{i,<t})}{\pi_{\theta_{old}}(o'_{i,t} | H_q, q, o_{i,<t})}

f(r^i,t(θ))=r^i,t(θ)r^i,t(θ)+γf(\hat{r}'_{i,t}(\theta)) = \frac{\hat{r}'_{i,t}(\theta)}{\hat{r}'_{i,t}(\theta) + \gamma}

γ=0,1\gamma = 0,1, HqH_q est l'information d'indice.

Fonction objectif de politique mixte:

JMixed(θ)=Eq,{oi,osi}[1Zi=1Gt=1oi(f(r^i,t(θ))A^i,t)+1Zi=1GGt=1osiCLIP(rsi,t(θ),A^si,t,ϵ)]J_{Mixed}(\theta) = \mathbb{E}_{q,\{o'_i, o_{s_i}\}} \left[ \frac{1}{Z'} \sum_{i=1}^{G'} \sum_{t=1}^{|o'_i|} (f(\hat{r}'_{i,t}(\theta)) \cdot \hat{A}'_{i,t}) + \frac{1}{Z} \sum_{i=1}^{G-G'} \sum_{t=1}^{|o_{s_i}|} \text{CLIP}(r_{s_i,t}(\theta), \hat{A}_{s_i,t}, \epsilon) \right]

Points d'Innovation Technique

  1. Mécanisme d'apprentissage autonome: Indépendant de la supervision externe, exploitant uniquement les tentatives erronées du modèle
    • Les réponses incorrectes servent de "contre-exemples", réduisant l'espace de solution
    • Indiquant au modèle d'éviter de répéter les mêmes erreurs
  2. Élagage de l'espace d'état: L'analyse théorique montre que l'indice élague l'espace d'état de SqS_q à Sq=Sq\SqfS'_q = S_q \backslash S^f_q (excluant le sous-espace d'échec), augmentant la probabilité d'atteindre la réponse correcte
  3. Stratégie d'indice adaptative: Ajuster dynamiquement le contenu de l'indice selon le statut de troncature
    • Traiter les problèmes de réponses trop longues
    • Équilibrer la profondeur d'exploration et l'efficacité
  4. Entraînement de politique mixte: Traiter élégamment les données on-policy et off-policy
    • Maintenir la stabilité d'entraînement
    • Exploiter pleinement les informations des rollouts supplémentaires

Configuration Expérimentale

Ensembles de Données

Données d'entraînement: Skywork-OR1-RL-Data

  • Qwen3-4B-Base: Sous-ensemble de niveau 1, 9 189 échantillons
  • Qwen3-8B-Base: Sous-ensemble de niveau 3, 3 236 échantillons
  • Critère de sélection: Difficulté modérée, assurant l'apprentissabilité optimale

Métriques d'Évaluation

Six benchmarks mathématiques:

  1. MATH-500: 4 échantillons, rapporter Mean@4 et Pass@4
  2. Minerva: 4 échantillons, rapporter Mean@4 et Pass@4
  3. OlympiadBench: 4 échantillons, rapporter Mean@4 et Pass@4
  4. AMC'23: 16 échantillons, rapporter Mean@16 et Pass@16
  5. AIME'24: 16 échantillons, rapporter Mean@16 et Pass@16
  6. AIME'25: 16 échantillons, rapporter Mean@16 et Pass@16

Métriques fondamentales:

  • Pass@1: Précision d'échantillonnage unique (capacité d'exploitation)
  • Pass@k: Probabilité d'au moins une réponse correcte parmi k échantillons (limite d'exploration)

Méthodes de Comparaison

  1. Base: Performance du modèle de base
  2. GRPO: Optimisation de Politique Relative de Groupe standard
  3. GRPO + Extra Rollouts: Augmentation simple des rollouts pour les échantillons sans-passage (sans indice)
  4. LTE: Méthode proposée

Chaque méthode testée en deux versions :

  • sans Perte d'Entropie: Sans perte d'entropie
  • avec Perte d'Entropie: Ajout de perte d'entropie avec coefficient 0,003

Détails d'Implémentation

Cadre d'entraînement: verl
Hyperparamètres clés:

  • Taux d'apprentissage: 1e-6
  • Étapes d'entraînement: 300
  • Taille de lot: 128
  • Nombre d'échantillons par prompt: 8
  • Température: 1,0 (entraînement), 0,6 (évaluation)
  • Longueur maximale de réponse: 16 384 (entraînement), 32 768 (évaluation)
  • Coefficient KL: 0,001
  • Ratio de clip: 0,2

Configuration d'évaluation: Respect strict des protocoles standards, les indices d'entraînement utilisés uniquement pendant la phase d'entraînement, non utilisés lors de l'évaluation.

Résultats Expérimentaux

Résultats Principaux

Performance Pass@1 (Tableau 1)

Qwen3-4B-Base:

MéthodeMATH-500MinervaOlympiadAMC'23AIME'24AIME'25Moy.
Base45,4019,4922,8135,318,753,7522,59
GRPO (sans entropie)69,6532,1734,3350,6212,084,3833,87
Extra Rollouts (sans entropie)69,3031,9935,5955,7811,886,4635,17
LTE (sans entropie)71,9533,8238,4458,9116,8812,2938,72
LTE (avec entropie)76,0034,0140,6365,1624,1718,9643,16

Découvertes clés:

  • LTE (avec entropie) améliore GRPO + Extra Rollouts de +6,38 points en moyenne
  • L'amélioration est particulièrement significative sur les tâches de haute difficulté comme AIME'24 et AIME'25 (+5,00 et +10,00)

Qwen3-8B-Base:

  • Score moyen LTE (avec entropie) de 42,40, amélioration de +1,78 par rapport à GRPO
  • Performance relativement instable, attribuée à la petite taille des données d'entraînement (3 236 échantillons)

Performance Pass@k (Tableau 3)

Qwen3-4B-Base:

MéthodeMATH-500MinervaOlympiadAMC'23AIME'24AIME'25Moy.
Base69,8037,8739,7082,5033,3326,6748,31
GRPO (sans entropie)77,2037,5042,0775,0026,6726,6747,52
LTE (avec entropie)82,4042,2851,1190,0060,0040,0060,97

Découvertes importantes:

  • GRPO standard réduit Pass@k (47,52 vs 48,31 baseline), indiquant une capacité d'exploration endommagée
  • LTE (avec entropie) améliore considérablement Pass@k à 60,97, +12,66 par rapport à la baseline
  • Prouve que LTE non seulement ne nuit pas à la limite d'exploration, mais améliore significativement la capacité d'exploration

Analyse des Données d'Entraînement

Variation des échantillons sans-passage (Figure 3a):

  • GRPO stagne après 200 étapes, incapable de résoudre davantage d'échantillons sans-passage
  • Extra Rollouts apporte uniquement une amélioration marginale
  • LTE réduit continuellement les échantillons sans-passage, maintenant une tendance à la baisse en fin d'entraînement
  • LTE (avec entropie) réduit les échantillons sans-passage de plus de 80 initialement à environ 45

Variation des échantillons partiellement-passage (Figure 3b):

  • LTE maintient un nombre d'échantillons partiellement-passage plus élevé en fin d'entraînement (~60 vs ~50)
  • Les échantillons partiellement-passage fournissent des gradients non-nuls, source principale du signal d'apprentissage

Variation des échantillons tous-passage (Figure 3c):

  • LTE maintient un nombre d'échantillons tous-passage plus faible (~5 vs ~15-20)
  • Évite une convergence excessivement déterministe, préservant la capacité d'exploration

Analyse de la Dynamique d'Entraînement

Performance sur l'ensemble de validation (Figures 4a-b):

  • Pass@1: Les méthodes baseline stagnent après 100 étapes, LTE continue à s'améliorer à 75%+
  • Pass@4: Les méthodes baseline diminuent après 100 étapes, LTE continue à s'améliorer à 82%+

Entropie de politique (Figure 4c):

  • Toutes les méthodes connaissent une décroissance d'entropie
  • LTE maintient une entropie relativement élevée en fin d'entraînement (~0,2 vs ~0,05)
  • Indique que LTE préserve une certaine incertitude et capacité d'exploration

Longueur de réponse (Figure 4d):

  • Les méthodes baseline augmentent lentement la longueur de réponse, stagnant après 250 étapes (~2 500 tokens)
  • LTE augmente considérablement la longueur de réponse en fin d'entraînement à 3 500+ tokens
  • Prouve que LTE encourage implicitement la réflexion profonde au moment du test (test-time deep thinking)

Découvertes des Études d'Ablation

Rôle de la perte d'entropie:

  • Apporte une amélioration de performance pour toutes les méthodes
  • Effet optimal en combinaison avec LTE, indiquant une action synergique entre le contrôle d'entropie et l'exploration autonome

Limitations des Extra Rollouts:

  • L'augmentation simple des rollouts n'exploite pas pleinement les informations existantes
  • Parfois apporte même des effets négatifs (certaines métriques du modèle 8B)

Analyse Théorique

Preuve d'Élagage de l'Espace d'État

Définition du sous-espace d'échec: Sqf={sSq:Extract(s)Aq}S^f_q = \{s \in S_q : \text{Extract}(s) \in A_q\}, où AqA_q est l'ensemble des réponses incorrectes générées

Définition du sous-espace élaguée: Sq=Sq\SqfS'_q = S_q \backslash S^f_q

Théorème fondamental: Étant donné l'indice HqH_q (contenant les réponses incorrectes), la probabilité d'atteindre la réponse correcte augmente :

P(sMqq,Hq,πθ)P(sMqq,πθ)α(1+δ1τ1/n)\frac{P(s \in M_q | q, H_q, \pi_\theta)}{P(s \in M_q | q, \pi_\theta)} \geq \alpha \cdot \left(1 + \frac{\delta}{1-\tau^{1/n}}\right)

où :

  • MqM_q: ensemble d'états de réponse correcte
  • δ>0\delta > 0: réduction de la probabilité du sous-espace d'échec causée par l'indice
  • τ\tau: niveau de confiance d'observer n échecs consécutifs
  • αΩ(1)\alpha \sim \Omega(1): facteur d'impact de l'indice sur la capacité de raisonnement dans le sous-espace élaguée

Conclusion: Puisque α\alpha ne devrait pas être significativement inférieur à 1, ce ratio est supérieur à 1, prouvant que l'indice augmente la probabilité d'atteindre la réponse correcte.

Analyse du Gain d'Information

D'une perspective théorique de l'information :

ILTEIGRPO=I(πθ;HD)0I_{LTE} - I_{GRPO} = I(\pi_\theta; H | D) \geq 0

Prouve que LTE obtient une information mutuelle supplémentaire de l'ensemble d'indices HH, théoriquement supérieur à GRPO.

Travaux Connexes

Amélioration de la Capacité d'Exploration

  1. Méthodes de contrôle d'entropie:
    • Clip-Cov et KL-Cov (Cui et al., 2025)
    • Clip-Higher (Yu et al., 2025)
    • Perte d'entropie adaptative (He et al., 2025)
  2. Méthodes sans contrôle d'entropie:
    • Relecture historique (Dou et al., 2025)
    • Récompense Pass@k (Chen et al., 2025)
    • Promotion de la diversité (Song et al., 2025)

Apprentissage avec Guidance Externe

  • Entraînement mixte (Yan et al., 2025; Ma et al., 2025)
  • Méthodes d'indice (Zhang et al., 2025a)
  • Limitations: Dépendance à l'annotation manuelle ou à des modèles plus puissants, coût élevé et disponibilité limitée

Différences de cet Article

  • EvoCoT (Liu et al., 2025a): Utilise les réponses ground truth comme indices
  • LTE: Utilise les réponses incorrectes du modèle, exploite plus pleinement les informations de calcul, évite le piratage de récompense

Expansion des Rollouts

  • Expansion extrême des rollouts (Hu et al., 2025)
  • Stratégie de rollout adaptative (Li et al., 2025; Zhang et al., 2025c)
  • Avantage de LTE: Exploite les informations d'essai-erreur, plutôt que simplement augmenter l'échantillonnage

Conclusion et Discussion

Conclusions Principales

  1. Validation d'efficacité: LTE surpasse significativement GRPO et les extra rollouts simples sur deux LLMs et six benchmarks
  2. Atténuation de la stagnation exploratoire: Réduit avec succès les échantillons sans-passage, continuant à apprendre des données d'entraînement
  3. Amélioration double capacité: Renforce simultanément l'exploitation (Pass@1) et l'exploration (Pass@k)
  4. Apprentissage autonome: Surmonter les goulots d'étranglement de capacité sans guidance externe d'experts

Limitations

  1. Limitation de tâche: Actuellement applicable uniquement au raisonnement mathématique, format de réponse concis
    • Nécessite des modifications pour supporter la génération de code et autres tâches
  2. Contrôle d'entropie: N'intègre pas le contrôle d'entropie adaptatif explicite, peut ne pas être optimal
  3. Limitation d'échelle: Limité par les ressources de calcul, non validé sur les grands modèles (>10B)
  4. Instabilité du modèle 8B: Données d'entraînement trop petites (3 236 échantillons) causant le surapprentissage

Directions Futures

Les auteurs proposent explicitement quatre directions de recherche :

  1. Contrôle d'entropie adaptatif: Combiner LTE avec des mécanismes d'ajustement d'entropie dynamique
  2. Amélioration des informations d'indice: Intégrer les informations ground truth tout en évitant le piratage de récompense
  3. Indices granulaires: Appliquer les indices d'erreurs accumulées au niveau des rollouts individuels
  4. Extension de tâche: Généraliser à la génération de code, preuve de théorème et autres domaines

Évaluation Approfondie

Avantages

1. Innovativité de la Méthode ⭐⭐⭐⭐⭐

  • Innovation fondamentale: Première exploitation systématique des réponses incorrectes des LLMs comme guidance d'exploration
  • Support théorique: Fournit preuve d'élagage d'espace d'état et gain d'information
  • Valeur pratique: Sans ressources externes, coût faible, forte scalabilité

2. Complétude Expérimentale ⭐⭐⭐⭐

  • Évaluation multidimensionnelle: Couvre 6 benchmarks, 2 modèles, 2 dimensions de métriques
  • Analyse approfondie:
    • Dynamique des données d'entraînement (sans/partiellement/tous-passage)
    • Dynamique du processus d'entraînement (entropie, longueur de réponse)
    • Études d'ablation (impact de la perte d'entropie)
  • Comparaison complète: Inclut multiples baselines et variantes

3. Détails Techniques ⭐⭐⭐⭐⭐

  • Stratégie d'indice adaptative: Ajustement dynamique selon le statut de troncature, considération réfléchie
  • Optimisation de politique mixte: Échantillonnage d'importance régularisé traitant les données off-policy, technique mature
  • Implémentation complète: Fournit hyperparamètres détaillés et pseudocode d'algorithme

4. Clarté de Rédaction ⭐⭐⭐⭐

  • Titre philosophique ("Ne pas entrer deux fois dans le même fleuve")
  • Figures riches (diagramme de cadre, modèles de prompt, courbes d'entraînement)
  • Logique claire, progression du problème → méthode → expérience → analyse

Insuffisances

1. Limitations de la Méthode

  • Spécificité de tâche: Dépend du format de réponse extractible, difficile à transférer directement aux tâches de génération ouverte
  • Traitement de troncature simplifié: Traiter toutes les réponses tronquées comme invalides peut perdre des informations utiles
  • Conception d'indice: Les modèles d'indice fixes peuvent ne pas être optimaux, manque de mécanisme d'optimisation automatique

2. Défauts de Configuration Expérimentale

  • Déséquilibre des données d'entraînement: Modèle 8B avec seulement 3 236 échantillons, résultats instables
  • Limitation d'échelle de modèle: Non validé à l'échelle 10B+, généralisation douteuse
  • Absence d'évaluation humaine: Manque d'analyse manuelle de la qualité des chaînes de raisonnement générées

3. Profondeur d'Analyse

  • Qualité des réponses incorrectes: Pas d'analyse des types d'erreurs les plus efficaces
  • Sensibilité aux indices: Pas d'étude systématique de l'impact du format d'indice et du nombre de réponses incorrectes
  • Coût de calcul: Pas de rapport sur le temps d'entraînement et les frais de calcul des rollouts supplémentaires

4. Écart Théorie-Pratique

  • Hypothèses théoriques: L'hypothèse αΩ(1)\alpha \sim \Omega(1) dans l'analyse d'élagage d'espace d'état manque de vérification empirique
  • Traitement simplifié: Traiter πθold\pi_{\theta_{old}} comme 1 dans l'échantillonnage d'importance, la correction théorique nécessite une justification supplémentaire

Évaluation d'Impact

Valeur Académique ⭐⭐⭐⭐

  • Changement de paradigme: Transition de la dépendance à la guidance externe vers l'apprentissage autonome, forte inspiration
  • Contribution théorique: Connexion entre exploration en apprentissage par renforcement et raisonnement LLM, signification transdisciplinaire
  • Recherche Ultérieure: A déjà inspiré une attention généralisée au paradigme "apprendre de l'échec"

Valeur Pratique ⭐⭐⭐⭐

  • Facilité d'implémentation: Nécessite uniquement la modification de prompt et de stratégie d'échantillonnage, convivialité d'ingénierie
  • Économie de coûts: Sans annotation de données supplémentaires ou modèles plus puissants
  • Bénéfices immédiats: Les expériences montrent des améliorations de performance significatives et cohérentes

Reproductibilité ⭐⭐⭐⭐

  • Détails complets: Fournit configuration d'entraînement et hyperparamètres complets
  • Convivialité open-source: Basé sur le cadre verl, implémentation de code relativement simple
  • Données publiques: Utilise l'ensemble de données public Skywork-OR1-RL-Data

Scénarios d'Application

Hautement Applicable ✅

  1. Raisonnement mathématique: Réponses vérifiables, format régulier
  2. Génération de code: Vérifiable via cas de test (nécessite adaptation)
  3. Raisonnement logique: Tâches avec jugement clair correct/incorrect
  4. Scénarios de ressources limitées: Impossible d'accéder à des modèles plus puissants ou annotations manuelles

Modérément Applicable ⚠️

  1. QA Ouverte: Nécessite conception de mécanisme d'extraction et vérification de réponse
  2. Raisonnement Multimodal: Nécessite extension à modalités non-textuelles
  3. Génération de Texte Long: Stratégie de troncature nécessite raffinement

Non Applicable ❌

  1. Écriture Créative: Pas de standard objectif correct/incorrect
  2. Tâches Subjectives: Comme analyse de sentiment, transfert de style
  3. Tâches sans Vérificateur: Manque de mécanisme de vérification automatique

Perspectives Clés

  1. "L'Échec comme Information": Les réponses incorrectes ne sont pas du bruit, mais des signaux précieux pour réduire l'espace de solution
  2. Équilibre Exploration-Exploitation: LTE améliore simultanément les deux via apprentissage autonome, brisant le trade-off traditionnel
  3. Émergence de Réflexion Profonde: L'augmentation de longueur de réponse prouve que le modèle a appris à investir plus de ressources de calcul
  4. Paradoxe de Concision: Inciter à "penser de manière concise" aide paradoxalement à résoudre des problèmes complexes, démontrant que la qualité surpasse la quantité

Références (Sélection)

  1. DeepSeek-AI (2025): DeepSeek-R1 - Travail fondateur utilisant l'apprentissage par renforcement pour stimuler les capacités de raisonnement
  2. Shao et al. (2024): Algorithme GRPO - Méthode de base de cet article
  3. Yan et al. (2025): Apprentissage avec guidance hors-politique - Source d'inspiration pour l'optimisation de politique mixte
  4. Cui et al. (2025): Analyse des mécanismes d'entropie - Base théorique de la capacité d'exploration

Évaluation Globale: ⭐⭐⭐⭐ (4,5/5)

Recommandation de Lecture: Fortement recommandé aux chercheurs travaillant sur le raisonnement LLM, l'apprentissage par renforcement et la résolution de problèmes mathématiques. La méthode est simple et efficace, l'intégration théorie-pratique est étroite, représentant un progrès important dans le domaine de RLVR.