2025-11-30T00:01:19.060859

Do Not Step Into the Same River Twice: Learning to Reason from Trial and Error

Tang, Huang, Liu et al.

Reinforcement learning with verifiable rewards (RLVR) has significantly boosted the reasoning capability of large language models (LLMs) recently. However, existing RLVR approaches merely train LLMs based on their own generated responses and are constrained by the initial capability of LLMs, thus prone to exploration stagnation, in which LLMs fail to solve more training problems and cannot further learn from the training data. Some work tries to address this by leveraging off-policy solutions to training problems but requires external guidance from experts which suffers from limited availability. In this work, we propose LTE (Learning to reason from Trial and Error), an approach hinting LLMs with their previously self-generated incorrect answers and problem of overlong responses, which does not require any external expert guidance. Experiments validate the effectiveness of LTE, which outperforms the normal group relative policy optimization (GRPO) by 6.38 in Pass@1 and 9.00 in Pass@k on average across six mathematics benchmarks for Qwen3-4B-Base. Further analysis confirms that LTE successfully mitigates the problem of exploration stagnation and enhances both exploitation and exploration during training.

academic

Ne Pas Entrer Deux Fois dans le Même Fleuve : Apprendre à Raisonner par Essai et Erreur

Informations Fondamentales

ID de l'article: 2510.26109
Titre: Do Not Step Into the Same River Twice: Learning to Reason from Trial and Error
Auteurs: Chenming Tang, Hsiu-Yuan Huang, Weijie Liu, Saiyong Yang, Yunfang Wu (Université de Pékin & Tencent)
Classification: cs.LG (Apprentissage automatique)
Date de publication: 30 octobre 2025 (prépublication arXiv)
Lien de l'article: https://arxiv.org/abs/2510.26109v1

Résumé

Cet article propose la méthode LTE (Learning to reason from Trial and Error), visant à résoudre le problème de stagnation exploratoire des grands modèles de langage (LLMs) dans l'apprentissage par renforcement avec récompense vérifiable (RLVR). Les méthodes RLVR existantes s'entraînent uniquement sur les réponses générées par le modèle lui-même, limitées par les capacités initiales, et ont du mal à résoudre les problèmes dépassant le plafond de capacité. LTE exploite les réponses incorrectes précédemment générées par le modèle comme indices, sans nécessiter de guidance externe d'experts, pour surmonter les goulots d'étranglement de capacité. Les expériences sur Qwen3-4B-Base montrent que LTE surpasse la méthode GRPO standard de 6,38 (Pass@1) et 9,00 (Pass@k) en moyenne sur six benchmarks mathématiques.

Contexte de Recherche et Motivation

Problème Fondamental à Résoudre

Cet article aborde le problème de stagnation exploratoire dans l'entraînement par renforcement des grands modèles de langage. Il se manifeste spécifiquement par : lorsque la difficulté des échantillons d'entraînement dépasse le plafond de capacité actuel du modèle, toutes les réponses échantillonnées échouent à la vérification (c'est-à-dire des échantillons sans-passage), entraînant des fonctions d'avantage nulles pour tous, empêchant le modèle d'apprendre de ces échantillons.

Importance du Problème

Goulot d'étranglement de capacité: Les méthodes RLVR existantes enferment le modèle dans sa plage de capacité initiale, incapable de dépasser ses propres limites
Efficacité d'entraînement: De nombreux échantillons d'entraînement ne peuvent pas fournir de signaux d'apprentissage efficaces en raison de la stagnation exploratoire
Capacité de raisonnement: Limite l'amélioration des performances du modèle sur les tâches nécessitant une réflexion profonde, comme le raisonnement mathématique

Limitations des Approches Existantes

Les solutions existantes dépendent principalement de guidance externe :

Réponses standard annotées manuellement: Coût élevé, scalabilité faible
Chaînes de raisonnement générées par des modèles plus puissants: Indisponibles lors de l'entraînement des modèles phares
Augmentation simple du nombre d'échantillons: N'exploite pas les informations de rollout existantes, faible efficacité

Motivation de la Recherche

Proposer une méthode d'apprentissage autonome qui exploite uniquement l'expérience d'essai-erreur du modèle lui-même, sans aucune guidance externe d'experts, pour surmonter les goulots d'étranglement exploratoires.

Contributions Fondamentales

Proposition de la méthode LTE: Première méthode exploitant systématiquement l'expérience d'essai-erreur des LLMs (réponses incorrectes) comme indices pour résoudre la stagnation exploratoire, sans guidance externe d'experts
Mécanisme d'optimisation de politique mixte: Conception d'un cadre d'entraînement combinant des échantillons on-policy et off-policy, traitant les solutions correctes générées par les indices via l'échantillonnage d'importance régularisé
Vérification expérimentale complète: Validation de l'efficacité sur deux LLMs (4B et 8B) et six benchmarks mathématiques, améliorations significatives des performances Pass@1 et Pass@k
Analyse approfondie des mécanismes:
- Preuve théorique que LTE augmente la probabilité d'atteindre la réponse correcte
- Analyse empirique confirmant que LTE atténue avec succès la stagnation exploratoire
- Révélation que LTE renforce simultanément les capacités d'exploitation et d'exploration

Détails de la Méthode

Définition de la Tâche

Entrée: Requête de problème mathématique $q \sim D$
Sortie: Chaîne de raisonnement et réponse finale $o$
Objectif: Maximiser via RLVR la probabilité de générer une réponse correcte, tout en dépassant le plafond de capacité initial du modèle

Cadre Global

Le processus fondamental de LTE comprend trois étapes :

1. Rollouts Initiaux

Pour chaque problème d'entraînement $q$ , échantillonner $G$ réponses $\{o_1, o_2, ..., o_G\}$ et vérifier leur exactitude.

2. Rollouts Supplémentaires avec Indices (Innovation Clé)

Pour les échantillons sans-passage (tous les rollouts initiaux échouent), sélectionner la stratégie d'indice selon le statut de troncature :

a) Tous-tronqués (toutes les réponses sont tronquées)

Modèle d'indice: "Let's think concisely and output the final answer within \boxed{}."

Attribué à des réponses trop longues, incitant le modèle à penser de manière concise.

b) Partiellement-tronqués (certaines réponses sont tronquées)

Modèle d'indice: "Hint: possible incorrect answers include [a1, a2, ...]
Do not use or mention the hint explicitly. Let's think concisely..."

Collecter les réponses incorrectes des réponses non-tronquées comme indices, tout en exigeant la concision.

c) Aucun-tronqué (aucune réponse tronquée)

Modèle d'indice: "Hint: possible incorrect answers include [a1, a2, ...]
Do not use or mention the hint explicitly. Let's think step by step..."

Fournir uniquement les indices de réponses incorrectes, permettant un raisonnement de longueur normale.

Sur la base du modèle d'indice sélectionné, réechantillonner $G$ rollouts supplémentaires $\{o_1^{hinted}, o_2^{hinted}, ..., o_G^{hinted}\}$ .

3. Optimisation de Politique Mixte

Si les rollouts supplémentaires contiennent $G'$ solutions correctes $\{o'_1, ..., o'_{G'}\}$ , remplacer aléatoirement $G'$ réponses dans les rollouts initiaux.

Technique clé: Utiliser l'échantillonnage d'importance régularisé pour traiter les échantillons off-policy :

$\hat{r}'_{i,t}(\theta) = \frac{\pi_\theta(o'_{i,t} | q, o_{i,<t})}{\pi_{\theta_{old}}(o'_{i,t} | H_q, q, o_{i,<t})}$

$f(\hat{r}'_{i,t}(\theta)) = \frac{\hat{r}'_{i,t}(\theta)}{\hat{r}'_{i,t}(\theta) + \gamma}$

où $\gamma = 0,1$ , $H_q$ est l'information d'indice.

Fonction objectif de politique mixte:

$J_{Mixed}(\theta) = \mathbb{E}_{q,\{o'_i, o_{s_i}\}} \left[ \frac{1}{Z'} \sum_{i=1}^{G'} \sum_{t=1}^{|o'_i|} (f(\hat{r}'_{i,t}(\theta)) \cdot \hat{A}'_{i,t}) + \frac{1}{Z} \sum_{i=1}^{G-G'} \sum_{t=1}^{|o_{s_i}|} \text{CLIP}(r_{s_i,t}(\theta), \hat{A}_{s_i,t}, \epsilon) \right]$

Points d'Innovation Technique

Mécanisme d'apprentissage autonome: Indépendant de la supervision externe, exploitant uniquement les tentatives erronées du modèle
- Les réponses incorrectes servent de "contre-exemples", réduisant l'espace de solution
- Indiquant au modèle d'éviter de répéter les mêmes erreurs
Élagage de l'espace d'état: L'analyse théorique montre que l'indice élague l'espace d'état de $S_q$ à $S'_q = S_q \backslash S^f_q$ (excluant le sous-espace d'échec), augmentant la probabilité d'atteindre la réponse correcte
Stratégie d'indice adaptative: Ajuster dynamiquement le contenu de l'indice selon le statut de troncature
- Traiter les problèmes de réponses trop longues
- Équilibrer la profondeur d'exploration et l'efficacité
Entraînement de politique mixte: Traiter élégamment les données on-policy et off-policy
- Maintenir la stabilité d'entraînement
- Exploiter pleinement les informations des rollouts supplémentaires

Configuration Expérimentale

Ensembles de Données

Données d'entraînement: Skywork-OR1-RL-Data

Qwen3-4B-Base: Sous-ensemble de niveau 1, 9 189 échantillons
Qwen3-8B-Base: Sous-ensemble de niveau 3, 3 236 échantillons
Critère de sélection: Difficulté modérée, assurant l'apprentissabilité optimale

Métriques d'Évaluation

Six benchmarks mathématiques:

MATH-500: 4 échantillons, rapporter Mean@4 et Pass@4
Minerva: 4 échantillons, rapporter Mean@4 et Pass@4
OlympiadBench: 4 échantillons, rapporter Mean@4 et Pass@4
AMC'23: 16 échantillons, rapporter Mean@16 et Pass@16
AIME'24: 16 échantillons, rapporter Mean@16 et Pass@16
AIME'25: 16 échantillons, rapporter Mean@16 et Pass@16

Métriques fondamentales:

Pass@1: Précision d'échantillonnage unique (capacité d'exploitation)
Pass@k: Probabilité d'au moins une réponse correcte parmi k échantillons (limite d'exploration)

Méthodes de Comparaison

Base: Performance du modèle de base
GRPO: Optimisation de Politique Relative de Groupe standard
GRPO + Extra Rollouts: Augmentation simple des rollouts pour les échantillons sans-passage (sans indice)
LTE: Méthode proposée

Chaque méthode testée en deux versions :

sans Perte d'Entropie: Sans perte d'entropie
avec Perte d'Entropie: Ajout de perte d'entropie avec coefficient 0,003

Détails d'Implémentation

Cadre d'entraînement: verl
Hyperparamètres clés:

Taux d'apprentissage: 1e-6
Étapes d'entraînement: 300
Taille de lot: 128
Nombre d'échantillons par prompt: 8
Température: 1,0 (entraînement), 0,6 (évaluation)
Longueur maximale de réponse: 16 384 (entraînement), 32 768 (évaluation)
Coefficient KL: 0,001
Ratio de clip: 0,2

Configuration d'évaluation: Respect strict des protocoles standards, les indices d'entraînement utilisés uniquement pendant la phase d'entraînement, non utilisés lors de l'évaluation.

Résultats Expérimentaux

Résultats Principaux

Performance Pass@1 (Tableau 1)

Qwen3-4B-Base:

Méthode	MATH-500	Minerva	Olympiad	AMC'23	AIME'24	AIME'25	Moy.
Base	45,40	19,49	22,81	35,31	8,75	3,75	22,59
GRPO (sans entropie)	69,65	32,17	34,33	50,62	12,08	4,38	33,87
Extra Rollouts (sans entropie)	69,30	31,99	35,59	55,78	11,88	6,46	35,17
LTE (sans entropie)	71,95	33,82	38,44	58,91	16,88	12,29	38,72
LTE (avec entropie)	76,00	34,01	40,63	65,16	24,17	18,96	43,16

Découvertes clés:

LTE (avec entropie) améliore GRPO + Extra Rollouts de +6,38 points en moyenne
L'amélioration est particulièrement significative sur les tâches de haute difficulté comme AIME'24 et AIME'25 (+5,00 et +10,00)

Qwen3-8B-Base:

Score moyen LTE (avec entropie) de 42,40, amélioration de +1,78 par rapport à GRPO
Performance relativement instable, attribuée à la petite taille des données d'entraînement (3 236 échantillons)

Performance Pass@k (Tableau 3)

Qwen3-4B-Base:

Méthode	MATH-500	Minerva	Olympiad	AMC'23	AIME'24	AIME'25	Moy.
Base	69,80	37,87	39,70	82,50	33,33	26,67	48,31
GRPO (sans entropie)	77,20	37,50	42,07	75,00	26,67	26,67	47,52
LTE (avec entropie)	82,40	42,28	51,11	90,00	60,00	40,00	60,97

Découvertes importantes:

GRPO standard réduit Pass@k (47,52 vs 48,31 baseline), indiquant une capacité d'exploration endommagée
LTE (avec entropie) améliore considérablement Pass@k à 60,97, +12,66 par rapport à la baseline
Prouve que LTE non seulement ne nuit pas à la limite d'exploration, mais améliore significativement la capacité d'exploration

Analyse des Données d'Entraînement

Variation des échantillons sans-passage (Figure 3a):

GRPO stagne après 200 étapes, incapable de résoudre davantage d'échantillons sans-passage
Extra Rollouts apporte uniquement une amélioration marginale
LTE réduit continuellement les échantillons sans-passage, maintenant une tendance à la baisse en fin d'entraînement
LTE (avec entropie) réduit les échantillons sans-passage de plus de 80 initialement à environ 45

Variation des échantillons partiellement-passage (Figure 3b):

LTE maintient un nombre d'échantillons partiellement-passage plus élevé en fin d'entraînement (~60 vs ~50)
Les échantillons partiellement-passage fournissent des gradients non-nuls, source principale du signal d'apprentissage

Variation des échantillons tous-passage (Figure 3c):

LTE maintient un nombre d'échantillons tous-passage plus faible (~5 vs ~15-20)
Évite une convergence excessivement déterministe, préservant la capacité d'exploration

Analyse de la Dynamique d'Entraînement

Performance sur l'ensemble de validation (Figures 4a-b):

Pass@1: Les méthodes baseline stagnent après 100 étapes, LTE continue à s'améliorer à 75%+
Pass@4: Les méthodes baseline diminuent après 100 étapes, LTE continue à s'améliorer à 82%+

Entropie de politique (Figure 4c):

Toutes les méthodes connaissent une décroissance d'entropie
LTE maintient une entropie relativement élevée en fin d'entraînement (~0,2 vs ~0,05)
Indique que LTE préserve une certaine incertitude et capacité d'exploration

Longueur de réponse (Figure 4d):

Les méthodes baseline augmentent lentement la longueur de réponse, stagnant après 250 étapes (~2 500 tokens)
LTE augmente considérablement la longueur de réponse en fin d'entraînement à 3 500+ tokens
Prouve que LTE encourage implicitement la réflexion profonde au moment du test (test-time deep thinking)

Découvertes des Études d'Ablation

Rôle de la perte d'entropie:

Apporte une amélioration de performance pour toutes les méthodes
Effet optimal en combinaison avec LTE, indiquant une action synergique entre le contrôle d'entropie et l'exploration autonome

Limitations des Extra Rollouts:

L'augmentation simple des rollouts n'exploite pas pleinement les informations existantes
Parfois apporte même des effets négatifs (certaines métriques du modèle 8B)

Analyse Théorique

Preuve d'Élagage de l'Espace d'État

Définition du sous-espace d'échec: $S^f_q = \{s \in S_q : \text{Extract}(s) \in A_q\}$ , où $A_q$ est l'ensemble des réponses incorrectes générées

Définition du sous-espace élaguée: $S'_q = S_q \backslash S^f_q$

Théorème fondamental: Étant donné l'indice $H_q$ (contenant les réponses incorrectes), la probabilité d'atteindre la réponse correcte augmente :

$\frac{P(s \in M_q | q, H_q, \pi_\theta)}{P(s \in M_q | q, \pi_\theta)} \geq \alpha \cdot \left(1 + \frac{\delta}{1-\tau^{1/n}}\right)$

où :

$M_q$ : ensemble d'états de réponse correcte
$\delta > 0$ : réduction de la probabilité du sous-espace d'échec causée par l'indice
$\tau$ : niveau de confiance d'observer n échecs consécutifs
$\alpha \sim \Omega(1)$ : facteur d'impact de l'indice sur la capacité de raisonnement dans le sous-espace élaguée

Conclusion: Puisque $\alpha$ ne devrait pas être significativement inférieur à 1, ce ratio est supérieur à 1, prouvant que l'indice augmente la probabilité d'atteindre la réponse correcte.

Analyse du Gain d'Information

D'une perspective théorique de l'information :

$I_{LTE} - I_{GRPO} = I(\pi_\theta; H | D) \geq 0$

Prouve que LTE obtient une information mutuelle supplémentaire de l'ensemble d'indices $H$ , théoriquement supérieur à GRPO.

Travaux Connexes

Amélioration de la Capacité d'Exploration

Méthodes de contrôle d'entropie:
- Clip-Cov et KL-Cov (Cui et al., 2025)
- Clip-Higher (Yu et al., 2025)
- Perte d'entropie adaptative (He et al., 2025)
Méthodes sans contrôle d'entropie:
- Relecture historique (Dou et al., 2025)
- Récompense Pass@k (Chen et al., 2025)
- Promotion de la diversité (Song et al., 2025)

Apprentissage avec Guidance Externe

Entraînement mixte (Yan et al., 2025; Ma et al., 2025)
Méthodes d'indice (Zhang et al., 2025a)
Limitations: Dépendance à l'annotation manuelle ou à des modèles plus puissants, coût élevé et disponibilité limitée

Différences de cet Article

EvoCoT (Liu et al., 2025a): Utilise les réponses ground truth comme indices
LTE: Utilise les réponses incorrectes du modèle, exploite plus pleinement les informations de calcul, évite le piratage de récompense

Expansion des Rollouts

Expansion extrême des rollouts (Hu et al., 2025)
Stratégie de rollout adaptative (Li et al., 2025; Zhang et al., 2025c)
Avantage de LTE: Exploite les informations d'essai-erreur, plutôt que simplement augmenter l'échantillonnage

Conclusion et Discussion

Conclusions Principales

Validation d'efficacité: LTE surpasse significativement GRPO et les extra rollouts simples sur deux LLMs et six benchmarks
Atténuation de la stagnation exploratoire: Réduit avec succès les échantillons sans-passage, continuant à apprendre des données d'entraînement
Amélioration double capacité: Renforce simultanément l'exploitation (Pass@1) et l'exploration (Pass@k)
Apprentissage autonome: Surmonter les goulots d'étranglement de capacité sans guidance externe d'experts

Limitations

Limitation de tâche: Actuellement applicable uniquement au raisonnement mathématique, format de réponse concis
- Nécessite des modifications pour supporter la génération de code et autres tâches
Contrôle d'entropie: N'intègre pas le contrôle d'entropie adaptatif explicite, peut ne pas être optimal
Limitation d'échelle: Limité par les ressources de calcul, non validé sur les grands modèles (>10B)
Instabilité du modèle 8B: Données d'entraînement trop petites (3 236 échantillons) causant le surapprentissage

Directions Futures

Les auteurs proposent explicitement quatre directions de recherche :

Contrôle d'entropie adaptatif: Combiner LTE avec des mécanismes d'ajustement d'entropie dynamique
Amélioration des informations d'indice: Intégrer les informations ground truth tout en évitant le piratage de récompense
Indices granulaires: Appliquer les indices d'erreurs accumulées au niveau des rollouts individuels
Extension de tâche: Généraliser à la génération de code, preuve de théorème et autres domaines

Évaluation Approfondie

Avantages

1. Innovativité de la Méthode ⭐⭐⭐⭐⭐

Innovation fondamentale: Première exploitation systématique des réponses incorrectes des LLMs comme guidance d'exploration
Support théorique: Fournit preuve d'élagage d'espace d'état et gain d'information
Valeur pratique: Sans ressources externes, coût faible, forte scalabilité

2. Complétude Expérimentale ⭐⭐⭐⭐

Évaluation multidimensionnelle: Couvre 6 benchmarks, 2 modèles, 2 dimensions de métriques
Analyse approfondie:
- Dynamique des données d'entraînement (sans/partiellement/tous-passage)
- Dynamique du processus d'entraînement (entropie, longueur de réponse)
- Études d'ablation (impact de la perte d'entropie)
Comparaison complète: Inclut multiples baselines et variantes

3. Détails Techniques ⭐⭐⭐⭐⭐

Stratégie d'indice adaptative: Ajustement dynamique selon le statut de troncature, considération réfléchie
Optimisation de politique mixte: Échantillonnage d'importance régularisé traitant les données off-policy, technique mature
Implémentation complète: Fournit hyperparamètres détaillés et pseudocode d'algorithme

4. Clarté de Rédaction ⭐⭐⭐⭐

Titre philosophique ("Ne pas entrer deux fois dans le même fleuve")
Figures riches (diagramme de cadre, modèles de prompt, courbes d'entraînement)
Logique claire, progression du problème → méthode → expérience → analyse

Insuffisances

1. Limitations de la Méthode

Spécificité de tâche: Dépend du format de réponse extractible, difficile à transférer directement aux tâches de génération ouverte
Traitement de troncature simplifié: Traiter toutes les réponses tronquées comme invalides peut perdre des informations utiles
Conception d'indice: Les modèles d'indice fixes peuvent ne pas être optimaux, manque de mécanisme d'optimisation automatique

2. Défauts de Configuration Expérimentale

Déséquilibre des données d'entraînement: Modèle 8B avec seulement 3 236 échantillons, résultats instables
Limitation d'échelle de modèle: Non validé à l'échelle 10B+, généralisation douteuse
Absence d'évaluation humaine: Manque d'analyse manuelle de la qualité des chaînes de raisonnement générées

3. Profondeur d'Analyse

Qualité des réponses incorrectes: Pas d'analyse des types d'erreurs les plus efficaces
Sensibilité aux indices: Pas d'étude systématique de l'impact du format d'indice et du nombre de réponses incorrectes
Coût de calcul: Pas de rapport sur le temps d'entraînement et les frais de calcul des rollouts supplémentaires

4. Écart Théorie-Pratique

Hypothèses théoriques: L'hypothèse $\alpha \sim \Omega(1)$ dans l'analyse d'élagage d'espace d'état manque de vérification empirique
Traitement simplifié: Traiter $\pi_{\theta_{old}}$ comme 1 dans l'échantillonnage d'importance, la correction théorique nécessite une justification supplémentaire

Évaluation d'Impact

Valeur Académique ⭐⭐⭐⭐

Changement de paradigme: Transition de la dépendance à la guidance externe vers l'apprentissage autonome, forte inspiration
Contribution théorique: Connexion entre exploration en apprentissage par renforcement et raisonnement LLM, signification transdisciplinaire
Recherche Ultérieure: A déjà inspiré une attention généralisée au paradigme "apprendre de l'échec"

Valeur Pratique ⭐⭐⭐⭐

Facilité d'implémentation: Nécessite uniquement la modification de prompt et de stratégie d'échantillonnage, convivialité d'ingénierie
Économie de coûts: Sans annotation de données supplémentaires ou modèles plus puissants
Bénéfices immédiats: Les expériences montrent des améliorations de performance significatives et cohérentes

Reproductibilité ⭐⭐⭐⭐

Détails complets: Fournit configuration d'entraînement et hyperparamètres complets
Convivialité open-source: Basé sur le cadre verl, implémentation de code relativement simple
Données publiques: Utilise l'ensemble de données public Skywork-OR1-RL-Data

Scénarios d'Application

Hautement Applicable ✅

Raisonnement mathématique: Réponses vérifiables, format régulier
Génération de code: Vérifiable via cas de test (nécessite adaptation)
Raisonnement logique: Tâches avec jugement clair correct/incorrect
Scénarios de ressources limitées: Impossible d'accéder à des modèles plus puissants ou annotations manuelles

Modérément Applicable ⚠️

QA Ouverte: Nécessite conception de mécanisme d'extraction et vérification de réponse
Raisonnement Multimodal: Nécessite extension à modalités non-textuelles
Génération de Texte Long: Stratégie de troncature nécessite raffinement

Non Applicable ❌

Écriture Créative: Pas de standard objectif correct/incorrect
Tâches Subjectives: Comme analyse de sentiment, transfert de style
Tâches sans Vérificateur: Manque de mécanisme de vérification automatique

Perspectives Clés

"L'Échec comme Information": Les réponses incorrectes ne sont pas du bruit, mais des signaux précieux pour réduire l'espace de solution
Équilibre Exploration-Exploitation: LTE améliore simultanément les deux via apprentissage autonome, brisant le trade-off traditionnel
Émergence de Réflexion Profonde: L'augmentation de longueur de réponse prouve que le modèle a appris à investir plus de ressources de calcul
Paradoxe de Concision: Inciter à "penser de manière concise" aide paradoxalement à résoudre des problèmes complexes, démontrant que la qualité surpasse la quantité

Références (Sélection)

DeepSeek-AI (2025): DeepSeek-R1 - Travail fondateur utilisant l'apprentissage par renforcement pour stimuler les capacités de raisonnement
Shao et al. (2024): Algorithme GRPO - Méthode de base de cet article
Yan et al. (2025): Apprentissage avec guidance hors-politique - Source d'inspiration pour l'optimisation de politique mixte
Cui et al. (2025): Analyse des mécanismes d'entropie - Base théorique de la capacité d'exploration

Évaluation Globale: ⭐⭐⭐⭐ (4,5/5)

Recommandation de Lecture: Fortement recommandé aux chercheurs travaillant sur le raisonnement LLM, l'apprentissage par renforcement et la résolution de problèmes mathématiques. La méthode est simple et efficace, l'intégration théorie-pratique est étroite, représentant un progrès important dans le domaine de RLVR.