SELF-REDRAFT: Eliciting Intrinsic Exploration-Exploitation Balance in Test-Time Scaling for Code Generation
Chen, Zheng, Huang et al.
Test-time scaling without interpreter feedback is essential for real-world code generation scenarios where test cases are not readily available. While existing paradigms often rely on either greedy exploitation (i.e., iterative refinement) or stochastic exploration (i.e., relying on sample-based voting or reranking mechanisms), the balance between these two dimensions remains underexplored. To investigate the LLM's intrinsic ability to balance exploitation and exploration, we introduce SELF-REDRAFT, a framework built upon Self-Refine that encourages the model to propose new drafts for solutions that are fundamentally flawed. Our results show that SELF-REDRAFT consistently achieves better performance than Self-Refine when converged under the same maximum number of iterations. Still, we observe that significant room for improvement remains, largely due to two core aspects of current self-redraft capabilities: constrained capacity for generating instructive feedback and fragile discriminative judgment. We also find that balancing strategies vary notably across different LLMs, reflecting distinct, model-specific behaviors. Overall, our study establishes a baseline for intrinsic exploration-exploitation balancing in test-time scaling and identifies feedback and discrimination as key areas with potential for future advances.
academic
SELF-REDRAFT : Élicitation de l'équilibre intrinsèque exploration-exploitation dans la mise à l'échelle au moment du test pour la génération de code
Cet article étudie la capacité intrinsèque des grands modèles de langage (LLM) à équilibrer l'exploration et l'exploitation lors de la génération de code dans un scénario de mise à l'échelle au moment du test sans retours d'exécution. Les méthodes existantes dépendent soit de l'exploitation gourmande (optimisation itérative), soit de l'exploration aléatoire (vote basé sur l'échantillonnage ou réordonnancement), mais l'équilibre entre les deux n'a pas été suffisamment étudié. Les auteurs proposent le cadre SELF-REDRAFT, qui ajoute au cadre Self-Refine un mécanisme de redéfinition des solutions fondamentalement erronées. Les expériences montrent que SELF-REDRAFT surpasse constamment Self-Refine avec le même budget itératif, mais il existe encore un espace d'amélioration significatif, principalement limité par deux capacités fondamentales : l'insuffisance dans la génération de retours directifs et la fragilité de la capacité discriminante. L'étude révèle également des différences significatives dans les stratégies d'équilibre entre différents LLM, reflétant des caractéristiques comportementales spécifiques au modèle.
Cet article se concentre sur le problème de la génération de code dans le scénario de mise à l'échelle au moment du test sans retours d'exécution (execution-free test-time scaling). En pratique, les cas de test ne sont souvent pas disponibles, ce qui nécessite que les LLM améliorent autonomement la qualité du code sans retours d'exécution du programme.
Besoin pratique : Les cas de test manquent souvent dans les scénarios réels, et les environnements d'exécution peuvent ne pas être disponibles
Efficacité computationnelle : La mise à l'échelle au moment du test est un moyen efficace d'améliorer les performances des LLM, mais nécessite de maximiser les performances dans un budget de calcul limité
Valeur théorique : L'équilibre exploration-exploitation est un problème fondamental en apprentissage par renforcement et en algorithmes de recherche, mais son application dans la génération de code n'a pas été suffisamment étudiée
Méthodes dépendantes de l'exécution : Nécessitent des cas de test et un environnement d'exécution, limitées dans les scénarios pratiques
Méthodes purement exploitantes (comme Self-Refine) : Effectuent uniquement une optimisation itérative, risquant de rester bloquées dans des optima locaux
Méthodes purement exploratoires (comme pass@k) : Obtiennent la diversité par plusieurs échantillonnages, mais manquent d'améliorations ciblées
Absence d'équilibre : Les méthodes existantes sans retours d'exécution dépendent principalement de l'exploitation, la dimension d'exploration étant négligée
Les auteurs visent à étudier la capacité intrinsèque (intrinsic ability) des LLM à équilibrer exploration et exploitation sans retours d'exécution, à identifier les goulots d'étranglement des modèles actuels et à indiquer des directions pour les améliorations futures.
Proposition du cadre SELF-REDRAFT : Introduction d'un choix d'exploration explicite basé sur Self-Refine, permettant au modèle de redéfinir les solutions fondamentalement erronées (redraft), réalisant un équilibre entre exploration et exploitation
Établissement d'une évaluation de référence : Évaluation systématique de 6 LLM open-source et propriétaires sur LiveCodeBench, démontrant une amélioration moyenne de 0,615% après 16 itérations avec SELF-REDRAFT
Identification des goulots d'étranglement fondamentaux : Révélation par analyse approfondie de deux facteurs de limitation clés :
Insuffisance dans la génération de retours directifs (Insufficient Model Critique)
Fragilité de la capacité à discriminer le code correct/incorrect (Fragile Code Discrimination)
Révélation des comportements spécifiques au modèle : Découverte de différences significatives dans les stratégies d'équilibre entre différents LLM, indiquant que cette capacité n'est pas universelle mais plutôt une propriété émergente spécifique au modèle
Quantification de l'espace d'amélioration : Quantification de l'écart entre les méthodes actuelles et le potentiel d'exploration pure par comparaison avec la limite supérieure pass@8
Entrée : Description de la tâche de programmation x Sortie : Solution de code y^ satisfaisant les exigences de la tâche Objectif : Maximiser la correction fonctionnelle du code par itérations limitées (calcul au moment du test) sans retours d'exécution de cas de test
Différence fondamentale avec Self-Refine : Self-Refine ne supporte que PASS et REFINE, étant purement exploitant. SELF-REDRAFT introduit l'option REDRAFT, permettant au modèle d'identifier les erreurs fondamentales et de redéfinir les solutions.
Justification de la conception :
Les problèmes de code se divisent en erreurs superficielles (syntaxe, conditions limites) et erreurs méthodologiques (choix d'algorithme incorrect)
Les erreurs superficielles conviennent à l'optimisation progressive (refine), les erreurs méthodologiques nécessitent une réflexion nouvelle (redraft)
En laissant le modèle juger autonomement le type d'erreur, on réalise un équilibre dynamique exploration-exploitation
Pass@k : Métrique de correction fonctionnelle
pass@k=EProbleˋme[1−(kn)(kn−c)]
où n est le nombre d'échantillons générés et c le nombre d'échantillons corrects. Cet article utilise n=16,k=8.
Taux d'amélioration (rimp) : Proportion de solutions initialement erronées corrigées
Taux de régression (rreg) : Proportion de solutions initialement correctes détériorées
Rappel sur Redraft : Taux de rappel du correcteur auxiliaire pour identifier correctement les recommandations "redraft"
Découverte clé : L'exploration pure (8 échantillons indépendants) est plus efficace que l'équilibre exploration-exploitation actuel
Exemples d'écarts :
GPT-4.1 mini : SELF-REDRAFT 35,1% vs Pass@8 41,8%
Qwen3-Next : SELF-REDRAFT 48,2% vs Pass@8 55,3%
Interprétation : De nombreux problèmes peuvent être résolus simplement par échantillonnage diversifié, mais SELF-REDRAFT n'exploite pas efficacement cet avantage, indiquant une faible efficacité du mécanisme d'exploration actuel.
Conception d'expérience en aveugle (Section 3.3) :
Échantillonnage de triplets (solution originale, retours, nouvelle solution) à partir des trajectoires
Le correcteur auxiliaire juge uniquement les paires de solutions pour détecter les changements méthodologiques
Comparaison des jugements du correcteur avec les recommandations de retours originales (refine vs redraft)
Équilibrage des échantillons : chaque groupe contient un nombre égal d'étiquettes "draft" et "refine"
Maximum 1 000 échantillons par modèle générateur
Résultats du rappel sur Redraft (Figure 5) :
Taux de rappel moyen : entre 30-55%
Découverte de corrélation positive (Figure 4) : Le rappel sur Redraft est positivement corrélé à l'ampleur d'amélioration de SELF-REDRAFT (coefficient de corrélation environ 0,6-0,7)
Cohérence entre correcteurs (Figure 7) : Le classement de différents modèles auxiliaires est hautement cohérent (Spearman ρ > 0,8)
Conclusion fondamentale : La plupart des modèles ne peuvent pas fournir de retours opérationnels pour la correction méthodologique, limitant l'exploration efficace.
Comparaison des taux d'amélioration et de régression (Tableau 1) :
Modèle
Self-Refine rimp
SELF-REDRAFT rimp
Self-Refine rreg
SELF-REDRAFT rreg
GPT-4.1 mini
3,29%
5,18% (+1,89)
1,11%
1,27% (+0,16)
GPT-4.1 nano
19,52%
23,02% (+3,50)
1,70%
2,33% (+0,63)
Kimi K2
9,89%
12,99% (+3,10)
1,57%
2,57% (+1,00)
Llama-4-Maverick
4,15%
6,74% (+2,59)
1,68%
3,78% (+2,10)
LongCat-Flash-Chat
18,68%
20,33% (+1,65)
2,69%
3,01% (+0,32)
Qwen3-Next
26,53%
29,34% (+2,81)
0,30%
0,60% (+0,30)
Découvertes clés :
Le taux d'amélioration de SELF-REDRAFT est plus élevé (corrige plus d'erreurs)
Mais le taux de régression augmente également significativement (détériore plus de solutions correctes)
L'augmentation du taux de régression est importante sur certains modèles (par exemple Llama-4-Maverick +2,10%)
Interprétation : La redéfinition est une opération à haut risque. En raison de la capacité discriminante limitée, le modèle classe souvent incorrectement les solutions correctes comme erronées et les "améliore" en les détériorant, annulant les bénéfices de l'exploration.
SELF-REDRAFT est efficace mais limité : Surpasse constamment Self-Refine avec le même budget itératif, mais l'ampleur de l'amélioration est limitée (moyenne 0,615%)
Deux goulots d'étranglement majeurs :
Génération de retours insuffisante : Le modèle a du mal à identifier les erreurs méthodologiques, incapable de fournir des conseils efficaces pour la redéfinition
Capacité discriminante fragile : Les erreurs de classification entraînent des redéfinitions nuisibles, l'augmentation du taux de régression annulant les bénéfices
Spécificité du modèle : Les stratégies d'équilibre diffèrent énormément entre les LLM, ce n'est pas une capacité universelle
Potentiel énorme : L'écart avec la limite supérieure pass@8 indique un espace largement inexploité dans la dimension d'exploration
Cet article est une recherche empirique solide, concentrée sur un problème important mais négligé dans la génération de code : l'équilibre exploration-exploitation sans retours d'exécution. La méthode SELF-REDRAFT est simple et élégante, introduisant un mécanisme d'exploration par modification minimale. Bien que l'amélioration absolue soit limitée (0,615%), la valeur de l'article réside dans :
Attitude scientifique honnête : Ne pas exagérer les effets, clarifier les limitations et les écarts
Analyse mécanique approfondie : Identification de deux goulots d'étranglement - retours et discrimination
Trajectoire de recherche claire : Indication de directions pour les travaux futurs
La contribution principale de l'article n'est pas de proposer une nouvelle méthode puissante, mais de révéler systématiquement les insuffisances des LLM actuels dans l'équilibre autonome exploration-exploitation, ce qui est tout aussi important pour l'avancement du domaine. Pour les chercheurs, cela fournit des objectifs d'amélioration clairs ; pour les praticiens, cela rappelle les limitations des méthodes actuelles.
Recommandations pour les travaux ultérieurs, en se concentrant sur :
Entraînement de capacités critiques et discriminantes plus fortes
Exploration de l'intégration de connaissances externes et d'outils
Étude de stratégies d'équilibre adaptatives par modèle
Vérification sur plus de référentiels et de scénarios