SELF-REDRAFT: Eliciting Intrinsic Exploration-Exploitation Balance in Test-Time Scaling for Code Generation
Chen, Zheng, Huang et al.
Test-time scaling without interpreter feedback is essential for real-world code generation scenarios where test cases are not readily available. While existing paradigms often rely on either greedy exploitation (i.e., iterative refinement) or stochastic exploration (i.e., relying on sample-based voting or reranking mechanisms), the balance between these two dimensions remains underexplored. To investigate the LLM's intrinsic ability to balance exploitation and exploration, we introduce SELF-REDRAFT, a framework built upon Self-Refine that encourages the model to propose new drafts for solutions that are fundamentally flawed. Our results show that SELF-REDRAFT consistently achieves better performance than Self-Refine when converged under the same maximum number of iterations. Still, we observe that significant room for improvement remains, largely due to two core aspects of current self-redraft capabilities: constrained capacity for generating instructive feedback and fragile discriminative judgment. We also find that balancing strategies vary notably across different LLMs, reflecting distinct, model-specific behaviors. Overall, our study establishes a baseline for intrinsic exploration-exploitation balancing in test-time scaling and identifies feedback and discrimination as key areas with potential for future advances.
academic
SELF-REDRAFT: Выявление внутреннего баланса исследования-эксплуатации при масштабировании на этапе тестирования для генерации кода
В данной работе исследуется внутренняя способность больших языковых моделей (LLM) балансировать исследование (exploration) и эксплуатацию (exploitation) при генерации кода в сценариях масштабирования на этапе тестирования без обратной связи от интерпретатора. Существующие методы либо полагаются на жадную эксплуатацию (итеративная оптимизация), либо на случайное исследование (голосование на основе выборки или переупорядочение), однако баланс между ними остаётся недостаточно изученным. Авторы предлагают фреймворк SELF-REDRAFT, который дополняет Self-Refine механизмом переработки принципиально ошибочных решений. Эксперименты показывают, что SELF-REDRAFT постоянно превосходит Self-Refine при одинаковом бюджете итераций, однако остаётся значительное пространство для улучшения, ограниченное двумя ключевыми способностями: недостаточной способностью генерировать направляющую обратную связь и хрупкой способностью различения. Исследование также выявляет значительные различия в стратегиях балансирования между различными LLM, отражающие модельно-специфичные поведенческие характеристики.
Данная работа сосредоточена на проблеме генерации кода в сценарии масштабирования на этапе тестирования без обратной связи от выполнения (execution-free test-time scaling). В практических приложениях тестовые случаи часто недоступны, поэтому требуется, чтобы LLM самостоятельно улучшала качество кода без обратной связи от выполнения программы.
Практическая необходимость: В реальных сценариях тестовые случаи часто отсутствуют, среда выполнения может быть недоступна
Вычислительная эффективность: Масштабирование на этапе тестирования является эффективным средством повышения производительности LLM, но требует максимизации производительности в рамках ограниченного вычислительного бюджета
Теоретическая ценность: Баланс исследования-эксплуатации является центральной проблемой в обучении с подкреплением и алгоритмах поиска, его применение в области генерации кода остаётся недостаточно изученным
Авторы стремятся исследовать внутреннюю способность (intrinsic ability) LLM балансировать исследование и эксплуатацию в условиях без обратной связи от выполнения, выявить узкие места текущих моделей и указать направления для будущих улучшений.
Предложение фреймворка SELF-REDRAFT: Введение явного выбора исследования на основе Self-Refine, позволяющего модели переработать решения с принципиальными ошибками (redraft), достигая баланса между исследованием и эксплуатацией
Установление эталонной оценки: Систематическая оценка 6 открытых и проприетарных LLM на LiveCodeBench, демонстрирующая среднее улучшение SELF-REDRAFT на 0,615% после 16 итераций
Выявление ключевых узких мест: Глубокий анализ раскрывает два критических ограничивающих фактора:
Недостаточная способность генерировать направляющую обратную связь (Insufficient Model Critique)
Хрупкая способность различать правильный/неправильный код (Fragile Code Discrimination)
Раскрытие модельно-специфичного поведения: Обнаружение значительных различий в стратегиях балансирования между различными LLM, указывающих на то, что эта способность не является универсальной, а представляет собой модельно-специфичное возникающее свойство
Количественное определение пространства улучшения: Путём сравнения с верхней границей pass@8 количественно определяется разрыв между текущим методом и потенциалом чистого исследования
Входные данные: Описание задачи программирования x Выходные данные: Решение кода y^, удовлетворяющее требованиям задачи Цель: Максимизировать функциональную корректность кода посредством ограниченного числа итераций (вычисления на этапе тестирования) без обратной связи от выполнения тестовых случаев
Ключевое отличие от Self-Refine: Self-Refine поддерживает только PASS и REFINE, являясь чисто эксплуатационным методом. SELF-REDRAFT вводит опцию REDRAFT, позволяя модели выявлять принципиальные ошибки и переработать решения.
Обоснование проектирования:
Проблемы кода делятся на поверхностные ошибки (синтаксис, граничные условия) и методологические ошибки (неправильный выбор алгоритма)
Pass@k: Метрика функциональной корректности
pass@k=EProblem[1−(kn)(kn−c)]
где n — количество сгенерированных образцов, c — количество правильных образцов. В данной работе используется n=16,k=8.
Коэффициент улучшения (rimp): Доля исходных ошибочных решений, которые были исправлены
Коэффициент регрессии (rreg): Доля исходных правильных решений, которые были повреждены
Recall on Draft: Вспомогательная метрика оценки правильного выявления рекомендаций "redraft"
Pass@8 значительно превосходит SELF-REDRAFT×16 (17 решений)
Ключевое открытие: Чистое исследование (8 независимых образцов) более эффективно, чем текущий баланс исследования-эксплуатации
Примеры разрыва:
GPT-4.1 mini: SELF-REDRAFT 35,1% vs Pass@8 41,8%
Qwen3-Next: SELF-REDRAFT 48,2% vs Pass@8 55,3%
Интерпретация: Множество задач могут быть решены просто путём разнообразной выборки, однако SELF-REDRAFT не использует это преимущество эффективно, указывая на низкую эффективность текущего механизма исследования.
Выборка троек (исходное решение, обратная связь, новое решение) из траекторий
Вспомогательный оценивающий видит только пару решений, определяя наличие методологического изменения
Сравнение оценки оценивающего с исходным предложением обратной связи (refine vs redraft)
Сбалансированная выборка: каждая группа содержит равное количество меток "draft" и "refine"
Максимум 1000 образцов на модель генерирования
Результаты Recall on Draft (рис. 5):
Средний recall: между 30-55%
Обнаруженная положительная корреляция (рис. 4): Recall on Draft коррелирует с величиной улучшения SELF-REDRAFT (коэффициент корреляции примерно 0,6-0,7)
Согласованность между оценивающими (рис. 7): Высокая согласованность рангов между различными вспомогательными моделями (Spearman ρ > 0,8)
Ключевой вывод: Большинство моделей не могут предоставить действенную обратную связь для методологического исправления, ограничивая эффективное исследование.
Сравнение коэффициентов улучшения и регрессии (таблица 1):
Модель
Self-Refine rimp
SELF-REDRAFT rimp
Self-Refine rreg
SELF-REDRAFT rreg
GPT-4.1 mini
3,29%
5,18% (+1,89)
1,11%
1,27% (+0,16)
GPT-4.1 nano
19,52%
23,02% (+3,50)
1,70%
2,33% (+0,63)
Kimi K2
9,89%
12,99% (+3,10)
1,57%
2,57% (+1,00)
Llama-4-Maverick
4,15%
6,74% (+2,59)
1,68%
3,78% (+2,10)
LongCat-Flash-Chat
18,68%
20,33% (+1,65)
2,69%
3,01% (+0,32)
Qwen3-Next
26,53%
29,34% (+2,81)
0,30%
0,60% (+0,30)
Ключевые открытия:
SELF-REDRAFT имеет более высокий коэффициент улучшения (исправляет больше ошибок)
Однако коэффициент регрессии также значительно увеличивается (повреждает больше правильных решений)
Увеличение коэффициента регрессии в некоторых моделях значительно (например, Llama-4-Maverick +2,10%)
Интерпретация: Переработка — это высокорисковая операция. Из-за ограниченной способности различения модель часто ошибочно классифицирует правильные решения как ошибочные и "портит" их, нивелируя выгоды от исследования.
График-бабочка показывает количество рекомендаций "refine" vs "redraft" для каждой модели в течение 16 итераций
Огромные различия:
Некоторые модели предпочитают "refine" (ориентированы на эксплуатацию)
Некоторые модели предпочитают "redraft" (ориентированы на исследование)
Нет единого паттерна
Значение: Баланс исследования-эксплуатации не является универсальной способностью, а представляет собой модельно-специфичное возникающее свойство, отражающее:
SELF-REDRAFT эффективен, но ограничен: Постоянно превосходит Self-Refine при одинаковом бюджете итераций, но величина улучшения ограничена (среднее 0,615%)
Два основных узких места:
Недостаточное генерирование обратной связи: Модель испытывает трудности с выявлением методологических ошибок, не может предоставить эффективное руководство для переработки
Хрупкая способность различения: Ошибочная классификация приводит к вредоносной переработке, увеличение коэффициента регрессии нивелирует выгоды
Модельно-специфичность: Стратегии балансирования значительно различаются между различными LLM, не являясь универсальной способностью
Огромный потенциал: Разрыв с верхней границей pass@8 указывает на большое количество неиспользованного пространства в измерении исследования
Данная работа представляет собой солидное эмпирическое исследование, сосредоточенное на важной, но игнорируемой проблеме: балансе исследования-эксплуатации при генерации кода без обратной связи от выполнения. Метод SELF-REDRAFT прост и элегантен, вводя механизм исследования посредством минимальных изменений. Хотя абсолютное улучшение ограничено (0,615%), ценность статьи заключается в:
Честной научной позиции: Не преувеличение эффекта, явное указание ограничений и разрывов
Глубоком механистическом анализе: Выявление двух ключевых узких мест — обратной связи и различения
Чётком направлении исследований: Указание пути для будущих работ
Основной вклад статьи не в предложении мощного нового метода, а в систематическом раскрытии недостатков текущих LLM в самостоятельном балансировании исследования-эксплуатации, что одинаково важно для развития области. Для исследователей это предоставляет явные цели улучшения; для практиков это напоминает об ограничениях текущих методов.
Рекомендуется, чтобы последующие работы сосредоточились на:
Обучении более сильным способностям критики и различения
Исследовании интеграции внешних знаний и инструментов
Разработке модельно-адаптивных стратегий балансирования
Проверке на большем количестве эталонов и сценариев