2025-11-30T18:52:18.815530

SELF-REDRAFT: Eliciting Intrinsic Exploration-Exploitation Balance in Test-Time Scaling for Code Generation

Chen, Zheng, Huang et al.

Test-time scaling without interpreter feedback is essential for real-world code generation scenarios where test cases are not readily available. While existing paradigms often rely on either greedy exploitation (i.e., iterative refinement) or stochastic exploration (i.e., relying on sample-based voting or reranking mechanisms), the balance between these two dimensions remains underexplored. To investigate the LLM's intrinsic ability to balance exploitation and exploration, we introduce SELF-REDRAFT, a framework built upon Self-Refine that encourages the model to propose new drafts for solutions that are fundamentally flawed. Our results show that SELF-REDRAFT consistently achieves better performance than Self-Refine when converged under the same maximum number of iterations. Still, we observe that significant room for improvement remains, largely due to two core aspects of current self-redraft capabilities: constrained capacity for generating instructive feedback and fragile discriminative judgment. We also find that balancing strategies vary notably across different LLMs, reflecting distinct, model-specific behaviors. Overall, our study establishes a baseline for intrinsic exploration-exploitation balancing in test-time scaling and identifies feedback and discrimination as key areas with potential for future advances.

academic

SELF-REDRAFT: Выявление внутреннего баланса исследования-эксплуатации при масштабировании на этапе тестирования для генерации кода

Основная информация

ID статьи: 2511.02854
Название: SELF-REDRAFT: Eliciting Intrinsic Exploration-Exploitation Balance in Test-Time Scaling for Code Generation
Авторы: Yixiang Chen*, Tianshi Zheng*, Shijue Huang, Zhitao He, Yi R. (May) Fung (*Равный вклад)
Учреждение: Факультет компьютерных наук и инженерии, HKUST
Классификация: cs.SE (Программная инженерия), cs.AI (Искусственный интеллект)
Дата подачи: 31 октября 2025 г.
Ссылка на статью: https://arxiv.org/abs/2511.02854v1

Аннотация

В данной работе исследуется внутренняя способность больших языковых моделей (LLM) балансировать исследование (exploration) и эксплуатацию (exploitation) при генерации кода в сценариях масштабирования на этапе тестирования без обратной связи от интерпретатора. Существующие методы либо полагаются на жадную эксплуатацию (итеративная оптимизация), либо на случайное исследование (голосование на основе выборки или переупорядочение), однако баланс между ними остаётся недостаточно изученным. Авторы предлагают фреймворк SELF-REDRAFT, который дополняет Self-Refine механизмом переработки принципиально ошибочных решений. Эксперименты показывают, что SELF-REDRAFT постоянно превосходит Self-Refine при одинаковом бюджете итераций, однако остаётся значительное пространство для улучшения, ограниченное двумя ключевыми способностями: недостаточной способностью генерировать направляющую обратную связь и хрупкой способностью различения. Исследование также выявляет значительные различия в стратегиях балансирования между различными LLM, отражающие модельно-специфичные поведенческие характеристики.

Исследовательский контекст и мотивация

1. Решаемая проблема

Данная работа сосредоточена на проблеме генерации кода в сценарии масштабирования на этапе тестирования без обратной связи от выполнения (execution-free test-time scaling). В практических приложениях тестовые случаи часто недоступны, поэтому требуется, чтобы LLM самостоятельно улучшала качество кода без обратной связи от выполнения программы.

2. Значимость проблемы

Практическая необходимость: В реальных сценариях тестовые случаи часто отсутствуют, среда выполнения может быть недоступна
Вычислительная эффективность: Масштабирование на этапе тестирования является эффективным средством повышения производительности LLM, но требует максимизации производительности в рамках ограниченного вычислительного бюджета
Теоретическая ценность: Баланс исследования-эксплуатации является центральной проблемой в обучении с подкреплением и алгоритмах поиска, его применение в области генерации кода остаётся недостаточно изученным

3. Ограничения существующих методов

Методы, зависящие от выполнения: Требуют тестовых случаев и среды выполнения, ограничены в практических сценариях
Чисто эксплуатационные методы (например, Self-Refine): Только итеративная оптимизация, легко застревают в локальных оптимумах
Чисто исследовательские методы (например, pass@k): Получают разнообразие через множественную выборку, но лишены целенаправленного улучшения
Отсутствие баланса: Существующие методы без обратной связи от выполнения в основном полагаются на эксплуатацию, измерение исследования игнорируется

4. Исследовательская мотивация

Авторы стремятся исследовать внутреннюю способность (intrinsic ability) LLM балансировать исследование и эксплуатацию в условиях без обратной связи от выполнения, выявить узкие места текущих моделей и указать направления для будущих улучшений.

Основные вклады

Предложение фреймворка SELF-REDRAFT: Введение явного выбора исследования на основе Self-Refine, позволяющего модели переработать решения с принципиальными ошибками (redraft), достигая баланса между исследованием и эксплуатацией
Установление эталонной оценки: Систематическая оценка 6 открытых и проприетарных LLM на LiveCodeBench, демонстрирующая среднее улучшение SELF-REDRAFT на 0,615% после 16 итераций
Выявление ключевых узких мест: Глубокий анализ раскрывает два критических ограничивающих фактора:
- Недостаточная способность генерировать направляющую обратную связь (Insufficient Model Critique)
- Хрупкая способность различать правильный/неправильный код (Fragile Code Discrimination)
Раскрытие модельно-специфичного поведения: Обнаружение значительных различий в стратегиях балансирования между различными LLM, указывающих на то, что эта способность не является универсальной, а представляет собой модельно-специфичное возникающее свойство
Количественное определение пространства улучшения: Путём сравнения с верхней границей pass@8 количественно определяется разрыв между текущим методом и потенциалом чистого исследования

Подробное описание метода

Определение задачи

Входные данные: Описание задачи программирования $x$
Выходные данные: Решение кода $\hat{y}$ , удовлетворяющее требованиям задачи
Цель: Максимизировать функциональную корректность кода посредством ограниченного числа итераций (вычисления на этапе тестирования) без обратной связи от выполнения тестовых случаев

Архитектура модели

SELF-REDRAFT представляет собой итеративный фреймворк, состоящий из трёх основных этапов:

Этап 0: Инициализация

Для заданной задачи $x$ и подсказки генерирования $p_{gen}$ модель генерирует начальное решение: $y_0 \sim \pi(\cdot | p_{gen}, x)$

Этап 1: Генерирование обратной связи (Feedback)

Модель оценивает текущее решение $y_i$ , используя подсказку обратной связи $p_{fb}$ для генерирования обратной связи $c_i$ : $c_i \sim \pi(\cdot | p_{fb}, x, y_i)$

Обратная связь содержит две части:

Критика (critique): Анализ проблем кода и предоставление конкретных рекомендаций
Предложение действия (suggestion): Явные указания на следующий шаг, включая три варианта:
- PASS: Код правильный, остановить итерацию
- REFINE: Небольшое улучшение, сохранить исходный подход
- REDRAFT: Принципиальная ошибка, требуется новый подход

Этап 2: Перегенерирование (Regeneration)

На основе обратной связи и истории траектории модель генерирует новое решение: $y_{i+1} \sim \pi(\cdot | p_{regen}, x, y_i, c_i, \ldots, y_0, c_0)$

В зависимости от предложения обратной связи:

Если REDRAFT: Генерирование полностью нового решения (исследование)
Если REFINE: Улучшение на основе исходного решения (эксплуатация)

Итерирование продолжается до выполнения условия остановки (достижение максимального числа итераций $T$ или вывод модели PASS).

Технические инновации

1. Явный механизм исследования

Ключевое отличие от Self-Refine: Self-Refine поддерживает только PASS и REFINE, являясь чисто эксплуатационным методом. SELF-REDRAFT вводит опцию REDRAFT, позволяя модели выявлять принципиальные ошибки и переработать решения.

Обоснование проектирования:

Проблемы кода делятся на поверхностные ошибки (синтаксис, граничные условия) и методологические ошибки (неправильный выбор алгоритма)
Поверхностные ошибки подходят для постепенной оптимизации (refine), методологические ошибки требуют переосмысления (redraft)
Позволяя модели самостоятельно определять тип ошибки, достигается динамический баланс исследования-эксплуатации

2. Структурированное проектирование обратной связи

Использование XML-тегов для принудительного генерирования структурированного вывода:

<critique>
Подробная критика и анализ
</critique>
<suggestion>
pass/refine/redraft
</suggestion>

Такое проектирование облегчает:

Извлечение информации и принятие алгоритмических решений
Последующий экспериментальный анализ
Обеспечение действенности обратной связи

3. Механизм памяти траектории

Перегенерирование включает полную историю траектории $(y_0, c_0, \ldots, y_i, c_i)$ , позволяя модели:

Избежать повторения ошибок
Изучить модели улучшения
Сохранить полезную информацию при исследовании

Экспериментальная установка

Набор данных

LiveCodeBench (Jain et al., 2024):

Масштаб: 1055 задач программирования
Классификация по сложности: easy, medium, hard
Характеристики:
- Полный и незагрязненный эталон оценки
- Задачи из реальных соревнований по программированию
- Постоянное обновление, предотвращающее утечку данных обучения

Метрики оценки

Pass@k: Метрика функциональной корректности $\text{pass@k} = \mathbb{E}_{\text{Problem}}\left[1 - \frac{\binom{n-c}{k}}{\binom{n}{k}}\right]$ где $n$ — количество сгенерированных образцов, $c$ — количество правильных образцов. В данной работе используется $n=16, k=8$ .
Коэффициент улучшения ( $r_{imp}$ ): Доля исходных ошибочных решений, которые были исправлены
Коэффициент регрессии ( $r_{reg}$ ): Доля исходных правильных решений, которые были повреждены
Recall on Draft: Вспомогательная метрика оценки правильного выявления рекомендаций "redraft"

Методы сравнения

Self-Refine: Чисто эксплуатационный базовый уровень, поддерживающий только итеративную оптимизацию
Pass@8: Верхняя граница чистого исследования, полученная через независимую выборку

Детали реализации

Конфигурация модели (6 LLM):

GPT-4.1 mini, GPT-4.1 nano (OpenAI)
Kimi K2 (32B активных параметров, 1T всего параметров MoE)
Llama 4 Maverick (17B активных параметров, 128 экспертов MoE)
LongCat-Flash-Chat (MoE, специализирован на задачах агентов)
Qwen3-Next-80B-A3B-Instruct

Параметры генерирования (соответствуют стандартным настройкам LiveCodeBench):

Temperature: 0.2
Top-p: 0.95
Frequency penalty: 0
Presence penalty: 0

Параметры итерирования:

Максимальное количество итераций: 16
Использование одного и того же набора начальных решений для обеспечения справедливого сравнения
Разрешение ранней остановки (когда модель выводит PASS)

Результаты экспериментов

Основные результаты

Общая производительность (рис. 2, полные результаты таблицы см. в приложении E):

SELF-REDRAFT показывает среднее улучшение 0,615% по сравнению с Self-Refine после 16 итераций
Улучшение последовательно наблюдается на всех 6 тестируемых моделях
Производительность стабилизируется к 16-й итерации

Производительность отдельных моделей (рис. 8):

Значительные различия в абсолютной производительности между моделями
Различные формы кривых итерирования, отражающие разные стратегии балансирования
Некоторые модели достигают пика на ранних итерациях с последующими колебаниями

Неиспользованный потенциал исследования

Сравнение с верхней границей pass@8 (рис. 3):

Pass@8 значительно превосходит SELF-REDRAFT×16 (17 решений)
Ключевое открытие: Чистое исследование (8 независимых образцов) более эффективно, чем текущий баланс исследования-эксплуатации
Примеры разрыва:
- GPT-4.1 mini: SELF-REDRAFT 35,1% vs Pass@8 41,8%
- Qwen3-Next: SELF-REDRAFT 48,2% vs Pass@8 55,3%

Интерпретация: Множество задач могут быть решены просто путём разнообразной выборки, однако SELF-REDRAFT не использует это преимущество эффективно, указывая на низкую эффективность текущего механизма исследования.

Анализ качества обратной связи

Дизайн слепого эксперимента (раздел 3.3):

Выборка троек (исходное решение, обратная связь, новое решение) из траекторий
Вспомогательный оценивающий видит только пару решений, определяя наличие методологического изменения
Сравнение оценки оценивающего с исходным предложением обратной связи (refine vs redraft)
Сбалансированная выборка: каждая группа содержит равное количество меток "draft" и "refine"
Максимум 1000 образцов на модель генерирования

Результаты Recall on Draft (рис. 5):

Средний recall: между 30-55%
Обнаруженная положительная корреляция (рис. 4): Recall on Draft коррелирует с величиной улучшения SELF-REDRAFT (коэффициент корреляции примерно 0,6-0,7)
Согласованность между оценивающими (рис. 7): Высокая согласованность рангов между различными вспомогательными моделями (Spearman ρ > 0,8)

Ключевой вывод: Большинство моделей не могут предоставить действенную обратную связь для методологического исправления, ограничивая эффективное исследование.

Анализ способности различения

Сравнение коэффициентов улучшения и регрессии (таблица 1):

Модель	Self-Refine $r_{imp}$	SELF-REDRAFT $r_{imp}$	Self-Refine $r_{reg}$	SELF-REDRAFT $r_{reg}$
GPT-4.1 mini	3,29%	5,18% (+1,89)	1,11%	1,27% (+0,16)
GPT-4.1 nano	19,52%	23,02% (+3,50)	1,70%	2,33% (+0,63)
Kimi K2	9,89%	12,99% (+3,10)	1,57%	2,57% (+1,00)
Llama-4-Maverick	4,15%	6,74% (+2,59)	1,68%	3,78% (+2,10)
LongCat-Flash-Chat	18,68%	20,33% (+1,65)	2,69%	3,01% (+0,32)
Qwen3-Next	26,53%	29,34% (+2,81)	0,30%	0,60% (+0,30)

Ключевые открытия:

SELF-REDRAFT имеет более высокий коэффициент улучшения (исправляет больше ошибок)
Однако коэффициент регрессии также значительно увеличивается (повреждает больше правильных решений)
Увеличение коэффициента регрессии в некоторых моделях значительно (например, Llama-4-Maverick +2,10%)

Интерпретация: Переработка — это высокорисковая операция. Из-за ограниченной способности различения модель часто ошибочно классифицирует правильные решения как ошибочные и "портит" их, нивелируя выгоды от исследования.

Различия в поведении между моделями

Различия в стратегиях балансирования (рис. 6):

График-бабочка показывает количество рекомендаций "refine" vs "redraft" для каждой модели в течение 16 итераций
Огромные различия:
- Некоторые модели предпочитают "refine" (ориентированы на эксплуатацию)
- Некоторые модели предпочитают "redraft" (ориентированы на исследование)
- Нет единого паттерна

Значение: Баланс исследования-эксплуатации не является универсальной способностью, а представляет собой модельно-специфичное возникающее свойство, отражающее:

Различия в данных предварительного обучения
Влияние архитектуры модели
Различные стратегии инструктивной настройки

Анализ примеров

Полные примеры в приложении F:

Задача: Задача обмена массивов в стиле LeetCode
Исходное решение: Запутанная логика, содержащая множество концептуальных ошибок
Обратная связь: Подробно указывает 5 конкретных проблем, рекомендует "redraft"
Новое решение: Использует совершенно другой подход динамического программирования, правильно решает задачу

Наблюдения:

Когда качество обратной связи высоко, redraft может эффективно выйти из ошибочного метода
Новое решение демонстрирует переосмысление проблемы
Однако такая высокая качественная обратная связь не является нормой в экспериментах

Связанные работы

1. Методы масштабирования на этапе тестирования

Зависящие от выполнения:

Self-Debug (Chen et al., 2023): Итеративная отладка с использованием обратной связи от выполнения
Reflexion (Shinn et al., 2023): Языковой интеллектуальный агент на основе обучения с подкреплением
AIDE (Jiang et al., 2025): Управляемое ИИ исследование в пространстве кода
S* (Li et al., 2025): Метод поиска на этапе тестирования

Независящие от выполнения:

Self-Refine (Madaan et al., 2023): Чисто эксплуатационная самооптимизация
SETS (Chen et al., 2025): Самопроверка и самокоррекция

2. Баланс исследования-эксплуатации

Tang et al. (2024): Моделирование исправления кода LLM как баланса исследования-эксплуатации
Отличие данной работы: Сосредоточение на сценарии без обратной связи от выполнения, исследование внутренней способности балансирования

3. Способность обратной связи LLM

Zheng et al. (2024): Механизмы рассуждения в многораундовой генерации кода
Xie et al. (2025): Обучение LLM критике через обучение с подкреплением
Вклад данной работы: Количественное определение влияния качества обратной связи на эффективность исследования

4. Оценка генерации кода

LiveCodeBench (Jain et al., 2024): Полный незагрязненный эталон оценки
Метрика Pass@k (Kulal et al., 2019; Chen et al., 2021)

Заключение и обсуждение

Основные выводы

SELF-REDRAFT эффективен, но ограничен: Постоянно превосходит Self-Refine при одинаковом бюджете итераций, но величина улучшения ограничена (среднее 0,615%)
Два основных узких места:
- Недостаточное генерирование обратной связи: Модель испытывает трудности с выявлением методологических ошибок, не может предоставить эффективное руководство для переработки
- Хрупкая способность различения: Ошибочная классификация приводит к вредоносной переработке, увеличение коэффициента регрессии нивелирует выгоды
Модельно-специфичность: Стратегии балансирования значительно различаются между различными LLM, не являясь универсальной способностью
Огромный потенциал: Разрыв с верхней границей pass@8 указывает на большое количество неиспользованного пространства в измерении исследования

Ограничения

Явно указанные авторами ограничения:

Парадигма без выполнения:
- Область исследования ограничена сценарием без обратной связи от выполнения
- Не прямо сравнима с методами, зависящими от выполнения
- Гибридные методы — направление будущих исследований
Обобщаемость эталона:
- Оценка только на LiveCodeBench
- Обобщаемость на другие языки программирования и области требует проверки
Зависимость от внутренних способностей:
- Производительность ограничена внутренними способностями предварительно обученной модели
- Не исследованы управляемые обучением улучшения (например, микронастройка способности критики)
- Не изучены неотъемлемые стратегии исследования

Направления будущих исследований

Направления исследований, предложенные в статье:

Улучшение генерирования обратной связи:
- Обучение специализированных моделей критики
- Разработка более эффективных подсказок обратной связи
- Введение внешних знаний для вспомогательной диагностики
Усиление способности различения:
- Повышение надёжности определения корректности кода
- Снижение вредоносной переработки
- Возможно, требуется специализированный верификатор
Модельно-адаптивные стратегии:
- Разработка настраиваемых стратегий балансирования для различных моделей
- Динамическая регулировка соотношения исследования-эксплуатации
- Изучение оптимального времени остановки
Гибридные методы:
- Объединение обратной связи от выполнения с внутренними способностями
- Оптимальная стратегия при ограниченных тестовых случаях

Глубокая оценка

Преимущества

1. Чёткое и важное определение проблемы

Сосредоточение на практическом сценарии (отсутствие тестовых случаев)
Баланс исследования-эксплуатации — классическая проблема, её применение в области генерации кода является новым
Исследование внутренней способности, а не внешних инструментов, имеет высокую теоретическую ценность

2. Простое и эффективное проектирование метода

Минимальные изменения на основе Self-Refine, чёткое сравнение
Интуитивное и действенное проектирование с тремя вариантами (pass/refine/redraft)
Структурированная обратная связь облегчает анализ

3. Строгое проектирование экспериментов

Справедливое сравнение: Использование одного и того же набора начальных решений
Проверка на нескольких моделях: 6 LLM различных размеров и архитектур
Многомерный анализ: Производительность, качество обратной связи, способность различения, различия между моделями
Слепой дизайн: Избежание смещения, использование вспомогательных моделей для проверки

4. Глубокий и честный анализ

Не только сообщение об улучшениях, но и честное указание на ограничения
Количественное определение разрыва с верхней границей, явное определение пространства улучшения
Выявление конкретных узких мест (обратная связь, различение), а не расплывчатых выводов
Раскрытие модельно-специфичности, избежание чрезмерного обобщения

5. Высокая воспроизводимость

Подробный псевдокод алгоритма (Algorithm 1)
Полные шаблоны подсказок (приложение A.2)
Явные конфигурации моделей и гиперпараметры (приложение C)
Обещание открытого исходного кода

Недостатки

1. Ограниченная величина улучшения

Среднее улучшение 0,615% относительно небольшое, статистическая значимость не явно сообщена
Для некоторых моделей может быть в пределах шума
Требуется больше экспериментов для проверки стабильности

2. Ограниченная область оценки

Только один эталон LiveCodeBench
Не протестировано на других языках программирования (кроме Python)
Не оценены другие аспекты качества кода (читаемость, эффективность)

3. Отсутствие теоретического анализа

Почему 0,615% — разумное ожидание?
Каково оптимальное соотношение исследования-эксплуатации?
Отсутствует формальная теоретическая база

4. Недостаточное обсуждение влияния условия остановки

Самостоятельное решение модели о времени PASS может вносить смещение
Коэффициенты ранней остановки между моделями не сообщены
Может влиять на справедливость

5. Отсутствие оценки человеком

Все оценки полагаются на автоматические метрики и суждения модели
Отсутствует человеческая перспектива на качество обратной связи и кода
Слепая оценка использует модели, а не людей

6. Недостаточное обсуждение вычислительных затрат

Какова фактическая стоимость 16 итераций?
Сравнение стоимости с pass@16?
Недостаточная оценка практичности

Влияние

Вклад в область

Открытие нового направления исследований: Установление эталона для баланса исследования-эксплуатации в сценарии без обратной связи от выполнения
Выявление ключевых узких мест: Явное определение обратной связи и различения как основных ограничений
Вдохновение будущих работ: Предоставление чётких путей улучшения

Практическая ценность

Средняя: Текущее улучшение ограничено, но указывает направление
Подходит для сценариев, где тестовые случаи недоступны
Может служить дополнением к методам, зависящим от выполнения

Воспроизводимость

Высокая: Подробное описание метода, шаблоны подсказок, конфигурация
Код будет открыт
Использование открытого эталона и доступных через API моделей

Применимые сценарии

Подходящие сценарии:

Генерация кода без тестовых случаев (например, ранние этапы разработки)
Среда выполнения недоступна или затратна
Требуется исследование разнообразных решений
Предварительный этап перед методами, зависящими от выполнения

Неподходящие сценарии:

Когда доступны достаточные тестовые случаи (методы, зависящие от выполнения, более оптимальны)
Критический код с экстремальными требованиями к точности
Крайне ограниченный вычислительный бюджет (малая величина улучшения)
Сценарии, требующие гарантированного монотонного улучшения (риск регрессии)

Ключевые ссылки

Madaan et al. (2023) — Self-Refine: Базовый метод данной работы
Jain et al. (2024) — LiveCodeBench: Эталон оценки
Tang et al. (2024) — Применение баланса исследования-эксплуатации в исправлении кода
Xie et al. (2025) — Улучшение способности критики через RL
Chen et al. (2021) — Codex и метрика pass@k
Snell et al. (2024) — Теоретическая база масштабирования вычислений на этапе тестирования

Резюме

Данная работа представляет собой солидное эмпирическое исследование, сосредоточенное на важной, но игнорируемой проблеме: балансе исследования-эксплуатации при генерации кода без обратной связи от выполнения. Метод SELF-REDRAFT прост и элегантен, вводя механизм исследования посредством минимальных изменений. Хотя абсолютное улучшение ограничено (0,615%), ценность статьи заключается в:

Честной научной позиции: Не преувеличение эффекта, явное указание ограничений и разрывов
Глубоком механистическом анализе: Выявление двух ключевых узких мест — обратной связи и различения
Чётком направлении исследований: Указание пути для будущих работ

Основной вклад статьи не в предложении мощного нового метода, а в систематическом раскрытии недостатков текущих LLM в самостоятельном балансировании исследования-эксплуатации, что одинаково важно для развития области. Для исследователей это предоставляет явные цели улучшения; для практиков это напоминает об ограничениях текущих методов.

Рекомендуется, чтобы последующие работы сосредоточились на:

Обучении более сильным способностям критики и различения
Исследовании интеграции внешних знаний и инструментов
Разработке модельно-адаптивных стратегий балансирования
Проверке на большем количестве эталонов и сценариев