2025-11-30T18:52:18.815530

SELF-REDRAFT: Eliciting Intrinsic Exploration-Exploitation Balance in Test-Time Scaling for Code Generation

Chen, Zheng, Huang et al.

Test-time scaling without interpreter feedback is essential for real-world code generation scenarios where test cases are not readily available. While existing paradigms often rely on either greedy exploitation (i.e., iterative refinement) or stochastic exploration (i.e., relying on sample-based voting or reranking mechanisms), the balance between these two dimensions remains underexplored. To investigate the LLM's intrinsic ability to balance exploitation and exploration, we introduce SELF-REDRAFT, a framework built upon Self-Refine that encourages the model to propose new drafts for solutions that are fundamentally flawed. Our results show that SELF-REDRAFT consistently achieves better performance than Self-Refine when converged under the same maximum number of iterations. Still, we observe that significant room for improvement remains, largely due to two core aspects of current self-redraft capabilities: constrained capacity for generating instructive feedback and fragile discriminative judgment. We also find that balancing strategies vary notably across different LLMs, reflecting distinct, model-specific behaviors. Overall, our study establishes a baseline for intrinsic exploration-exploitation balancing in test-time scaling and identifies feedback and discrimination as key areas with potential for future advances.

academic

SELF-REDRAFT: 코드 생성을 위한 테스트 시간 스케일링에서 내재적 탐색-활용 균형 유도

기본 정보

논문 ID: 2511.02854
제목: SELF-REDRAFT: Eliciting Intrinsic Exploration-Exploitation Balance in Test-Time Scaling for Code Generation
저자: Yixiang Chen*, Tianshi Zheng*, Shijue Huang, Zhitao He, Yi R. (May) Fung (*동등 기여)
소속: 홍콩과학기술대학교 컴퓨터과학공학과
분류: cs.SE (소프트웨어 공학), cs.AI (인공지능)
제출 일시: 2025년 10월 31일
논문 링크: https://arxiv.org/abs/2511.02854v1

초록

본 논문은 실행기 피드백이 없는 테스트 시간 스케일링 시나리오에서 대규모 언어 모델(LLM)이 코드 생성 작업에서 탐색(exploration)과 활용(exploitation)의 균형을 맞추는 내재적 능력을 연구합니다. 기존 방법들은 탐욕적 활용(반복적 최적화) 또는 무작위 탐색(샘플링 기반 투표 또는 재정렬)에 의존하지만, 두 가지 사이의 균형은 충분히 연구되지 않았습니다. 저자들은 Self-Refine을 기반으로 근본적인 오류 해결책을 재작성하는 메커니즘을 추가한 SELF-REDRAFT 프레임워크를 제안합니다. 실험 결과 SELF-REDRAFT는 동일한 반복 예산에서 Self-Refine을 지속적으로 능가하지만, 여전히 상당한 개선 여지가 있으며, 주로 두 가지 핵심 능력에 의해 제한됩니다: 지도적 피드백 생성 능력 부족과 판별 능력 취약성. 연구는 또한 서로 다른 LLM의 균형 전략에 상당한 차이가 있음을 발견했으며, 이는 모델 특정적 행동 특성을 반영합니다.

연구 배경 및 동기

1. 해결할 문제

본 논문은 실행 피드백이 없는 테스트 시간 스케일링(execution-free test-time scaling) 시나리오에서의 코드 생성 문제에 중점을 둡니다. 실제 응용에서 테스트 케이스는 종종 사용할 수 없으므로, LLM은 프로그램 실행 피드백 없이 코드 품질을 자율적으로 개선해야 합니다.

2. 문제의 중요성

실제 요구사항: 현실 시나리오에서 테스트 케이스가 자주 누락되고 실행 환경을 사용할 수 없음
계산 효율성: 테스트 시간 스케일링은 LLM 성능을 향상시키는 효과적인 수단이지만, 제한된 계산 예산 내에서 성능을 최대화해야 함
이론적 가치: 탐색-활용 권형은 강화학습 및 검색 알고리즘의 핵심 문제이며, 코드 생성 분야의 응용은 아직 충분히 연구되지 않음

3. 기존 방법의 한계

실행 의존형 방법: 테스트 케이스 및 실행 환경 필요, 실제 시나리오에서 제한됨
순수 활용형 방법(예: Self-Refine): 반복적 최적화만 수행하여 국소 최적값에 빠지기 쉬움
순수 탐색형 방법(예: pass@k): 여러 번의 샘플링을 통해 다양성 확보하지만 목표 지향적 개선 부족
균형 부재: 기존 실행 피드백 없는 방법들은 주로 활용에 의존하며, 탐색 차원이 무시됨

4. 연구 동기

저자들은 실행 피드백이 없는 조건에서 LLM이 탐색과 활용을 균형 있게 조정하는 내재적 능력(intrinsic ability)을 연구하고, 현재 모델의 병목 지점을 파악하며, 향후 개선을 위한 방향을 제시하는 것을 목표로 합니다.

핵심 기여

SELF-REDRAFT 프레임워크 제안: Self-Refine을 기반으로 명시적 탐색 선택을 도입하여 모델이 근본적인 오류 해결책을 재작성(redraft)하도록 허용하고, 탐색과 활용의 균형을 실현
벤치마크 평가 수립: LiveCodeBench에서 6개의 오픈소스 및 독점 LLM에 대한 체계적 평가를 수행하여 16번 반복 후 SELF-REDRAFT가 평균 0.615% 향상됨을 입증
핵심 병목 지점 식별: 심층 분석을 통해 두 가지 주요 제한 요소 발견:
- 지도적 피드백 생성 능력 부족(불충분한 모델 비평)
- 정확/오류 코드 판별 능력 취약(취약한 코드 판별)
모델 특정 행동 공개: 서로 다른 LLM의 균형 전략에 상당한 차이가 있음을 발견하여, 이 능력이 아직 통용 능력이 아니라 모델 특정적 창발 특성임을 시사
개선 공간 정량화: pass@8 상한과의 비교를 통해 현재 방법과 순수 탐색 잠재력 간의 격차를 정량화

방법 상세 설명

작업 정의

입력: 프로그래밍 작업 설명 $x$
출력: 작업 요구사항을 만족하는 코드 해결책 $\hat{y}$
목표: 테스트 케이스 실행 피드백 없이 제한된 반복(테스트 시간 계산)을 통해 코드의 기능적 정확성 최대화

모델 아키텍처

SELF-REDRAFT는 세 가지 주요 단계를 포함하는 반복 프레임워크입니다:

단계 0: 초기화

작업 $x$ 와 생성 프롬프트 $p_{gen}$ 이 주어지면, 모델은 초기 해결책을 생성합니다: $y_0 \sim \pi(\cdot | p_{gen}, x)$

단계 1: 피드백 생성(Feedback)

모델은 현재 해결책 $y_i$ 를 평가하고, 피드백 프롬프트 $p_{fb}$ 를 사용하여 피드백 $c_i$ 를 생성합니다: $c_i \sim \pi(\cdot | p_{fb}, x, y_i)$

피드백은 두 부분으로 구성됩니다:

비평(critique): 코드 문제를 분석하고 구체적인 제안 제공
행동 제안(suggestion): 다음 단계를 명확히 지시하며, 세 가지 선택 포함:
- PASS: 코드 정확, 반복 중지
- REFINE: 소폭 개선, 원래 방법 유지
- REDRAFT: 근본적 오류, 새로운 방법 필요

단계 2: 재생성(Regeneration)

피드백 및 이력 궤적을 기반으로 모델은 새로운 해결책을 생성합니다: $y_{i+1} \sim \pi(\cdot | p_{regen}, x, y_i, c_i, \ldots, y_0, c_0)$

피드백 제안에 따라:

REDRAFT인 경우: 완전히 새로운 해결책 생성(탐색)
REFINE인 경우: 원래 방안을 기반으로 개선(활용)

중지 조건(최대 반복 횟수 $T$ 도달 또는 모델이 PASS 출력)을 만족할 때까지 반복합니다.

기술 혁신 포인트

1. 명시적 탐색 메커니즘

Self-Refine과의 핵심 차이점: Self-Refine은 PASS와 REFINE만 지원하여 순수 활용형입니다. SELF-REDRAFT는 REDRAFT 옵션을 도입하여 모델이 근본적인 오류를 식별하고 해결책을 재작성하도록 허용합니다.

설계 타당성:

코드 문제는 표면적 오류(구문, 경계 조건)와 방법론적 오류(알고리즘 선택 오류)로 분류됨
표면적 오류는 점진적 최적화(refine)에 적합하고, 방법론적 오류는 재고(redraft) 필요
모델이 오류 유형을 자율적으로 판단하도록 함으로써 탐색-활용의 동적 균형 실현

2. 구조화된 피드백 설계

XML 태그를 사용하여 모델이 구조화된 출력을 생성하도록 강제:

<critique>
상세한 비평 및 분석
</critique>
<suggestion>
pass/refine/redraft
</suggestion>

이러한 설계는 다음을 용이하게 합니다:

정보 추출 및 알고리즘 의사결정
후속 실험 분석
피드백의 실행 가능성 보장

3. 궤적 메모리 메커니즘

재생성 시 완전한 이력 궤적 $(y_0, c_0, \ldots, y_i, c_i)$ 을 포함하여 모델이 다음을 수행할 수 있도록 함:

반복 오류 회피
개선 패턴 학습
탐색 중에도 유효한 정보 보존

실험 설정

데이터셋

LiveCodeBench(Jain et al., 2024):

규모: 1,055개의 프로그래밍 문제
난이도 분류: easy, medium, hard 세 가지 수준
특징:
- 포괄적이고 오염되지 않은 평가 벤치마크
- 실제 프로그래밍 경쟁에서 출처
- 지속적 업데이트로 훈련 데이터 누출 방지

평가 지표

Pass@k: 기능적 정확성 지표 $\text{pass@k} = \mathbb{E}_{\text{Problem}}\left[1 - \frac{\binom{n-c}{k}}{\binom{n}{k}}\right]$ 여기서 $n$ 은 생성 샘플 수, $c$ 는 정확한 샘플 수입니다. 본 논문은 $n=16, k=8$ 을 사용합니다.
개선율( $r_{imp}$ ): 초기 오류 해결책이 수정된 비율
회귀율( $r_{reg}$ ): 초기 정확한 해결책이 손상된 비율
Draft 재호출: 보조 평가기가 "redraft" 제안을 올바르게 식별하는 재호출율

비교 방법

Self-Refine: 순수 활용형 기준선, 반복적 최적화만 지원
Pass@8: 순수 탐색형 상한, 독립적 샘플링을 통해 획득

구현 세부사항

모델 구성(6개 LLM):

GPT-4.1 mini, GPT-4.1 nano(OpenAI)
Kimi K2(32B 활성 매개변수, 1T 총 매개변수 MoE)
Llama 4 Maverick(17B 활성 매개변수, 128 전문가 MoE)
LongCat-Flash-Chat(MoE, 에이전트 작업에 능함)
Qwen3-Next-80B-A3B-Instruct

생성 매개변수(LiveCodeBench 기본 설정 준수):

Temperature: 0.2
Top-p: 0.95
Frequency penalty: 0
Presence penalty: 0

반복 설정:

최대 반복 횟수: 16
동일한 초기 해결책 집합 사용으로 공정한 비교 보장
조기 중지 허용(모델이 PASS 출력 시)

실험 결과

주요 결과

전체 성능(그림 2, 완전한 표 결과는 부록 E 참조):

SELF-REDRAFT는 16번 반복 후 Self-Refine 대비 평균 0.615% 향상
개선은 모든 6개 테스트 모델에서 일관되게 나타남
성능은 16번 반복 시 안정화됨

모델별 성능(그림 8):

서로 다른 모델의 절대 성능 차이 상당함
반복 곡선 형태 다양하여 서로 다른 균형 전략 반영
일부 모델은 초기 반복에서 최고점 도달 후 변동 발생

미개발 탐색 잠재력

pass@8 상한과의 비교(그림 3):

Pass@8은 SELF-REDRAFT×16(17개 해결책)을 크게 능가
핵심 발견: 순수 탐색(8개 독립 샘플)이 현재 탐색-활용 균형보다 더 효과적
차이 예시:
- GPT-4.1 mini: SELF-REDRAFT 35.1% vs Pass@8 41.8%
- Qwen3-Next: SELF-REDRAFT 48.2% vs Pass@8 55.3%

해석: 많은 문제는 다양화된 샘플링만으로도 정확한 해결책을 찾을 수 있지만, SELF-REDRAFT는 이 이점을 효과적으로 활용하지 못하여 현재 탐색 메커니즘의 효율성이 낮음을 시사합니다.

피드백 품질 분석

맹검 실험 설계(3.3절):

궤적에서 샘플링(원본 해결책, 피드백, 새 해결책) 삼중쌍
보조 평가기는 해결책 쌍만 보고 방법론적 변화 발생 여부 판단
원래 피드백 제안(refine vs redraft)과 평가기 판단 비교
균형 샘플링: 각 그룹에 동일한 수의 "draft" 및 "refine" 레이블 포함
생성 모델당 최대 1000개 샘플

Draft 재호출 결과(그림 5):

평균 재호출율: 30-55% 범위
양의 상관 발견(그림 4): Draft 재호출과 SELF-REDRAFT의 개선 폭이 양의 상관(상관계수 약 0.6-0.7)
교차 평가기 일관성(그림 7): 서로 다른 보조 모델의 순위 높은 일관성(Spearman ρ > 0.8)

핵심 결론: 대부분의 모델은 방법론적 수정을 위한 실행 가능한 피드백을 제공하지 못하여 효과적인 탐색을 제한합니다.

판별 능력 분석

개선율과 회귀율 비교(표 1):

모델	Self-Refine $r_{imp}$	SELF-REDRAFT $r_{imp}$	Self-Refine $r_{reg}$	SELF-REDRAFT $r_{reg}$
GPT-4.1 mini	3.29%	5.18% (+1.89)	1.11%	1.27% (+0.16)
GPT-4.1 nano	19.52%	23.02% (+3.50)	1.70%	2.33% (+0.63)
Kimi K2	9.89%	12.99% (+3.10)	1.57%	2.57% (+1.00)
Llama-4-Maverick	4.15%	6.74% (+2.59)	1.68%	3.78% (+2.10)
LongCat-Flash-Chat	18.68%	20.33% (+1.65)	2.69%	3.01% (+0.32)
Qwen3-Next	26.53%	29.34% (+2.81)	0.30%	0.60% (+0.30)

핵심 발견:

SELF-REDRAFT의 개선율이 더 높음(더 많은 오류 수정)
하지만 회귀율도 크게 증가(더 많은 정확한 해결책 손상)
일부 모델에서 회귀율 증가폭이 큼(예: Llama-4-Maverick +2.10%)

해석: 재작성은 고위험 작업입니다. 판별 능력이 제한되어 모델은 정확한 해결책을 오류로 잘못 판단하고 "악화"시켜 탐색으로 인한 이득을 상쇄합니다.

모델 간 행동 차이

균형 전략 차이(그림 6):

나비 그래프는 16번 반복 중 각 모델의 "refine" vs "redraft" 제안 수량 표시
거대한 차이:
- 일부 모델은 "refine" 선호(활용 지향)
- 일부 모델은 "redraft" 선호(탐색 지향)
- 통일된 패턴 없음

의미: 탐색-활용 균형은 통용 능력이 아니라 모델 특정적 창발 특성이며, 다음을 반영합니다:

사전훈련 데이터 차이
모델 아키텍처 영향
지시 조정 전략 차이

사례 분석

부록 F 완전한 사례:

작업: LeetCode 스타일의 배열 교환 문제
원본 해결책: 논리 혼란, 여러 개념적 오류 포함
피드백: 5개의 구체적 문제 지적, "redraft" 제안
새 해결책: 완전히 다른 동적 프로그래밍 방법 채택, 문제 정확히 해결

관찰:

피드백 품질이 높을 때 redraft는 오류 방법에서 효과적으로 탈출 가능
새 해결책은 문제에 대한 재이해 시연
하지만 이러한 고품질 피드백은 실험에서 일반적이지 않음

결론 및 토론

주요 결론

SELF-REDRAFT 효과적이나 제한적: 동일한 반복 예산에서 Self-Refine을 지속적으로 능가하지만 개선 폭이 제한적(평균 0.615%)
두 가지 주요 병목:
- 피드백 생성 부족: 모델이 방법론적 오류를 식별하기 어려워 효과적인 재작성 지도 제공 불가
- 판별 능력 취약: 오판으로 인한 해로운 재작성, 회귀율 상승이 수익 상쇄
모델 특정성: 균형 전략이 서로 다른 LLM 간에 거대한 차이, 통용 능력 아님
거대한 잠재력: pass@8 상한과의 격차는 탐색 차원에 많은 미개발 공간이 있음을 시사

한계

저자가 명시한 제한사항:

실행 무관 패러다임:
- 연구 범위는 실행 피드백 없는 시나리오로 제한
- 실행 의존 방법과 직접 비교 불가
- 혼합 방법은 향후 방향
벤치마크 일반화성:
- LiveCodeBench에서만 평가
- 다른 프로그래밍 언어, 분야의 일반화성 미검증
내재적 능력 의존:
- 성능은 사전훈련 모델의 고유 능력으로 제한
- 훈련 주도 개선 미탐색(예: 비평 능력 미세조정)
- 비내재적 탐색 전략 미연구

향후 방향

논문이 제시한 연구 방향:

피드백 생성 개선:
- 전문 비평 모델 훈련
- 더 효과적인 피드백 프롬프트 설계
- 외부 지식을 통한 진단 보조 도입
판별 능력 강화:
- 코드 정확성 판단의 신뢰성 향상
- 해로운 재작성 감소
- 전문 검증기 필요 가능성
모델 자적응 전략:
- 서로 다른 모델을 위한 맞춤형 균형 전략 설계
- 탐색-활용 비율의 동적 조정
- 최적 중지 시점 학습
혼합 방법:
- 실행 피드백과 내재적 능력 결합
- 제한된 테스트 케이스 하에서의 최적 전략

심층 평가

장점

1. 문제 정의 명확하고 중요

실제 시나리오(테스트 케이스 없음)에 초점
탐색-활용 권형은 고전적 문제이며, 코드 생성 분야의 응용은 새로움
내재적 능력 연구로 이론적 가치 높음

2. 방법 설계 간결하고 효과적

Self-Refine 기반 최소 수정으로 명확한 대비
세 가지 선택 설계(pass/refine/redraft)는 직관적이고 실행 가능
구조화된 피드백은 분석 용이

3. 실험 설계 엄밀

공정한 비교: 동일한 초기 해결책 사용
다중 모델 검증: 6개의 서로 다른 규모 및 아키텍처 LLM
다차원 분석: 성능, 피드백 품질, 판별 능력, 모델 간 차이
맹검 설계: 편견 회피, 보조 모델을 통한 검증

4. 분석 심층적이고 정직

개선만 보고하지 않고 한계 명시
상한과의 격차 정량화로 개선 공간 명확화
구체적 병목 지점 식별(피드백, 판별), 일반적 결론 회피
모델 특정성 공개로 과도한 일반화 방지

5. 재현성 강함

상세한 알고리즘 의사코드(Algorithm 1)
완전한 프롬프트 템플릿(부록 A.2)
명확한 모델 구성 및 하이퍼매개변수(부록 C)
코드 오픈소스 공약

부족한 점

1. 개선 폭 제한적

평균 0.615% 향상은 작으며, 통계적 유의성 미보고
일부 모델은 노이즈 범위 내일 수 있음
안정성 검증을 위한 추가 실험 필요

2. 평가 범위 제한

LiveCodeBench 하나의 벤치마크만
다른 프로그래밍 언어(Python 외) 미테스트
코드 품질의 다른 차원(가독성, 효율성) 미평가

3. 이론적 분석 부재

0.615%가 합리적 기대인 이유?
탐색-활용의 최적 비율은?
형식적 이론 프레임워크 부재

4. 중지 조건 설계의 영향 미충분 논의

모델 자율 PASS 결정이 편향 유입 가능
모델 간 조기 중지율 차이 미보고
공정성에 영향 가능

5. 인간 평가 부재

모든 평가는 자동 지표 및 모델 판단에 의존
피드백 품질, 코드 품질의 인간 관점 부재
맹검은 모델이 아닌 인간 사용

6. 계산 비용 미논의

16번 반복의 실제 비용?
pass@16과의 비용 대비?
실용성 평가 부족

영향력

분야에 대한 기여

새로운 연구 방향 개척: 실행 피드백 없는 시나리오에서 탐색-활용 균형의 벤치마크 수립
핵심 병목 식별: 피드백과 판별이 핵심 제한임을 명확화
향후 작업 영감: 명확한 개선 경로 제공

실용적 가치

중간 수준: 현재 개선은 제한적이나 방향 제시
테스트 케이스 불가용 시나리오에 적합
실행 의존 방법의 보완으로 사용 가능

재현성

높음: 상세한 방법 설명, 프롬프트 템플릿, 구성
코드 오픈소스 예정
공개 벤치마크 및 API 접근 가능 모델 사용

적용 시나리오

적합한 시나리오:

테스트 케이스 없는 코드 생성(예: 개발 초기 단계)
실행 환경 불가용 또는 비용 높음
다양한 해결책 탐색 필요한 탐색적 프로그래밍
실행 의존 방법의 전처리 단계

부적합한 시나리오:

충분한 테스트 케이스 가용 시(실행 의존 방법 우월)
정확성 요구 극도로 높은 핵심 코드
계산 예산 극도로 제한(개선 폭 작음)
단조 개선 보장 필요 시나리오(회귀 위험)

주요 참고문헌

Madaan et al. (2023) - Self-Refine: 본 논문의 기초 방법
Jain et al. (2024) - LiveCodeBench: 평가 벤치마크
Tang et al. (2024) - 코드 수정에서의 탐색-활용 권형
Xie et al. (2025) - RL을 통한 비평 능력 개선
Chen et al. (2021) - Codex 및 pass@k 지표
Snell et al. (2024) - 테스트 시간 계산 스케일링의 이론적 기초

요약

본 논문은 코드 생성에서 중요하지만 간과된 문제인 실행 피드백 없는 탐색-활용 균형에 초점을 맞춘 견고한 실증 연구 논문입니다. SELF-REDRAFT 방법은 간결하고 우아하며, 최소 수정을 통해 탐색 메커니즘을 도입합니다. 절대 개선은 제한적(0.615%)이지만, 논문의 가치는 다음에 있습니다:

정직한 과학적 태도: 효과를 과장하지 않고 한계와 격차를 명시
심층적 메커니즘 분석: 피드백과 판별 두 가지 병목 지점 식별
명확한 연구 로드맵: 향후 작업을 위한 방향 제시

논문의 주요 기여는 강력한 새로운 방법 제시가 아니라 현재 LLM의 자율적 탐색-활용 균형 능력의 부족을 체계적으로 공개하는 것이며, 이는 분야 발전을 추진하는 데 동등하게 중요합니다. 연구자에게는 명확한 개선 목표를 제공하고, 실무자에게는 현재 방법의 한계를 상기시킵니다.

후속 작업은 다음에 중점을 두기를 권장합니다:

더 강한 비평 및 판별 능력 훈련
외부 지식 및 도구 통합 탐색
모델 자적응 균형 전략 연구
더 많은 벤치마크 및 시나리오에서 검증