SELF-REDRAFT: Eliciting Intrinsic Exploration-Exploitation Balance in Test-Time Scaling for Code Generation
Chen, Zheng, Huang et al.
Test-time scaling without interpreter feedback is essential for real-world code generation scenarios where test cases are not readily available. While existing paradigms often rely on either greedy exploitation (i.e., iterative refinement) or stochastic exploration (i.e., relying on sample-based voting or reranking mechanisms), the balance between these two dimensions remains underexplored. To investigate the LLM's intrinsic ability to balance exploitation and exploration, we introduce SELF-REDRAFT, a framework built upon Self-Refine that encourages the model to propose new drafts for solutions that are fundamentally flawed. Our results show that SELF-REDRAFT consistently achieves better performance than Self-Refine when converged under the same maximum number of iterations. Still, we observe that significant room for improvement remains, largely due to two core aspects of current self-redraft capabilities: constrained capacity for generating instructive feedback and fragile discriminative judgment. We also find that balancing strategies vary notably across different LLMs, reflecting distinct, model-specific behaviors. Overall, our study establishes a baseline for intrinsic exploration-exploitation balancing in test-time scaling and identifies feedback and discrimination as key areas with potential for future advances.
academic
SELF-REDRAFT: परीक्षण-समय स्केलिंग में कोड जनरेशन के लिए आंतरिक अन्वेषण-शोषण संतुलन को प्रकट करना
यह पेपर बिना व्याख्याकार प्रतिक्रिया के परीक्षण-समय स्केलिंग परिदृश्य में बड़े भाषा मॉडल (LLM) की कोड जनरेशन कार्यों में अन्वेषण (exploration) और शोषण (exploitation) को संतुलित करने की आंतरिक क्षमता का अध्ययन करता है। मौजूदा विधियां या तो लालची शोषण (पुनरावृत्तीय अनुकूलन) पर निर्भर करती हैं, या यादृच्छिक अन्वेषण (नमूना-आधारित मतदान या पुनः क्रमबद्धता) पर, लेकिन दोनों के बीच संतुलन पर्याप्त रूप से अध्ययन नहीं किया गया है। लेखकों ने SELF-REDRAFT ढांचा प्रस्तावित किया है, जो Self-Refine के आधार पर मौलिक रूप से गलत समाधानों को पुनः तैयार करने की एक तंत्र जोड़ता है। प्रयोग दर्शाते हैं कि SELF-REDRAFT समान पुनरावृत्ति बजट के तहत Self-Refine से लगातार बेहतर प्रदर्शन करता है, लेकिन महत्वपूर्ण सुधार की गुंजाइश बनी रहती है, मुख्य रूप से दो मुख्य क्षमताओं द्वारा सीमित: निर्देशक प्रतिक्रिया उत्पन्न करने की अपर्याप्त क्षमता और कमजोर विवेचन क्षमता। अध्ययन यह भी पाता है कि विभिन्न LLM की संतुलन रणनीतियों में महत्वपूर्ण अंतर हैं, जो मॉडल-विशिष्ट व्यवहार विशेषताओं को प्रतिबिंबित करते हैं।
यह पेपर निष्पादन-मुक्त परीक्षण-समय स्केलिंग (execution-free test-time scaling) परिदृश्य में कोड जनरेशन समस्या पर ध्यान केंद्रित करता है। व्यावहारिक अनुप्रयोगों में, परीक्षण केस अक्सर उपलब्ध नहीं होते हैं, इसलिए LLM को प्रोग्राम निष्पादन प्रतिक्रिया के बिना कोड गुणवत्ता में स्वायत्त रूप से सुधार करने की आवश्यकता होती है।
व्यावहारिक आवश्यकता: वास्तविक परिदृश्यों में परीक्षण केस अक्सर अनुपलब्ध होते हैं, निष्पादन वातावरण उपलब्ध नहीं हो सकता है
कम्प्यूटेशनल दक्षता: परीक्षण-समय स्केलिंग LLM प्रदर्शन को बढ़ाने का एक प्रभावी साधन है, लेकिन सीमित कम्प्यूटेशनल बजट के तहत प्रदर्शन को अधिकतम करने की आवश्यकता है
सैद्धांतिक मूल्य: अन्वेषण-शोषण व्यापार-बंद सुदृढ़ीकरण सीखने और खोज एल्गोरिदम की मूल समस्या है, कोड जनरेशन क्षेत्र में इसका अनुप्रयोग पर्याप्त रूप से अध्ययन नहीं किया गया है
लेखकों का उद्देश्य निष्पादन प्रतिक्रिया के बिना LLM की अन्वेषण और शोषण को संतुलित करने की आंतरिक क्षमता (intrinsic ability) का अध्ययन करना है, वर्तमान मॉडल की बाधाओं की पहचान करना, और भविष्य के सुधार के लिए दिशा प्रदान करना है।
SELF-REDRAFT ढांचा प्रस्तावित करना: Self-Refine के आधार पर स्पष्ट अन्वेषण विकल्प जोड़ना, मॉडल को मौलिक रूप से गलत समाधानों को पुनः तैयार करने की अनुमति देना (redraft), अन्वेषण और शोषण का संतुलन प्राप्त करना
बेंचमार्क मूल्यांकन स्थापित करना: LiveCodeBench पर 6 ओपन-सोर्स और मालिकाना LLM का व्यवस्थित मूल्यांकन, 16 पुनरावृत्तियों के बाद औसत 0.615% सुधार साबित करना
मुख्य बाधाओं की पहचान करना: गहन विश्लेषण के माध्यम से दो महत्वपूर्ण सीमा कारकों को प्रकट करना:
निर्देशक प्रतिक्रिया उत्पन्न करने की अपर्याप्त क्षमता (अपर्याप्त मॉडल आलोचना)
सही/गलत कोड को भेद करने की कमजोर क्षमता (नाजुक कोड विवेचन)
मॉडल-विशिष्ट व्यवहार को प्रकट करना: विभिन्न LLM की संतुलन रणनीतियों में महत्वपूर्ण अंतर खोजना, यह दर्शाता है कि यह क्षमता अभी तक सार्वभौमिक नहीं है, बल्कि मॉडल-विशिष्ट उदीयमान विशेषता है
सुधार की गुंजाइश को परिमाणित करना: pass@8 ऊपरी सीमा के साथ तुलना के माध्यम से, वर्तमान विधि और शुद्ध अन्वेषण क्षमता के बीच अंतर को परिमाणित करना
इनपुट: प्रोग्रामिंग कार्य विवरण x आउटपुट: कार्य आवश्यकताओं को पूरा करने वाला कोड समाधान y^ उद्देश्य: परीक्षण केस निष्पादन प्रतिक्रिया के बिना, सीमित पुनरावृत्तियों (परीक्षण-समय कम्प्यूटेशन) के माध्यम से कोड की कार्यात्मक शुद्धता को अधिकतम करना
Self-Refine के साथ मुख्य अंतर: Self-Refine केवल PASS और REFINE का समर्थन करता है, शुद्ध शोषण विधि है। SELF-REDRAFT REDRAFT विकल्प जोड़ता है, मॉडल को मौलिक त्रुटियों की पहचान करने और समाधान को पुनः तैयार करने की अनुमति देता है।
डिजाइन तर्कसंगतता:
कोड समस्याएं सतही त्रुटियों (जैसे सिंटैक्स, सीमा शर्तें) और पद्धति संबंधी त्रुटियों (जैसे एल्गोरिदम चयन त्रुटि) में विभाजित होती हैं
सतही त्रुटियां क्रमिक अनुकूलन (refine) के लिए उपयुक्त हैं, पद्धति संबंधी त्रुटियों को पुनः सोचने की आवश्यकता है (redraft)
मॉडल को स्वायत्त रूप से त्रुटि प्रकार का निर्णय करने देकर, अन्वेषण-शोषण का गतिशील संतुलन प्राप्त करना
Pass@k: कार्यात्मक शुद्धता मेट्रिक
pass@k=Eसमस्या[1−(kn)(kn−c)]
जहां n जनरेट किए गए नमूनों की संख्या है, c सही नमूनों की संख्या है। यह पेपर n=16,k=8 का उपयोग करता है।
सुधार दर (rimp): प्रारंभिक गलत समाधान जो सही किए गए हैं का अनुपात
प्रतिगमन दर (rreg): प्रारंभिक सही समाधान जो खराब हुए हैं का अनुपात
Draft पर Recall: सहायक मूल्यांकनकर्ता "redraft" सुझाव को सही तरीके से पहचानने की recall दर
Pass@8 SELF-REDRAFT×16 (17 समाधान) से काफी बेहतर है
मुख्य खोज: शुद्ध अन्वेषण (8 स्वतंत्र नमूने) वर्तमान अन्वेषण-शोषण संतुलन से अधिक प्रभावी है
अंतर उदाहरण:
GPT-4.1 mini: SELF-REDRAFT 35.1% vs Pass@8 41.8%
Qwen3-Next: SELF-REDRAFT 48.2% vs Pass@8 55.3%
व्याख्या: कई समस्याओं को केवल विविध नमूनों के माध्यम से सही समाधान मिल सकता है, लेकिन SELF-REDRAFT इस लाभ का प्रभावी ढंग से उपयोग नहीं कर सका, यह दर्शाता है कि वर्तमान अन्वेषण तंत्र अक्षम है।
SELF-REDRAFT की सुधार दर अधिक है (अधिक त्रुटियों को सही करता है)
लेकिन प्रतिगमन दर भी महत्वपूर्ण रूप से बढ़ता है (अधिक सही समाधान खराब होते हैं)
कुछ मॉडल पर प्रतिगमन दर में वृद्धि बहुत बड़ी है (जैसे Llama-4-Maverick +2.10%)
व्याख्या: पुनः तैयार करना एक उच्च जोखिम वाली कार्रवाई है। सीमित विवेचन क्षमता के कारण, मॉडल अक्सर सही समाधानों को गलत समझता है और "खराब" करता है, अन्वेषण द्वारा लाए गए लाभों को रद्द करता है।
SELF-REDRAFT प्रभावी लेकिन सीमित है: समान पुनरावृत्ति बजट के तहत Self-Refine से लगातार बेहतर प्रदर्शन करता है, लेकिन सुधार परिमाण सीमित है (औसत 0.615%)
दो प्रमुख बाधाएं:
प्रतिक्रिया जनरेशन अपर्याप्त: मॉडल पद्धति संबंधी त्रुटियों की पहचान करने में कठिनाई, प्रभावी पुनः तैयार करने के निर्देश प्रदान नहीं कर सकते
विवेचन क्षमता कमजोर: गलत निर्णय हानिकारक पुनः तैयार करने की ओर ले जाते हैं, प्रतिगमन दर वृद्धि लाभों को रद्द करती है
मॉडल-विशिष्टता: विभिन्न LLM के बीच संतुलन रणनीतियों में विशाल अंतर, सार्वभौमिक क्षमता नहीं
विशाल क्षमता: pass@8 ऊपरी सीमा के साथ अंतर दर्शाता है कि अन्वेषण आयाम में बहुत अविकसित स्थान है
यह एक ठोस अनुभवजन्य अनुसंधान पेपर है, जो कोड जनरेशन में एक महत्वपूर्ण लेकिन अनदेखी समस्या पर ध्यान केंद्रित करता है: निष्पादन प्रतिक्रिया के बिना अन्वेषण-शोषण संतुलन। SELF-REDRAFT विधि सरल और सुरुचिपूर्ण है, न्यूनतम संशोधन के माध्यम से अन्वेषण तंत्र का परिचय देता है। हालांकि पूर्ण सुधार सीमित है (0.615%), पेपर का मूल्य निम्नलिखित में निहित है:
ईमानदार वैज्ञानिक दृष्टिकोण: प्रभाव को अतिशयोक्तिपूर्ण नहीं करता, सीमाओं और अंतरों को स्पष्ट रूप से इंगित करता है
गहन तंत्र विश्लेषण: प्रतिक्रिया और विवेचन दो प्रमुख बाधाओं की पहचान करता है
स्पष्ट अनुसंधान पथ: भविष्य के कार्य के लिए दिशा स्पष्ट करता है
पेपर का मुख्य योगदान एक शक्तिशाली नई विधि प्रस्तुत करना नहीं है, बल्कि वर्तमान LLM की स्वायत्त अन्वेषण-शोषण संतुलन में कमियों को व्यवस्थित रूप से प्रकट करना है, जो क्षेत्र के विकास को आगे बढ़ाने के लिए समान रूप से महत्वपूर्ण है। शोधकर्ताओं के लिए, यह स्पष्ट सुधार लक्ष्य प्रदान करता है; व्यावहारिकों के लिए, यह वर्तमान विधियों की सीमाओं की याद दिलाता है।
अनुवर्ती कार्य को निम्नलिखित पर ध्यान केंद्रित करने की सिफारिश की जाती है: