SELF-REDRAFT: Eliciting Intrinsic Exploration-Exploitation Balance in Test-Time Scaling for Code Generation
Chen, Zheng, Huang et al.
Test-time scaling without interpreter feedback is essential for real-world code generation scenarios where test cases are not readily available. While existing paradigms often rely on either greedy exploitation (i.e., iterative refinement) or stochastic exploration (i.e., relying on sample-based voting or reranking mechanisms), the balance between these two dimensions remains underexplored. To investigate the LLM's intrinsic ability to balance exploitation and exploration, we introduce SELF-REDRAFT, a framework built upon Self-Refine that encourages the model to propose new drafts for solutions that are fundamentally flawed. Our results show that SELF-REDRAFT consistently achieves better performance than Self-Refine when converged under the same maximum number of iterations. Still, we observe that significant room for improvement remains, largely due to two core aspects of current self-redraft capabilities: constrained capacity for generating instructive feedback and fragile discriminative judgment. We also find that balancing strategies vary notably across different LLMs, reflecting distinct, model-specific behaviors. Overall, our study establishes a baseline for intrinsic exploration-exploitation balancing in test-time scaling and identifies feedback and discrimination as key areas with potential for future advances.
academic
SELF-REDRAFT: কোড জেনারেশনের জন্য টেস্ট-টাইম স্কেলিংয়ে অন্তর্নিহিত অন্বেষণ-শোষণ ভারসাম্য উদ্ঘাটন
এই পেপারটি অন্বেষণকারী ব্যাখ্যাহীন প্রতিক্রিয়া ছাড়াই টেস্ট-টাইম স্কেলিং পরিস্থিতিতে বড় ভাষা মডেল (LLM) দ্বারা কোড জেনারেশন কাজে অন্বেষণ (exploration) এবং শোষণ (exploitation) এর ভারসাম্য রক্ষার অন্তর্নিহিত ক্ষমতা অধ্যয়ন করে। বিদ্যমান পদ্ধতিগুলি হয় লোভী শোষণের উপর নির্ভর করে (পুনরাবৃত্তিমূলক অপ্টিমাইজেশন), অথবা র্যান্ডম অন্বেষণের উপর নির্ভর করে (নমুনা-ভিত্তিক ভোটিং বা পুনর্বিন্যাস), কিন্তু উভয়ের মধ্যে ভারসাম্য যথেষ্ট অধ্যয়ন করা হয়নি। লেখকরা SELF-REDRAFT ফ্রেমওয়ার্ক প্রস্তাব করেন, যা Self-Refine এর উপর ভিত্তি করে মৌলিক ত্রুটিপূর্ণ সমাধানগুলি পুনরায় তৈরি করার একটি প্রক্রিয়া যোগ করে। পরীক্ষাগুলি দেখায় যে SELF-REDRAFT একই পুনরাবৃত্তি বাজেটে Self-Refine কে ধারাবাহিকভাবে অতিক্রম করে, তবে উল্লেখযোগ্য উন্নতির জায়গা রয়েছে, প্রধানত দুটি মূল ক্ষমতা দ্বারা সীমাবদ্ধ: নির্দেশনামূলক প্রতিক্রিয়া তৈরির অপর্যাপ্ত ক্ষমতা এবং দুর্বল বৈষম্যমূলক ক্ষমতা। গবেষণা আরও দেখায় যে বিভিন্ন LLM এর ভারসাম্য কৌশলে উল্লেখযোগ্য পার্থক্য রয়েছে, যা মডেল-নির্দিষ্ট আচরণগত বৈশিষ্ট্য প্রতিফলিত করে।
এই পেপারটি সম্পাদন প্রতিক্রিয়া ছাড়াই টেস্ট-টাইম স্কেলিং (execution-free test-time scaling) পরিস্থিতিতে কোড জেনারেশন সমস্যার উপর দৃষ্টি নিবদ্ধ করে। বাস্তব প্রয়োগে, পরীক্ষার কেস প্রায়শই উপলব্ধ থাকে না, তাই LLM কে প্রোগ্রাম সম্পাদন প্রতিক্রিয়া ছাড়াই কোড গুণমান স্বয়ংক্রিয়ভাবে উন্নত করতে হবে।
লেখকরা সম্পাদন প্রতিক্রিয়া ছাড়াই LLM দ্বারা অন্বেষণ এবং শোষণের ভারসাম্য রক্ষার অন্তর্নিহিত ক্ষমতা (intrinsic ability) অধ্যয়ন করতে লক্ষ্য রাখেন, বর্তমান মডেলের বাধা চিহ্নিত করেন এবং ভবিষ্যত উন্নতির জন্য দিকনির্দেশনা প্রদান করেন।
১. SELF-REDRAFT ফ্রেমওয়ার্ক প্রস্তাব: Self-Refine এর উপর ভিত্তি করে স্পষ্ট অন্বেষণ নির্বাচন প্রবর্তন করে, মডেলকে মৌলিক ত্রুটিপূর্ণ সমাধানগুলি পুনরায় তৈরি করার অনুমতি দেয় (redraft), অন্বেষণ এবং শোষণের ভারসাম্য অর্জন করে
२. মানদণ্ড মূল্যায়ন প্রতিষ্ঠা: LiveCodeBench এ ৬টি ওপেন-সোর্স এবং মালিকানাধীন LLM এর উপর সিস্টেমেটিক মূল্যায়ন, ১৬ পুনরাবৃত্তির পরে গড় ০.৬১৫% উন্নতি প্রমাণ করে
३. মূল বাধা চিহ্নিত করা: গভীর বিশ্লেষণের মাধ্যমে দুটি গুরুত্বপূর্ণ সীমাবদ্ধতা উন্মোচন করে:
নির্দেশনামূলক প্রতিক্রিয়া তৈরির অপর্যাপ্ত ক্ষমতা (Insufficient Model Critique)
সঠিক/ত্রুটিপূর্ণ কোড বৈষম্য করার দুর্বল ক্ষমতা (Fragile Code Discrimination)
४. মডেল-নির্দিষ্ট আচরণ উন্মোচন: বিভিন্ন LLM এর ভারসাম্য কৌশলে উল্লেখযোগ্য পার্থক্য আবিষ্কার করে, নির্দেশ করে যে এই ক্ষমতা এখনও সর্বজনীন ক্ষমতা নয়, বরং মডেল-নির্দিষ্ট উদীয়মান বৈশিষ্ট্য
५. উন্নতির স্থান পরিমাপ করা: pass@8 উপরের সীমার সাথে তুলনা করে, বর্তমান পদ্ধতি এবং বিশুদ্ধ অন্বেষণ সম্ভাবনার মধ্যে ব্যবধান পরিমাপ করে
ইনপুট: প্রোগ্রামিং কাজের বর্ণনা x আউটপুট: কাজের প্রয়োজনীয়তা পূরণকারী কোড সমাধান y^ লক্ষ্য: পরীক্ষার কেস সম্পাদন প্রতিক্রিয়া ছাড়াই, সীমিত পুনরাবৃত্তির মাধ্যমে (টেস্ট-টাইম গণনা) কোডের কার্যকরী সঠিকতা সর্বাধিক করা
Self-Refine এর সাথে মূল পার্থক্য: Self-Refine শুধুমাত্র PASS এবং REFINE সমর্থন করে, বিশুদ্ধভাবে শোষণ-ধরনের পদ্ধতি। SELF-REDRAFT REDRAFT বিকল্প প্রবর্তন করে, মডেলকে মৌলিক ত্রুটি চিহ্নিত করতে এবং সমাধান পুনরায় তৈরি করতে অনুমতি দেয়।
ডিজাইন যুক্তিসঙ্গততা:
কোডের সমস্যা পৃষ্ঠ-স্তরের ত্রুটি (যেমন সিনট্যাক্স, সীমানা শর্ত) এবং পদ্ধতিগত ত্রুটিতে বিভক্ত (যেমন অ্যালগরিদম নির্বাচন ত্রুটি)
পৃষ্ঠ-স্তরের ত্রুটি ক্রমবর্ধমান অপ্টিমাইজেশনের জন্য উপযুক্ত (refine), পদ্ধতিগত ত্রুটি পুনর্চিন্তার প্রয়োজন (redraft)
মডেলকে স্বয়ংক্রিয়ভাবে ত্রুটির ধরন নির্ধারণ করতে দিয়ে, অন্বেষণ-শোষণের গতিশীল ভারসাম্য অর্জন করুন
१. Pass@k: কার্যকরী সঠিকতা মেট্রিক
pass@k=EProblem[1−(kn)(kn−c)]
যেখানে n হল জেনারেট করা নমুনার সংখ্যা, c হল সঠিক নমুনার সংখ্যা। এই পেপারটি n=16,k=8 ব্যবহার করে।
२. উন্নতির হার (rimp): প্রাথমিক ত্রুটিপূর্ণ সমাধান সংশোধিত হওয়ার অনুপাত
३. রিগ্রেশন রেট (rreg): প্রাথমিক সঠিক সমাধান ক্ষতিগ্রস্ত হওয়ার অনুপাত
४. Draft এ Recall: সহায়ক মূল্যায়নকারী "redraft" পরামর্শ সঠিকভাবে চিহ্নিত করার রিকল রেট
ব্যাখ্যা: অনেক সমস্যা শুধুমাত্র বৈচিত্র্যময় নমুনার মাধ্যমে সঠিক সমাধান খুঁজে পেতে পারে, কিন্তু SELF-REDRAFT এই সুবিধা কার্যকরভাবে ব্যবহার করতে পারেনি, নির্দেশ করে যে বর্তমান অন্বেষণ প্রক্রিয়া অদক্ষ।
মূল আবিষ্কার:
१. SELF-REDRAFT এর উন্নতির হার বেশি (আরও ত্রুটি সংশোধন করে)
२. কিন্তু রিগ্রেশন রেটও উল্লেখযোগ্যভাবে বৃদ্ধি পায় (আরও সঠিক সমাধান ক্ষতিগ্রস্ত করে)
३. কিছু মডেলে রিগ্রেশন রেট বৃদ্ধি বড় (যেমন Llama-4-Maverick +२.१०%)
ব্যাখ্যা: পুনরায় তৈরি করা একটি উচ্চ-ঝুঁকি অপারেশন। সীমিত বৈষম্যমূলক ক্ষমতার কারণে, মডেল প্রায়শই সঠিক সমাধানকে ত্রুটিপূর্ণ হিসাবে ভুল বিচার করে এবং "উন্নতি" করে, অন্বেষণ দ্বারা আনা সুবিধা অফসেট করে।
१. নতুন গবেষণা দিকনির্দেশনা খোলে: সম্পাদন প্রতিক্রিয়া ছাড়াই পরিস্থিতিতে অন্বেষণ-শোষণ ভারসাম্যের মানদণ্ড প্রতিষ্ঠা করে
२. মূল বাধা চিহ্নিত করে: প্রতিক্রিয়া এবং বৈষম্য মূল সীমাবদ্ধতা স্পষ্ট করে
३. ভবিষ্যত কাজ অনুপ্রাণিত করে: স্পষ্ট উন্নতি পথ প্রদান করে
উপযুক্ত পরিস্থিতি:
१. পরীক্ষার কেস ছাড়াই কোড জেনারেশন (যেমন প্রাথমিক উন্নয়ন পর্যায়)
२. সম্পাদন পরিবেশ অনুপলব্ধ বা খরচ বেশি
३. বৈচিত্র্যময় সমাধান অন্বেষণের প্রয়োজন
४. সম্পাদন-নির্ভর পদ্ধতির প্রাক-পদক্ষেপ হিসাবে
অনুপযুক্ত পরিস্থিতি:
१. পর্যাপ্ত পরীক্ষার কেস উপলব্ধ হলে (সম্পাদন-নির্ভর পদ্ধতি উত্তম)
२. নির্ভুলতার প্রয়োজনীয়তা অত্যন্ত উচ্চ সমালোচনামূলক কোড
३. গণনা বাজেট অত্যন্ত সীমিত (উন্নতির মাত্রা ছোট)
४. একক-দিক উন্নতি নিশ্চিত করার প্রয়োজন (রিগ্রেশন ঝুঁকি আছে)
१. Madaan et al. (2023) - Self-Refine: এই পেপারের ভিত্তি পদ্ধতি
२. Jain et al. (2024) - LiveCodeBench: মূল্যায়ন মানদণ্ড
३. Tang et al. (2024) - কোড মেরামতে অন্বেষণ-শোষণ ট্রেড-অফ প্রয়োগ
४. Xie et al. (2025) - RL এর মাধ্যমে সমালোচনা ক্ষমতা উন্নত করা
५. Chen et al. (2021) - Codex এবং pass@k মেট্রিক
६. Snell et al. (2024) - টেস্ট-টাইম গণনা স্কেলিংয়ের তাত্ত্বিক ভিত্তি
এই পেপারটি একটি দৃঢ় অভিজ্ঞতামূলক গবেষণা পেপার, কোড জেনারেশনে একটি গুরুত্বপূর্ণ কিন্তু উপেক্ষিত সমস্যায় ফোকাস করে: সম্পাদন প্রতিক্রিয়া ছাড়াই অন্বেষণ-শোষণ ভারসাম্য। SELF-REDRAFT পদ্ধতি সরল এবং মার্জিত, ন্যূনতম পরিবর্তনের মাধ্যমে অন্বেষণ প্রক্রিয়া প্রবর্তন করে। যদিও নিরঙ্কুশ উন্নতি সীমিত (০.६१५%), পেপারের মূল্য এতে নিহিত:
१. সৎ বৈজ্ঞানিক মনোভাব: প্রভাব বাড়ায় না, সীমাবদ্ধতা এবং ব্যবধান স্পষ্টভাবে নির্দেশ করে
२. গভীর প্রক্রিয়া বিশ্লেষণ: প্রতিক্রিয়া এবং বৈষম্য দুটি প্রধান বাধা চিহ্নিত করে
३. স্পষ্ট গবেষণা পথ: ভবিষ্যত কাজের জন্য দিকনির্দেশনা প্রদান করে
পেপারের প্রধান অবদান একটি শক্তিশালী নতুন পদ্ধতি প্রস্তাব করা নয়, বরং বর্তমান LLM দ্বারা স্বয়ংক্রিয় অন্বেষণ-শোষণ ভারসাম্যের অপর্যাপ্ততা সিস্টেমেটিকভাবে উন্মোচন করা, যা ক্ষেত্র উন্নয়ন চালনার জন্য সমান গুরুত্বপূর্ণ। গবেষকদের জন্য, এটি স্পষ্ট উন্নতি লক্ষ্য প্রদান করে; অনুশীলনকারীদের জন্য, এটি বর্তমান পদ্ধতির সীমাবদ্ধতা সতর্ক করে।
পরবর্তী কাজ প্রধান ফোকাস সুপারিশ করা হয়:
१. শক্তিশালী সমালোচনা এবং বৈষম্যমূলক ক্ষমতা প্রশিক্ষণ
२. বাহ্যিক জ্ঞান এবং সরঞ্জাম একীকরণ অন্বেষণ
३. মডেল-অভিযোজিত ভারসাম্য কৌশল গবেষণা
४. আরও মানদণ্ড এবং পরিস্থিতিতে যাচাইকরণ