2025-11-18T10:58:12.748063

LLM Prompt Duel Optimizer: Efficient Label-Free Prompt Optimization

Wu, Verma, Lee et al.

Large language models (LLMs) are highly sensitive to their input prompts, making prompt design a central challenge. While automatic prompt optimization (APO) reduces manual engineering, most approaches assume access to ground-truth references such as labeled validation data. In practice, however, collecting high-quality labels is costly and slow. We propose the Prompt Duel Optimizer (PDO), a sample-efficient framework for label-free prompt optimization. PDO formulates the problem as a dueling-bandit setting, where supervision signal comes from pairwise preference feedback provided by an LLM judge. The framework combines Double Thompson Sampling (D-TS), which prioritizes informative prompt comparisons, with Top-Performer Guided Mutation, which expands the candidate pool by mutating high-performing prompts. PDO naturally operates in label-free settings and can also incorporate partial labels to mitigate judge noise. Experiments on BIG-bench Hard (BBH) and MS MARCO show that PDO consistently outperforms baseline methods. Ablation studies further demonstrate the effectiveness of both D-TS and prompt mutation.

academic

LLM প্রম্পট ডুয়েল অপটিমাইজার: দক্ষ লেবেল-মুক্ত প্রম্পট অপটিমাইজেশন

মৌলিক তথ্য

পেপার আইডি: 2510.13907
শিরোনাম: LLM Prompt Duel Optimizer: Efficient Label-Free Prompt Optimization
লেখক: Yuanchen Wu, Saurabh Verma, Justin Lee, Fangzhou Xiong, Poppy Zhang, Amel Awadelkarim, Xu Chen, Yubai Yuan, Shawndra Hill
শ্রেণীবিভাগ: cs.CL (কম্পিউটেশনাল লিঙ্গুইস্টিক্স), stat.ML (মেশিন লার্নিং)
প্রকাশনার সময়: ২৫ অক্টোবর ২০২৫ (arXiv প্রি-প্রিন্ট)
পেপার লিঙ্ক: https://arxiv.org/abs/2510.13907

সারসংক্ষেপ

বৃহৎ ভাষা মডেল (LLM) ইনপুট প্রম্পটের প্রতি অত্যন্ত সংবেদনশীল, যা প্রম্পট ডিজাইনকে একটি মূল চ্যালেঞ্জ করে তোলে। যদিও স্বয়ংক্রিয় প্রম্পট অপটিমাইজেশন (APO) ম্যানুয়াল ইঞ্জিনিয়ারিং হ্রাস করে, তবে বেশিরভাগ পদ্ধতি লেবেলযুক্ত যাচাইকরণ ডেটার মতো প্রকৃত লেবেলগুলিতে অ্যাক্সেস অনুমান করে। তবে বাস্তবে, উচ্চ-মানের লেবেল সংগ্রহ ব্যয়বহুল এবং সময়সাপেক্ষ। এই পেপারটি প্রম্পট ডুয়েল অপটিমাইজার (PDO) প্রস্তাব করে, যা লেবেল-মুক্ত প্রম্পট অপটিমাইজেশনের জন্য একটি নমুনা-দক্ষ কাঠামো। PDO সমস্যাটিকে একটি ডুয়েল ব্যান্ডিট সেটিংয়ে মডেল করে, যেখানে তত্ত্বাবধান সংকেত LLM রেফারি দ্বারা প্রদত্ত জোড়া পছন্দ প্রতিক্রিয়া থেকে আসে। কাঠামোটি ডুয়েল থম্পসন স্যাম্পলিং (D-TS) এবং শীর্ষ পারফরমার-গাইডেড মিউটেশন একত্রিত করে, যেখানে পূর্বেরটি তথ্যপূর্ণ প্রম্পট তুলনাকে অগ্রাধিকার দেয় এবং পরবর্তীটি উচ্চ-কর্মক্ষমতা প্রম্পটগুলি মিউটেট করে প্রার্থী পুল প্রসারিত করে। PDO স্বাভাবিকভাবে লেবেল-মুক্ত সেটিংয়ের জন্য উপযুক্ত, এবং রেফারি শব্দ হ্রাস করতে আংশিক লেবেলগুলির সাথেও একত্রিত হতে পারে। BIG-bench Hard (BBH) এবং MS MARCO-তে পরীক্ষা-নিরীক্ষা দেখায় যে PDO সমস্ত কাজে ধারাবাহিকভাবে বেসলাইন পদ্ধতিকে অতিক্রম করে।

গবেষণা পটভূমি এবং প্রেরণা

সমস্যা সংজ্ঞা

বৃহৎ ভাষা মডেলের কর্মক্ষমতা সাবধানে ডিজাইন করা প্রম্পটের উপর অনেকাংশে নির্ভর করে, তবে কার্যকর প্রম্পট তৈরি করা সাধারণত প্রচুর পরীক্ষা-নিরীক্ষার প্রয়োজন। বিদ্যমান স্বয়ংক্রিয় প্রম্পট অপটিমাইজেশন (APO) পদ্ধতিগুলি ম্যানুয়াল ইঞ্জিনিয়ারিং হ্রাস করতে পারে, তবে নিম্নলিখিত মূল সমস্যাগুলি রয়েছে:

লেবেল নির্ভরতা: বেশিরভাগ APO পদ্ধতি প্রার্থী প্রম্পটগুলির কর্মক্ষমতা মূল্যায়ন করতে লেবেলযুক্ত যাচাইকরণ ডেটার উপর নির্ভর করে
অ্যানোটেশন খরচ: বাস্তব অ্যাপ্লিকেশনে, উচ্চ-মানের লেবেলযুক্ত ডেটা অর্জন ব্যয়বহুল এবং সময়সাপেক্ষ
স্থাপনার বিলম্ব: শিল্প পরিস্থিতিতে, বড় আকারের ম্যানুয়াল অ্যানোটেশন ডেটা উপলব্ধ হওয়ার আগে যুক্তিসঙ্গত প্রম্পট স্থাপন করা প্রয়োজন

গবেষণা প্রেরণা

পেপারের মূল গবেষণা প্রশ্ন হল: প্রকৃত লেবেল রেফারেন্স ছাড়াই কি প্রম্পট অপটিমাইজ করা সম্ভব?

এই সমস্যা সমাধানের জন্য, লেখকরা স্বাধীন স্কোরিংয়ের পরিবর্তে জোড়া তুলনার মাধ্যমে আরও নির্ভরযোগ্য তত্ত্বাবধান সংকেত পেতে প্রম্পট গুণমান মূল্যায়ন করতে LLM রেফারি ব্যবহার করার প্রস্তাব দেন। এই পদ্ধতিটি দুটি প্রধান চ্যালেঞ্জের সম্মুখীন:

LLM রেফারি শব্দ: LLM রায় অনিশ্চয়তা, অবস্থান পক্ষপাত এবং দৈর্ঘ্য পক্ষপাত রয়েছে
দ্বিঘাত জটিলতা: জোড়া তুলনার সংখ্যা প্রার্থী প্রম্পটের সংখ্যার সাথে দ্বিঘাতভাবে বৃদ্ধি পায়

মূল অবদান

সমস্যা মডেলিং উদ্ভাবন: প্রথমবারের মতো পছন্দ-ভিত্তিক প্রম্পট অপটিমাইজেশনকে একটি ডুয়েল ব্যান্ডিট সমস্যা হিসাবে মডেল করা, LLM রেফারির জোড়া তুলনা ব্যবহার করে তত্ত্বাবধান সংকেত হিসাবে
অ্যালগরিদম কাঠামো ডিজাইন: PDO কাঠামো প্রস্তাব করা, দক্ষ প্রম্পট নির্বাচনের জন্য ডুয়েল থম্পসন স্যাম্পলিং (D-TS) এবং অনুসন্ধান স্থান সম্প্রসারণের জন্য শীর্ষ পারফরমার-গাইডেড মিউটেশন একত্রিত করা
তাত্ত্বিক গ্যারান্টি: কোপেল্যান্ড অনুশোচনা সীমানার তাত্ত্বিক বিশ্লেষণ প্রদান করা, প্রমাণ করা যে PDO কোপেল্যান্ড সর্বোত্তম প্রম্পটে অ্যাসিম্পটোটিকভাবে রূপান্তরিত হয়
পরীক্ষামূলক যাচাইকরণ: BBH এবং MS MARCO ডেটাসেটে PDO এর কার্যকারিতা যাচাই করা এবং বিলোপন পরীক্ষার মাধ্যমে প্রতিটি উপাদানের অবদান প্রমাণ করা
নমনীয়তা: PDO বিশুদ্ধ লেবেল-মুক্ত সেটিংয়ে কাজ করতে পারে, এবং রেফারি শব্দ হ্রাস করতে আংশিক লেবেলগুলির সাথেও একত্রিত হতে পারে

পদ্ধতি বিস্তারিত

কাজের সংজ্ঞা

X কে ইনপুট স্থান হতে দিন, P = {p1, ..., pK} কে সীমিত প্রার্থী প্রম্পটের সেট হতে দিন। প্রম্পট pi, pj ∈ P এবং একই ইনপুট x এর জন্য, LLM রেফারির মাধ্যমে একটি বাইনারি পছন্দ পান:

Judgex(pi, pj) = {
    1, if fpi(x) ≻ fpj(x)
    0, otherwise
}

লক্ষ্য সীমিত তুলনা বাজেটের মধ্যে কন্ডোরসেট বিজয়ী (যদি বিদ্যমান থাকে) বা কোপেল্যান্ড বিজয়ী চিহ্নিত করা।

মডেল আর্কিটেকচার

1. ডুয়েল থম্পসন স্যাম্পলিং (D-TS)

D-TS থম্পসন স্যাম্পলিংকে ডুয়েল ব্যান্ডিট সেটিংয়ে প্রসারিত করে, প্রতিটি রাউন্ডে তথ্যপূর্ণ ডুয়েল নির্বাচনের জন্য দুটি স্বাধীন থম্পসন নমুনা ব্যবহার করে:

প্রতিটি রাউন্ডের প্রক্রিয়া:

প্রথম প্রম্পট নির্বাচন: আশাবাদী কোপেল্যান্ড স্কোর গণনা করুন, সর্বোচ্চ স্কোর সহ প্রম্পটের সেট ধরে রাখুন, থম্পসন স্যাম্পলিংয়ের মাধ্যমে প্রার্থী নির্বাচন করুন
দ্বিতীয় প্রম্পট নির্বাচন: অনিশ্চিত প্রতিদ্বন্দ্বী সেটে সীমাবদ্ধ করুন, থম্পসন স্যাম্পলিংয়ের মাধ্যমে ডুয়েল প্রতিদ্বন্দ্বী নির্বাচন করুন
ডুয়েল এবং আপডেট: রেফারি তুলনা সম্পাদন করুন এবং জয়-ক্ষতির পরিসংখ্যান আপডেট করুন

2. শীর্ষ পারফরমার-গাইডেড মিউটেশন

অনুসন্ধান স্থান প্রসারিত করতে, PDO নিয়মিতভাবে সর্বোত্তম পারফরম্যান্সকারী প্রম্পটগুলি মিউটেট করে:

মিউটেশন প্রক্রিয়া:

নির্বাচন: বর্তমান কোপেল্যান্ড স্কোর সর্বোচ্চ প্রম্পট নির্বাচন করুন
মিউটেশন: টেমপ্লেট সম্পাদনা, পাঠ্য গ্রেডিয়েন্ট-গাইডেড বা LLM-সহায়ক পুনর্লিখনের মাধ্যমে ভেরিয়েন্ট তৈরি করুন
সম্প্রসারণ: নতুন ভেরিয়েন্টগুলি প্রার্থী পুলে যোগ করুন

প্রযুক্তিগত উদ্ভাবন পয়েন্ট

তাত্ত্বিক ভিত্তি: Lipschitz ব্যান্ডিট তত্ত্বের উপর ভিত্তি করে, শীর্ষ পারফরমারদের কাছাকাছি মিউটেশন ঘনীভূত করা প্রায় সর্বোত্তম অঞ্চলে অনুসন্ধান "জুম ইন" করার সমতুল্য
শব্দ প্রক্রিয়াকরণ: ওজনযুক্ত পছন্দ ম্যাট্রিক্স আপডেট ব্যবহার করুন, যুক্তি-ভিত্তিক রায়ের জন্য (উত্তর-ভিত্তিক রায়ের তুলনায় আরও শব্দময়) হ্রাস ওজন প্রয়োগ করুন
দক্ষতা অপটিমাইজেশন: ক্যাশিং মেকানিজম এবং অভিযোজিত প্রুনিং এর মাধ্যমে গণনা ওভারহেড হ্রাস করুন

পরীক্ষামূলক সেটআপ

ডেটাসেট

BIG-bench Hard (BBH): ১৬টি বহুনির্বাচনী যুক্তি কাজ নির্বাচন করুন, নির্ভুলতা মূল্যায়ন মেট্রিক হিসাবে ব্যবহার করুন
MS MARCO: চারটি খোলা-শেষ প্রশ্নোত্তর কাজের বিভাগ (বর্ণনামূলক, সত্তা, সংখ্যাগত, অবস্থান), LLM রেফারি দ্বারা প্রদত্ত ১-৫ স্কোর ব্যবহার করুন

মূল্যায়ন মেট্রিক্স

BBH কাজ: নির্ভুলতা
MS MARCO কাজ: LLM রেফারি দ্বারা প্রদত্ত ১-৫ পূর্ণসংখ্যা স্কোর

তুলনা পদ্ধতি

লেবেল-মুক্ত বেসলাইন:

SPO (স্ব-তত্ত্বাবধান প্রম্পট অপটিমাইজেশন)
CoT (চিন্তার শৃঙ্খল)
PoS (পরিকল্পনা-এবং-সমাধান)

তত্ত্বাবধানকৃত বেসলাইন:

APE (স্বয়ংক্রিয় প্রম্পট ইঞ্জিনিয়ার)
OPRO (প্রম্পটিং দ্বারা অপটিমাইজেশন)
Breeder (প্রম্পট বিবর্তন)

বাস্তবায়ন বিবরণ

BBH: ২০টি প্রাথমিক প্রার্থী প্রম্পট, ৩০ রাউন্ড, প্রতি রাউন্ডে ৫০টি ডুয়েল
MS MARCO: ৫০টি প্রাথমিক প্রার্থী প্রম্পট, ৩০ রাউন্ড, প্রতি রাউন্ডে ৫০টি ডুয়েল
জেনারেশন, রেফারি এবং মূল্যায়ন মডেল হিসাবে Llama-3.3-70B-Instruct ব্যবহার করুন
D-TS প্যারামিটার α = 1.2

পরীক্ষামূলক ফলাফল

প্রধান ফলাফল

BBH কাজের কর্মক্ষমতা (লেবেল-মুক্ত সেটিং)

PDO ১৬টি কাজের মধ্যে ১৩টিতে সর্বোত্তম কর্মক্ষমতা অর্জন করে, উল্লেখযোগ্য উন্নতি অন্তর্ভুক্ত:

Tracking-7: 0.641 বনাম 0.543 (+9.8 শতাংশ পয়েন্ট)
Web of Lies: 0.942 বনাম 0.861 (+8.1 শতাংশ পয়েন্ট)

MS MARCO কাজের কর্মক্ষমতা

সমস্ত ৪টি কাজে, D-TS সহ PDO ধারাবাহিকভাবে RUCB এবং র্যান্ডম স্যাম্পলিংকে অতিক্রম করে, এবং কয়েক রাউন্ডের মধ্যে SPO বেসলাইনকে অতিক্রম করে।

বিলোপন পরীক্ষা

D-TS বনাম অন্যান্য স্যাম্পলিং কৌশল: D-TS নমুনা দক্ষতায় র্যান্ডম স্যাম্পলিং এবং RUCB-এর চেয়ে উল্লেখযোগ্যভাবে ভাল
মিউটেশন প্রভাব: শীর্ষ পারফরমার-গাইডেড মিউটেশন Web of Lies এবং Tracking-7 কাজে উল্লেখযোগ্যভাবে কর্মক্ষমতা উন্নত করে
জোড়া পছন্দ বনাম পয়েন্টওয়াইজ স্কোরিং: ৮টি মডেল-কাজ সমন্বয়ের মধ্যে ৭টি ক্ষেত্রে, জোড়া পছন্দ পয়েন্টওয়াইজ স্কোরিংয়ের চেয়ে ভাল

LLM রেফারি বিশ্লেষণ

কাজ-সম্পর্কিত শব্দ স্তর: বিভিন্ন কাজের রেফারি নির্ভরযোগ্যতা উল্লেখযোগ্যভাবে পরিবর্তিত হয়, যেমন জ্যামিতিক কাজে বৃহত্তর রায় ত্রুটি রয়েছে
আংশিক লেবেলের ভূমিকা: প্রকৃত লেবেলের ৩০%-৫০% প্রবর্তন করা রায় শব্দ উল্লেখযোগ্যভাবে হ্রাস করতে পারে
মডেল আকারের প্রভাব: রেফারি হিসাবে ৭০B এবং ৮B মডেলের সামগ্রিক কর্মক্ষমতা অনুরূপ

উপসংহার এবং আলোচনা

প্রধান উপসংহার

PDO সফলভাবে লেবেল-মুক্ত প্রম্পট অপটিমাইজেশন সমস্যা সমাধান করে, ডুয়েল ব্যান্ডিট কাঠামোর মাধ্যমে নমুনা-দক্ষ অনুসন্ধান অর্জন করে
D-TS র্যান্ডম স্যাম্পলিং এবং অন্যান্য ডুয়েল ব্যান্ডিট পদ্ধতির চেয়ে উচ্চ-মানের প্রম্পট চিহ্নিত করতে দ্রুত এবং আরও নির্ভরযোগ্য
শীর্ষ পারফরমার-গাইডেড মিউটেশন কার্যকরভাবে অনুসন্ধানকে শক্তিশালী অঞ্চলের দিকে পরিচালিত করে
জোড়া পছন্দ পয়েন্টওয়াইজ স্কোরিংয়ের চেয়ে আরও স্থিতিশীল তত্ত্বাবধান সংকেত প্রদান করে

সীমাবদ্ধতা

রেফারি নির্ভরতা: অপটিমাইজেশন গুণমান LLM রেফারির ক্ষমতা এবং মেটা-প্রম্পট ডিজাইনের উপর নির্ভর করে
শৈলী পছন্দের ঝুঁকি: অ্যালগরিদম রেফারি পছন্দের শৈলী প্যাটার্নের দিকে পক্ষপাত করতে পারে প্রকৃত কাজের মেট্রিক্সের পরিবর্তে
গণনা সম্পদ সীমাবদ্ধতা: সম্পদ সীমাবদ্ধতার কারণে, আরও মডেলে ব্যাপক পরীক্ষা-নিরীক্ষা পরিচালনা করা সম্ভব হয়নি

ভবিষ্যত দিকনির্দেশনা

LLM রেফারি এবং কাজের উদ্দেশ্যগুলির মধ্যে সারিবদ্ধতা উন্নত করুন
রায় নির্ভরযোগ্যতা প্রতিফলিত করতে অভিযোজিত সমন্বয় প্রক্রিয়া বিকাশ করুন
আরও জটিল অনিশ্চয়তা ক্যাপচার মেকানিজম অন্বেষণ করুন

গভীর মূল্যায়ন

শক্তি

সমস্যা মডেলিং উদ্ভাবন: প্রম্পট অপটিমাইজেশনকে ডুয়েল ব্যান্ডিট সমস্যা হিসাবে মডেল করা তাত্ত্বিক ভিত্তি এবং ব্যবহারিক মূল্য রয়েছে
পদ্ধতি সম্পূর্ণতা: দক্ষ নির্বাচন কৌশল এবং অনুসন্ধান স্থান সম্প্রসারণ একত্রিত করে একটি সম্পূর্ণ অপটিমাইজেশন কাঠামো গঠন করে
পরীক্ষা পর্যাপ্ত: একাধিক ডেটাসেটে ব্যাপক মূল্যায়ন, বিলোপন পরীক্ষা এবং রেফারি বিশ্লেষণ অন্তর্ভুক্ত
তাত্ত্বিক গ্যারান্টি: কোপেল্যান্ড অনুশোচনা সীমানার তাত্ত্বিক বিশ্লেষণ প্রদান করে

অপূর্ণতা

রেফারি শব্দ প্রক্রিয়াকরণ: যদিও রেফারি শব্দ সমস্যা বিশ্লেষণ করা হয়েছে, সমাধান অপেক্ষাকৃত সহজ
স্কেলেবিলিটি: বৃহৎ-স্কেল প্রার্থী প্রম্পট সেটে কর্মক্ষমতা পর্যাপ্তভাবে যাচাই করা হয়নি
কাজ সাধারণীকরণ: প্রধানত যুক্তি এবং প্রশ্নোত্তর কাজে যাচাই করা হয়েছে, অন্যান্য ধরনের কাজের প্রযোজ্যতা অস্পষ্ট

প্রভাব

একাডেমিক অবদান: লেবেল-মুক্ত প্রম্পট অপটিমাইজেশনের জন্য একটি নতুন তাত্ত্বিক কাঠামো এবং ব্যবহারিক পদ্ধতি প্রদান করে
ব্যবহারিক মূল্য: শিল্প পরিস্থিতিতে সরাসরি প্রয়োগ মূল্য রয়েছে, বিশেষত লেবেলযুক্ত ডেটা দুর্লভ পরিস্থিতিতে
পুনরুৎপাদনযোগ্যতা: লেখকরা কোড ওপেন-সোর্স করার প্রতিশ্রুতি দেন, পদ্ধতির পুনরুৎপাদন এবং আরও গবেষণার সুবিধা দেয়

প্রযোজ্য পরিস্থিতি

লেবেলযুক্ত ডেটা দুর্লভ: নতুন ডোমেইন বা নতুন কাজে প্রচুর লেবেলযুক্ত ডেটা অনুপলব্ধ থাকলে
দ্রুত স্থাপনার চাহিদা: স্বল্প সময়ে যুক্তিসঙ্গত প্রম্পট পেতে শিল্প অ্যাপ্লিকেশন
খরচ-সংবেদনশীল অ্যাপ্লিকেশন: লেবেলিং খরচ বেশি পরিস্থিতি
মাল্টি-টাস্ক অপটিমাইজেশন: একাধিক সম্পর্কিত কাজের জন্য একযোগে প্রম্পট অপটিমাইজ করা প্রয়োজন

রেফারেন্স

পেপারটি একাধিক গুরুত্বপূর্ণ সম্পর্কিত কাজ উদ্ধৃত করে, যার মধ্যে রয়েছে:

Zhou et al. (2022) - APE পদ্ধতি
Yang et al. (2024) - OPRO পদ্ধতি
Fernando et al. (2023) - Breeder পদ্ধতি
Wu and Liu (2016) - ডুয়েল থম্পসন স্যাম্পলিং তত্ত্ব
Zheng et al. (2023) - রেফারি হিসাবে LLM সম্পর্কিত গবেষণা

সামগ্রিক মূল্যায়ন: এটি প্রম্পট অপটিমাইজেশন ক্ষেত্রে একটি গুরুত্বপূর্ণ অবদান সহ একটি পেপার, উদ্ভাবনী সমস্যা মডেলিং এবং তাত্ত্বিক কাঠামোর মাধ্যমে লেবেল-মুক্ত প্রম্পট অপটিমাইজেশনের এই ব্যবহারিক চাহিদা কার্যকরভাবে সমাধান করে। পদ্ধতি ডিজাইন যুক্তিসঙ্গত, পরীক্ষা-নিরীক্ষা যাচাইকরণ পর্যাপ্ত, শক্তিশালী তাত্ত্বিক ভিত্তি এবং ব্যবহারিক মূল্য রয়েছে।