Large language models (LLMs) are highly sensitive to their input prompts, making prompt design a central challenge. While automatic prompt optimization (APO) reduces manual engineering, most approaches assume access to ground-truth references such as labeled validation data. In practice, however, collecting high-quality labels is costly and slow. We propose the Prompt Duel Optimizer (PDO), a sample-efficient framework for label-free prompt optimization. PDO formulates the problem as a dueling-bandit setting, where supervision signal comes from pairwise preference feedback provided by an LLM judge. The framework combines Double Thompson Sampling (D-TS), which prioritizes informative prompt comparisons, with Top-Performer Guided Mutation, which expands the candidate pool by mutating high-performing prompts. PDO naturally operates in label-free settings and can also incorporate partial labels to mitigate judge noise. Experiments on BIG-bench Hard (BBH) and MS MARCO show that PDO consistently outperforms baseline methods. Ablation studies further demonstrate the effectiveness of both D-TS and prompt mutation.
বৃহৎ ভাষা মডেল (LLM) ইনপুট প্রম্পটের প্রতি অত্যন্ত সংবেদনশীল, যা প্রম্পট ডিজাইনকে একটি মূল চ্যালেঞ্জ করে তোলে। যদিও স্বয়ংক্রিয় প্রম্পট অপটিমাইজেশন (APO) ম্যানুয়াল ইঞ্জিনিয়ারিং হ্রাস করে, তবে বেশিরভাগ পদ্ধতি লেবেলযুক্ত যাচাইকরণ ডেটার মতো প্রকৃত লেবেলগুলিতে অ্যাক্সেস অনুমান করে। তবে বাস্তবে, উচ্চ-মানের লেবেল সংগ্রহ ব্যয়বহুল এবং সময়সাপেক্ষ। এই পেপারটি প্রম্পট ডুয়েল অপটিমাইজার (PDO) প্রস্তাব করে, যা লেবেল-মুক্ত প্রম্পট অপটিমাইজেশনের জন্য একটি নমুনা-দক্ষ কাঠামো। PDO সমস্যাটিকে একটি ডুয়েল ব্যান্ডিট সেটিংয়ে মডেল করে, যেখানে তত্ত্বাবধান সংকেত LLM রেফারি দ্বারা প্রদত্ত জোড়া পছন্দ প্রতিক্রিয়া থেকে আসে। কাঠামোটি ডুয়েল থম্পসন স্যাম্পলিং (D-TS) এবং শীর্ষ পারফরমার-গাইডেড মিউটেশন একত্রিত করে, যেখানে পূর্বেরটি তথ্যপূর্ণ প্রম্পট তুলনাকে অগ্রাধিকার দেয় এবং পরবর্তীটি উচ্চ-কর্মক্ষমতা প্রম্পটগুলি মিউটেট করে প্রার্থী পুল প্রসারিত করে। PDO স্বাভাবিকভাবে লেবেল-মুক্ত সেটিংয়ের জন্য উপযুক্ত, এবং রেফারি শব্দ হ্রাস করতে আংশিক লেবেলগুলির সাথেও একত্রিত হতে পারে। BIG-bench Hard (BBH) এবং MS MARCO-তে পরীক্ষা-নিরীক্ষা দেখায় যে PDO সমস্ত কাজে ধারাবাহিকভাবে বেসলাইন পদ্ধতিকে অতিক্রম করে।
বৃহৎ ভাষা মডেলের কর্মক্ষমতা সাবধানে ডিজাইন করা প্রম্পটের উপর অনেকাংশে নির্ভর করে, তবে কার্যকর প্রম্পট তৈরি করা সাধারণত প্রচুর পরীক্ষা-নিরীক্ষার প্রয়োজন। বিদ্যমান স্বয়ংক্রিয় প্রম্পট অপটিমাইজেশন (APO) পদ্ধতিগুলি ম্যানুয়াল ইঞ্জিনিয়ারিং হ্রাস করতে পারে, তবে নিম্নলিখিত মূল সমস্যাগুলি রয়েছে:
লেবেল নির্ভরতা: বেশিরভাগ APO পদ্ধতি প্রার্থী প্রম্পটগুলির কর্মক্ষমতা মূল্যায়ন করতে লেবেলযুক্ত যাচাইকরণ ডেটার উপর নির্ভর করে
অ্যানোটেশন খরচ: বাস্তব অ্যাপ্লিকেশনে, উচ্চ-মানের লেবেলযুক্ত ডেটা অর্জন ব্যয়বহুল এবং সময়সাপেক্ষ
স্থাপনার বিলম্ব: শিল্প পরিস্থিতিতে, বড় আকারের ম্যানুয়াল অ্যানোটেশন ডেটা উপলব্ধ হওয়ার আগে যুক্তিসঙ্গত প্রম্পট স্থাপন করা প্রয়োজন
পেপারের মূল গবেষণা প্রশ্ন হল: প্রকৃত লেবেল রেফারেন্স ছাড়াই কি প্রম্পট অপটিমাইজ করা সম্ভব?
এই সমস্যা সমাধানের জন্য, লেখকরা স্বাধীন স্কোরিংয়ের পরিবর্তে জোড়া তুলনার মাধ্যমে আরও নির্ভরযোগ্য তত্ত্বাবধান সংকেত পেতে প্রম্পট গুণমান মূল্যায়ন করতে LLM রেফারি ব্যবহার করার প্রস্তাব দেন। এই পদ্ধতিটি দুটি প্রধান চ্যালেঞ্জের সম্মুখীন:
LLM রেফারি শব্দ: LLM রায় অনিশ্চয়তা, অবস্থান পক্ষপাত এবং দৈর্ঘ্য পক্ষপাত রয়েছে
দ্বিঘাত জটিলতা: জোড়া তুলনার সংখ্যা প্রার্থী প্রম্পটের সংখ্যার সাথে দ্বিঘাতভাবে বৃদ্ধি পায়
সমস্যা মডেলিং উদ্ভাবন: প্রথমবারের মতো পছন্দ-ভিত্তিক প্রম্পট অপটিমাইজেশনকে একটি ডুয়েল ব্যান্ডিট সমস্যা হিসাবে মডেল করা, LLM রেফারির জোড়া তুলনা ব্যবহার করে তত্ত্বাবধান সংকেত হিসাবে
অ্যালগরিদম কাঠামো ডিজাইন: PDO কাঠামো প্রস্তাব করা, দক্ষ প্রম্পট নির্বাচনের জন্য ডুয়েল থম্পসন স্যাম্পলিং (D-TS) এবং অনুসন্ধান স্থান সম্প্রসারণের জন্য শীর্ষ পারফরমার-গাইডেড মিউটেশন একত্রিত করা
তাত্ত্বিক গ্যারান্টি: কোপেল্যান্ড অনুশোচনা সীমানার তাত্ত্বিক বিশ্লেষণ প্রদান করা, প্রমাণ করা যে PDO কোপেল্যান্ড সর্বোত্তম প্রম্পটে অ্যাসিম্পটোটিকভাবে রূপান্তরিত হয়
পরীক্ষামূলক যাচাইকরণ: BBH এবং MS MARCO ডেটাসেটে PDO এর কার্যকারিতা যাচাই করা এবং বিলোপন পরীক্ষার মাধ্যমে প্রতিটি উপাদানের অবদান প্রমাণ করা
নমনীয়তা: PDO বিশুদ্ধ লেবেল-মুক্ত সেটিংয়ে কাজ করতে পারে, এবং রেফারি শব্দ হ্রাস করতে আংশিক লেবেলগুলির সাথেও একত্রিত হতে পারে
X কে ইনপুট স্থান হতে দিন, P = {p1, ..., pK} কে সীমিত প্রার্থী প্রম্পটের সেট হতে দিন। প্রম্পট pi, pj ∈ P এবং একই ইনপুট x এর জন্য, LLM রেফারির মাধ্যমে একটি বাইনারি পছন্দ পান:
D-TS থম্পসন স্যাম্পলিংকে ডুয়েল ব্যান্ডিট সেটিংয়ে প্রসারিত করে, প্রতিটি রাউন্ডে তথ্যপূর্ণ ডুয়েল নির্বাচনের জন্য দুটি স্বাধীন থম্পসন নমুনা ব্যবহার করে:
প্রতিটি রাউন্ডের প্রক্রিয়া:
প্রথম প্রম্পট নির্বাচন: আশাবাদী কোপেল্যান্ড স্কোর গণনা করুন, সর্বোচ্চ স্কোর সহ প্রম্পটের সেট ধরে রাখুন, থম্পসন স্যাম্পলিংয়ের মাধ্যমে প্রার্থী নির্বাচন করুন
দ্বিতীয় প্রম্পট নির্বাচন: অনিশ্চিত প্রতিদ্বন্দ্বী সেটে সীমাবদ্ধ করুন, থম্পসন স্যাম্পলিংয়ের মাধ্যমে ডুয়েল প্রতিদ্বন্দ্বী নির্বাচন করুন
ডুয়েল এবং আপডেট: রেফারি তুলনা সম্পাদন করুন এবং জয়-ক্ষতির পরিসংখ্যান আপডেট করুন
তাত্ত্বিক ভিত্তি: Lipschitz ব্যান্ডিট তত্ত্বের উপর ভিত্তি করে, শীর্ষ পারফরমারদের কাছাকাছি মিউটেশন ঘনীভূত করা প্রায় সর্বোত্তম অঞ্চলে অনুসন্ধান "জুম ইন" করার সমতুল্য
শব্দ প্রক্রিয়াকরণ: ওজনযুক্ত পছন্দ ম্যাট্রিক্স আপডেট ব্যবহার করুন, যুক্তি-ভিত্তিক রায়ের জন্য (উত্তর-ভিত্তিক রায়ের তুলনায় আরও শব্দময়) হ্রাস ওজন প্রয়োগ করুন
দক্ষতা অপটিমাইজেশন: ক্যাশিং মেকানিজম এবং অভিযোজিত প্রুনিং এর মাধ্যমে গণনা ওভারহেড হ্রাস করুন
ঐতিহ্যবাহী APO পদ্ধতিগুলি তত্ত্বাবধান সংকেতের উপর অত্যন্ত নির্ভরশীল, সাম্প্রতিক গবেষণা তত্ত্বাবধান চাহিদা হ্রাস করতে শুরু করেছে। SPO আউটপুট বৈসাদৃশ্যের মাধ্যমে বাহ্যিক রেফারেন্স দূর করে, তবে একটি লোভী পর্বতারোহণ কৌশল গ্রহণ করে, নীতিগত অন্বেষণ-শোষণ ভারসাম্যের অভাব।
OPTS এবং TRIPLE প্রম্পট কৌশল নির্বাচনকে একটি ব্যান্ডিট সমস্যা হিসাবে মডেল করে, তবে এখনও লেবেলযুক্ত যাচাইকরণ সেট প্রয়োজন। APOHF পছন্দ-চালিত প্রম্পট অপটিমাইজেশনকে ডুয়েল ব্যান্ডিটের সাথে সংযুক্ত করে, তবে ম্যানুয়ালি অ্যানোটেট করা জোড়া পছন্দ অনুমান করে।
পেপারটি একাধিক গুরুত্বপূর্ণ সম্পর্কিত কাজ উদ্ধৃত করে, যার মধ্যে রয়েছে:
Zhou et al. (2022) - APE পদ্ধতি
Yang et al. (2024) - OPRO পদ্ধতি
Fernando et al. (2023) - Breeder পদ্ধতি
Wu and Liu (2016) - ডুয়েল থম্পসন স্যাম্পলিং তত্ত্ব
Zheng et al. (2023) - রেফারি হিসাবে LLM সম্পর্কিত গবেষণা
সামগ্রিক মূল্যায়ন: এটি প্রম্পট অপটিমাইজেশন ক্ষেত্রে একটি গুরুত্বপূর্ণ অবদান সহ একটি পেপার, উদ্ভাবনী সমস্যা মডেলিং এবং তাত্ত্বিক কাঠামোর মাধ্যমে লেবেল-মুক্ত প্রম্পট অপটিমাইজেশনের এই ব্যবহারিক চাহিদা কার্যকরভাবে সমাধান করে। পদ্ধতি ডিজাইন যুক্তিসঙ্গত, পরীক্ষা-নিরীক্ষা যাচাইকরণ পর্যাপ্ত, শক্তিশালী তাত্ত্বিক ভিত্তি এবং ব্যবহারিক মূল্য রয়েছে।