Large language models (LLMs) are highly sensitive to their input prompts, making prompt design a central challenge. While automatic prompt optimization (APO) reduces manual engineering, most approaches assume access to ground-truth references such as labeled validation data. In practice, however, collecting high-quality labels is costly and slow. We propose the Prompt Duel Optimizer (PDO), a sample-efficient framework for label-free prompt optimization. PDO formulates the problem as a dueling-bandit setting, where supervision signal comes from pairwise preference feedback provided by an LLM judge. The framework combines Double Thompson Sampling (D-TS), which prioritizes informative prompt comparisons, with Top-Performer Guided Mutation, which expands the candidate pool by mutating high-performing prompts. PDO naturally operates in label-free settings and can also incorporate partial labels to mitigate judge noise. Experiments on BIG-bench Hard (BBH) and MS MARCO show that PDO consistently outperforms baseline methods. Ablation studies further demonstrate the effectiveness of both D-TS and prompt mutation.
academic
محسّن ثنائي المطالبات لنماذج اللغة الكبيرة: تحسين المطالبات الفعّال بدون تسميات
تتمتع نماذج اللغة الكبيرة (LLMs) بحساسية عالية تجاه المطالبات المدخلة، مما يجعل تصميم المطالبات تحديًا أساسيًا. على الرغم من أن تحسين المطالبات التلقائي (APO) يقلل من الهندسة اليدوية، فإن معظم الطرق تفترض توفر بيانات التحقق المسمّاة والتسميات الحقيقية. ومع ذلك، في الممارسة العملية، يكون جمع التسميات عالية الجودة مكلفًا وشاقًا. تقترح هذه الورقة محسّن ثنائي المطالبات (PDO)، وهو إطار عمل فعّال من حيث العينات لتحسين المطالبات بدون تسميات. يصيغ PDO المشكلة كإعداد ماكينة لعب ثنائية، حيث تأتي إشارات الإشراف من ردود الفعل التفضيلية المقترنة التي يقدمها حكم LLM. يجمع الإطار بين أخذ العينات الثنائي لتومسون (D-TS) والطفرة الموجهة بأفضل الأداء، حيث يعطي الأول الأولوية للمقارنات المطالبات الغنية بالمعلومات، بينما يوسع الثاني مجموعة المرشحين من خلال طفرة المطالبات عالية الأداء. يتناسب PDO بشكل طبيعي مع الإعدادات بدون تسميات، ويمكن أيضًا دمجه مع تسميات جزئية للتخفيف من ضوضاء الحكم. تُظهر التجارب على BIG-bench Hard (BBH) و MS MARCO أن PDO يتفوق باستمرار على الطرق الأساسية عبر المهام المختلفة.
يعتمد أداء نماذج اللغة الكبيرة إلى حد كبير على المطالبات المصممة بعناية، لكن صياغة مطالبات فعّالة يدويًا عادة ما تتطلب عملية محاولة وخطأ مكثفة. على الرغم من أن طرق تحسين المطالبات التلقائية (APO) الموجودة يمكن أن تقلل من الهندسة اليدوية، إلا أنها تواجه المشاكل الرئيسية التالية:
الاعتماد على التسميات: تعتمد معظم طرق APO على بيانات التحقق المسمّاة لتقييم أداء المطالبات المرشحة
تكلفة التسمية: في التطبيقات العملية، الحصول على بيانات مسمّاة عالية الجودة مكلف وشاق
تأخير النشر: في السيناريوهات الصناعية، يكون من الضروري نشر مطالبات معقولة قبل توفر بيانات التسمية البشرية على نطاق واسع
السؤال البحثي الأساسي للورقة هو: هل يمكن تحسين المطالبات بدون الإشارة إلى التسميات الحقيقية؟
لحل هذه المشكلة، يقترح المؤلفون استخدام LLM كحكم لتقييم جودة المطالبات، والحصول على إشارات إشراف أكثر موثوقية من خلال المقارنات المقترنة بدلاً من التقييمات المستقلة. تواجه هذه الطريقة تحديين رئيسيين:
ضوضاء حكم LLM: يوجد عدم يقين في أحكام LLM، وانحيازات الموضع والطول
التعقيد التربيعي: ينمو عدد المقارنات المقترنة بشكل تربيعي مع عدد المطالبات المرشحة
ابتكار نمذجة المشكلة: أول من يصيغ تحسين المطالبات القائم على التفضيل كمشكلة ماكينة لعب ثنائية، باستخدام المقارنات المقترنة من حكم LLM كإشارة إشراف
تصميم إطار الخوارزمية: اقتراح إطار عمل PDO يجمع بين أخذ العينات الثنائي لتومسون (D-TS) لاختيار المطالبات الفعّال وطفرة موجهة بأفضل الأداء لتوسيع فضاء البحث
الضمانات النظرية: توفير تحليل نظري لحدود الندم من نوع Copeland، مما يثبت أن PDO يتقارب بشكل مقارب إلى المطالبة المثلى من نوع Copeland
التحقق التجريبي: التحقق من فعالية PDO على مجموعات بيانات BBH و MS MARCO، مع إثبات مساهمة كل مكون من خلال تجارب الاستئصال
المرونة: يمكن لـ PDO العمل في إعدادات نقية بدون تسميات، أو يمكن دمجه مع تسميات جزئية لتقليل ضوضاء الحكم
دع X يكون فضاء الإدخال، و P = {p1, ..., pK} تكون مجموعة محدودة من المطالبات المرشحة. بالنسبة للمطالبات pi, pj ∈ P والإدخال المتطابق x، احصل على تفضيل ثنائي من خلال حكم LLM:
تعتمد طرق APO التقليدية بشكل كبير على الإشارات الموجهة، وبدأت الأبحاث الحديثة في تقليل احتياجات الإشراف. يزيل SPO الإشارات الخارجية من خلال مقارنة المخرجات، لكنه يعتمد على استراتيجية تسلق الجبل الجشعة، وتفتقر إلى توازن استكشاف-استغلال منهجي.
يصيغ OPTS و TRIPLE اختيار استراتيجية المطالبات كمشكلة ماكينة لعب، لكنها لا تزال تتطلب مجموعة تحقق مسمّاة. يربط APOHF تحسين المطالبات الموجه بالتفضيل مع ماكينة لعب ثنائية، لكنه يفترض تفضيلات مقترنة مسمّاة يدويًا.
تستشهد الورقة بعدة أعمال مهمة ذات صلة، بما في ذلك:
Zhou et al. (2022) - طريقة APE
Yang et al. (2024) - طريقة OPRO
Fernando et al. (2023) - طريقة Breeder
Wu and Liu (2016) - نظرية أخذ العينات الثنائي لتومسون
Zheng et al. (2023) - الأبحاث ذات الصلة حول استخدام LLM كحكم
التقييم الشامل: هذه ورقة بحثية ذات مساهمة مهمة في مجال تحسين المطالبات، وتحل بفعالية مشكلة تحسين المطالبات بدون تسميات من خلال نمذجة مبتكرة للمشكلة وإطار عمل نظري. يتمتع تصميم الطريقة بأساس نظري قوي وقيمة عملية كبيرة، مع تحقق تجريبي شامل.