2025-11-18T10:58:12.748063

LLM Prompt Duel Optimizer: Efficient Label-Free Prompt Optimization

Wu, Verma, Lee et al.

Large language models (LLMs) are highly sensitive to their input prompts, making prompt design a central challenge. While automatic prompt optimization (APO) reduces manual engineering, most approaches assume access to ground-truth references such as labeled validation data. In practice, however, collecting high-quality labels is costly and slow. We propose the Prompt Duel Optimizer (PDO), a sample-efficient framework for label-free prompt optimization. PDO formulates the problem as a dueling-bandit setting, where supervision signal comes from pairwise preference feedback provided by an LLM judge. The framework combines Double Thompson Sampling (D-TS), which prioritizes informative prompt comparisons, with Top-Performer Guided Mutation, which expands the candidate pool by mutating high-performing prompts. PDO naturally operates in label-free settings and can also incorporate partial labels to mitigate judge noise. Experiments on BIG-bench Hard (BBH) and MS MARCO show that PDO consistently outperforms baseline methods. Ablation studies further demonstrate the effectiveness of both D-TS and prompt mutation.

academic

محسّن ثنائي المطالبات لنماذج اللغة الكبيرة: تحسين المطالبات الفعّال بدون تسميات

المعلومات الأساسية

معرّف الورقة: 2510.13907
العنوان: LLM Prompt Duel Optimizer: Efficient Label-Free Prompt Optimization
المؤلفون: Yuanchen Wu, Saurabh Verma, Justin Lee, Fangzhou Xiong, Poppy Zhang, Amel Awadelkarim, Xu Chen, Yubai Yuan, Shawndra Hill
التصنيف: cs.CL (اللسانيات الحاسوبية)، stat.ML (التعلم الآلي)
تاريخ النشر: 14 أكتوبر 2025 (نسخة أولية على arXiv)
رابط الورقة: https://arxiv.org/abs/2510.13907

الملخص

تتمتع نماذج اللغة الكبيرة (LLMs) بحساسية عالية تجاه المطالبات المدخلة، مما يجعل تصميم المطالبات تحديًا أساسيًا. على الرغم من أن تحسين المطالبات التلقائي (APO) يقلل من الهندسة اليدوية، فإن معظم الطرق تفترض توفر بيانات التحقق المسمّاة والتسميات الحقيقية. ومع ذلك، في الممارسة العملية، يكون جمع التسميات عالية الجودة مكلفًا وشاقًا. تقترح هذه الورقة محسّن ثنائي المطالبات (PDO)، وهو إطار عمل فعّال من حيث العينات لتحسين المطالبات بدون تسميات. يصيغ PDO المشكلة كإعداد ماكينة لعب ثنائية، حيث تأتي إشارات الإشراف من ردود الفعل التفضيلية المقترنة التي يقدمها حكم LLM. يجمع الإطار بين أخذ العينات الثنائي لتومسون (D-TS) والطفرة الموجهة بأفضل الأداء، حيث يعطي الأول الأولوية للمقارنات المطالبات الغنية بالمعلومات، بينما يوسع الثاني مجموعة المرشحين من خلال طفرة المطالبات عالية الأداء. يتناسب PDO بشكل طبيعي مع الإعدادات بدون تسميات، ويمكن أيضًا دمجه مع تسميات جزئية للتخفيف من ضوضاء الحكم. تُظهر التجارب على BIG-bench Hard (BBH) و MS MARCO أن PDO يتفوق باستمرار على الطرق الأساسية عبر المهام المختلفة.

الخلفية البحثية والدافع

تعريف المشكلة

يعتمد أداء نماذج اللغة الكبيرة إلى حد كبير على المطالبات المصممة بعناية، لكن صياغة مطالبات فعّالة يدويًا عادة ما تتطلب عملية محاولة وخطأ مكثفة. على الرغم من أن طرق تحسين المطالبات التلقائية (APO) الموجودة يمكن أن تقلل من الهندسة اليدوية، إلا أنها تواجه المشاكل الرئيسية التالية:

الاعتماد على التسميات: تعتمد معظم طرق APO على بيانات التحقق المسمّاة لتقييم أداء المطالبات المرشحة
تكلفة التسمية: في التطبيقات العملية، الحصول على بيانات مسمّاة عالية الجودة مكلف وشاق
تأخير النشر: في السيناريوهات الصناعية، يكون من الضروري نشر مطالبات معقولة قبل توفر بيانات التسمية البشرية على نطاق واسع

الدافع البحثي

السؤال البحثي الأساسي للورقة هو: هل يمكن تحسين المطالبات بدون الإشارة إلى التسميات الحقيقية؟

لحل هذه المشكلة، يقترح المؤلفون استخدام LLM كحكم لتقييم جودة المطالبات، والحصول على إشارات إشراف أكثر موثوقية من خلال المقارنات المقترنة بدلاً من التقييمات المستقلة. تواجه هذه الطريقة تحديين رئيسيين:

ضوضاء حكم LLM: يوجد عدم يقين في أحكام LLM، وانحيازات الموضع والطول
التعقيد التربيعي: ينمو عدد المقارنات المقترنة بشكل تربيعي مع عدد المطالبات المرشحة

المساهمات الأساسية

ابتكار نمذجة المشكلة: أول من يصيغ تحسين المطالبات القائم على التفضيل كمشكلة ماكينة لعب ثنائية، باستخدام المقارنات المقترنة من حكم LLM كإشارة إشراف
تصميم إطار الخوارزمية: اقتراح إطار عمل PDO يجمع بين أخذ العينات الثنائي لتومسون (D-TS) لاختيار المطالبات الفعّال وطفرة موجهة بأفضل الأداء لتوسيع فضاء البحث
الضمانات النظرية: توفير تحليل نظري لحدود الندم من نوع Copeland، مما يثبت أن PDO يتقارب بشكل مقارب إلى المطالبة المثلى من نوع Copeland
التحقق التجريبي: التحقق من فعالية PDO على مجموعات بيانات BBH و MS MARCO، مع إثبات مساهمة كل مكون من خلال تجارب الاستئصال
المرونة: يمكن لـ PDO العمل في إعدادات نقية بدون تسميات، أو يمكن دمجه مع تسميات جزئية لتقليل ضوضاء الحكم

شرح الطريقة

تعريف المهمة

دع X يكون فضاء الإدخال، و P = {p1, ..., pK} تكون مجموعة محدودة من المطالبات المرشحة. بالنسبة للمطالبات pi, pj ∈ P والإدخال المتطابق x، احصل على تفضيل ثنائي من خلال حكم LLM:

Judgex(pi, pj) = {
    1, if fpi(x) ≻ fpj(x)
    0, otherwise
}

الهدف هو تحديد فائز Condorcet (إن وجد) أو فائز Copeland ضمن ميزانية مقارنة محدودة.

معمارية النموذج

1. أخذ العينات الثنائي لتومسون (D-TS)

يوسع D-TS أخذ عينات تومسون إلى إعداد ماكينة لعب ثنائية، باستخدام عينتي تومسون مستقلتين في كل جولة لاختيار ثنائيات غنية بالمعلومات:

عملية كل جولة:

اختيار المطالبة الأولى: حساب درجة Copeland المتفائلة، الاحتفاظ بمجموعة المطالبات ذات أعلى الدرجات، واختيار المرشح من خلال أخذ عينات تومسون
اختيار المطالبة الثانية: تقييد إلى مجموعة الخصوم غير المؤكدة، واختيار المنافس من خلال أخذ عينات تومسون
الثنائي والتحديث: تنفيذ مقارنة الحكم وتحديث إحصائيات الفوز والخسارة

2. الطفرة الموجهة بأفضل الأداء

لتوسيع فضاء البحث، يقوم PDO بشكل دوري بطفرة المطالبات ذات الأداء الأفضل:

عملية الطفرة:

الاختيار: اختيار المطالبة ذات أعلى درجة Copeland الحالية
الطفرة: إنشاء متغيرات من خلال تحرير القالب أو التدرج النصي الموجه أو إعادة الكتابة بمساعدة LLM
التوسيع: إضافة المتغيرات الجديدة إلى مجموعة المرشحين

نقاط الابتكار التقني

الأساس النظري: بناءً على نظرية Lipschitz bandit، فإن تركيز الطفرة بالقرب من أفضل الأداء يعادل "تكبير" البحث في منطقة قريبة من المثلى
معالجة الضوضاء: استخدام تحديث مصفوفة التفضيل المرجحة، مع تقليل وزن الأحكام القائمة على الاستدلال (مقارنة بالأحكام القائمة على الإجابة الأكثر ضوضاء)
تحسين الكفاءة: تقليل النفقات الحسابية من خلال آليات التخزين المؤقت والقطع التكيفي

إعداد التجارب

مجموعات البيانات

BIG-bench Hard (BBH): اختيار 16 مهمة استدلال متعددة الخيارات، باستخدام الدقة كمقياس تقييم
MS MARCO: أربع فئات مهام الإجابة على الأسئلة المفتوحة (الوصفية والكيان والرقمية والموقع)، باستخدام تقييم LLM من 1-5

مقاييس التقييم

مهام BBH: الدقة
مهام MS MARCO: تقييم عدد صحيح من 1-5 من قبل حكم LLM

الطرق المقارنة

الخطوط الأساسية بدون تسميات:

SPO (تحسين المطالبات الموجه ذاتيًا)
CoT (سلسلة الفكر)
PoS (الخطة والحل)

الخطوط الأساسية الموجهة:

APE (مهندس المطالبات التلقائي)
OPRO (التحسين عن طريق المطالبات)
Breeder (تطور المطالبات)

تفاصيل التنفيذ

BBH: 20 مطالبة مرشحة أولية، 30 جولة، 50 ثنائي لكل جولة
MS MARCO: 50 مطالبة مرشحة أولية، 30 جولة، 50 ثنائي لكل جولة
استخدام Llama-3.3-70B-Instruct كنموذج للإنشاء والحكم والتقييم
معامل D-TS α = 1.2

نتائج التجارب

النتائج الرئيسية

أداء مهام BBH (إعداد بدون تسميات)

حقق PDO أفضل أداء في 13 من أصل 16 مهمة، مع تحسينات ملحوظة تشمل:

Tracking-7: 0.641 مقابل 0.543 (+9.8 نقطة مئوية)
Web of Lies: 0.942 مقابل 0.861 (+8.1 نقطة مئوية)

أداء مهام MS MARCO

في جميع المهام الأربع، تفوق PDO مع D-TS باستمرار على RUCB والعينات العشوائية، وتجاوز خط أساس SPO في غضون عدة جولات.

تجارب الاستئصال

D-TS مقابل استراتيجيات أخذ العينات الأخرى: يتفوق D-TS بشكل كبير على أخذ العينات العشوائية و RUCB من حيث كفاءة العينات
تأثير الطفرة: تحسن الطفرة الموجهة بأفضل الأداء بشكل كبير في مهام Web of Lies و Tracking-7
التفضيل المقترن مقابل التقييم النقطي: في 7 من 8 مجموعات نموذج-مهمة، يتفوق التفضيل المقترن على التقييم النقطي

تحليل حكم LLM

مستويات الضوضاء المتعلقة بالمهمة: يختلف موثوقية الحكم بشكل كبير عبر المهام المختلفة، مثل أخطاء الحكم الكبيرة في مهام Geometric
دور التسميات الجزئية: يمكن لإدخال 30%-50% من التسميات الحقيقية أن يقلل بشكل كبير من ضوضاء الحكم
تأثير حجم النموذج: يُظهر النموذجان 70B و 8B أداءً عامًا متشابهًا كحكام

الأعمال ذات الصلة

تطور طرق APO

تعتمد طرق APO التقليدية بشكل كبير على الإشارات الموجهة، وبدأت الأبحاث الحديثة في تقليل احتياجات الإشراف. يزيل SPO الإشارات الخارجية من خلال مقارنة المخرجات، لكنه يعتمد على استراتيجية تسلق الجبل الجشعة، وتفتقر إلى توازن استكشاف-استغلال منهجي.

تطبيق ماكينات اللعب في تحسين المطالبات

يصيغ OPTS و TRIPLE اختيار استراتيجية المطالبات كمشكلة ماكينة لعب، لكنها لا تزال تتطلب مجموعة تحقق مسمّاة. يربط APOHF تحسين المطالبات الموجه بالتفضيل مع ماكينة لعب ثنائية، لكنه يفترض تفضيلات مقترنة مسمّاة يدويًا.

الخلاصة والمناقشة

الاستنتاجات الرئيسية

ينجح PDO في حل مشكلة تحسين المطالبات بدون تسميات، محققًا بحثًا فعّالًا من حيث العينات من خلال إطار عمل ماكينة لعب ثنائية
يحدد D-TS المطالبات عالية الجودة بشكل أسرع وأكثر موثوقية من أخذ العينات العشوائية وطرق ماكينة اللعب الثنائية الأخرى
توجه الطفرة الموجهة بأفضل الأداء البحث بفعالية نحو مناطق أقوى
توفر التفضيلات المقترنة إشارات إشراف أكثر استقرارًا من التقييمات النقطية

القيود

الاعتماد على الحكم: تعتمد جودة التحسين على قدرة حكم LLM وتصميم المطالبة الفوقية
خطر التحيز نحو الأسلوب: قد تنحاز الخوارزمية نحو أنماط الأسلوب التي يفضلها الحكم بدلاً من مقاييس المهام الحقيقية
قيود الموارد الحسابية: لم يتم إجراء تجارب واسعة النطاق على نماذج أكثر بسبب قيود الموارد

الاتجاهات المستقبلية

تحسين محاذاة حكم LLM مع أهداف المهام
تطوير آليات التعديل التكيفي لعكس موثوقية الحكم
استكشاف آليات التقاط عدم اليقين الأكثر تعقيدًا

التقييم المتعمق

المميزات

ابتكار نمذجة المشكلة: نمذجة تحسين المطالبات كمشكلة ماكينة لعب ثنائية لها أساس نظري وقيمة عملية
اكتمال الطريقة: يجمع بين استراتيجية الاختيار الفعّالة وتوسيع فضاء البحث، مما يشكل إطار عمل تحسين شامل
التجارب الشاملة: تقييم شامل على مجموعات بيانات متعددة، بما في ذلك تجارب الاستئصال وتحليل الحكم
الضمانات النظرية: توفير تحليل نظري لحدود الندم من نوع Copeland

أوجه القصور

معالجة ضوضاء الحكم: على الرغم من تحليل مشكلة ضوضاء الحكم، فإن الحل نسبي بسيط
قابلية التوسع: لم يتم التحقق بشكل كافٍ من الأداء على مجموعات المطالبات المرشحة الكبيرة
عمومية المهام: التحقق الأساسي على مهام الاستدلال والإجابة على الأسئلة، وعدم وضوح قابلية التطبيق على أنواع المهام الأخرى

التأثير

المساهمة الأكاديمية: توفير إطار عمل نظري جديد وطريقة عملية لتحسين المطالبات بدون تسميات
القيمة العملية: لها قيمة تطبيق مباشرة في السيناريوهات الصناعية، خاصة عندما تكون بيانات التسمية نادرة
قابلية التكرار: التزم المؤلفون بنشر الكود، مما يسهل تكرار الطريقة والأبحاث الإضافية

السيناريوهات المناسبة

ندرة بيانات التسمية: عند نقص بيانات التسمية الكبيرة في المجالات الجديدة أو المهام الجديدة
متطلبات النشر السريع: التطبيقات الصناعية التي تتطلب الحصول على مطالبات معقولة في فترة زمنية قصيرة
التطبيقات الحساسة للتكلفة: السيناريوهات التي تكون فيها تكاليف التسمية مرتفعة
تحسين المهام المتعددة: الحاجة إلى تحسين المطالبات في نفس الوقت لمهام متعددة ذات صلة

المراجع

تستشهد الورقة بعدة أعمال مهمة ذات صلة، بما في ذلك:

Zhou et al. (2022) - طريقة APE
Yang et al. (2024) - طريقة OPRO
Fernando et al. (2023) - طريقة Breeder
Wu and Liu (2016) - نظرية أخذ العينات الثنائي لتومسون
Zheng et al. (2023) - الأبحاث ذات الصلة حول استخدام LLM كحكم

التقييم الشامل: هذه ورقة بحثية ذات مساهمة مهمة في مجال تحسين المطالبات، وتحل بفعالية مشكلة تحسين المطالبات بدون تسميات من خلال نمذجة مبتكرة للمشكلة وإطار عمل نظري. يتمتع تصميم الطريقة بأساس نظري قوي وقيمة عملية كبيرة، مع تحقق تجريبي شامل.