2025-11-13T03:04:10.509981

Boosting Instruction Following at Scale

Elder, Duesterwald, Muthusamy

A typical approach developers follow to influence an LLM's behavior in an application is through careful manipulation of the prompt, such as by adding or modifying instructions. However, merely adding more instructions provides little assurance that they will actually be followed. We introduce Instruction Boosting as a post-generation method to increase the reliability of LLM prompt instructions. We show that Instruction Boosting improves the instruction following rate by up to 7 points for two instructions and up to 4 points for ten instructions. To demonstrate these results we introduce SCALEDIF, a benchmark with a scaled instruction volume of up to ten instructions per data sample. We also present an analysis of the commonly observed trend that performance degrades as more instructions are added. We show that an important factor contributing to this trend is the degree of tension and conflict that arises as the number of instructions is increased. We contribute a quantitative conflict scoring tool that explains the observed performance trends and provides feedback to developers on the impact that additional prompt instructions have on a model's performance.

academic

تعزيز اتباع التعليمات على نطاق واسع

المعلومات الأساسية

معرّف الورقة: 2510.14842
العنوان: تعزيز اتباع التعليمات على نطاق واسع
المؤلفون: بن إلدر، إيفلين دويسترفالد، فينود موثوسامي (مختبر IBM T.J. Watson للأبحاث)
التصنيف: cs.AI
تاريخ النشر: 16 أكتوبر 2025 (نسخة أولية من arXiv)
رابط الورقة: https://arxiv.org/abs/2510.14842

الملخص

يحاول المطورون عادة التأثير على سلوك نماذج اللغة الكبيرة (LLM) من خلال صياغة دقيقة للمحفزات، مثل إضافة أو تعديل التعليمات. ومع ذلك، فإن مجرد إضافة المزيد من التعليمات لا يضمن اتباعها. تقترح هذه الورقة تعزيز التعليمات (Instruction Boosting) كطريقة ما بعد التوليد لتحسين موثوقية التعليمات في المحفزات. تُظهر الدراسة أن تعزيز التعليمات يمكن أن يرفع معدل اتباع التعليمات بما يصل إلى 7 نقاط مئوية مع تعليمتين، وبما يصل إلى 4 نقاط مئوية مع عشر تعليمات. للتحقق من هذه النتائج، يقدم المؤلفون معيار SCALEDIF، الذي يحتوي على ما يصل إلى عشر تعليمات لكل عينة بيانات. تحلل الورقة أيضاً الاتجاه الشائع لانخفاض الأداء مع زيادة عدد التعليمات، مما يشير إلى أن العوامل المهمة التي تسبب هذا الاتجاه هي درجة التوتر والتضارب الناتجة عن زيادة عدد التعليمات.

خلفية البحث والدافع

المشاكل الأساسية

عدم موثوقية اتباع التعليمات: لا يمكن ضمان أن التعليمات المضافة من قبل المطورين سيتم اتباعها فعلياً بواسطة نموذج اللغة
مشكلة توسيع التعليمات: مع زيادة عدد التعليمات، ينخفض معدل اتباع التعليمات (IF rate) بشكل كبير
تضارب التعليمات: قد تنشأ توترات أو تناقضات مباشرة بين تعليمات متعددة، مما يجعل تلبية جميع التعليمات في نفس الوقت أمراً صعباً

أهمية البحث

أصبحت نماذج اللغة الكبيرة مكوناً أساسياً في تطوير التطبيقات الذكية، لكن التحكم في سلوكها يشكل تحدياً
هندسة المحفزات هي الطريقة الرئيسية للتأثير على سلوك نماذج اللغة، لكنها تفتقر إلى ضمانات الموثوقية
تفتقر الأبحاث الحالية إلى تحليل منهجي للسيناريوهات ذات التعليمات الكبيرة

قيود الطرق الموجودة

تركز الطرق التقليدية بشكل أساسي على اتباع تعليمة واحدة أو عدد قليل من التعليمات
تفتقر إلى حلول منهجية لمشاكل تضارب التعليمات وقابلية التوسع
تحتوي معايير التقييم الموجودة (مثل IFEval) على ثلاث تعليمات على الأكثر، وغير قادرة على تقييم السيناريوهات ذات التعليمات الكبيرة

المساهمات الأساسية

اقتراح طريقة تعزيز التعليمات: طريقة ما بعد التوليد في وقت الاختبار تحسّن معدل اتباع التعليمات من خلال تصحيح وتحسين الاستجابة الأولية
بناء مجموعة بيانات SCALEDIF: توسيع مجموعة بيانات IFEval لتتضمن معيار اتباع تعليمات على نطاق واسع يحتوي على ما يصل إلى 10 تعليمات لكل عينة
أداة تقييم التضارب الكمية: تطوير آلية تقييم تضارب التعليمات الكمية التي تشرح اتجاهات الأداء وتوفر تغذية راجعة للمطورين
مفهوم التضارب الناعم: تعريف رسمي لمفهوم "التضارب الناعم" بين التعليمات وتحليل تأثيره على الأداء

شرح الطريقة

تعريف المهمة

بالنظر إلى استعلام Q ومجموعة من التعليمات I={I₁, I₂, ..., Iₙ} والاستجابة الأولية R من نموذج اللغة، الهدف من تعزيز التعليمات هو توليد استجابة معدّلة R' بحيث تتبع R' عدداً أكبر من التعليمات.

معمارية تعزيز التعليمات

العملية الشاملة

التوليد الأولي: يولد نموذج اللغة استجابة أولية بناءً على الاستعلام والتعليمات
كشف التعليمات: استخدام كاشف IF لتحديد التعليمات التي لم يتم اتباعها
خوارزمية التعزيز: تطبيق استراتيجيات محددة لتصحيح الاستجابة
الإخراج النهائي: إنتاج استجابة تتبع عدداً أكبر من التعليمات

أربع استراتيجيات تعزيز

1. الكشف والإصلاح (Detect+Repair)

مرحلة الكشف: استخدام كاشف LLM-as-a-judge لتحديد التعليمات المنتهكة
مرحلة الإصلاح: إعادة كتابة الاستجابة لإصلاح جميع انتهاكات التعليمات المكتشفة

2. الأفضل من N (Best-of-N)

أخذ عينات من N استجابة معاد كتابتها (N=5)
استخدام كاشف judge كنموذج مكافأة للتقييم
اختيار الاستجابة ذات أعلى معدل IF كإخراج نهائي

3. الأفضل من N Oracle

مشابهة لـ Best-of-N، لكن باستخدام مدقق IFEval الحتمي كنموذج مكافأة oracle
يُستخدم لتقييم الحد الأعلى المحتمل لقدرة النموذج على إعادة الكتابة

4. خريطة-تقليل (Map Reduce)

مرحلة الخريطة: إنشاء مهام إعادة كتابة مستقلة لكل تعليمة منتهكة
مرحلة التقليل: دمج استجابات إعادة الكتابة المستقلة في استجابة نهائية

نقاط الابتكار التقني

التحسين ما بعد التوليد: بناءً على الملاحظة بأن "تصحيح الاستجابات دون المستوى الأمثل أسهل من توليد استجابة مثالية مباشرة"
تصميم متعدد الاستراتيجيات: توفير خيارات استراتيجية بمقايضات مختلفة بين التكلفة والأداء
تقدير التضارب الناعم: تحديد التضارب الناعم بين التعليمات من خلال طريقة اللعب الذاتي التجريبية

إعداد التجارب

بناء مجموعة بيانات SCALEDIF

البيانات الأساسية

بناءً على 538 عينة من مجموعة بيانات IFEval (من أصل 541)
تحتوي كل عينة على استعلام و 10 تعليمات فريدة
26 فئة تعليمات مستقلة عن الاستعلام، مقسمة إلى 8 فئات

فئات التعليمات

تغيير الحالة (change_case): تحويل الأحرف الكبيرة والصغيرة
التركيب (combination): قيود التركيب
المحتوى القابل للكشف (detectable_content): المحتوى القابل للكشف
الصيغة القابلة للكشف (detectable_format): الصيغة القابلة للكشف
الكلمات الرئيسية (keywords): قيود الكلمات الرئيسية
قيود الطول (length_constraints): قيود الطول
علامات الترقيم (punctuation): علامات الترقيم
البداية والنهاية (startend): قيود البداية والنهاية

خوارزمية أخذ عينات القيود

استخدام Algorithm 1 لضمان تجنب التضارب الصعب عند أخذ عينات من معاملات التعليمات:

تنفيذ القيود على أساس الأزواج: حساب القيود مع التعليمات الموجودة عند إضافة تعليمة جديدة
التحقق من المعاملات: ضمان استيفاء معاملات التعليمة الجديدة لجميع القيود الموجودة
تجنب التضارب: على سبيل المثال، يجب أن تكون الكلمات الرئيسية في keywords:existence و keywords:forbidden_words غير متقاطعة

مقاييس التقييم

معدل اتباع التعليمات (IF Rate): نسبة عدد التعليمات المتبعة من قبل النموذج إلى إجمالي عدد التعليمات
الالتزام بالمهمة: ما إذا كانت الاستجابة ذات صلة بالاستعلام الأصلي
تقييم التضارب: تقدير كمي لدرجة التضارب الناعم بين مجموعة التعليمات

نماذج التجارب

Llama-3.3-70B-Instruct
Llama-3.1-8B-Instruct
Qwen2.5-72B-Instruct
Mixtral-8x7B-Instruct-v0.1
Mixtral-8x22B-Instruct-v0.1

نتائج التجارب

النتائج الرئيسية

الأداء الأساسي

تعليمتان: معدل IF من 0.56 (Mixtral-8x7B) إلى 0.88 (Llama-70B)
عشر تعليمات: معدل IF ينخفض إلى 0.39 (Mixtral-8x7B) إلى 0.66 (Llama-70B)
تُظهر جميع النماذج اتجاهاً لانخفاض معدل IF مع زيادة عدد التعليمات

تأثيرات التعزيز

استراتيجية Best-of-N تحقق أفضل أداء:
- تعليمتان: أقصى ارتفاع 7 نقاط مئوية (Mixtral-8x22B)
- عشر تعليمات: أقصى ارتفاع 4 نقاط مئوية (Llama-70B)
Best-of-N Oracle يُظهر الحد الأعلى المحتمل:
- تعليمتان: يمكن الوصول إلى معدل IF بنسبة 89% (+2 نقطة مئوية)
- عشر تعليمات: يمكن الوصول إلى معدل IF بنسبة 75% (+8.5 نقاط مئوية)

تحليل التكلفة والفائدة

Detect+Repair: أقل تكلفة، لكن التأثير محدود
Best-of-N: يحقق توازناً جيداً بين التكلفة والأداء
Map Reduce: أعلى تكلفة، تحسن الأداء محدود
Best-of-N Gen: تكلفة أقل قليلاً من Best-of-N، لكن الأداء أقل من أخذ عينات إعادة الكتابة

نتائج تحليل التضارب

تقييم التضارب الناعم

استخدام الصيغة لحساب تقييم التضارب للعينة s:

cs = Σ(i,j)∈p(s)×p(s),i≠j cij / |p(s)|

حيث cij هو عدد التضارب بين التعليمة i والتعليمة j.

النتائج الرئيسية

تقييم التضارب يرتبط إيجابياً بعدد التعليمات:
- تعليمتان: متوسط تقييم التضارب 0.24
- عشر تعليمات: متوسط تقييم التضارب 2.03
تقييم التضارب يرتبط سلبياً بمعدل IF:
- معامل الارتباط -0.37 مع عشر تعليمات
- يضعف الارتباط مع زيادة عدد التعليمات
العينات "الصعبة" لها تقييمات تضارب أعلى: العينات ذات معدل IF المنخفض لديها بالفعل تقييمات تضارب أعلى

الالتزام بالمهمة

معدل الفشل في الاستجابة الأولية: أقصى 4% (22/538 مع 8 تعليمات)
فشل إضافي بعد التعزيز: أقصى 1.3% (7 فشل إضافي مع 10 تعليمات)

الأعمال ذات الصلة

تقييم اتباع التعليمات

IFEval: التركيز على الفحص الحتمي للتعليمات القابلة للتحقق (1-3 تعليمات)
ComplexBench و FollowBench: تقييم قدرة معالجة التعليمات المعقدة
InFoBench: إدخال مقياس DRFR للتحليل الدقيق
RefuteBench: التركيز على اتباع التعليمات الرافضة في المحادثات

طرق التدخل في وقت الاختبار

التصحيح الذاتي: حث النموذج على تقييم وتحسين مخرجاته الخاصة
سلسلة الأفكار: تقسيم المشاكل المعقدة إلى خطوات قابلة للإدارة
الاتساق الذاتي: اختيار النتيجة الأكثر اتساقاً من خلال أخذ عينات من استجابات متعددة

الخلاصة والمناقشة

الاستنتاجات الرئيسية

فعالية تعزيز التعليمات: تحسين متسق لمعدل اتباع التعليمات عبر نماذج مختلفة
التضارب الناعم هو عامل رئيسي: يعتبر التضارب بين التعليمات عاملاً مهماً يسبب صعوبة اتباع التعليمات على نطاق واسع
إعادة الكتابة أفضل من إعادة التوليد: يكون تصحيح الاستجابة الموجودة أكثر فعالية من التوليد من الصفر
تقييم التضارب له قيمة تنبؤية: يمكن استخدامه كأداة تغذية راجعة للمطورين

القيود

قيود التضارب الثنائي: يأخذ تقييم التضارب الحالي في الاعتبار فقط التضارب بين تعليمتين، ولا يغطي التفاعلات المعقدة متعددة التعليمات
دقة الكاشف: يبلغ معدل دقة كاشف LLM-as-a-judge حوالي 73%، مما يحد من تأثير التعزيز
التكلفة الحسابية: تتطلب استراتيجيات التعزيز تكاليف استدلال إضافية
مخاطر الالتزام بالمهمة: قد تؤدي عملية التعزيز إلى انحراف الاستجابة عن الاستعلام الأصلي

الاتجاهات المستقبلية

نمذجة التضارب متعدد الرتب: التوسع إلى تحليل التضارب المعقد لثلاث تعليمات أو أكثر
كواشف أكثر دقة: تطوير طرق كشف اتباع التعليمات الأكثر دقة
التعزيز التكيفي: اختيار استراتيجيات التعزيز ديناميكياً بناءً على تقييم التضارب
التحسين في وقت التدريب: دمج قدرة اتباع التعليمات في تدريب النموذج

التقييم المتعمق

المزايا

تعريف المشكلة واضح: تحديد دقيق للتحديات الأساسية في اتباع التعليمات على نطاق واسع
ابتكار منهجي: اقتراح إطار عمل منهجي لتعزيز ما بعد التوليد
تصميم تجريبي صارم: بناء مجموعة بيانات معيار عالية الجودة على نطاق واسع
مساهمة نظرية: لمفهوم التضارب الناعم وطريقة التقدير الكمي قيمة نظرية
قوة عملية قوية: توفير خيارات استراتيجية متعددة بمقايضات مختلفة بين التكلفة والأداء

أوجه القصور

تبسيط نمذجة التضارب: يأخذ في الاعتبار فقط التضارب الثنائي، قد يفقد التفاعلات المعقدة متعددة التعليمات
الاعتماد على الكاشف: يقتصر تأثير الطريقة على دقة كاشف نموذج اللغة
نطاق التقييم محدود: التحقق الأساسي على نماذج مفتوحة المصدر، يفتقد التقييم على نماذج مغلقة المصدر
التأثير طويل الأجل غير معروف: لم يتم تحليل التأثير طويل الأجل للتعزيز المتكرر على سلوك النموذج

التأثير

المساهمة الأكاديمية: توفير معيار تقييم جديد وإطار عمل منهجي لأبحاث اتباع التعليمات
القيمة العملية: توفير أداة عملية لمطوري تطبيقات نموذج اللغة لتحسين موثوقية التعليمات
قابلية الاستنساخ: وصف الطريقة التفصيلي وقوالب المحفزات تدعم استنساخ النتائج
إمكانية التوسع: يمكن توسيع إطار العمل المنهجي إلى مهام توليد لغة أخرى

السيناريوهات المعمول بها

مهام التوليد متعددة القيود: سيناريوهات تتطلب تلبية قيود متعددة للصيغة والمحتوى والأسلوب في نفس الوقت
التطبيقات عالية الموثوقية: تطبيقات الأعمال التي تتطلب دقة عالية في اتباع التعليمات
تحسين هندسة المحفزات: مساعدة المطورين على تحديد وحل مشاكل تضارب التعليمات
تقييم النموذج: توفير أداة تقييم موحدة لقدرة نموذج اللغة على اتباع التعليمات

المراجع

تستشهد الورقة بأعمال مهمة في مجالات تقييم اتباع التعليمات والتصحيح الذاتي والاستدلال بسلسلة الأفكار، مما يوفر أساساً نظرياً متيناً للبحث. تشمل المراجع الرئيسية معيار IFEval وطرق التصحيح الذاتي وأحدث أعمال تقييم اتباع التعليمات.