يحاول المطورون عادة التأثير على سلوك نماذج اللغة الكبيرة (LLM) من خلال صياغة دقيقة للمحفزات، مثل إضافة أو تعديل التعليمات. ومع ذلك، فإن مجرد إضافة المزيد من التعليمات لا يضمن اتباعها. تقترح هذه الورقة تعزيز التعليمات (Instruction Boosting) كطريقة ما بعد التوليد لتحسين موثوقية التعليمات في المحفزات. تُظهر الدراسة أن تعزيز التعليمات يمكن أن يرفع معدل اتباع التعليمات بما يصل إلى 7 نقاط مئوية مع تعليمتين، وبما يصل إلى 4 نقاط مئوية مع عشر تعليمات. للتحقق من هذه النتائج، يقدم المؤلفون معيار SCALEDIF، الذي يحتوي على ما يصل إلى عشر تعليمات لكل عينة بيانات. تحلل الورقة أيضاً الاتجاه الشائع لانخفاض الأداء مع زيادة عدد التعليمات، مما يشير إلى أن العوامل المهمة التي تسبب هذا الاتجاه هي درجة التوتر والتضارب الناتجة عن زيادة عدد التعليمات.
بالنظر إلى استعلام Q ومجموعة من التعليمات I={I₁, I₂, ..., Iₙ} والاستجابة الأولية R من نموذج اللغة، الهدف من تعزيز التعليمات هو توليد استجابة معدّلة R' بحيث تتبع R' عدداً أكبر من التعليمات.
1. الكشف والإصلاح (Detect+Repair)
2. الأفضل من N (Best-of-N)
3. الأفضل من N Oracle
4. خريطة-تقليل (Map Reduce)
استخدام Algorithm 1 لضمان تجنب التضارب الصعب عند أخذ عينات من معاملات التعليمات:
استخدام الصيغة لحساب تقييم التضارب للعينة s:
cs = Σ(i,j)∈p(s)×p(s),i≠j cij / |p(s)|
حيث cij هو عدد التضارب بين التعليمة i والتعليمة j.
تستشهد الورقة بأعمال مهمة في مجالات تقييم اتباع التعليمات والتصحيح الذاتي والاستدلال بسلسلة الأفكار، مما يوفر أساساً نظرياً متيناً للبحث. تشمل المراجع الرئيسية معيار IFEval وطرق التصحيح الذاتي وأحدث أعمال تقييم اتباع التعليمات.