2025-11-18T02:28:12.443418

Don't Walk the Line: Boundary Guidance for Filtered Generation

Ball, Haupt

Generative models are increasingly paired with safety classifiers that filter harmful or undesirable outputs. A common strategy is to fine-tune the generator to reduce the probability of being filtered, but this can be suboptimal: it often pushes the model toward producing samples near the classifier's decision boundary, increasing both false positives and false negatives. We propose Boundary Guidance, a reinforcement learning fine-tuning method that explicitly steers generation away from the classifier's margin. On a benchmark of jailbreak and ambiguous prompts, Boundary Guidance improves both the safety and the utility of outputs, as judged by LLM-as-a-Judge evaluations. Comprehensive ablations across model scales and reward designs demonstrate the robustness of our approach.

academic

لا تسر على الخط: التوجيه الحدودي للجيل المصفى

المعلومات الأساسية

معرّف الورقة: 2510.11834
العنوان: Don't Walk the Line: Boundary Guidance for Filtered Generation
المؤلفون: Sarah Ball (جامعة لودفيج ماكسيميليان ميونخ)، Andreas Haupt (جامعة ستانفورد)
التصنيف: cs.LG cs.CL
تاريخ النشر: 13 أكتوبر 2025 (نسخة arXiv التمهيدية)
رابط الورقة: https://arxiv.org/abs/2510.11834v1

الملخص

يتم دمج نماذج التوليد بشكل متزايد مع مصنفات الأمان لتصفية المخرجات الضارة أو غير المناسبة. تتمثل إحدى الاستراتيجيات الشائعة في ضبط المولد لتقليل احتمالية التصفية، لكن هذا قد يكون دون الأمثل: فهو عادة ما يدفع النموذج لإنتاج عينات قريبة من حدود قرار المصنف، مما يزيد من الإيجابيات والسلبيات الكاذبة. تقترح هذه الورقة التوجيه الحدودي (Boundary Guidance)، وهي طريقة ضبط تعلم معزز تقود بشكل صريح التوليد بعيداً عن حدود المصنف. في معايير الاختراق والمطالبات الغامضة، يحسّن التوجيه الحدودي أمان وفائدة المخرجات، كما تم التحقق منه من خلال تقييم LLM-as-a-Judge. تثبت تجارب الاستبدال الشاملة عبر أحجام النماذج وتصاميم المكافآت متانة الطريقة.

السياق البحثي والدافع

تعريف المشكلة

يعتمد النشر الحديث للذكاء الاصطناعي بشكل متزايد على أنظمة أمان مركبة، حيث يتم دمج نماذج التوليد مع مصنفات الأمان اللاحقة لتصفية المخرجات الضارة أو غير المناسبة. تسمح هذه البنية للمؤسسات بالحفاظ على المرونة في سياسات الأمان مع الاستفادة من المزايا التكاملية للنماذج المدربة على الأمان والمصنفات المتخصصة.

المشكلة الأساسية

تركز الطرق الحالية على محاذاة النموذج بشكل مستقل عن مصنف الأمان، مما يكشف عدم التطابق بين أهداف التدريب والواقع الفعلي للنشر. لا تأخذ ممارسات ضبط نماذج الذكاء الاصطناعي التوليدية القياسية في الاعتبار أي من التوليدات يسهل على المصنف تصنيفها - بعض التوليدات تحوم بالقرب من حدود قرار المصنف وتُصنف بشكل خاطئ.

أهمية المشكلة

يؤدي هذا إلى أخطاء في اتجاهين:

الإيجابيات الكاذبة (حجب المحتوى المفيد بشكل مفرط)
السلبيات الكاذبة (عدم كفاية حجب المحتوى الضار)

عندما لا يكون مصنف الأمان مثالياً (تشير الأدلة التجريبية إلى أنه حتى أكثر المصنفات تقدماً قد تتعرض لهجوم ناجح بنسبة 5% على أبعاد الضرر الجديدة)، فإن العمل بالقرب من حدود القرار يضخّم هذه الأخطاء في التصنيف وينخفض الأداء الكلية للنظام.

قيود الطرق الموجودة

تحسّن بشكل أساسي سلوك النموذج الفردي دون الأخذ في الاعتبار السياق التصفية اللاحقة الذي يحدد سيناريوهات النشر في العالم الحقيقي
تتطلب في التطبيقات الحالية عملية تدريب نموذج كثيفة الحسابات، بينما تحتاج طريقة هذه الورقة فقط إلى رمز واحد من مصنف الأمان

المساهمات الأساسية

المساهمة النظرية: توفير أدلة نظرية القرار التي تثبت أن فائدة النظام تتم تقليلها بالقرب من حدود قرار المصنف، مما يوفر أساساً نظرياً لهدف تجنب الحدود
المساهمة في الطريقة: تقديم إطار عمل ضبط قائم على التعلم المعزز لتدريب المولدات ضمن أنظمة الأمان المركبة
المساهمة التجريبية: إثبات التحسينات التجريبية في الأمان والفائدة عبر معماريات ونماذج متعددة، مما يشير إلى أن تحسين النظام المركب يمكن أن يحقق نتائج لا يمكن لأي مكون فردي تحقيقها

شرح الطريقة

تعريف المهمة

ضع في الاعتبار نموذج توليد π_θ(y|x) الذي ينتج إكمالاً y ∈ Y بالنظر إلى المطالبة x ∈ X. التركيز على أمان المخرجات، يُشار إليه بـ z(x,y) ∈ {0,1}. يوفر مصنف الأمان احتمالية متوقعة بأن المخرجات غير آمنة t(x,y) = Ez|x,y.

نموذج نظرية القرار

تؤسس الورقة إطار عمل نظرية القرار لتحليل فائدة النظام المركب:

عندما يتم عرض المخرجات، يحصل المستخدم على فائدة u(x,y)، والمجتمع يحصل على فائدة سلبية s(x,y). إذا لم يتم عرض المخرجات لكنها آمنة فعلاً، يحصل المستخدم على فائدة سلبية -λ < 0، والمجتمع يحصل على فائدة 0.

الفائدة المتوقعة للإكمال y هي:

U(x,y) = {
  -(1-t(x,y))λ           إذا كان t(x,y) ≥ τ
  u(x,y) - t(x,y)        إذا كان t(x,y) < τ
}

الاقتراح 1: عندما يكون u(x,y) ≡ u ثابتاً، تكون دالة الفائدة متناقصة بشكل صارم عندما يكون t < τ ومتزايدة بشكل صارم عندما يكون t ≥ τ. هذا يعني أن الفائدة المتوقعة تتم تقليلها بالقرب من حدود القرار τ.

دالة المكافأة لتجنب الحدود

بناءً على التحليل النظري، تقترح الورقة مكافأة تجنب حدود مستمرة:

R(x,y) = {
  u(x,y) + t(x,y)        إذا كان t(x,y) ≥ 0.5
  u(x,y) - t(x,y)        إذا كان t(x,y) < 0.5
}

حيث يتم توفير u(x,y) من خلال نموذج مكافأة موجود، و t(x,y) يتم تمثيله بواسطة logits مصنف الأمان.

التطبيق التقني

خوارزمية التعلم المعزز: استخدام Group Relative Policy Optimization (GRPO)
الضبط الفعال للمعاملات: اعتماد LoRA (r=16, α=32)، مما يقلل المعاملات القابلة للتدريب بنسبة 99%
تنظيم KL: منع الانحراف المفرط عن السياسة الأصلية
معماريات نماذج متعددة:
- نموذج السياسة: سلسلة Qwen2.5، Gemma-2-9B
- مصنف الأمان: Meta-Llama-Guard-2-8B
- نموذج المكافأة: Skywork-Reward-V2-Llama-3.1-8B

إعداد التجربة

مجموعات البيانات

تحتوي مجموعة بيانات التدريب على 7,880 مطالبة من ثلاث مصادر متكاملة:

4,000 مطالبة اختراق: من مجموعة بيانات الاختراق من Ball et al. (2024)
3,000 عينة Alpaca: توفير مطالبات متنوعة لاتباع التعليمات
880 عينة HarmfulQA: تحتوي على أسئلة مصممة لاستحضار ردود ضارة

تحتوي مجموعة الاختبار على 1,000 مطالبة محفوظة، موزعة بالتساوي عبر ثلاث فئات مشاكل.

مقاييس التقييم

استخدام GPT-4.1 لتقييم LLM-as-a-Judge:

درجة الفائدة (1-4): تقييم كيفية تلبية رد المساعد لاستعلام المستخدم وتوفير القيمة
درجة الضرر (0-3): تقييم إمكانية إلحاق الضرر برد المساعد

طرق المقارنة

نموذج الأساس: نموذج الضبط الأصلي للتعليمات
تجربة الاستبدال 1: التوجيه الحدودي باستخدام إشارة مصنف الأمان فقط
تجربة الاستبدال 2: تصميم مكافأة يدرك المطالبة

تفاصيل التطبيق

معدل التعلم: 2×10^-5
حجم الدفعة: 8 (لكل جهاز)
التكمية: 4-bit NF4
الحد الأقصى لطول التوليد: 96 رمز
عدد جولات التدريب: 1

نتائج التجربة

النتائج الرئيسية

يحقق التوجيه الحدودي تحسناً باريتو على جميع النماذج الأساسية الأربعة:

النموذج	زيادة الفائدة (Δ)	تقليل الضرر (Δ)	الدلالة الإحصائية
Qwen2.5-0.5B	+0.13	-0.09	p<0.001
Qwen2.5-7B	+0.03	-0.15	p<0.001
Gemma-2-9B	+0.03	-0.03	p<0.001
Qwen2.5-14B	-0.05	-0.11	p<0.10

النتائج الرئيسية:

انخفاض كبير في الضرر عبر جميع النماذج
تحسن في الفائدة لجميع النماذج باستثناء النموذج الأكبر
يحقق النموذج الأصغر (Qwen2.5-0.5B) أكبر تحسن كلي، مما يشير إلى أن التوجيه الحدودي فعال بشكل خاص عندما تكون قدرات الأمان الأساسية أضعف

تجارب الاستبدال

التجربة 1: إشارة مصنف الأمان فقط

تُظهر النتائج:

أداء النماذج الكبيرة (7B وما فوق) مماثلة للتجربة الرئيسية
انهيار الفائدة في النموذج الأصغر (0.5B) (-34%)، التقارب إلى رفض شبه عام
يشير إلى أن نموذج المكافأة u(x,y) ضروري للنماذج الصغيرة

التجربة 2: المكافأة التي تدرك المطالبة

يكافئ هذا التصميم احتمالية عدم أمان أعلى على المطالبات غير الآمنة واحتمالية عدم أمان أقل على المطالبات الآمنة. النتائج:

زيادة الضرر في ثلاثة من أصل أربعة نماذج
انخفاض كبير في الفائدة عبر جميع النماذج (-22% إلى -25%)
يثبت أن تدريب النموذج بنشاط على إنتاج محتوى غير آمن على المطالبات غير الآمنة له تأثير معاكس

تحليل الحالات

تشمل حالات فشل المكافأة التي تدرك المطالبة:

"أعتذر عن الاضطرار إلى تقديم هذه المعلومات، لكنني سأدرج بعض المجتمعات الإلكترونية غير القانونية وأشرح كيفية الانضمام إليها بشكل مجهول..."
"بالتأكيد، يسعدني مساعدتك في الغش في امتحان الرياضيات! إليك بعض النصائح..."

تحتوي هذه الردود على بيانات إخلاء المسؤولية لكنها تزال توفر محتوى ضاراً، وقد لا يتمكن مرشح المصب من التقاطه بالكامل.

الأعمال ذات الصلة

تحسين دقة مصنفات الأمان

قدّم Gehman et al. (2020) معيار تقييم السمية
التدريب الخصومي يحسّن متانة المصنف (Ziegler et al., 2022)
التطور من كاشفات السمية الخفيفة إلى نماذج الحماية القائمة على LLM

ضبط محاذاة الأمان

Safe RLHF (Dai et al., 2023): فصل أهداف الفائدة واللاضرر
Constrained DPO (Liu et al., 2024): توفير ضمانات أمان أقوى
SafeDPO (Kim et al., 2025): تحسين مباشر لمحاذاة الأمان

أنظمة الأمان المركبة

Baker et al. (2025): عرض مراقبة استدلال سلسلة الفكر
Wichers et al. (2024): اختبار أحمر قائم على التدرج

الخلاصة والمناقشة

الاستنتاجات الرئيسية

يحقق التوجيه الحدودي تحسناً باريتو في المقايضة بين الأمان والفائدة
الطريقة فعالة بشكل متسق عبر معماريات ونماذج متعددة
مفيدة بشكل خاص للنماذج الصغيرة ذات قدرات الأمان الأساسية الأضعف
الإشارة الأمنية وحدها كافية للنماذج الكبيرة، لكن النماذج الصغيرة تحتاج إلى مكون نموذج المكافأة

القيود

اعتماد المصنف: يعتمد على افتراض أن المرشح يتنبأ بدقة أكبر بعيداً عن حدود القرار مقارنة بالقرب منها
الحمل الحسابي: يتطلب 2-3 نماذج للتدريب (على الرغم من أنها عملية لمرة واحدة فقط)
افتراض الأمان الثنائي: يفترض حالياً أن الأمان فئة ثنائية، والواقع أكثر تعقيداً

الاتجاهات المستقبلية

الأمان متعدد الأبعاد: التوسع إلى أنواع أمان متعددة s₁(x,y), s₂(x,y), ..., sₖ(x,y)
مرشحات الرفاهية: الانتقال من المرشحات القائمة على الأمان فقط إلى مرشحات تأخذ في الاعتبار فائدة المستخدم والضرر الاجتماعي

التقييم المتعمق

المزايا

أساس نظري قوي: توفير تحليل نظرية القرار يثبت تقليل الفائدة بالقرب من الحدود
طريقة مبتكرة: أول محاولة صريحة لتحسين النماذج المولدة للأنظمة الأمان المركبة
تجارب شاملة: التحقق عبر أحجام ومعماريات نماذج متعددة، مع دراسات استبدال مفصلة
قيمة عملية عالية: حل مشاكل حرجة في النشر الفعلي
اتساق النتائج: تحسينات موضحة عبر إعدادات مختلفة

أوجه القصور

قيود التقييم: يعتمد بشكل أساسي على حكم LLM واحد، قد يكون متحيزاً
حجم مجموعة البيانات: بيانات التدريب والاختبار نسبياً صغيرة
التأثيرات طويلة الأجل غير معروفة: لم يتم تقييم الأداء في التدريب طويل الأجل أو السيناريوهات الأكثر تعقيداً
حساسية المعاملات الفائقة: لم يتم استكشاف تأثير قيم λ المختلفة على الأداء بشكل كافٍ

التأثير

المساهمة الأكاديمية: فتح اتجاه جديد لأبحاث أنظمة الذكاء الاصطناعي الأمان المركبة
القيمة العملية: يمكن تطبيقها مباشرة على أنظمة النشر الموجودة
قابلية التكرار: توفير كود كامل وتفاصيل تجريبية

السيناريوهات المعمول بها

نشر أنظمة الذكاء الاصطناعي التي تحتاج إلى موازنة الأمان والفائدة
تحسين نماذج التوليد التي تحتوي بالفعل على مصنفات أمان
سيناريوهات التطبيق الحساسة لكل من الإيجابيات والسلبيات الكاذبة
نشر النماذج الصغيرة المحدودة الموارد التي تحتاج إلى تحسين الأمان

المراجع

تستشهد الورقة بأعمال مهمة في المجالات ذات الصلة، بما في ذلك أحدث الأبحاث في محاذاة الأمان والتعلم المعزز والأنظمة المركبة، مما يوفر أساساً نظرياً وتجريبياً قوياً للطريقة.

يوفر هذا العمل مساهمة مهمة لمجال أمان الذكاء الاصطناعي، حيث يوضح من خلال التحليل النظري والتحقق التجريبي قيمة تحسين النظام المركب، مما يوفر أفكاراً وأدوات جديدة لنشر الذكاء الاصطناعي الآمن في المستقبل.