Don't Walk the Line: Boundary Guidance for Filtered Generation
Ball, Haupt
Generative models are increasingly paired with safety classifiers that filter harmful or undesirable outputs. A common strategy is to fine-tune the generator to reduce the probability of being filtered, but this can be suboptimal: it often pushes the model toward producing samples near the classifier's decision boundary, increasing both false positives and false negatives. We propose Boundary Guidance, a reinforcement learning fine-tuning method that explicitly steers generation away from the classifier's margin. On a benchmark of jailbreak and ambiguous prompts, Boundary Guidance improves both the safety and the utility of outputs, as judged by LLM-as-a-Judge evaluations. Comprehensive ablations across model scales and reward designs demonstrate the robustness of our approach.
يتم دمج نماذج التوليد بشكل متزايد مع مصنفات الأمان لتصفية المخرجات الضارة أو غير المناسبة. تتمثل إحدى الاستراتيجيات الشائعة في ضبط المولد لتقليل احتمالية التصفية، لكن هذا قد يكون دون الأمثل: فهو عادة ما يدفع النموذج لإنتاج عينات قريبة من حدود قرار المصنف، مما يزيد من الإيجابيات والسلبيات الكاذبة. تقترح هذه الورقة التوجيه الحدودي (Boundary Guidance)، وهي طريقة ضبط تعلم معزز تقود بشكل صريح التوليد بعيداً عن حدود المصنف. في معايير الاختراق والمطالبات الغامضة، يحسّن التوجيه الحدودي أمان وفائدة المخرجات، كما تم التحقق منه من خلال تقييم LLM-as-a-Judge. تثبت تجارب الاستبدال الشاملة عبر أحجام النماذج وتصاميم المكافآت متانة الطريقة.
يعتمد النشر الحديث للذكاء الاصطناعي بشكل متزايد على أنظمة أمان مركبة، حيث يتم دمج نماذج التوليد مع مصنفات الأمان اللاحقة لتصفية المخرجات الضارة أو غير المناسبة. تسمح هذه البنية للمؤسسات بالحفاظ على المرونة في سياسات الأمان مع الاستفادة من المزايا التكاملية للنماذج المدربة على الأمان والمصنفات المتخصصة.
تركز الطرق الحالية على محاذاة النموذج بشكل مستقل عن مصنف الأمان، مما يكشف عدم التطابق بين أهداف التدريب والواقع الفعلي للنشر. لا تأخذ ممارسات ضبط نماذج الذكاء الاصطناعي التوليدية القياسية في الاعتبار أي من التوليدات يسهل على المصنف تصنيفها - بعض التوليدات تحوم بالقرب من حدود قرار المصنف وتُصنف بشكل خاطئ.
عندما لا يكون مصنف الأمان مثالياً (تشير الأدلة التجريبية إلى أنه حتى أكثر المصنفات تقدماً قد تتعرض لهجوم ناجح بنسبة 5% على أبعاد الضرر الجديدة)، فإن العمل بالقرب من حدود القرار يضخّم هذه الأخطاء في التصنيف وينخفض الأداء الكلية للنظام.
المساهمة النظرية: توفير أدلة نظرية القرار التي تثبت أن فائدة النظام تتم تقليلها بالقرب من حدود قرار المصنف، مما يوفر أساساً نظرياً لهدف تجنب الحدود
المساهمة في الطريقة: تقديم إطار عمل ضبط قائم على التعلم المعزز لتدريب المولدات ضمن أنظمة الأمان المركبة
المساهمة التجريبية: إثبات التحسينات التجريبية في الأمان والفائدة عبر معماريات ونماذج متعددة، مما يشير إلى أن تحسين النظام المركب يمكن أن يحقق نتائج لا يمكن لأي مكون فردي تحقيقها
ضع في الاعتبار نموذج توليد π_θ(y|x) الذي ينتج إكمالاً y ∈ Y بالنظر إلى المطالبة x ∈ X. التركيز على أمان المخرجات، يُشار إليه بـ z(x,y) ∈ {0,1}. يوفر مصنف الأمان احتمالية متوقعة بأن المخرجات غير آمنة t(x,y) = Ez|x,y.
تؤسس الورقة إطار عمل نظرية القرار لتحليل فائدة النظام المركب:
عندما يتم عرض المخرجات، يحصل المستخدم على فائدة u(x,y)، والمجتمع يحصل على فائدة سلبية s(x,y). إذا لم يتم عرض المخرجات لكنها آمنة فعلاً، يحصل المستخدم على فائدة سلبية -λ < 0، والمجتمع يحصل على فائدة 0.
الفائدة المتوقعة للإكمال y هي:
U(x,y) = {
-(1-t(x,y))λ إذا كان t(x,y) ≥ τ
u(x,y) - t(x,y) إذا كان t(x,y) < τ
}
الاقتراح 1: عندما يكون u(x,y) ≡ u ثابتاً، تكون دالة الفائدة متناقصة بشكل صارم عندما يكون t < τ ومتزايدة بشكل صارم عندما يكون t ≥ τ. هذا يعني أن الفائدة المتوقعة تتم تقليلها بالقرب من حدود القرار τ.
تستشهد الورقة بأعمال مهمة في المجالات ذات الصلة، بما في ذلك أحدث الأبحاث في محاذاة الأمان والتعلم المعزز والأنظمة المركبة، مما يوفر أساساً نظرياً وتجريبياً قوياً للطريقة.
يوفر هذا العمل مساهمة مهمة لمجال أمان الذكاء الاصطناعي، حيث يوضح من خلال التحليل النظري والتحقق التجريبي قيمة تحسين النظام المركب، مما يوفر أفكاراً وأدوات جديدة لنشر الذكاء الاصطناعي الآمن في المستقبل.