Safety-Aligned Weights Are Not Enough: Refusal-Teacher-Guided Finetuning Enhances Safety and Downstream Performance under Harmful Finetuning Attacks
Ham, Choi, Yang et al.
Recently, major AI providers such as Google and OpenAI have introduced Finetuning-as-a-Service (FaaS), which allows users to customize Large Language Models (LLMs) using their own data. However, this service is vulnerable to safety degradation when user data includes harmful prompts, a threat known as harmful finetuning attacks. Prior works attempt to mitigate this issue by first constructing safety-aligned model and then finetuning the model on user data. However, we observe that the safety-aligned weights provide weak initialization for downstream task learning, leading to suboptimal safety-alignment and downstream task performance. To address this, we propose a Refusal-Teacher (Ref-Teacher)-guided finetuning framework. Instead of finetuning a safety-aligned model on user data, our approach directly finetunes the base model under the guidance of a safety-aligned Ref-Teacher, which filters harmful prompts from user data and distills safety-alignment knowledge into the base model. Extensive experiments demonstrate that our Ref-Teacher-guided finetuning strategy effectively minimizes harmful outputs and enhances finetuning accuracy for user-specific tasks, offering a practical solution for secure and reliable deployment of LLMs in FaaS.
academic
الأوزان المحاذاة للأمان ليست كافية: ضبط دقيق موجه بمعلم الرفض يعزز الأمان والأداء اللاحقة تحت هجمات الضبط الدقيق الضارة
مع إطلاق مزودي الذكاء الاصطناعي الرئيسيين مثل Google و OpenAI لخدمات الضبط الدقيق كخدمة (FaaS)، يمكن للمستخدمين تخصيص نماذج اللغة الكبيرة (LLM) باستخدام بيانات خاصة بهم. ومع ذلك، عندما تحتوي بيانات المستخدم على موجهات ضارة، تكون الخدمة عرضة لتدهور الأمان، وهذا التهديد يُعرّف بهجمات الضبط الدقيق الضارة. تحاول الطرق الموجودة التخفيف من هذه المشكلة من خلال بناء نموذج محاذى للأمان أولاً، ثم الضبط الدقيق على بيانات المستخدم. لكن هذه الورقة تكتشف أن أوزان المحاذاة الأمنية توفر تهيئة ضعيفة لتعلم المهام اللاحقة، مما يؤدي إلى محاذاة أمنية دون المستوى الأمثل وأداء مهام لاحقة. لحل هذه المشكلة، يقترح المؤلفون إطار عمل ضبط دقيق موجه بمعلم الرفض (Ref-Teacher)، والذي يقوم بالضبط الدقيق للنموذج الأساسي مباشرة تحت إشراف معلم الرفض المحاذى للأمان، من خلال تصفية الموجهات الضارة في بيانات المستخدم وتقطير معرفة المحاذاة الأمنية إلى النموذج الأساسي لتحقيق تحسن مزدوج في الأمان والأداء.
هجمات الضبط الدقيق الضارة: عندما يرفع المستخدمون بيانات تحتوي على محتوى ضار في FaaS للضبط الدقيق، يؤدي ذلك إلى تدمير محاذاة الأمان في النموذج، مما يجعل النموذج ينتج محتوى ضار.
قيود الطرق الموجودة:
خط الأنابيب ثنائي المراحل التقليدي (محاذاة الأمان أولاً، ثم الضبط الدقيق) يحتوي على عيب أساسي
نموذج المحاذاة الأمنية يوفر تهيئة ضعيفة للأوزان لتعلم المهام اللاحقة
يؤدي إلى أداء مهام محدود وأمان مخترق
دافع البحث:
الضبط الدقيق المباشر على النموذج الأساسي مع بيانات المستخدم وبيانات المحاذاة الأمنية يمكن أن يحقق أداء أفضل
لكن هذه الطريقة تنتج تضاربات في التدرجات، خاصة عندما تحتوي بيانات المستخدم على موجهات ضارة
هناك حاجة إلى إطار عمل جديد للتخفيف من تضاربات التدرجات مع الحفاظ على الأمان وأداء المهام
اكتشاف القيود الأساسية لنماذج المحاذاة الأمنية: إثبات أن نماذج LLM المحاذاة للأمان توفر تهيئة ضعيفة للتعلم اللاحق، مما يؤدي إلى أداء مهام دون المستوى الأمثل وتسويات أمنية.
اقتراح إطار عمل ضبط دقيق موجه بمعلم الرفض: التخفيف من تضاربات التدرجات من خلال آليتين - تقطير المحاذاة وتصفية البيانات - لتحقيق تحسن مزدوج في الأمان وأداء المهام.
التحقق التجريبي الشامل: إثبات فعالية وقوة الطريقة في إعدادات متعددة (نسب موجهات ضارة مختلفة، أحجام البيانات، أنواع البيانات، معماريات النماذج).
حل عملي لـ FaaS: توفير حل قابل للتطبيق عملياً لنشر LLM آمن وموثوق.
الإدخال: نموذج LLM أساسي، بيانات المستخدم (قد تحتوي على موجهات ضارة)، بيانات المحاذاة الأمنية
الإخراج: نموذج مخصص يحافظ على المحاذاة الأمنية ويؤدي بشكل جيد على المهام الخاصة بالمستخدم
القيود: الحفاظ على المتانة تحت هجمات الضبط الدقيق الضارة
تعزيز ميزة الرفض: تقوية القدرة التمييزية لميزة الرفض من خلال حد تنظيمي، مما يجعل التشابه الجيبي لميزات الموجهات الضارة مع ميزة الرفض قريباً من 1، والموجهات الآمنة قريبة من -1.
تحديث ميزة الرفض الديناميكي: تحديث ميزة الرفض بشكل دوري أثناء التدريب، مما يتجنب الحاجة إلى نموذج محاذى مسبقاً.
التعاون المزدوج الآلي: يوفر تقطير المحاذاة سطح خسارة سلس، وتصفية البيانات تزيل البيانات الضارة، ويعمل الاثنان معاً للتخفيف من تضاربات التدرجات.
تستشهد هذه الورقة بأعمال مهمة في مجالات أمان LLM وهجمات الضبط الدقيق الضارة وتقطير المعرفة، مما يوفر أساساً شاملاً للأدبيات للبحث ذي الصلة. تستحق الانتباه بشكل خاص الأبحاث المتعلقة بميزات الرفض (Arditi et al. 2024) وطرق الدفاع الموجودة ضد الضبط الدقيق الضار (سلسلة Huang et al. 2024 و Rosati et al. 2024 وغيرها).