2025-11-11T09:37:09.241544

Safety-Aligned Weights Are Not Enough: Refusal-Teacher-Guided Finetuning Enhances Safety and Downstream Performance under Harmful Finetuning Attacks

Ham, Choi, Yang et al.
Recently, major AI providers such as Google and OpenAI have introduced Finetuning-as-a-Service (FaaS), which allows users to customize Large Language Models (LLMs) using their own data. However, this service is vulnerable to safety degradation when user data includes harmful prompts, a threat known as harmful finetuning attacks. Prior works attempt to mitigate this issue by first constructing safety-aligned model and then finetuning the model on user data. However, we observe that the safety-aligned weights provide weak initialization for downstream task learning, leading to suboptimal safety-alignment and downstream task performance. To address this, we propose a Refusal-Teacher (Ref-Teacher)-guided finetuning framework. Instead of finetuning a safety-aligned model on user data, our approach directly finetunes the base model under the guidance of a safety-aligned Ref-Teacher, which filters harmful prompts from user data and distills safety-alignment knowledge into the base model. Extensive experiments demonstrate that our Ref-Teacher-guided finetuning strategy effectively minimizes harmful outputs and enhances finetuning accuracy for user-specific tasks, offering a practical solution for secure and reliable deployment of LLMs in FaaS.
academic

الأوزان المحاذاة للأمان ليست كافية: ضبط دقيق موجه بمعلم الرفض يعزز الأمان والأداء اللاحقة تحت هجمات الضبط الدقيق الضارة

المعلومات الأساسية

  • معرّف الورقة: 2506.07356
  • العنوان: الأوزان المحاذاة للأمان ليست كافية: ضبط دقيق موجه بمعلم الرفض يعزز الأمان والأداء اللاحقة تحت هجمات الضبط الدقيق الضارة
  • المؤلفون: Seokil Ham, Yubin Choi, Yujin Yang, Seungju Cho, Younghun Kim, Changick Kim (معهد كوريا المتقدم للعلوم والتكنولوجيا)
  • التصنيف: cs.CL (الحوسبة واللغة)
  • تاريخ النشر: 11 أكتوبر 2025 (نسخة arXiv)
  • رابط الورقة: https://arxiv.org/abs/2506.07356

الملخص

مع إطلاق مزودي الذكاء الاصطناعي الرئيسيين مثل Google و OpenAI لخدمات الضبط الدقيق كخدمة (FaaS)، يمكن للمستخدمين تخصيص نماذج اللغة الكبيرة (LLM) باستخدام بيانات خاصة بهم. ومع ذلك، عندما تحتوي بيانات المستخدم على موجهات ضارة، تكون الخدمة عرضة لتدهور الأمان، وهذا التهديد يُعرّف بهجمات الضبط الدقيق الضارة. تحاول الطرق الموجودة التخفيف من هذه المشكلة من خلال بناء نموذج محاذى للأمان أولاً، ثم الضبط الدقيق على بيانات المستخدم. لكن هذه الورقة تكتشف أن أوزان المحاذاة الأمنية توفر تهيئة ضعيفة لتعلم المهام اللاحقة، مما يؤدي إلى محاذاة أمنية دون المستوى الأمثل وأداء مهام لاحقة. لحل هذه المشكلة، يقترح المؤلفون إطار عمل ضبط دقيق موجه بمعلم الرفض (Ref-Teacher)، والذي يقوم بالضبط الدقيق للنموذج الأساسي مباشرة تحت إشراف معلم الرفض المحاذى للأمان، من خلال تصفية الموجهات الضارة في بيانات المستخدم وتقطير معرفة المحاذاة الأمنية إلى النموذج الأساسي لتحقيق تحسن مزدوج في الأمان والأداء.

خلفية البحث والدافع

تعريف المشكلة

  1. هجمات الضبط الدقيق الضارة: عندما يرفع المستخدمون بيانات تحتوي على محتوى ضار في FaaS للضبط الدقيق، يؤدي ذلك إلى تدمير محاذاة الأمان في النموذج، مما يجعل النموذج ينتج محتوى ضار.
  2. قيود الطرق الموجودة:
    • خط الأنابيب ثنائي المراحل التقليدي (محاذاة الأمان أولاً، ثم الضبط الدقيق) يحتوي على عيب أساسي
    • نموذج المحاذاة الأمنية يوفر تهيئة ضعيفة للأوزان لتعلم المهام اللاحقة
    • يؤدي إلى أداء مهام محدود وأمان مخترق
  3. دافع البحث:
    • الضبط الدقيق المباشر على النموذج الأساسي مع بيانات المستخدم وبيانات المحاذاة الأمنية يمكن أن يحقق أداء أفضل
    • لكن هذه الطريقة تنتج تضاربات في التدرجات، خاصة عندما تحتوي بيانات المستخدم على موجهات ضارة
    • هناك حاجة إلى إطار عمل جديد للتخفيف من تضاربات التدرجات مع الحفاظ على الأمان وأداء المهام

المساهمات الأساسية

  1. اكتشاف القيود الأساسية لنماذج المحاذاة الأمنية: إثبات أن نماذج LLM المحاذاة للأمان توفر تهيئة ضعيفة للتعلم اللاحق، مما يؤدي إلى أداء مهام دون المستوى الأمثل وتسويات أمنية.
  2. اقتراح إطار عمل ضبط دقيق موجه بمعلم الرفض: التخفيف من تضاربات التدرجات من خلال آليتين - تقطير المحاذاة وتصفية البيانات - لتحقيق تحسن مزدوج في الأمان وأداء المهام.
  3. التحقق التجريبي الشامل: إثبات فعالية وقوة الطريقة في إعدادات متعددة (نسب موجهات ضارة مختلفة، أحجام البيانات، أنواع البيانات، معماريات النماذج).
  4. حل عملي لـ FaaS: توفير حل قابل للتطبيق عملياً لنشر LLM آمن وموثوق.

شرح الطريقة

تعريف المهمة

الإدخال: نموذج LLM أساسي، بيانات المستخدم (قد تحتوي على موجهات ضارة)، بيانات المحاذاة الأمنية الإخراج: نموذج مخصص يحافظ على المحاذاة الأمنية ويؤدي بشكل جيد على المهام الخاصة بالمستخدم القيود: الحفاظ على المتانة تحت هجمات الضبط الدقيق الضارة

معمارية النموذج

1. مرحلة تحضير المعلم

تدريب نموذج Ref-Teacher ليكون قادراً على:

  • توليد تسميات رفض ناعمة لتقطير المحاذاة
  • تمييز الموجهات الضارة والآمنة بفعالية باستخدام ميزات الرفض

تعريف ميزة الرفض:

R^l = (1/N_us) ∑(i=1 to N_us) f^l(x_us_i) - (1/N_s) ∑(i=1 to N_s) f^l(x_s_i)

هدف التدريب:

L_teacher = (1/N) ∑(i=1 to N) [ℓ(x_s_i, y_s_i) + ℓ(x_us_i, y_r_i) + λ{||1 + CS(f^l(x_s_i), R^l)||_2 + ||1 - CS(f^l(x_us_i), R^l)||_2}]

2. مرحلة الضبط الدقيق

يوجه Ref-Teacher النموذج الأساسي من خلال آليتين متكاملتين:

تصفية البيانات:

ω_i = {0, if CS(R^l, f^l(x_i)) > τ
       1, otherwise}

تقطير المحاذاة: استخدام خسارة KL لنقل معرفة التسميات الناعمة من معلم Ref-Teacher إلى نموذج الطالب

دالة الهدف الكلية:

L_ft = (1/N_user) ∑(i=1 to N_user) ω_i * ℓ(x_i, y_i) + αT^2 * (1/N_align) ∑(i=1 to N_align) KL(p_Tt,i || p_Ts,i)

نقاط الابتكار التقني

  1. تعزيز ميزة الرفض: تقوية القدرة التمييزية لميزة الرفض من خلال حد تنظيمي، مما يجعل التشابه الجيبي لميزات الموجهات الضارة مع ميزة الرفض قريباً من 1، والموجهات الآمنة قريبة من -1.
  2. تحديث ميزة الرفض الديناميكي: تحديث ميزة الرفض بشكل دوري أثناء التدريب، مما يتجنب الحاجة إلى نموذج محاذى مسبقاً.
  3. التعاون المزدوج الآلي: يوفر تقطير المحاذاة سطح خسارة سلس، وتصفية البيانات تزيل البيانات الضارة، ويعمل الاثنان معاً للتخفيف من تضاربات التدرجات.

إعداد التجارب

مجموعات البيانات

  • بيانات المحاذاة الأمنية: BeaverTails (5,000 موجهة ضارة + ردود رفض) + Alpaca (5,000 موجهة آمنة + ردود مفيدة)
  • بيانات المستخدم: GSM8K و SST2 و AGNEWS و AlpacaEval وغيرها، مع خلط موجهات ضارة بنسب مختلفة
  • بيانات التقييم: مجموعة اختبار BeaverTails (1,000 عينة) لتقييم الأمان

مؤشرات التقييم

  • درجة الضرر (HS): نسبة الردود الضارة من بين 1,000 إخراج (↓ كلما انخفض كان أفضل)
  • دقة الضبط الدقيق (FA): دقة المهمة اللاحقة (↑ كلما ارتفع كان أفضل)

طرق المقارنة

  • طرق مرحلة المحاذاة: RepNoise و Vaccine و Booster
  • طرق مرحلة الضبط الدقيق: LDIFS و Lisa
  • طرق الأساس: SFT (الضبط الدقيق الإشرافي القياسي)

تفاصيل التنفيذ

  • النماذج: Llama3-8B و Gemma2-9B و Qwen2-7B
  • التدريب: ضبط دقيق LoRA (rank=32)، محسّن AdamW
  • المعاملات الفائقة: λ=0.1, α=0.1, T=1, τ=0.9، معدل التعلم 5e-4 (معلم) / 1e-5 (ضبط دقيق)

نتائج التجارب

النتائج الرئيسية

الأداء تحت نسب موجهات ضارة مختلفة

الطريقةp=0p=0.1p=0.3p=0.5متوسط HSمتوسط FA
SFT2.216.257.371.336.839.5
Vaccine1.35.435.057.524.822.0
Ref-Teacher0.91.00.60.90.947.1

تجارب الاستئصال

تحليل تضاربات التدرجات

الطريقةتقطير المحاذاةتصفية البياناتتكرار التضارب (%)متوسط التشابه الجيبي
الطريقة الأساسية35.090.110
+ تقطير المحاذاة32.260.131
+ تصفية البيانات36.110.102
الطريقة الكاملة30.020.140

تحليل مساهمة المكونات

  • تقطير المحاذاة فقط: HS=2.2, FA=46.2 (لا يمكنه حل مشكلة البيانات الضارة بمفرده)
  • تصفية البيانات فقط: HS=0.6, FA=46.5 (يمكنه تقليل الضرر لكن يؤثر على أداء المهام)
  • الطريقة الكاملة: HS=0.5, FA=49.0 (التعاون يحقق أفضل أداء)

تجارب التعميم

التعميم عبر مجموعات البيانات

متوسط الأداء على GSM8K و SST2 و AGNEWS و AlpacaEval:

  • Ref-Teacher: HS=1.1, FA=52.8 (الأفضل)
  • أفضل خط أساس (Booster): HS=10.0, FA=51.3

التعميم عبر معماريات النماذج

متوسط الأداء على Llama3-8B و Gemma2-9B و Qwen2-7B:

  • Ref-Teacher: HS=0.8, FA=60.8 (الأفضل)
  • أفضل خط أساس (Booster): HS=4.4, FA=57.3

التحقق من أداء التصنيف

درجة F1 لـ Ref-Teacher في كشف المحتوى الضار:

  • BeaverTails: 93.4%
  • JailbreakBench: 79.8%
  • هجمات GCG: 92.9%
  • هجمات AutoDAN: 82.1%

الأعمال ذات الصلة

أبحاث أمان LLM

  • الدفاع أثناء التدريب: تعزيز المتانة من خلال التدريب الخصومي وموازنة البيانات وغيرها
  • الدفاع أثناء الاستدلال: الاستفادة من تقييم LLM للضرر أو الاختلافات الداخلية للحماية

الدفاع ضد هجمات الضبط الدقيق الضارة

  1. حلول مرحلة المحاذاة: الحصول على أوزان محاذاة أمنية قوية من خلال تقنيات التنظيم
  2. حلول مرحلة الضبط الدقيق: تجميد المعاملات الحرجة أو إضافة تنظيم أمني
  3. حلول ما بعد مرحلة الضبط الدقيق: تحليل الاختلافات وتحرير أوزان النموذج للتعويض عن تدهور الأمان

الفرق الرئيسي لهذه الورقة هو الضبط الدقيق المباشر للنموذج الأساسي بدلاً من نموذج محاذى للأمان، من خلال التخفيف من تضاربات التدرجات بإشراف المعلم.

الخلاصة والنقاش

الاستنتاجات الرئيسية

  1. أوزان المحاذاة الأمنية ليست كافية: نموذج المحاذاة الأمنية يوفر تهيئة ضعيفة للمهام اللاحقة، مما يؤدي إلى خسارة مزدوجة في الأداء والأمان
  2. الضبط الدقيق المباشر أكثر فعالية: الضبط الدقيق المتزامن للمحاذاة الأمنية والتعلم على المهام على النموذج الأساسي يحقق نتائج أفضل
  3. تضاربات التدرجات هي التحدي الرئيسي: يتطلب التخفيف من خلال التعاون بين تقطير المحاذاة وتصفية البيانات
  4. قوة عملية: الطريقة تظهر أداء مستقرة في إعدادات متعددة، مناسبة لنشر FaaS

القيود

  1. الاعتماد على ميزات الرفض: إذا تم تدمير ميزات الرفض بهجمات خصومية، قد يتأثر أمان الإطار بأكمله
  2. النفقات الحسابية: يتطلب تدريب نموذج Ref-Teacher إضافي، مما يزيد من التكاليف الحسابية
  3. الاعتماد على جودة البيانات: فعالية الطريقة تعتمد على جودة وتغطية بيانات المحاذاة الأمنية

الاتجاهات المستقبلية

  1. تعزيز المتانة: البحث عن طرق دفاع ضد التلاعب بميزات الرفض
  2. تحسين الكفاءة: استكشاف استراتيجيات تدريب معلم وتقطير معرفة أكثر كفاءة
  3. التحليل النظري: فهم أعمق للطبيعة الرياضية لتضاربات التدرجات وآليات التخفيف

التقييم المتعمق

المزايا

  1. اكتشاف المشكلة عميق: أول من يشير بشكل منهجي إلى القيود الأساسية لأوزان المحاذاة الأمنية، مما يوفر منظور فكري جديد للمجال
  2. تصميم الطريقة ذكي: يحل مشكلة تضاربات التدرجات بأناقة من خلال تصميم ميزات الرفض والآليات المزدوجة
  3. التجارب شاملة وكافية: تغطي إعدادات متعددة وبيانات ونماذج، مع تصميم تجريبي صارم ونتائج مقنعة
  4. قيمة عملية عالية: موجهة مباشرة لسيناريو FaaS، بقيمة تطبيق عملي قوية جداً

أوجه القصور

  1. التحليل النظري غير كافٍ: يفتقر إلى تحليل نظري عميق لظاهرة تضاربات التدرجات وآليات التخفيف
  2. اعتبار التكاليف الحسابية: لم يتم مناقشة النفقات الحسابية الإضافية لتدريب Ref-Teacher بشكل كافٍ
  3. نماذج الهجوم محدودة: يركز بشكل أساسي على هجمات تسميم البيانات، والمتانة ضد الهجمات الخصومية الأكثر تعقيداً تحتاج إلى التحقق
  4. حساسية المعاملات الفائقة: على الرغم من وجود تجارب استئصال، فإن تحليل حساسية المعاملات الفائقة الحرجة ليس عميقاً بما يكفي

التأثير

  1. المساهمة الأكاديمية: توفير نموذج بحثي جديد لضبط دقيق آمن لـ LLM، قد يثير أبحاث لاحقة
  2. القيمة الصناعية: حل مباشر لمشاكل الأمان العملية في FaaS، بآفاق تطبيق تجاري مهمة
  3. قابلية إعادة الإنتاج: توفير إعدادات تجريبية مفصلة ومعاملات فائقة، مما يسهل إعادة الإنتاج والتحسين

السيناريوهات القابلة للتطبيق

  1. منصات FaaS: ضمان الأمان لخدمات الضبط الدقيق لمزودي خدمات الذكاء الاصطناعي
  2. نشر LLM المخصص: حل أمان لنشر LLM المخصص داخل المؤسسات
  3. التعلم متعدد المهام: سيناريوهات تعلم LLM التي تحتاج إلى تحسين أهداف متعددة بشكل متزامن
  4. تطبيقات حساسة للأمان: مجالات تطبيق LLM التي تتطلب متطلبات أمان عالية

المراجع

تستشهد هذه الورقة بأعمال مهمة في مجالات أمان LLM وهجمات الضبط الدقيق الضارة وتقطير المعرفة، مما يوفر أساساً شاملاً للأدبيات للبحث ذي الصلة. تستحق الانتباه بشكل خاص الأبحاث المتعلقة بميزات الرفض (Arditi et al. 2024) وطرق الدفاع الموجودة ضد الضبط الدقيق الضار (سلسلة Huang et al. 2024 و Rosati et al. 2024 وغيرها).