2025-11-25T22:19:18.206879

Machine Unlearning Meets Adversarial Robustness via Constrained Interventions on LLMs

Rezkellah, Dakhmouche

With the increasing adoption of Large Language Models (LLMs), more customization is needed to ensure privacy-preserving and safe generation. We address this objective from two critical aspects: unlearning of sensitive information and robustness to jail-breaking attacks. We investigate various constrained optimization formulations that address both aspects in a \emph{unified manner}, by finding the smallest possible interventions on LLM weights that either make a given vocabulary set unreachable or embed the LLM with robustness to tailored attacks by shifting part of the weights to a \emph{safer} region. Beyond unifying two key properties, this approach contrasts with previous work in that it doesn't require an oracle classifier that is typically not available or represents a computational overhead. Surprisingly, we find that the simplest point-wise constraint-based intervention we propose leads to better performance than max-min interventions, while having a lower computational cost. Comparison against state-of-the-art defense methods demonstrates superior performance of the proposed approach.

academic

إلغاء التعلم الآلي يلتقي بالقوة ضد الهجمات العدائية عبر التدخلات المقيدة على نماذج اللغة الكبيرة

المعلومات الأساسية

معرّف الورقة: 2510.03567
العنوان: Machine Unlearning Meets Adversarial Robustness via Constrained Interventions on LLMs
المؤلفون: Fatmazohra Rezkellah (Université Paris-Dauphine)، Ramzi Dakhmouche (EPFL & Empa)
التصنيفات: cs.LG cs.CL cs.CR cs.CY math.OC
المؤتمر: المؤتمر الـ 39 للأنظمة العصبية ومعالجة المعلومات (NeurIPS 2025) - ورشة عمل: التحسين المقيد للتعلم الآلي (COML)
رابط الورقة: https://arxiv.org/abs/2510.03567

الملخص

مع الاعتماد الواسع على نماذج اللغة الكبيرة (LLMs)، يتطلب الأمر مزيداً من التخصيص لضمان حماية الخصوصية والتوليد الآمن. تعالج هذه الورقة هذا الهدف من جانبين رئيسيين: إلغاء المعلومات الحساسة والقوة ضد هجمات الالتفاف. يقترح الباحثون صيغ تحسين مختلفة مقيدة، من خلال البحث عن أقل تدخل ممكن على أوزان نماذج اللغة الكبيرة لحل هذين الجانبين بشكل موحد، مما يجعل مجموعة معينة من المفردات غير قابلة للوصول أو تعزيز قوة نموذج اللغة الكبيرة ضد الهجمات المخصصة من خلال نقل جزء من الأوزان إلى مناطق أكثر أماناً. لا تتطلب الطريقة مصنفاً نبوياً غير متاح عادة أو يمثل عبئاً حسابياً. بشكل مثير للدهشة، يكتشف المؤلفون أن أبسط طريقة تدخل نقطي مقيد مقترحة تتمتع بأداء أفضل من التدخل الأعظم-الأصغر، مع تكاليف حسابية أقل.

السياق البحثي والدافع

تعريف المشكلة

يعالج هذا البحث مشكلتين أساسيتين:

مشكلة إلغاء التعلم: كيفية حذف معلومات معينة (مجموعة مفردات محددة) من فضاء التوليد لنموذج اللغة بأقل تكلفة حسابية
مشكلة القوة ضد الهجمات العدائية: كيفية جعل نموذج اللغة أكثر قوة ضد هجمات الالتفاف العدائية التي تؤدي إلى محتوى خطير أو سام

الأهمية

مع نشر نماذج اللغة الكبيرة في التطبيقات الحساسة للأمان (مثل الإشراف على المحتوى عبر الإنترنت ومعالجة البيانات السرية)، أصبح ضمان سلامة مخرجات نموذج التوليد متطلباً حاسماً. تواجه الطرق الموجودة مقايضات بين الكفاءة الحسابية وفعالية الدفاع.

قيود الطرق الموجودة

الضبط الدقيق وتحسين النموذج: عبء حسابي كبير
الدفاعات القائمة على الموجهات: ضعيفة وعرضة للتلاعب العدائي
طرق الكشف الخفيفة: محدودة بيانات التدريب المحدودة، غير فعالة ضد الهجمات العدائية
طرق الإلغاء: تعتمد بشكل أساسي على إعادة التدريب الجزئي من خلال إطار المعلم والطالب أو الضبط الدقيق التكراري، مع تكاليف حسابية عالية

الدافع البحثي

استلهم المؤلفون من الطرق المبدئية للقوة في الانحدار، واقترحوا إطار عمل موحد يعالج القوة ضد الهجمات العدائية وإلغاء التعلم في نفس الوقت، مستفيدين من حقيقة أن المعلومات مخزنة بشكل ضمني في مسارات الفضاء الكامن.

المساهمات الأساسية

إطار عمل موحد: اقتراح وحل مشاكل تحسين مقيدة متنوعة لمنح نماذج اللغة الكبيرة القوة ضد الهجمات العدائية وقدرة إلغاء المحتوى غير المرغوب
بدون الحاجة إلى مصنف خارجي: التغلب على الحاجة إلى كاشفات اصطناعية من خلال إدخال استرخاء مستمر على فضاء الموجهات وتنفيذ تدخلات تقيد مباشرة تضمين المفاهيم
تحسن الأداء: إظهار تحسن الأداء مقارنة بخوارزميات الدفاع المتقدمة، وتحديد مستوى متقدم جديد للإلغاء الاقتصادي على نماذج اللغة الكبيرة
الكفاءة الحسابية: أبسط طريقة تدخل نقطي مقيد تتفوق على التدخل الأعظم-الأصغر المعقد من حيث الأداء والتكلفة الحسابية

شرح الطريقة

تعريف المهمة

بالنظر إلى نموذج لغة مدرب ℓ : Σ → Σ، نأخذ في الاعتبار مهمتين أساسيتين متعلقتين بالأمان:

كيفية حذف معلومات معينة (مجموعة مفردات) من فضاء التوليد لـ ℓ بأقل تكلفة حسابية
كيفية جعل ℓ أكثر قوة ضد هجمات الالتفاف العدائية التي تؤدي إلى محتوى خطير أو سام

ثلاث طرق تدخل مقيدة

1. نحو المنطقة الآمنة (TSR)

البحث عن أقل اضطراب وزن لتعظيم احتمالية الاستجابة الآمنة لموجهات الالتفاف:

min_{‖δ‖≤ε} L_safety(ℓ_{θ+δ}(x), y_safe)

حيث يُعرّف دالة الخسارة الآمنة كالتالي:

L_safety(f_{θ+δ}(x), y_safe) = -log(∑_{k∈K_safety} p_k(x; θ + δ))

المزايا: لا تتطلب أمثلة على التوليد الخطير، يمكن حلها من خلال الانحدار بالتدرج المسقط العيوب: القيود على التوليد الآمن ناعمة، أداء أضعف

2. الابتعاد عن منطقة المخاطر (ARR)

اعتماد مشكلة أعظم-أصغر:

max_{‖δ‖≤ε} min_{x∈X} L_harmful(ℓ_{θ+δ}(x), y_harmful)

يُعرّف دالة الخسارة الضارة كالتالي:

L_harmful(ℓ_{θ+δ}(x), y_harmful) = -log(∑_{k∈K_harmful} p_k(x; θ + δ))

الخصائص: تأخذ في الاعتبار سيناريوهات الإدخال الأسوأ حالاً، استخدام استرخاء احتمالي للتعامل مع الهياكل المنفصلة العيوب: تتطلب معرفة بمجموعة المفاهيم الضارة، قد تكون محافظة جداً

3. منطقة التدخل النقطي (PCR)

استراتيجية تدخل نقطي مقيد بسيطة بناءً على الحد الأدنى من التدخل، مما يجعل تفعيل MLP لنموذج اللغة الكبيرة لموجهات الالتفاف لا يساوي تضمين الإخراج الخطير:

min_{θ^{(l)}∈R^{d_l}} ‖δ_l‖_2^2
subject to ‖o^{(l)}(x; θ + δ_l) - c_i‖_2 ≥ ε, ∀i ≤ n

المزايا: حل شبه مغلق بناءً على شروط KKT، كفاءة حسابية عالية، أفضل أداء العيوب: تتطلب مجموعة مفاهيم محظورة محددة مسبقاً

الحل المغلق

للحالة ذات القيد الواحد، الحل المغلق هو:

δ^{(l)*}_{single} = [ε - ‖r_i‖_2]_+ / ‖h_{intermediate}‖_2^2 * r_i h^T_{intermediate} / ‖r_i‖_2

تستخدم حالات القيود المتعددة خوارزمية تكرارية للتعامل مع القيد الأكثر انتهاكاً.

إعداد التجارب

مجموعات البيانات

مجموعة البيانات المخصصة للطاعة: تحتوي على 100 كلمة مفتاحية محظورة (مثل "abuse"، "attack"، "bomb" وغيرها من الكلمات المتعلقة بالعنف والجريمة)
HarmBench: مجموعة معايير اختبار الدفاع القياسية لنماذج اللغة الكبيرة

مقاييس التقييم

معدل نجاح الهجوم (ASR): قياس درجة نجاح الهجمات العدائية (كلما انخفض كان أفضل)
مستوى الرفض: نسبة الحالات التي يرفض فيها النموذج الاستجابة بالكامل (كلما ارتفع كان أفضل)
الارتباك: قياس مستوى الإلغاء من خلال مقارنة الارتباك للتسلسل المعطى قبل وبعد التدخل

طرق المقارنة

SmoothLLM: خوارزمية دفاع متقدمة ضد الهجمات العدائية
Self-reminder: طريقة دفاع التذكير الذاتي
خط الأساس بدون حماية: النموذج الأصلي

نماذج الاختبار

Llama-3.1 8B Instruct
Mistral 7B v0.2
Gemma 2B-IT

نتائج التجارب

النتائج الرئيسية

نتائج القوة ضد الهجمات العدائية

معدل نجاح الهجوم على مجموعة بيانات HarmBench:

النموذج	بدون حماية	التدخل النقطي (هذا البحث)	SmoothLLM	Self-Reminder
Llama-3.1 8B	11.0	0.0	7.245	0.8
Mistral 7B	30.0	5.88	18.9	28.5
Gemma 2B-IT	22.0	2.508	8.225	19.58

تحليل نمط الرفض:

النموذج	طريقة هذا البحث (%)	SmoothLLM (%)	Self-Reminder (%)
Llama-3.1 8B	100.0	87.5	24.3
Gemma 2B-IT	97.4	10	36.9
Mistral 7B	26.7	37.5	20

نتائج إلغاء التعلم الآلي

تحليل الارتباك للكلمات المحظورة (الارتباك الأعلى يشير إلى إلغاء أفضل):

النموذج	مجموعة البيانات	خط الأساس	التدخل النقطي
Gemma-2B-IT	Obedience	8.816	12.72
Gemma-2B-IT	HarmBench	16.757	18.157
Mistral-7B	Obedience	8.627	13.74
Llama-3-8B	Obedience	6.48	7.735

الكفاءة الحسابية

متوسط الوقت لكل حالة اختبار:

النموذج	وقت الهجوم (ثانية)	طريقة PCR (ثانية)	SmoothLLM (ثانية)
LLaMA 3 8B	38.89	20.16	36.12
Mistral-7B	27.43	17.28	40.17
Gemma 2B	14.375	10.44	11.62

النتائج المهمة

طريقة التدخل النقطي هي الأمثل: أبسط طريقة PCR تتفوق على طرق TSR و ARR الأكثر تعقيداً من حيث الأداء والكفاءة الحسابية
فعالية الإطار الموحد: يمكن لنفس الطريقة التعامل مع مشاكل الإلغاء والقوة في نفس الوقت
تأثير عدد الطبقات: التدخل على طبقات MLP أكثر يحقق أداء أفضل
الميزة الحسابية الواضحة: تقليل ملحوظ في العبء الحسابي مقارنة بالطرق الموجودة

الأعمال ذات الصلة

طرق التوليد الآمن

طرق الضبط الدقيق: عبء حسابي كبير
هندسة الموجهات: عرضة للتلاعب العدائي
تقدير عدم اليقين: تعقيد حسابي
تحسين النموذج: متطلبات موارد عالية

الطرق الخفيفة

كاشفات فضاء التفعيل: محدودة بيانات التدريب المحدودة
الكشف عن الهجمات العدائية: تحليل الخصائص الإحصائية للمدخلات المشوهة

إلغاء التعلم الآلي

إطار المعلم والطالب: إعادة تدريب جزئية، تكاليف حسابية عالية
الضبط الدقيق التكراري: تواجه نفس التحديات الحسابية

الخلاصة والنقاش

الاستنتاجات الرئيسية

اقتراح إطار تحسين مقيد موحد للتعامل مع إلغاء نماذج اللغة الكبيرة والقوة
طريقة التدخل النقطي تحقق أفضل توازن بين البساطة والفعالية
بدون الحاجة إلى مصنف خارجي، مما يقلل العبء الحسابي وتعقيد التنفيذ
تتفوق على طرق متقدمة موجودة على معايير متعددة

القيود

الاعتماد على مجموعة المفاهيم: تتطلب طرق PCR و ARR مجموعة مفاهيم محظورة محددة مسبقاً
مقاييس التقييم: يعتمد تقييم الإلغاء بشكل أساسي على الارتباك، قد لا يكون شاملاً بما يكفي
القدرة على التعميم: تحتاج قدرة التعميم على أنواع هجمات مختلفة ونماذج مختلفة إلى التحقق الإضافي
التحليل النظري: نقص التحليل النظري العميق لضمانات التقارب والأمان للطريقة

الاتجاهات المستقبلية

تطوير طرق تكيفية لا تتطلب مجموعات مفاهيم محددة مسبقاً
استكشاف مقاييس تقييم إلغاء أكثر شمولاً
دراسة قابلية توسع الطريقة على نماذج أكبر حجماً
توفير ضمانات نظرية للتقارب والأمان

التقييم المتعمق

المزايا

أهمية المشكلة: معالجة مشكلتين حاسمتين في النشر الآمن لنماذج اللغة الكبيرة
الابتكار في الطريقة: أول توحيد للإلغاء والقوة في إطار تحسين مقيد
القيمة العملية: توفير حل محسّن حسابياً
التقييم الشامل: تقييم شامل على نماذج ومجموعات بيانات متعددة
الأساس النظري: توفير حل مغلق بناءً على شروط KKT

أوجه القصور

نقص التحليل النظري: غياب التحليل النظري لتقارب الطريقة والأمثلية
حدود التقييم: يعتمد تقييم الإلغاء بشكل أساسي على مقياس واحد (الارتباك)
تنوع الهجمات: التركيز الأساسي على أنواع معينة من هجمات الالتفاف، تأثير الطريقة على أنواع هجمات أخرى غير معروف
التأثير طويل الأمد: تأثير تدخل الأوزان على الأداء طويلة الأمد للنموذج يحتاج إلى مزيد من البحث

التأثير

المساهمة الأكاديمية: توفير منظور موحد جديد لبحث أمان نماذج اللغة الكبيرة
القيمة العملية: توفير حل أمان اقتصادي للمؤسسات ذات الموارد المحدودة
قابلية التكرار: توفير وصف خوارزمي مفصل وتفاصيل التنفيذ
القابلية للتوسع: يمكن توسيع الإطار إلى مهام أخرى متعلقة بالأمان

السيناريوهات المطبقة

المجال التعليمي: منع توليد محتوى غير لائق
الرعاية الصحية: حماية المعلومات الطبية الحساسة
المنصات الإلكترونية: مراقبة سلامة المحتوى
التطبيقات المؤسسية: حماية المعلومات السرية

المراجع

تستشهد الورقة بأعمال مهمة متعددة في المجالات ذات الصلة، بما في ذلك أحدث الأبحاث في التدريب العدائي وإلغاء التعلم الآلي وأمان نماذج اللغة الكبيرة، مما يوفر أساساً نظرياً قوياً ومعايير مقارنة.

التقييم الإجمالي: هذه ورقة بحثية ذات مساهمة مهمة في مجال أمان نماذج اللغة الكبيرة، حيث تعالج مشاكل الإلغاء والقوة بشكل موحد من خلال إطار تحسين مقيد، وتوفر حلاً محسّناً حسابياً. على الرغم من وجود بعض أوجه القصور في التحليل النظري وجوانب التقييم، فإن قيمتها العملية والابتكار تجعلها تقدماً مهماً في هذا المجال.