Machine Unlearning Meets Adversarial Robustness via Constrained Interventions on LLMs
Rezkellah, Dakhmouche
With the increasing adoption of Large Language Models (LLMs), more customization is needed to ensure privacy-preserving and safe generation. We address this objective from two critical aspects: unlearning of sensitive information and robustness to jail-breaking attacks. We investigate various constrained optimization formulations that address both aspects in a \emph{unified manner}, by finding the smallest possible interventions on LLM weights that either make a given vocabulary set unreachable or embed the LLM with robustness to tailored attacks by shifting part of the weights to a \emph{safer} region. Beyond unifying two key properties, this approach contrasts with previous work in that it doesn't require an oracle classifier that is typically not available or represents a computational overhead. Surprisingly, we find that the simplest point-wise constraint-based intervention we propose leads to better performance than max-min interventions, while having a lower computational cost. Comparison against state-of-the-art defense methods demonstrates superior performance of the proposed approach.
academic
إلغاء التعلم الآلي يلتقي بالقوة ضد الهجمات العدائية عبر التدخلات المقيدة على نماذج اللغة الكبيرة
مع الاعتماد الواسع على نماذج اللغة الكبيرة (LLMs)، يتطلب الأمر مزيداً من التخصيص لضمان حماية الخصوصية والتوليد الآمن. تعالج هذه الورقة هذا الهدف من جانبين رئيسيين: إلغاء المعلومات الحساسة والقوة ضد هجمات الالتفاف. يقترح الباحثون صيغ تحسين مختلفة مقيدة، من خلال البحث عن أقل تدخل ممكن على أوزان نماذج اللغة الكبيرة لحل هذين الجانبين بشكل موحد، مما يجعل مجموعة معينة من المفردات غير قابلة للوصول أو تعزيز قوة نموذج اللغة الكبيرة ضد الهجمات المخصصة من خلال نقل جزء من الأوزان إلى مناطق أكثر أماناً. لا تتطلب الطريقة مصنفاً نبوياً غير متاح عادة أو يمثل عبئاً حسابياً. بشكل مثير للدهشة، يكتشف المؤلفون أن أبسط طريقة تدخل نقطي مقيد مقترحة تتمتع بأداء أفضل من التدخل الأعظم-الأصغر، مع تكاليف حسابية أقل.
مع نشر نماذج اللغة الكبيرة في التطبيقات الحساسة للأمان (مثل الإشراف على المحتوى عبر الإنترنت ومعالجة البيانات السرية)، أصبح ضمان سلامة مخرجات نموذج التوليد متطلباً حاسماً. تواجه الطرق الموجودة مقايضات بين الكفاءة الحسابية وفعالية الدفاع.
استلهم المؤلفون من الطرق المبدئية للقوة في الانحدار، واقترحوا إطار عمل موحد يعالج القوة ضد الهجمات العدائية وإلغاء التعلم في نفس الوقت، مستفيدين من حقيقة أن المعلومات مخزنة بشكل ضمني في مسارات الفضاء الكامن.
إطار عمل موحد: اقتراح وحل مشاكل تحسين مقيدة متنوعة لمنح نماذج اللغة الكبيرة القوة ضد الهجمات العدائية وقدرة إلغاء المحتوى غير المرغوب
بدون الحاجة إلى مصنف خارجي: التغلب على الحاجة إلى كاشفات اصطناعية من خلال إدخال استرخاء مستمر على فضاء الموجهات وتنفيذ تدخلات تقيد مباشرة تضمين المفاهيم
تحسن الأداء: إظهار تحسن الأداء مقارنة بخوارزميات الدفاع المتقدمة، وتحديد مستوى متقدم جديد للإلغاء الاقتصادي على نماذج اللغة الكبيرة
الكفاءة الحسابية: أبسط طريقة تدخل نقطي مقيد تتفوق على التدخل الأعظم-الأصغر المعقد من حيث الأداء والتكلفة الحسابية
الخصائص: تأخذ في الاعتبار سيناريوهات الإدخال الأسوأ حالاً، استخدام استرخاء احتمالي للتعامل مع الهياكل المنفصلة
العيوب: تتطلب معرفة بمجموعة المفاهيم الضارة، قد تكون محافظة جداً
استراتيجية تدخل نقطي مقيد بسيطة بناءً على الحد الأدنى من التدخل، مما يجعل تفعيل MLP لنموذج اللغة الكبيرة لموجهات الالتفاف لا يساوي تضمين الإخراج الخطير:
min_{θ^{(l)}∈R^{d_l}} ‖δ_l‖_2^2
subject to ‖o^{(l)}(x; θ + δ_l) - c_i‖_2 ≥ ε, ∀i ≤ n
المزايا: حل شبه مغلق بناءً على شروط KKT، كفاءة حسابية عالية، أفضل أداء
العيوب: تتطلب مجموعة مفاهيم محظورة محددة مسبقاً
تستشهد الورقة بأعمال مهمة متعددة في المجالات ذات الصلة، بما في ذلك أحدث الأبحاث في التدريب العدائي وإلغاء التعلم الآلي وأمان نماذج اللغة الكبيرة، مما يوفر أساساً نظرياً قوياً ومعايير مقارنة.
التقييم الإجمالي: هذه ورقة بحثية ذات مساهمة مهمة في مجال أمان نماذج اللغة الكبيرة، حيث تعالج مشاكل الإلغاء والقوة بشكل موحد من خلال إطار تحسين مقيد، وتوفر حلاً محسّناً حسابياً. على الرغم من وجود بعض أوجه القصور في التحليل النظري وجوانب التقييم، فإن قيمتها العملية والابتكار تجعلها تقدماً مهماً في هذا المجال.