Foundation models have revolutionized computer vision by enabling broad generalization across diverse tasks. Yet, they remain highly susceptible to adversarial perturbations and targeted backdoor attacks. Mitigating such vulnerabilities remains an open challenge, especially given that the large-scale nature of the models prohibits retraining to ensure safety. Existing backdoor removal approaches rely on costly fine-tuning to override the harmful behavior, and can often degrade performance on other unrelated tasks. This raises the question of whether backdoors can be removed without compromising the general capabilities of the models. In this work, we address this question and study how backdoors are encoded in the model weight space, finding that they are disentangled from other benign tasks. Specifically, this separation enables the isolation and erasure of the backdoor's influence on the model with minimal impact on clean performance. Building on this insight, we introduce a simple unlearning method that leverages such disentanglement. Through extensive experiments with CLIP-based models and common adversarial triggers, we show that, given the knowledge of the attack, our method achieves approximately perfect unlearning, while retaining, on average, 96% of clean accuracy. Additionally, we demonstrate that even when the attack and its presence are unknown, our method successfully unlearns backdoors by proper estimation using reverse-engineered triggers. Overall, our method consistently yields better unlearning and clean accuracy tradeoffs when compared to present state-of-the-art defenses.
لقد أحدثت نماذج الأساس ثورة في رؤية الحاسوب من خلال تمكين التعميم الواسع عبر مهام متنوعة. ومع ذلك، فإنها تظل عرضة للغاية للاضطرابات الخصومة والهجمات الخلفية الموجهة. يظل التخفيف من هذه الثغرات الأمنية تحديًا مفتوحًا، خاصة بالنظر إلى أن الطبيعة واسعة النطاق للنماذج تحول دون إعادة التدريب لضمان السلامة. تعتمد أساليب إزالة الأبواب الخلفية الحالية على ضبط دقيق مكلف لتجاوز السلوك الضار، وغالبًا ما تؤدي إلى تدهور الأداء في المهام غير ذات الصلة. يثير هذا السؤال عما إذا كان يمكن إزالة الأبواب الخلفية دون المساس بالقدرات العامة للنماذج. في هذا العمل، نعالج هذا السؤال ندرس كيفية ترميز الأبواب الخلفية في فضاء أوزان النموذج، ونجد أنها منفصلة عن المهام الحميدة الأخرى. على وجه التحديد، يتيح هذا الفصل عزل ومحو تأثير الباب الخلفي على النموذج بتأثير ضئيل على الأداء النظيف. بناءً على هذه الرؤية، نقدم طريقة إلغاء بسيطة تستفيد من هذا الفصل. من خلال تجارب موسعة مع نماذج قائمة على CLIP والمحفزات الخصومة الشائعة، نوضح أنه، بمعرفة الهجوم، تحقق طريقتنا إلغاءً شبه مثالي، مع الحفاظ على 96% من الدقة النظيفة في المتوسط. بالإضافة إلى ذلك، نوضح أنه حتى عندما يكون الهجوم وحضوره غير معروفين، تنجح طريقتنا في إلغاء الأبواب الخلفية من خلال التقدير الصحيح باستخدام المحفزات المعاد هندستها. بشكل عام، تحقق طريقتنا باستمرار مقايضات أفضل بين الإلغاء والدقة النظيفة مقارنة بالدفاعات الحديثة.
يتناول هذا البحث مشكلة الحماية من الهجمات الخلفية (Backdoor Attacks) في نماذج الأساس الكبيرة (Foundation Models). تعمل الهجمات الخلفية على حقن عدد قليل من العينات المزودة بمحفزات محددة (trigger) في بيانات التدريب، مما يجعل النموذج ينتج سلوكًا خبيثًا مقصودًا عند مواجهة مدخلات تحتوي على هذا المحفز، بينما يعمل بشكل طبيعي على المدخلات العادية.
يعتمد المؤلفون على نظرية الفصل بين الأوزان (weight disentanglement)، ويفترضون أن السلوك الخلفي في فضاء أوزان النموذج منفصل عن المهام العادية، وبالتالي يمكن إزالة الباب الخلفي بدقة من خلال العمليات الخطية دون التأثير على الوظائف العادية.
الرؤية النظرية: تطبيق نظرية الفصل بين الأوزان على تحليل الأبواب الخلفية للمرة الأولى، مما يثبت أن معرفة الباب الخلفي والمعرفة النظيفة منفصلة في فضاء الأوزان لنماذج Transformer القائمة على CLIP
طريقة TBAR: تقديم طريقة إلغاء خفيفة الوزن قائمة على حسابات متجهات المهام تسمى Trigger removal by Backdoor ARithmetic (TBAR)
أداء متفوق: تحقيق معدل إزالة باب خلفي بنسبة 99% مع الحفاظ على دقة نظيفة بنسبة 96% في حالة المحفزات المعروفة، مع متطلبات بيانات أقل بمرتبتي حجم من الطرق الموجودة
سيناريو الهجوم غير المعروف: الجمع بين تقنيات الهندسة العكسية، يمكن إلغاء الأبواب الخلفية بنجاح حتى في حالة الهجمات غير المعروفة، مع الحفاظ على دقة نظيفة تزيد عن 90%
بالنظر إلى نموذج مصاب بهجوم خلفي θb، الهدف هو إزالة السلوك الخلفي (تقليل معدل نجاح الهجوم ASR إلى صفر)، مع الحفاظ على أداء النموذج على البيانات النظيفة (دقة نظيفة CA) بأكبر قدر ممكن.
من خلال تصور خطأ الفصل بين الأوزان ξ(αc, αt)، تم التأكد من أن المهمة النظيفة والمهمة المحفزة منفصلة فعلاً في فضاء الأوزان، مما يتحقق من صحة الافتراض الأساسي.
تظهر التجارب أن زيادة حجم مجموعة الإلغاء (من 300 إلى 30k) لها تأثير محدود على تحسين الأداء، مما يشير إلى أن التحديد الدقيق لما يجب إلغاؤه أهم من حجم البيانات.
الهجمات الخلفية هي نوع من هجمات تسميم البيانات، حيث يتم تعديل عدد قليل من بيانات التدريب لزراعة ثغرات مخفية في النموذج. نماذج متعددة الأنماط مثل CLIP أصبحت أهدافًا رئيسية بسبب تطبيقاتها الواسعة.
يهدف النسيان الآلي إلى إزالة سلوك تعليمي محدد بشكل انتقائي، وينقسم إلى فئتين: النسيان الدقيق والنسيان التقريبي. الطرق الموجودة لها فعالية محدودة في مهام إزالة الأبواب الخلفية.
تقوم حسابات المهام بترميز المهام المتعلمة كمتجهات في فضاء الأوزان، ويمكن تحقيق إضافة المهام وإزالتها والجمع بينها من خلال العمليات الخطية. خاصية الفصل بين الأوزان هي الأساس النظري لفعالية هذه العمليات.