2025-11-17T15:13:20.278531

Backdoor Unlearning by Linear Task Decomposition

Abdelraheem, Favero, Bovet et al.

Foundation models have revolutionized computer vision by enabling broad generalization across diverse tasks. Yet, they remain highly susceptible to adversarial perturbations and targeted backdoor attacks. Mitigating such vulnerabilities remains an open challenge, especially given that the large-scale nature of the models prohibits retraining to ensure safety. Existing backdoor removal approaches rely on costly fine-tuning to override the harmful behavior, and can often degrade performance on other unrelated tasks. This raises the question of whether backdoors can be removed without compromising the general capabilities of the models. In this work, we address this question and study how backdoors are encoded in the model weight space, finding that they are disentangled from other benign tasks. Specifically, this separation enables the isolation and erasure of the backdoor's influence on the model with minimal impact on clean performance. Building on this insight, we introduce a simple unlearning method that leverages such disentanglement. Through extensive experiments with CLIP-based models and common adversarial triggers, we show that, given the knowledge of the attack, our method achieves approximately perfect unlearning, while retaining, on average, 96% of clean accuracy. Additionally, we demonstrate that even when the attack and its presence are unknown, our method successfully unlearns backdoors by proper estimation using reverse-engineered triggers. Overall, our method consistently yields better unlearning and clean accuracy tradeoffs when compared to present state-of-the-art defenses.

academic

إلغاء الأبواب الخلفية من خلال تحليل المهام الخطي

المعلومات الأساسية

معرّف الورقة: 2510.14845
العنوان: Backdoor Unlearning by Linear Task Decomposition
المؤلفون: Amel Abdelraheem, Alessandro Favero, Gérôme Bovet, Pascal Frossard
التصنيف: cs.LG cs.CV
تاريخ النشر/المؤتمر: ورقة arXiv (تم تقديمها في 16 أكتوبر 2025)
رابط الورقة: https://arxiv.org/abs/2510.14845

الملخص

لقد أحدثت نماذج الأساس ثورة في رؤية الحاسوب من خلال تمكين التعميم الواسع عبر مهام متنوعة. ومع ذلك، فإنها تظل عرضة للغاية للاضطرابات الخصومة والهجمات الخلفية الموجهة. يظل التخفيف من هذه الثغرات الأمنية تحديًا مفتوحًا، خاصة بالنظر إلى أن الطبيعة واسعة النطاق للنماذج تحول دون إعادة التدريب لضمان السلامة. تعتمد أساليب إزالة الأبواب الخلفية الحالية على ضبط دقيق مكلف لتجاوز السلوك الضار، وغالبًا ما تؤدي إلى تدهور الأداء في المهام غير ذات الصلة. يثير هذا السؤال عما إذا كان يمكن إزالة الأبواب الخلفية دون المساس بالقدرات العامة للنماذج. في هذا العمل، نعالج هذا السؤال ندرس كيفية ترميز الأبواب الخلفية في فضاء أوزان النموذج، ونجد أنها منفصلة عن المهام الحميدة الأخرى. على وجه التحديد، يتيح هذا الفصل عزل ومحو تأثير الباب الخلفي على النموذج بتأثير ضئيل على الأداء النظيف. بناءً على هذه الرؤية، نقدم طريقة إلغاء بسيطة تستفيد من هذا الفصل. من خلال تجارب موسعة مع نماذج قائمة على CLIP والمحفزات الخصومة الشائعة، نوضح أنه، بمعرفة الهجوم، تحقق طريقتنا إلغاءً شبه مثالي، مع الحفاظ على 96% من الدقة النظيفة في المتوسط. بالإضافة إلى ذلك، نوضح أنه حتى عندما يكون الهجوم وحضوره غير معروفين، تنجح طريقتنا في إلغاء الأبواب الخلفية من خلال التقدير الصحيح باستخدام المحفزات المعاد هندستها. بشكل عام، تحقق طريقتنا باستمرار مقايضات أفضل بين الإلغاء والدقة النظيفة مقارنة بالدفاعات الحديثة.

خلفية البحث والدافع

تعريف المشكلة

يتناول هذا البحث مشكلة الحماية من الهجمات الخلفية (Backdoor Attacks) في نماذج الأساس الكبيرة (Foundation Models). تعمل الهجمات الخلفية على حقن عدد قليل من العينات المزودة بمحفزات محددة (trigger) في بيانات التدريب، مما يجعل النموذج ينتج سلوكًا خبيثًا مقصودًا عند مواجهة مدخلات تحتوي على هذا المحفز، بينما يعمل بشكل طبيعي على المدخلات العادية.

أهمية المشكلة

التهديد الأمني: تشكل الهجمات الخلفية تهديدًا خطيرًا للتطبيقات الحرجة للسلامة مثل القيادة الذاتية والتشخيص الطبي
تحدي الحجم: تكاليف تدريب نماذج الأساس الكبيرة مرتفعة للغاية، مما يجعل إعادة التدريب الكاملة لحذف الأبواب الخلفية غير عملية
متطلبات العمومية: غالبًا ما تؤدي طرق الحماية الحالية إلى إضعاف أداء النموذج في مهام أخرى، مع وجود مشكلة النسيان الكارثي

قيود الأساليب الموجودة

طرق إعادة التدريب: التكاليف الحسابية مرتفعة جدًا، غير قابلة للتطبيق على النماذج واسعة النطاق
طرق الضبط الدقيق: تؤدي بسهولة إلى النسيان الكارثي، مما يقلل من أداء النموذج في المهام النظيفة
النسيان الآلي التقليدي: فعالية محدودة في مهام إزالة الأبواب الخلفية، خاصة الأداء الضعيف في الإعدادات الصغيرة

دافع البحث

يعتمد المؤلفون على نظرية الفصل بين الأوزان (weight disentanglement)، ويفترضون أن السلوك الخلفي في فضاء أوزان النموذج منفصل عن المهام العادية، وبالتالي يمكن إزالة الباب الخلفي بدقة من خلال العمليات الخطية دون التأثير على الوظائف العادية.

المساهمات الأساسية

الرؤية النظرية: تطبيق نظرية الفصل بين الأوزان على تحليل الأبواب الخلفية للمرة الأولى، مما يثبت أن معرفة الباب الخلفي والمعرفة النظيفة منفصلة في فضاء الأوزان لنماذج Transformer القائمة على CLIP
طريقة TBAR: تقديم طريقة إلغاء خفيفة الوزن قائمة على حسابات متجهات المهام تسمى Trigger removal by Backdoor ARithmetic (TBAR)
أداء متفوق: تحقيق معدل إزالة باب خلفي بنسبة 99% مع الحفاظ على دقة نظيفة بنسبة 96% في حالة المحفزات المعروفة، مع متطلبات بيانات أقل بمرتبتي حجم من الطرق الموجودة
سيناريو الهجوم غير المعروف: الجمع بين تقنيات الهندسة العكسية، يمكن إلغاء الأبواب الخلفية بنجاح حتى في حالة الهجمات غير المعروفة، مع الحفاظ على دقة نظيفة تزيد عن 90%

شرح الطريقة

تعريف المهمة

بالنظر إلى نموذج مصاب بهجوم خلفي θb، الهدف هو إزالة السلوك الخلفي (تقليل معدل نجاح الهجوم ASR إلى صفر)، مع الحفاظ على أداء النموذج على البيانات النظيفة (دقة نظيفة CA) بأكبر قدر ممكن.

الافتراض الأساسي: الفصل بين الأوزان

يقترح المؤلفون الافتراض الأساسي: أوزان نماذج الرؤية الأساسية تحقق خاصية الفصل بين الأوزان للهجمات الخلفية الشائعة، أي:

f(x;θpre + αcτc + αtτt) = f(x;θpre + αcτc)1(x ∈ Dc) + f(x;θpre + αtτt)1(x ∈ Dt)

حيث:

τc: متجه المهمة النظيفة
τt: متجه المهمة المحفز
Dc: مجال الصور النظيفة
Dt: مجال الصور المحفزة

خطوات خوارزمية TBAR

1. تقدير متجه المحفز

استخدام مجموعة إلغاء صغيرة الحجم (تحتوي فقط على عينات محفزة) لضبط النموذج المصاب:

τ̂t = θb+t - θb

2. إزالة الباب الخلفي

إزالة الباب الخلفي من خلال نفي المهمة (task negation):

θ̂c = θb - ατ̂t

حيث α معامل قياسي يتحكم في قوة الإلغاء.

3. تحسين المعامل

استخدام مجموعة التحقق الصغيرة من خلال البحث الشامل لتحديد قيمة α المثلى.

توسيع سيناريو الهجوم غير المعروف

الجمع بين طريقة DECREE للهندسة العكسية:

استخدام DECREE لاستعادة محفزات بديلة من النموذج المصاب
استنتاج التسميات المستهدفة من خلال استكشاف استجابة النموذج
بناء مجموعة عينات محفزة بديلة
تطبيق TBAR لإزالة الباب الخلفي

إعداد التجارب

مجموعات البيانات

التصنيف أحادي المهمة: SUN397, CIFAR100, ImageNet-1K
الصور والنصوص واسعة النطاق: مجموعة فرعية بحجم 500k من Conceptual Captions 3M (CC3M)

أنواع الهجمات الخلفية

BadNet: إدراج كتلة ضوضاء عشوائية بحجم 16×16 في موقع عشوائي
Blended: تراكب اضطراب غاوسي على الصورة بأكملها (نسبة 8:2)
WaNet: تطبيق تحويل تشويه صورة دقيق
BadCLIP: هجوم رقعة محسّن لـ CLIP
SIG: اضطراب جيبي على طول المحور الأفقي
BadMerging: هجوم مصمم للبقاء بعد دمج النموذج

مقاييس التقييم

دقة نظيفة (CA): دقة النموذج على البيانات النظيفة
معدل نجاح الهجوم (ASR): نسبة عينات المحفز المتنبأ بها كتسميات مستهدفة
خطأ الفصل بين الأوزان (ξ): قياس الفرق بين التنبؤات من تركيب متجهات المهام والتطبيق المنفصل

طرق المقارنة

الضبط الدقيق للبيانات النظيفة: CleanCLIP, RoCLIP, ضبط CLIP القياسي
النسيان الآلي: Gradient Ascent
الهندسة العكسية: DECREE

نتائج التجارب

النتائج الرئيسية

تجارب التصنيف أحادي المهمة

النتائج على CLIP ViT-B/32 تظهر:

SUN397: انخفاض ASR من 91.40% إلى 1.25%، مع الحفاظ على CA بنسبة 94.96%
CIFAR100: انخفاض ASR من 99.96% إلى 0.02%، مع الحفاظ على CA بنسبة 96.44%
ImageNet-1K: انخفاض ASR من 93.56% إلى 1.96%، مع الحفاظ على CA بنسبة 94.97%

تجارب الصور والنصوص واسعة النطاق

النتائج باستخدام مجموعة بيانات CC3M:

كفاءة البيانات: TBAR يتطلب فقط 1.5k عينة، بينما تتطلب الطرق الأساسية 100k عينة
ميزة الأداء: تفوق على جميع طرق الحماية الموجودة في جميع أنواع الهجمات
هجوم BadCLIP: انخفاض ASR من 99.98% إلى 0.77%، مع الحفاظ على CA بنسبة 56.58%

التحقق من الفصل بين الأوزان

من خلال تصور خطأ الفصل بين الأوزان ξ(αc, αt)، تم التأكد من أن المهمة النظيفة والمهمة المحفزة منفصلة فعلاً في فضاء الأوزان، مما يتحقق من صحة الافتراض الأساسي.

تجارب القابلية للنقل

استخدام متجه TBAR المدرب على ImageNet-1K يظل فعالاً على CIFAR100 و SUN397:

CIFAR100: مع مشاركة المحفز والتسمية المستهدفة، معدل إزالة ASR يصل إلى 99.98%
SUN397: مع مشاركة المحفز فقط، معدل إزالة ASR يصل إلى 98.91%

سيناريو الهجوم غير المعروف

النتائج المدمجة مع DECREE تظهر:

BadNet: انخفاض ASR من 84.48% إلى 0.33%، مع الحفاظ على CA بنسبة 60.29%
WaNet: انخفاض ASR من 93.12% إلى 0.64%، مع الحفاظ على CA بنسبة 56.85%

التحقق النظري: تأكيد الفصل بين السلوك الخلفي والمهام العادية في فضاء الأوزان
فعالية الطريقة: تظهر TBAR أداءً متفوقًا في أنواع هجمات وإعدادات متعددة
القيمة العملية: تقليل كبير في متطلبات البيانات والحسابات لحماية الأبواب الخلفية

القيود

الاعتماد على الافتراضات: الطريقة تعتمد على افتراض الفصل بين الأوزان، قد لا تنطبق على جميع معماريات النماذج
أنواع الهجمات: التحقق الرئيسي على الهجمات القياسية، تحتاج الاستقرار ضد الهجمات الأكثر تعقيدًا إلى مزيد من البحث
الاعتماد على DECREE: يعتمد سيناريو الهجوم غير المعروف على قدرة DECREE على الكشف، مع فعالية محدودة ضد بعض الهجمات (مثل BadCLIP)

الاتجاهات المستقبلية

التوسع إلى معماريات نماذج أخرى وأنماط التدريب المسبق
البحث عن الحماية ضد الهجمات المتكيفة الأكثر تعقيدًا
استكشاف تطبيقات الفصل بين الأوزان في مهام أمان أخرى

التقييم المتعمق

المزايا

الابتكار النظري: تطبيق منهجي لنظرية الفصل بين الأوزان على حماية الأبواب الخلفية للمرة الأولى، مما يوفر منظورًا نظريًا جديدًا
بساطة الطريقة: طريقة TBAR بسيطة وفعالة، سهلة التنفيذ والنشر
التجارب الشاملة: تغطي أنواع هجمات وأنظمة بيانات ومعماريات نماذج متعددة، مع تصميم تجريبي كافٍ
القيمة العملية: تقليل كبير في متطلبات البيانات، ذات أهمية كبيرة في النشر العملي

أوجه القصور

القيود النظرية: تحتاج عمومية افتراض الفصل بين الأوزان إلى تحليل نظري أكثر
التكيف مع الهجمات: لم يتم النظر الكافي في الهجمات المتكيفة الموجهة ضد طريقة الحماية هذه
تحليل الحسابات: نقص تحليل تفصيلي للتعقيد الحسابي والمقارنة

التأثير

القيمة الأكاديمية: توفير منظور جديد لبحث حماية الأبواب الخلفية، قد تلهم المزيد من طرق الحماية القائمة على فضاء الأوزان
القيمة العملية: لها آفاق تطبيق مهمة في نشر النماذج الأساسية واسعة النطاق
قابلية الاستنساخ: توفير إعدادات تجريبية وتفاصيل تنفيذ مفصلة، مما يسهل الاستنساخ

السيناريوهات المعمول بها

نشر النماذج واسعة النطاق: مناسبة بشكل خاص للنماذج الأساسية الكبيرة التي لا يمكن إعادة تدريبها
البيئات محدودة الموارد: السيناريوهات التي تكون فيها موارد البيانات والحسابات محدودة
نماذج متعددة المهام: سيناريوهات التطبيقات التي تحتاج إلى الحفاظ على أداء متعددة المهام

المراجع

تستشهد الورقة بأعمال مهمة في هذا المجال، بما في ذلك:

Ilharco et al. (2022): العمل الرائد في حسابات المهام
Ortiz-Jimenez et al. (2024): الأساس النظري للفصل بين الأوزان
Bansal et al. (2023): طريقة معيارية لحماية الأبواب الخلفية في CLIP
Carlini & Terzis (2021): البحث الكلاسيكي في هجمات الأبواب الخلفية في CLIP