Foundation models have revolutionized computer vision by enabling broad generalization across diverse tasks. Yet, they remain highly susceptible to adversarial perturbations and targeted backdoor attacks. Mitigating such vulnerabilities remains an open challenge, especially given that the large-scale nature of the models prohibits retraining to ensure safety. Existing backdoor removal approaches rely on costly fine-tuning to override the harmful behavior, and can often degrade performance on other unrelated tasks. This raises the question of whether backdoors can be removed without compromising the general capabilities of the models. In this work, we address this question and study how backdoors are encoded in the model weight space, finding that they are disentangled from other benign tasks. Specifically, this separation enables the isolation and erasure of the backdoor's influence on the model with minimal impact on clean performance. Building on this insight, we introduce a simple unlearning method that leverages such disentanglement. Through extensive experiments with CLIP-based models and common adversarial triggers, we show that, given the knowledge of the attack, our method achieves approximately perfect unlearning, while retaining, on average, 96% of clean accuracy. Additionally, we demonstrate that even when the attack and its presence are unknown, our method successfully unlearns backdoors by proper estimation using reverse-engineered triggers. Overall, our method consistently yields better unlearning and clean accuracy tradeoffs when compared to present state-of-the-art defenses.
academic
Backdoor-Entlernen durch lineare Aufgabenzerlegung
Grundlagenmodelle haben die Computervision revolutioniert, indem sie eine breite Verallgemeinerung über verschiedene Aufgaben hinweg ermöglichten. Dennoch bleiben sie hochgradig anfällig für gegnerische Störungen und gezielte Backdoor-Angriffe. Die Minderung solcher Anfälligkeiten bleibt eine offene Herausforderung, besonders angesichts der Tatsache, dass die großflächige Natur der Modelle ein Neutraining zur Gewährleistung der Sicherheit ausschließt. Bestehende Backdoor-Entfernungsansätze beruhen auf kostspieligem Fine-Tuning, um das schädliche Verhalten zu überschreiben, und können häufig die Leistung bei anderen unabhängigen Aufgaben beeinträchtigen. Dies wirft die Frage auf, ob Backdoors entfernt werden können, ohne die allgemeinen Fähigkeiten der Modelle zu beeinträchtigen. In dieser Arbeit befassen wir uns mit dieser Frage und untersuchen, wie Backdoors im Modellgewichtsraum kodiert sind, und stellen fest, dass sie von anderen gutartigen Aufgaben entkoppelt sind. Insbesondere ermöglicht diese Trennung die Isolierung und Löschung des Backdoor-Einflusses auf das Modell mit minimaler Auswirkung auf die saubere Leistung. Aufbauend auf dieser Erkenntnis führen wir eine einfache Entlernmethode ein, die solche Entkopplung nutzt. Durch umfangreiche Experimente mit CLIP-basierten Modellen und gängigen gegnerischen Triggern zeigen wir, dass unsere Methode bei Kenntnis des Angriffs eine nahezu perfekte Entlernung erreicht, während sie durchschnittlich 96% der sauberen Genauigkeit beibehält. Darüber hinaus demonstrieren wir, dass unsere Methode selbst dann erfolgreich Backdoors entlernt, wenn der Angriff und seine Präsenz unbekannt sind, durch ordnungsgemäße Schätzung unter Verwendung von rückwärts konstruierten Triggern. Insgesamt liefert unsere Methode konsistent bessere Entlern- und saubere Genauigkeitskompromisse im Vergleich zu gegenwärtigen modernen Abwehrmechanismen.
Diese Forschung befasst sich mit dem Schutz vor Backdoor-Angriffen in großen Grundlagenmodellen (Foundation Models). Backdoor-Angriffe funktionieren durch die Injektion einer kleinen Anzahl von Proben mit spezifischen Triggern in die Trainingsdaten, wodurch das Modell bei Eingaben mit diesem Trigger ein vorgegebenes böswilliges Verhalten zeigt, während es bei normalen Eingaben normal funktioniert.
Sicherheitsbedrohung: Backdoor-Angriffe stellen eine ernsthafte Bedrohung für sicherheitskritische Anwendungen wie autonomes Fahren und medizinische Diagnose dar
Skalierungsherausforderung: Die Trainingskosten großer Grundlagenmodelle sind extrem hoch; ein vollständiges Neutraining zur Beseitigung von Backdoors ist in der Praxis nicht machbar
Anforderung an Universalität: Bestehende Schutzmaßnahmen beeinträchtigen häufig die Modellleistung bei anderen Aufgaben und führen zu katastrophalem Vergessen
Die Autoren basieren auf der Theorie der Gewichtsentkopplung (weight disentanglement) und gehen davon aus, dass Backdoor-Verhalten im Modellgewichtsraum von normalen Aufgaben getrennt ist und daher durch lineare Operationen präzise entfernt werden kann, ohne normale Funktionen zu beeinträchtigen.
Theoretische Einsicht: Erste Anwendung der Gewichtsentkopplungstheorie auf die Backdoor-Analyse; Nachweis, dass Backdoor-Wissen und sauberes Wissen im Gewichtsraum von CLIP-ähnlichen Transformer-Modellen entkoppelt sind
TBAR-Methode: Einführung von Trigger removal by Backdoor ARithmetic (TBAR), eine leichte Backdoor-Entlernmethode basierend auf Task-Vector-Arithmetik
Überragende Leistung: Unter bekannten Triggern wird eine Backdoor-Entfernungsrate von 99% erreicht, während 96% der sauberen Genauigkeit beibehalten werden; Datenbedarf ist zwei Größenordnungen geringer als bei bestehenden Methoden
Szenario mit unbekanntem Angriff: In Kombination mit Reverse-Engineering-Techniken können Backdoors erfolgreich entfernt werden, selbst wenn der Angriff unbekannt ist, mit über 90% sauberer Genauigkeit
Gegeben ein durch einen Backdoor-Angriff infiziertes Modell θb ist das Ziel, das Backdoor-Verhalten zu entfernen (Angriffserfolgsrate ASR auf Null reduzieren), während die Modellleistung auf sauberen Daten (saubere Genauigkeit CA) maximal erhalten bleibt.
Die Autoren stellen die Kernhypothese auf, dass die Gewichte visueller Grundlagenmodelle für gängige Backdoor-Angriffe die Gewichtsentkopplungseigenschaft erfüllen, nämlich:
Durch Visualisierung des Gewichtsentkopplungsfehlers ξ(αc, αt) wird bestätigt, dass saubere Aufgaben und Trigger-Aufgaben tatsächlich im Gewichtsraum getrennt sind, was die Korrektheit der Kernhypothese validiert.
Experimente zeigen, dass die Vergrößerung des Entlernsets (300 bis 30k) nur begrenzte Leistungsverbesserungen bringt, was darauf hindeutet, dass die genaue Identifizierung dessen, was entlernt werden soll, wichtiger ist als die Datengröße.
Unter Verwendung verschiedener Verhältnisse von sauberen und Trigger-Daten zeigen die Ergebnisse, dass reine Trigger-Daten das beste CA-ASR-Gleichgewicht erreichen.
Backdoor-Angriffe sind eine Art von Datenvergiftungsangriffen, die durch Modifizierung einer kleinen Anzahl von Trainingsdaten versteckte Schwachstellen in Modellen einführen. Multimodale Modelle wie CLIP sind aufgrund ihrer breiten Anwendung Hauptziele von Angriffen.
Maschinelles Vergessen zielt darauf ab, selektiv spezifische Lernverhalten zu entfernen und wird in exaktes Vergessen und ungefähres Vergessen unterteilt. Bestehende Methoden haben begrenzte Wirksamkeit bei der Backdoor-Entfernung.
Task-Arithmetik kodiert Lernaufgaben als Vektoren im Gewichtsraum und ermöglicht Task-Addition, -Entfernung und -Kombination durch lineare Operationen. Die Gewichtsentkopplungseigenschaft ist die theoretische Grundlage für die Wirksamkeit dieser Operationen.
Hypothesenabhängigkeit: Methode basiert auf Gewichtsentkopplungshypothese; möglicherweise nicht auf alle Modellarchitekturen anwendbar
Angriffstypen: Hauptsächlich auf standardmäßigen Angriffen validiert; Robustheit gegen komplexere Angriffe bedarf weiterer Forschung
DECREE-Abhängigkeit: Szenario mit unbekanntem Angriff hängt von DECREE-Erkennungsfähigkeit ab; begrenzte Wirksamkeit bei einigen Angriffen (wie BadCLIP)