2025-11-17T15:13:20.278531

Backdoor Unlearning by Linear Task Decomposition

Abdelraheem, Favero, Bovet et al.
Foundation models have revolutionized computer vision by enabling broad generalization across diverse tasks. Yet, they remain highly susceptible to adversarial perturbations and targeted backdoor attacks. Mitigating such vulnerabilities remains an open challenge, especially given that the large-scale nature of the models prohibits retraining to ensure safety. Existing backdoor removal approaches rely on costly fine-tuning to override the harmful behavior, and can often degrade performance on other unrelated tasks. This raises the question of whether backdoors can be removed without compromising the general capabilities of the models. In this work, we address this question and study how backdoors are encoded in the model weight space, finding that they are disentangled from other benign tasks. Specifically, this separation enables the isolation and erasure of the backdoor's influence on the model with minimal impact on clean performance. Building on this insight, we introduce a simple unlearning method that leverages such disentanglement. Through extensive experiments with CLIP-based models and common adversarial triggers, we show that, given the knowledge of the attack, our method achieves approximately perfect unlearning, while retaining, on average, 96% of clean accuracy. Additionally, we demonstrate that even when the attack and its presence are unknown, our method successfully unlearns backdoors by proper estimation using reverse-engineered triggers. Overall, our method consistently yields better unlearning and clean accuracy tradeoffs when compared to present state-of-the-art defenses.
academic

Backdoor-Entlernen durch lineare Aufgabenzerlegung

Grundinformationen

  • Paper-ID: 2510.14845
  • Titel: Backdoor Unlearning by Linear Task Decomposition
  • Autoren: Amel Abdelraheem, Alessandro Favero, Gérôme Bovet, Pascal Frossard
  • Klassifizierung: cs.LG cs.CV
  • Veröffentlichungsdatum/Konferenz: arXiv-Preprint (eingereicht am 16. Oktober 2025)
  • Paper-Link: https://arxiv.org/abs/2510.14845

Zusammenfassung

Grundlagenmodelle haben die Computervision revolutioniert, indem sie eine breite Verallgemeinerung über verschiedene Aufgaben hinweg ermöglichten. Dennoch bleiben sie hochgradig anfällig für gegnerische Störungen und gezielte Backdoor-Angriffe. Die Minderung solcher Anfälligkeiten bleibt eine offene Herausforderung, besonders angesichts der Tatsache, dass die großflächige Natur der Modelle ein Neutraining zur Gewährleistung der Sicherheit ausschließt. Bestehende Backdoor-Entfernungsansätze beruhen auf kostspieligem Fine-Tuning, um das schädliche Verhalten zu überschreiben, und können häufig die Leistung bei anderen unabhängigen Aufgaben beeinträchtigen. Dies wirft die Frage auf, ob Backdoors entfernt werden können, ohne die allgemeinen Fähigkeiten der Modelle zu beeinträchtigen. In dieser Arbeit befassen wir uns mit dieser Frage und untersuchen, wie Backdoors im Modellgewichtsraum kodiert sind, und stellen fest, dass sie von anderen gutartigen Aufgaben entkoppelt sind. Insbesondere ermöglicht diese Trennung die Isolierung und Löschung des Backdoor-Einflusses auf das Modell mit minimaler Auswirkung auf die saubere Leistung. Aufbauend auf dieser Erkenntnis führen wir eine einfache Entlernmethode ein, die solche Entkopplung nutzt. Durch umfangreiche Experimente mit CLIP-basierten Modellen und gängigen gegnerischen Triggern zeigen wir, dass unsere Methode bei Kenntnis des Angriffs eine nahezu perfekte Entlernung erreicht, während sie durchschnittlich 96% der sauberen Genauigkeit beibehält. Darüber hinaus demonstrieren wir, dass unsere Methode selbst dann erfolgreich Backdoors entlernt, wenn der Angriff und seine Präsenz unbekannt sind, durch ordnungsgemäße Schätzung unter Verwendung von rückwärts konstruierten Triggern. Insgesamt liefert unsere Methode konsistent bessere Entlern- und saubere Genauigkeitskompromisse im Vergleich zu gegenwärtigen modernen Abwehrmechanismen.

Forschungshintergrund und Motivation

Problemdefinition

Diese Forschung befasst sich mit dem Schutz vor Backdoor-Angriffen in großen Grundlagenmodellen (Foundation Models). Backdoor-Angriffe funktionieren durch die Injektion einer kleinen Anzahl von Proben mit spezifischen Triggern in die Trainingsdaten, wodurch das Modell bei Eingaben mit diesem Trigger ein vorgegebenes böswilliges Verhalten zeigt, während es bei normalen Eingaben normal funktioniert.

Bedeutung des Problems

  1. Sicherheitsbedrohung: Backdoor-Angriffe stellen eine ernsthafte Bedrohung für sicherheitskritische Anwendungen wie autonomes Fahren und medizinische Diagnose dar
  2. Skalierungsherausforderung: Die Trainingskosten großer Grundlagenmodelle sind extrem hoch; ein vollständiges Neutraining zur Beseitigung von Backdoors ist in der Praxis nicht machbar
  3. Anforderung an Universalität: Bestehende Schutzmaßnahmen beeinträchtigen häufig die Modellleistung bei anderen Aufgaben und führen zu katastrophalem Vergessen

Einschränkungen bestehender Methoden

  1. Neutraining-Methoden: Rechnerische Kosten sind zu hoch; für großflächige Modelle nicht machbar
  2. Fine-Tuning-Methoden: Führen leicht zu katastrophalem Vergessen und verringern die Modellleistung bei sauberen Aufgaben
  3. Traditionelles maschinelles Vergessen: Begrenzte Wirksamkeit bei der Backdoor-Entfernung, besonders schwache Leistung in kleinflächigen Szenarien

Forschungsmotivation

Die Autoren basieren auf der Theorie der Gewichtsentkopplung (weight disentanglement) und gehen davon aus, dass Backdoor-Verhalten im Modellgewichtsraum von normalen Aufgaben getrennt ist und daher durch lineare Operationen präzise entfernt werden kann, ohne normale Funktionen zu beeinträchtigen.

Kernbeiträge

  1. Theoretische Einsicht: Erste Anwendung der Gewichtsentkopplungstheorie auf die Backdoor-Analyse; Nachweis, dass Backdoor-Wissen und sauberes Wissen im Gewichtsraum von CLIP-ähnlichen Transformer-Modellen entkoppelt sind
  2. TBAR-Methode: Einführung von Trigger removal by Backdoor ARithmetic (TBAR), eine leichte Backdoor-Entlernmethode basierend auf Task-Vector-Arithmetik
  3. Überragende Leistung: Unter bekannten Triggern wird eine Backdoor-Entfernungsrate von 99% erreicht, während 96% der sauberen Genauigkeit beibehalten werden; Datenbedarf ist zwei Größenordnungen geringer als bei bestehenden Methoden
  4. Szenario mit unbekanntem Angriff: In Kombination mit Reverse-Engineering-Techniken können Backdoors erfolgreich entfernt werden, selbst wenn der Angriff unbekannt ist, mit über 90% sauberer Genauigkeit

Methodische Details

Aufgabendefinition

Gegeben ein durch einen Backdoor-Angriff infiziertes Modell θb ist das Ziel, das Backdoor-Verhalten zu entfernen (Angriffserfolgsrate ASR auf Null reduzieren), während die Modellleistung auf sauberen Daten (saubere Genauigkeit CA) maximal erhalten bleibt.

Kernhypothese: Gewichtsentkopplung

Die Autoren stellen die Kernhypothese auf, dass die Gewichte visueller Grundlagenmodelle für gängige Backdoor-Angriffe die Gewichtsentkopplungseigenschaft erfüllen, nämlich:

f(x;θpre + αcτc + αtτt) = f(x;θpre + αcτc)1(x ∈ Dc) + f(x;θpre + αtτt)1(x ∈ Dt)

Wobei:

  • τc: Sauberer Task-Vektor
  • τt: Trigger-Task-Vektor
  • Dc: Saubere Bilddomäne
  • Dt: Trigger-Bilddomäne

TBAR-Algorithmus-Ablauf

1. Trigger-Vektor-Schätzung

Fine-Tuning des infizierten Modells mit einem kleinen Entlernset (enthält nur Trigger-Proben):

τ̂t = θb+t - θb

2. Backdoor-Entfernung

Entfernung des Backdoors durch Task-Negation:

θ̂c = θb - ατ̂t

Wobei α ein Skalarkoeffizient ist, der die Entlernstärke steuert.

3. Koeffizientenoptimierung

Bestimmung des optimalen α-Wertes mittels Rastersuche unter Verwendung eines kleinen Validierungssets.

Erweiterung für Szenario mit unbekanntem Angriff

Kombination mit der DECREE-Reverse-Engineering-Methode:

  1. Verwendung von DECREE zur Wiederherstellung von Proxy-Triggern aus dem infizierten Modell
  2. Rückschluss auf Zielbezeichnungen durch Sondierung der Modellreaktion
  3. Konstruktion eines Proxy-Trigger-Probensatzes
  4. Anwendung von TBAR zur Backdoor-Entfernung

Experimentelle Einrichtung

Datensätze

  1. Einzelaufgaben-Klassifizierung: SUN397, CIFAR100, ImageNet-1K
  2. Großflächige Bild-Text: 500k-Teilmenge von Conceptual Captions 3M (CC3M)

Backdoor-Angriffstypen

  • BadNet: Einfügung eines 16×16-Blocks mit Zufallsrauschen an zufälliger Position
  • Blended: Überlagerung einer Gaußschen Störung über das gesamte Bild (8:2-Verhältnis)
  • WaNet: Anwendung subtiler Bildverzerrungstransformationen
  • BadCLIP: Für CLIP optimierter Patch-Angriff
  • SIG: Sinusstörung entlang der horizontalen Achse
  • BadMerging: Angriff, der nach dem Modellmerging bestehen bleiben soll

Bewertungsmetriken

  • Saubere Genauigkeit (CA): Modellgenauigkeit auf sauberen Daten
  • Angriffserfolgsrate (ASR): Anteil der Trigger-Proben, die als Zielbezeichnung vorhergesagt werden
  • Gewichtsentkopplungsfehler (ξ): Messung der Vorhersagedifferenz zwischen Task-Vector-Kombination und separater Anwendung

Vergleichsmethoden

  • Sauberes Daten-Fine-Tuning: CleanCLIP, RoCLIP, Standard-CLIP-Fine-Tuning
  • Maschinelles Vergessen: Gradient Ascent
  • Reverse-Engineering: DECREE

Experimentelle Ergebnisse

Hauptergebnisse

Experimente zur Einzelaufgaben-Klassifizierung

Ergebnisse auf CLIP ViT-B/32 zeigen:

  • SUN397: ASR von 91,40% auf 1,25% reduziert, CA bleibt bei 94,96%
  • CIFAR100: ASR von 99,96% auf 0,02% reduziert, CA bleibt bei 96,44%
  • ImageNet-1K: ASR von 93,56% auf 1,96% reduziert, CA bleibt bei 94,97%

Großflächige Bild-Text-Experimente

Ergebnisse mit CC3M-Datensatz:

  • Dateneffizienz: TBAR benötigt nur 1,5k Proben, während Baseline-Methoden 100k Proben benötigen
  • Leistungsvorteil: Übertrifft bestehende Schutzmaßnahmen bei allen Angriffstypen
  • BadCLIP-Angriff: ASR von 99,98% auf 0,77% reduziert, CA bleibt bei 56,58%

Gewichtsentkopplungs-Verifikation

Durch Visualisierung des Gewichtsentkopplungsfehlers ξ(αc, αt) wird bestätigt, dass saubere Aufgaben und Trigger-Aufgaben tatsächlich im Gewichtsraum getrennt sind, was die Korrektheit der Kernhypothese validiert.

Transferierbarkeits-Experimente

TBAR-Vektoren, die mit ImageNet-1K trainiert wurden, sind auch auf CIFAR100 und SUN397 wirksam:

  • CIFAR100: Mit gemeinsamen Triggern und Zielbezeichnungen, ASR-Entfernungsrate erreicht 99,98%
  • SUN397: Mit nur gemeinsamen Triggern, ASR-Entfernungsrate erreicht immer noch 98,91%

Szenario mit unbekanntem Angriff

Ergebnisse in Kombination mit DECREE zeigen:

  • BadNet: ASR von 84,48% auf 0,33% reduziert, CA bleibt bei 60,29%
  • WaNet: ASR von 93,12% auf 0,64% reduziert, CA bleibt bei 56,85%

Ablationsstudien

Einfluss der Entlernset-Größe

Experimente zeigen, dass die Vergrößerung des Entlernsets (300 bis 30k) nur begrenzte Leistungsverbesserungen bringt, was darauf hindeutet, dass die genaue Identifizierung dessen, was entlernt werden soll, wichtiger ist als die Datengröße.

Verhältnis sauberer zu Trigger-Daten

Unter Verwendung verschiedener Verhältnisse von sauberen und Trigger-Daten zeigen die Ergebnisse, dass reine Trigger-Daten das beste CA-ASR-Gleichgewicht erreichen.

Verwandte Arbeiten

Datenvergiftungsangriffe

Backdoor-Angriffe sind eine Art von Datenvergiftungsangriffen, die durch Modifizierung einer kleinen Anzahl von Trainingsdaten versteckte Schwachstellen in Modellen einführen. Multimodale Modelle wie CLIP sind aufgrund ihrer breiten Anwendung Hauptziele von Angriffen.

Maschinelles Vergessen

Maschinelles Vergessen zielt darauf ab, selektiv spezifische Lernverhalten zu entfernen und wird in exaktes Vergessen und ungefähres Vergessen unterteilt. Bestehende Methoden haben begrenzte Wirksamkeit bei der Backdoor-Entfernung.

Gewichtsinterpolation und Task-Arithmetik

Task-Arithmetik kodiert Lernaufgaben als Vektoren im Gewichtsraum und ermöglicht Task-Addition, -Entfernung und -Kombination durch lineare Operationen. Die Gewichtsentkopplungseigenschaft ist die theoretische Grundlage für die Wirksamkeit dieser Operationen.

Schlussfolgerung und Diskussion

Hauptschlussfolgerungen

  1. Theoretische Verifikation: Bestätigung der Entkopplung von Backdoor-Verhalten und normalen Aufgaben im Gewichtsraum
  2. Methodische Wirksamkeit: TBAR zeigt überragende Leistung bei verschiedenen Angriffen und Szenarien
  3. Praktischer Wert: Signifikante Reduzierung des Daten- und Rechenbedarfs für Backdoor-Schutz

Einschränkungen

  1. Hypothesenabhängigkeit: Methode basiert auf Gewichtsentkopplungshypothese; möglicherweise nicht auf alle Modellarchitekturen anwendbar
  2. Angriffstypen: Hauptsächlich auf standardmäßigen Angriffen validiert; Robustheit gegen komplexere Angriffe bedarf weiterer Forschung
  3. DECREE-Abhängigkeit: Szenario mit unbekanntem Angriff hängt von DECREE-Erkennungsfähigkeit ab; begrenzte Wirksamkeit bei einigen Angriffen (wie BadCLIP)

Zukünftige Richtungen

  1. Erweiterung auf andere Modellarchitekturen und Vortrainingsparadigmen
  2. Forschung zum Schutz vor komplexeren adaptiven Angriffen
  3. Erkundung von Gewichtsentkopplung in anderen Sicherheitsaufgaben

Tiefgreifende Bewertung

Stärken

  1. Theoretische Innovation: Erste systematische Anwendung der Gewichtsentkopplungstheorie auf Backdoor-Schutz; bietet neue theoretische Perspektive
  2. Methodische Einfachheit: TBAR-Methode ist einfach und wirksam, leicht zu implementieren und bereitzustellen
  3. Umfassende Experimente: Abdeckung mehrerer Angriffstypen, Datensätze und Modellarchitekturen; ausreichende experimentelle Gestaltung
  4. Praktischer Wert: Signifikante Reduzierung des Datenbedarfs; wichtiger Wert für praktische Bereitstellung

Mängel

  1. Theoretische Einschränkungen: Universalität der Gewichtsentkopplungshypothese bedarf weiterer theoretischer Analyse
  2. Angriffsadaptivität: Unzureichende Berücksichtigung adaptiver Angriffe gegen diese Schutzmethode
  3. Rechenanalyse: Fehlende detaillierte Analyse und Vergleich der Rechenkomplexität

Auswirkungen

  1. Akademischer Wert: Bietet neue Perspektiven für Backdoor-Schutzforschung; könnte mehr gewichtsraum-basierte Schutzmethoden inspirieren
  2. Praktischer Wert: Wichtige Anwendungsaussichten bei der Bereitstellung großflächiger Modelle
  3. Reproduzierbarkeit: Bietet detaillierte experimentelle Einrichtung und Implementierungsdetails für einfache Reproduktion

Anwendungsszenarien

  1. Großflächige Modellbereitstellung: Besonders geeignet für große Grundlagenmodelle, die nicht neu trainiert werden können
  2. Ressourcenbegrenzte Umgebungen: Szenarien mit begrenzten Daten- und Rechenressourcen
  3. Multi-Task-Modelle: Anwendungsszenarien, die Multi-Task-Leistung erhalten müssen

Literaturverzeichnis

Das Papier zitiert wichtige Arbeiten in diesem Bereich, einschließlich:

  • Ilharco et al. (2022): Bahnbrechende Arbeiten zur Task-Arithmetik
  • Ortiz-Jimenez et al. (2024): Theoretische Grundlagen der Gewichtsentkopplung
  • Bansal et al. (2023): Benchmark-Methoden für CLIP-Backdoor-Schutz
  • Carlini & Terzis (2021): Klassische Forschung zu CLIP-Backdoor-Angriffen