2025-11-20T03:28:13.599904

Provable Watermarking for Data Poisoning Attacks

Zhu, Yu, Gao
In recent years, data poisoning attacks have been increasingly designed to appear harmless and even beneficial, often with the intention of verifying dataset ownership or safeguarding private data from unauthorized use. However, these developments have the potential to cause misunderstandings and conflicts, as data poisoning has traditionally been regarded as a security threat to machine learning systems. To address this issue, it is imperative for harmless poisoning generators to claim ownership of their generated datasets, enabling users to identify potential poisoning to prevent misuse. In this paper, we propose the deployment of watermarking schemes as a solution to this challenge. We introduce two provable and practical watermarking approaches for data poisoning: {\em post-poisoning watermarking} and {\em poisoning-concurrent watermarking}. Our analyses demonstrate that when the watermarking length is $Θ(\sqrt{d}/ε_w)$ for post-poisoning watermarking, and falls within the range of $Θ(1/ε_w^2)$ to $O(\sqrt{d}/ε_p)$ for poisoning-concurrent watermarking, the watermarked poisoning dataset provably ensures both watermarking detectability and poisoning utility, certifying the practicality of watermarking under data poisoning attacks. We validate our theoretical findings through experiments on several attacks, models, and datasets.
academic

Nachweisbare Wasserzeichen für Datenvergiftungsanschläge

Grundinformationen

  • Papier-ID: 2510.09210
  • Titel: Provable Watermarking for Data Poisoning Attacks
  • Autoren: Yifan Zhu, Lijia Yu, Xiao-Shan Gao
  • Klassifizierung: cs.CR (Kryptographie und Sicherheit), cs.LG (Maschinelles Lernen)
  • Veröffentlichungskonferenz: NeurIPS 2025 (39. Konferenz über Neuronale Informationsverarbeitungssysteme)
  • Papierlink: https://arxiv.org/abs/2510.09210

Zusammenfassung

In letzter Zeit werden Datenvergiftungsanschläge zunehmend als scheinbar harmlos oder sogar vorteilhaft konzipiert, häufig zur Überprüfung des Datensatzeigentums oder zum Schutz privater Daten vor unbefugter Nutzung. Diese Entwicklungen können jedoch zu Missverständnissen und Konflikten führen, da Datenvergiftung traditionell als Sicherheitsbedrohung für Maschinenlern-Systeme angesehen wird. Um dieses Problem zu lösen, müssen harmlose Vergiftungsgeneratoren ihr Eigentum an generierten Datensätzen erklären, damit Benutzer potenzielle Vergiftungen identifizieren und Missbrauch verhindern können. Dieses Papier schlägt vor, Wasserzeichenschema als Lösung für diese Herausforderung einzusetzen und führt zwei nachweisbare und praktische Datenvergiftungs-Wasserzeichenmethoden ein: Nachvergiftungs-Wasserzeichen und Vergiftungs-Concurrent-Wasserzeichen. Die Analyse zeigt, dass wenn die Wasserzeichenlänge Θ(√d/ε_w) (Nachvergiftungs-Wasserzeichen) und Θ(1/ε_w²) bis O(√d/ε_p) (Vergiftungs-Concurrent-Wasserzeichen) beträgt, vergiftete Datensätze mit Wasserzeichen nachweislich die Wasserzeichenerkennbarkeit und Vergiftungsnützlichkeit gewährleisten.

Forschungshintergrund und Motivation

Problemdefinition

  1. Paradigmenwechsel: Datenvergiftungsanschläge entwickeln sich von traditionellen böswilligen Bedrohungen zu „wohlwollenden" Anwendungen wie Datensatzeigentums-Verifizierung und Schutz vor unbefugter Nutzung
  2. Transparenzproblem: Wenn Vergiftung zu Schutzzwecken verwendet wird, können autorisierte Benutzer versehentlich vergiftete Daten verwenden, was zu Missverständnissen und Konflikten führt
  3. Fehlende Rechenschaftspflicht: Bestehende Erkennungsmethoden ermangeln eines einheitlichen Rahmens und nachweisbarer Erklärungsmechanismen

Bedeutung

  • Mit der zunehmenden Abhängigkeit des großflächigen Modelltrainings von Web-Scraping oder synthetischen Daten wird die Auswirkung von Datenvergiftung immer bedeutsamer
  • Künstler und Datenschöpfer müssen ihr geistiges Eigentum vor unbefugter Nutzung durch generative KI schützen
  • Es ist notwendig, ein Gleichgewicht zwischen Datenschutz und Transparenz herzustellen

Einschränkungen bestehender Methoden

  • Erkennungsmethoden variieren je nach Angriffstyp und sind schwer zu vereinheitlichen
  • Basierend auf heuristischen Trainingsalgorithmen, mangelt es an nachweisbaren Mechanismen
  • Kann keine klaren, überprüfbaren Erklärungen für vergiftete Datensätze liefern

Kernbeiträge

  1. Erstmalige Einführung eines Datenvergiftungs-Wasserzeichenrahmens: Wendet Wasserzeichentechnik auf Datenvergiftungsszenarien an und bietet Transparenz und Rechenschaftspflicht
  2. Zwei Wasserzeichenschema:
    • Nachvergiftungs-Wasserzeichen: Eine dritte Partei erstellt Wasserzeichen für bereits vergiftete Datensätze
    • Vergiftungs-Concurrent-Wasserzeichen: Der Vergiftungsgenerator erstellt gleichzeitig Wasserzeichen und Vergiftung
  3. Theoretische Garantien: Bietet strenge theoretische Analyse der Wasserzeichenerkennbarkeit und Vergiftungsnützlichkeit
  4. Praktische Validierung: Validiert theoretische Erkenntnisse über verschiedene Anschläge, Modelle und Datensätze

Methodische Erklärung

Aufgabendefinition

  • Eingabe: Ursprünglicher Datensatz D, Vergiftungsbudget ε_p, Wasserzeichenbudget ε_w
  • Ausgabe: Vergifteter Datensatz mit Wasserzeichen, Erkennungsschlüssel ζ
  • Einschränkungen: Gewährleistung der Wasserzeichenerkennbarkeit bei Beibehaltung der Vergiftungsnützlichkeit

Modellarchitektur

1. Nachvergiftungs-Wasserzeichen (Post-Poisoning Watermarking)

Ursprüngliche Daten x → Vergiftung δ_p → Vergiftete Daten x' → Wasserzeichen δ_w → Endgültige Daten x' + δ_w
  • Eine dritte Partei fügt bereits vergifteten Daten Wasserzeichen hinzu
  • Gesamtes Störungsbudget: ε_p + ε_w
  • Wasserzeichenlängenanforderung: Θ(√d/ε_w)

2. Vergiftungs-Concurrent-Wasserzeichen (Poisoning-Concurrent Watermarking)

Ursprüngliche Daten x → Gleichzeitige Anwendung von Vergiftung und Wasserzeichen → Endgültige Daten x + δ_p + δ_w
  • Der Vergiftungsgenerator kontrolliert gleichzeitig Vergiftung und Wasserzeichen
  • Dimensionentrennung: Wasserzeichendimensionen W, Vergiftungsdimensionen P = d\W
  • Gesamtes Störungsbudget: max{ε_p, ε_w}
  • Wasserzeichenlängenanforderung: Θ(1/ε_w²) bis O(√d/ε_p)

3. Erkennungsmechanismus

  • Schlüssel: d-dimensionaler Vektor ζ
  • Erkennung: Berechnung des inneren Produkts ζᵀx, Vergleich mit Schwellenwert
  • Bestimmung: ζᵀ(vergiftete Daten) > Schwellenwert > ζᵀ(normale Daten)

Technische Innovationspunkte

1. Theoretischer Rahmen Innovation

  • Stichprobenebenen-Analyse: Jeder Datenpunkt wird unabhängig mit Wasserzeichen versehen und mit Schlüssel versehen
  • Universelle Version: Ein einzelner Schlüssel gilt für alle Stichproben
  • Verteilungs-Verallgemeinerung: Erweiterung von endlichen Stichproben auf die Gesamtverteilung

2. Mathematische Garantien

Verwendung der McDiarmid-Ungleichung und VC-Dimensionstheorie zum Nachweis:

  • Erkennbarkeit: Hochwahrscheinliche Unterscheidung zwischen vergifteten und normalen Daten
  • Nutzenerhaltung: Wasserzeichenauswirkung auf Vergiftungseffekt ist kontrollierbar
  • Verallgemeinerungsleistung: Ergebnisse endlicher Stichproben erweitern sich auf Verteilungen

3. Dimensionentrennung-Strategie

Vergiftungs-Concurrent-Wasserzeichen vermeiden Interferenzen durch Dimensionentrennung:

  • Wasserzeichen verwendet Dimensionen W = {d₁, d₂, ..., d_q}
  • Vergiftung verwendet Dimensionen P = d\W
  • Reduziert gegenseitige Auswirkungen und verbessert die Leistung

Experimentelle Einrichtung

Datensätze

  • CIFAR-10/CIFAR-100: Klassische Bildklassifizierungsdatensätze
  • Tiny-ImageNet: Kleinskaliges ImageNet
  • SST-2: Textsentiment-Analysedatensatz

Angriffsmethoden

Hintertür-Anschläge

  • Narcissus: Saubere Etikett-Hintertür-Anschlag
  • AdvSc: Gegnerischer Hintertür-Anschlag

Verfügbarkeitts-Anschläge

  • UE (Unlearnable Examples): Nicht lernbare Beispiele
  • AP (Adversarial Poisoning): Gegnerische Vergiftung

Modellarchitekturen

  • ResNet-18/50, VGG-19, DenseNet121
  • WRN34-10, MobileNet v2, ViT-B
  • BERT-base (Textaufgaben)

Bewertungsmetriken

  • Genauigkeit (Acc): Modellleistung auf dem Testsatz
  • Angriffserfolgsquote (ASR): Effektivität des Hintertür-Anschlags
  • AUROC: Wasserzeichenerkennungsleistung
  • Rechenlast: Zeitkostenanalyse

Implementierungsdetails

  • Wasserzeichen-/Vergiftungsbudget: 4/255 bis 32/255
  • Wasserzeichenlänge: 100 bis 3000
  • Training: 200 Epochen, Kosinus-Lernraten-Planung
  • Optimierer: SGD, Impuls 0,9, Gewichtszerfall 10⁻⁴

Experimentelle Ergebnisse

Hauptergebnisse

1. Wasserzeichenerkennungsleistung

WasserzeichenlängeNarcissus (Nachvergiftung)Narcissus (Concurrent)AdvSc (Nachvergiftung)AdvSc (Concurrent)
5000,95090,99680,92180,9986
10000,99740,99920,98090,9995
20001,00001,00000,99941,0000

2. Vergiftungsnützlichkeitserhaltung

  • Nachvergiftungs-Wasserzeichen: Behält gute Angriffsleistung über alle Wasserzeichenlängen hinweg
  • Vergiftungs-Concurrent-Wasserzeichen: Angriffseffekt sinkt deutlich bei zu großer Wasserzeichenlänge

3. Theoretische Validierung

Experimentelle Ergebnisse validieren theoretische Vorhersagen:

  • Vergiftungs-Concurrent-Wasserzeichen benötigt kürzere Wasserzeichenlänge für gleiche Erkennungsleistung
  • Nachvergiftungs-Wasserzeichen hat geringere Auswirkung auf Vergiftungsnützlichkeit
  • Wasserzeichenlänge korreliert positiv mit Erkennungsleistung

Ablationsstudien

1. Wasserzeichenbudget-Auswirkung

Mit zunehmendem ε_w:

  • Erkennungsleistung (AUROC) verbessert sich
  • Vergiftungseffekt sinkt
  • Validiert Kompromissbeziehung in der Theorie

2. Wasserzeichenpositions-Analyse

Testen verschiedener Bildbereiche (oben links, unten links, oben rechts, unten rechts):

  • Positionsauswirkung auf Leistung ist minimal
  • Validiert Positionsunabhängigkeit in der Theorie

3. Modell-Transferierbarkeit

Zeigt gute Transferierbarkeit über verschiedene Architekturen:

  • Hohe AUROC-Werte (>0,95)
  • Stabile architekturübergreifende Erkennung

Robustheitsanalyse

1. Datenaugmentierungs-Widerstand

Testen von Random Flip, Cutout, Color Jitter usw.:

  • AUROC bleibt bei 1,0000
  • Zeigt starke Robustheit

2. Abwehrmethoden

  • Differenzielle Privatsphäre: Schwere Rauscheinführung führt zu Trainingsfehlschlag
  • Diffusions-Reinigung: Beschädigt gleichzeitig Wasserzeichen und Vergiftung
  • Gegnerische Entrauschung: Beeinträchtigt Vergiftungsnützlichkeit

Verwandte Arbeiten

Datenvergiftungsforschung

  • Hintertür-Anschläge: BadNets, Narcissus usw.
  • Verfügbarkeitts-Anschläge: Nicht lernbare Beispiele, gegnerische Vergiftung
  • Abwehrmethoden: Erkennungsalgorithmen, Datenreinigung

Wasserzeichentechnik

  • Modell-Wasserzeichen: Urheberrechtsschutz für neuronale Netze
  • Daten-Wasserzeichen: Datensatzeigentums-Verifizierung
  • Text-Wasserzeichen: Erkennungsinhalte großer Sprachmodelle

Technische Unterschiede

Dieses Papier wendet Wasserzeichentechnik erstmals systematisch auf Datenvergiftungsszenarien an und bietet theoretische Garantien und praktische Lösungen.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Theoretischer Beitrag: Etabliert theoretischen Rahmen für Datenvergiftungs-Wasserzeichen
  2. Praktische Lösungen: Bietet zwei einsetzbare Wasserzeichenmethoden
  3. Leistungsvalidierung: Experimente bestätigen Genauigkeit theoretischer Vorhersagen
  4. Anwendungswert: Bietet Transparenz und Rechenschaftspflicht für „wohlwollende" Vergiftung

Einschränkungen

  1. Unbekannte notwendige Bedingungen: Bietet nur hinreichende Bedingungen, notwendige Bedingungen erfordern weitere Forschung
  2. Abwehr-Anfälligkeit: Leistungsrückgang bei starken Abwehrmethoden
  3. Rechenlast: Vergiftungs-Concurrent-Wasserzeichen erfordert zusätzliche Rechenzeit
  4. Anwendungsbereich: Hauptsächlich auf unmerkliche Vergiftungsanschläge ausgerichtet

Zukünftige Richtungen

  1. Stärkere Robustheit: Entwurf abwehrresistenter Wasserzeichenschema
  2. Notwendige Bedingungen: Erforschung notwendiger Bedingungen für Wasserzeichenerkennbarkeit
  3. Effizienzoptimierung: Reduzierung von Rechen- und Speicherkosten
  4. Anwendungserweiterung: Erweiterung auf mehr Vergiftungstypen und Domänen

Tiefgreifende Bewertung

Stärken

  1. Problemwichtigkeit: Löst praktische Anforderungen für Datenvergiftungs-Transparenz
  2. Theoretische Strenge: Bietet vollständige mathematische Analyse und Beweise
  3. Methodische Innovation: Erstmals systematische Kombination von Wasserzeichen- und Vergiftungstechnik
  4. Umfassende Experimente: Vollständige Validierung über mehrere Datensätze, Modelle und Anschläge
  5. Praktischer Wert: Bietet einsetzbare Lösungen

Mängel

  1. Unzureichende Abwehrüberlegung: Begrenzte Robustheit gegen starke Abwehrmethoden
  2. Theoretische Vollständigkeit: Fehlende Analyse notwendiger Bedingungen
  3. Anwendungsbereich-Einschränkung: Hauptsächlich für unmerkliche Anschläge geeignet
  4. Rechnereffizienz: In einigen Szenarien höhere Kosten

Einflussfähigkeit

  1. Akademischer Beitrag: Bahnbrechende Kombination zweier wichtiger Sicherheitsbereiche
  2. Praktischer Wert: Bietet neue Werkzeuge für KI-Sicherheit und Datenschutz
  3. Theoretische Bedeutung: Etabliert neuen theoretischen Analysrahmen
  4. Industrielle Anwendung: Anwendbar auf Datensatz-Urheberrechtsschutz usw.

Anwendungsszenarien

  1. Datensatz-Veröffentlichung: Urheberrechtsschutz für Open-Source-Datensätze
  2. Kunstwerk-Schutz: Verhinderung unbefugter Nutzung durch generative KI
  3. Unternehmens-Datenaustausch: Verfolgung der internen Datennutzung
  4. Akademische Forschung: Quellenverifizierung von Forschungsdaten

Technische Implementierungsdetails

Algorithmus-Ablauf

Nachvergiftungs-Wasserzeichen-Algorithmus

def post_poisoning_watermark(poisoned_data, key, watermark_dims, budget):
    watermark = budget * sign(key[watermark_dims])
    watermarked_data = poisoned_data + watermark
    return watermarked_data

Erkennungs-Algorithmus

def detect_watermark(suspect_data, key, threshold):
    detection_value = key.T @ suspect_data
    return 1 if detection_value > threshold else 0

Theoretische Garantien

Basierend auf der McDiarmid-Ungleichung für Nachvergiftungs-Wasserzeichen:

  • Wenn q > (2/ε_w)√(2d log(1/ω))
  • P(ζᵀ(x₁ + δ₁) > ζᵀx₂) > 1 - 2ω

Praktische Bereitstellungsüberlegungen

  1. Schlüsselverwaltung: Unterstützt Schlüsselrotation und HMAC-Authentifizierung
  2. Integritätsverifizierung: SHA256-Hash gewährleistet Datenintegrität
  3. Zugriffskontrolle: HTTPS-basierte sichere Schlüsselverteilung
  4. Skalierbarkeit: Unterstützt großflächige Datensatzverarbeitung

Zusammenfassung: Dieses Papier leistet bahnbrechende Beiträge im Schnittstellenbereich von Datenvergiftung und Wasserzeichentechnik. Es bietet nicht nur strenge theoretische Analysen, sondern auch praktische Lösungen. Obwohl es Verbesserungspotenzial bei Abwehr-Robustheit und theoretischer Vollständigkeit gibt, hat das gelöste Problem erhebliche praktische Bedeutung und bietet neue Forschungsrichtungen und Werkzeuge für KI-Sicherheit und Datenschutz.