2025-11-20T03:28:13.599904

Provable Watermarking for Data Poisoning Attacks

Zhu, Yu, Gao

In recent years, data poisoning attacks have been increasingly designed to appear harmless and even beneficial, often with the intention of verifying dataset ownership or safeguarding private data from unauthorized use. However, these developments have the potential to cause misunderstandings and conflicts, as data poisoning has traditionally been regarded as a security threat to machine learning systems. To address this issue, it is imperative for harmless poisoning generators to claim ownership of their generated datasets, enabling users to identify potential poisoning to prevent misuse. In this paper, we propose the deployment of watermarking schemes as a solution to this challenge. We introduce two provable and practical watermarking approaches for data poisoning: {\em post-poisoning watermarking} and {\em poisoning-concurrent watermarking}. Our analyses demonstrate that when the watermarking length is $Î(\sqrt{d}/Îµ_w)$ for post-poisoning watermarking, and falls within the range of $Î(1/Îµ_w^2)$ to $O(\sqrt{d}/Îµ_p)$ for poisoning-concurrent watermarking, the watermarked poisoning dataset provably ensures both watermarking detectability and poisoning utility, certifying the practicality of watermarking under data poisoning attacks. We validate our theoretical findings through experiments on several attacks, models, and datasets.

academic

Nachweisbare Wasserzeichen für Datenvergiftungsanschläge

Grundinformationen

Papier-ID: 2510.09210
Titel: Provable Watermarking for Data Poisoning Attacks
Autoren: Yifan Zhu, Lijia Yu, Xiao-Shan Gao
Klassifizierung: cs.CR (Kryptographie und Sicherheit), cs.LG (Maschinelles Lernen)
Veröffentlichungskonferenz: NeurIPS 2025 (39. Konferenz über Neuronale Informationsverarbeitungssysteme)
Papierlink: https://arxiv.org/abs/2510.09210

Zusammenfassung

In letzter Zeit werden Datenvergiftungsanschläge zunehmend als scheinbar harmlos oder sogar vorteilhaft konzipiert, häufig zur Überprüfung des Datensatzeigentums oder zum Schutz privater Daten vor unbefugter Nutzung. Diese Entwicklungen können jedoch zu Missverständnissen und Konflikten führen, da Datenvergiftung traditionell als Sicherheitsbedrohung für Maschinenlern-Systeme angesehen wird. Um dieses Problem zu lösen, müssen harmlose Vergiftungsgeneratoren ihr Eigentum an generierten Datensätzen erklären, damit Benutzer potenzielle Vergiftungen identifizieren und Missbrauch verhindern können. Dieses Papier schlägt vor, Wasserzeichenschema als Lösung für diese Herausforderung einzusetzen und führt zwei nachweisbare und praktische Datenvergiftungs-Wasserzeichenmethoden ein: Nachvergiftungs-Wasserzeichen und Vergiftungs-Concurrent-Wasserzeichen. Die Analyse zeigt, dass wenn die Wasserzeichenlänge Θ(√d/ε_w) (Nachvergiftungs-Wasserzeichen) und Θ(1/ε_w²) bis O(√d/ε_p) (Vergiftungs-Concurrent-Wasserzeichen) beträgt, vergiftete Datensätze mit Wasserzeichen nachweislich die Wasserzeichenerkennbarkeit und Vergiftungsnützlichkeit gewährleisten.

Forschungshintergrund und Motivation

Problemdefinition

Paradigmenwechsel: Datenvergiftungsanschläge entwickeln sich von traditionellen böswilligen Bedrohungen zu „wohlwollenden" Anwendungen wie Datensatzeigentums-Verifizierung und Schutz vor unbefugter Nutzung
Transparenzproblem: Wenn Vergiftung zu Schutzzwecken verwendet wird, können autorisierte Benutzer versehentlich vergiftete Daten verwenden, was zu Missverständnissen und Konflikten führt
Fehlende Rechenschaftspflicht: Bestehende Erkennungsmethoden ermangeln eines einheitlichen Rahmens und nachweisbarer Erklärungsmechanismen

Bedeutung

Mit der zunehmenden Abhängigkeit des großflächigen Modelltrainings von Web-Scraping oder synthetischen Daten wird die Auswirkung von Datenvergiftung immer bedeutsamer
Künstler und Datenschöpfer müssen ihr geistiges Eigentum vor unbefugter Nutzung durch generative KI schützen
Es ist notwendig, ein Gleichgewicht zwischen Datenschutz und Transparenz herzustellen

Einschränkungen bestehender Methoden

Erkennungsmethoden variieren je nach Angriffstyp und sind schwer zu vereinheitlichen
Basierend auf heuristischen Trainingsalgorithmen, mangelt es an nachweisbaren Mechanismen
Kann keine klaren, überprüfbaren Erklärungen für vergiftete Datensätze liefern

Kernbeiträge

Erstmalige Einführung eines Datenvergiftungs-Wasserzeichenrahmens: Wendet Wasserzeichentechnik auf Datenvergiftungsszenarien an und bietet Transparenz und Rechenschaftspflicht
Zwei Wasserzeichenschema:
- Nachvergiftungs-Wasserzeichen: Eine dritte Partei erstellt Wasserzeichen für bereits vergiftete Datensätze
- Vergiftungs-Concurrent-Wasserzeichen: Der Vergiftungsgenerator erstellt gleichzeitig Wasserzeichen und Vergiftung
Theoretische Garantien: Bietet strenge theoretische Analyse der Wasserzeichenerkennbarkeit und Vergiftungsnützlichkeit
Praktische Validierung: Validiert theoretische Erkenntnisse über verschiedene Anschläge, Modelle und Datensätze

Methodische Erklärung

Aufgabendefinition

Eingabe: Ursprünglicher Datensatz D, Vergiftungsbudget ε_p, Wasserzeichenbudget ε_w
Ausgabe: Vergifteter Datensatz mit Wasserzeichen, Erkennungsschlüssel ζ
Einschränkungen: Gewährleistung der Wasserzeichenerkennbarkeit bei Beibehaltung der Vergiftungsnützlichkeit

Modellarchitektur

1. Nachvergiftungs-Wasserzeichen (Post-Poisoning Watermarking)

Ursprüngliche Daten x → Vergiftung δ_p → Vergiftete Daten x' → Wasserzeichen δ_w → Endgültige Daten x' + δ_w

Eine dritte Partei fügt bereits vergifteten Daten Wasserzeichen hinzu
Gesamtes Störungsbudget: ε_p + ε_w
Wasserzeichenlängenanforderung: Θ(√d/ε_w)

2. Vergiftungs-Concurrent-Wasserzeichen (Poisoning-Concurrent Watermarking)

Ursprüngliche Daten x → Gleichzeitige Anwendung von Vergiftung und Wasserzeichen → Endgültige Daten x + δ_p + δ_w

Der Vergiftungsgenerator kontrolliert gleichzeitig Vergiftung und Wasserzeichen
Dimensionentrennung: Wasserzeichendimensionen W, Vergiftungsdimensionen P = d\W
Gesamtes Störungsbudget: max{ε_p, ε_w}
Wasserzeichenlängenanforderung: Θ(1/ε_w²) bis O(√d/ε_p)

3. Erkennungsmechanismus

Schlüssel: d-dimensionaler Vektor ζ
Erkennung: Berechnung des inneren Produkts ζᵀx, Vergleich mit Schwellenwert
Bestimmung: ζᵀ(vergiftete Daten) > Schwellenwert > ζᵀ(normale Daten)

Technische Innovationspunkte

1. Theoretischer Rahmen Innovation

Stichprobenebenen-Analyse: Jeder Datenpunkt wird unabhängig mit Wasserzeichen versehen und mit Schlüssel versehen
Universelle Version: Ein einzelner Schlüssel gilt für alle Stichproben
Verteilungs-Verallgemeinerung: Erweiterung von endlichen Stichproben auf die Gesamtverteilung

2. Mathematische Garantien

Verwendung der McDiarmid-Ungleichung und VC-Dimensionstheorie zum Nachweis:

Erkennbarkeit: Hochwahrscheinliche Unterscheidung zwischen vergifteten und normalen Daten
Nutzenerhaltung: Wasserzeichenauswirkung auf Vergiftungseffekt ist kontrollierbar
Verallgemeinerungsleistung: Ergebnisse endlicher Stichproben erweitern sich auf Verteilungen

3. Dimensionentrennung-Strategie

Vergiftungs-Concurrent-Wasserzeichen vermeiden Interferenzen durch Dimensionentrennung:

Wasserzeichen verwendet Dimensionen W = {d₁, d₂, ..., d_q}
Vergiftung verwendet Dimensionen P = d\W
Reduziert gegenseitige Auswirkungen und verbessert die Leistung

Experimentelle Einrichtung

Datensätze

CIFAR-10/CIFAR-100: Klassische Bildklassifizierungsdatensätze
Tiny-ImageNet: Kleinskaliges ImageNet
SST-2: Textsentiment-Analysedatensatz

Angriffsmethoden

Hintertür-Anschläge

Narcissus: Saubere Etikett-Hintertür-Anschlag
AdvSc: Gegnerischer Hintertür-Anschlag

Verfügbarkeitts-Anschläge

UE (Unlearnable Examples): Nicht lernbare Beispiele
AP (Adversarial Poisoning): Gegnerische Vergiftung

Modellarchitekturen

ResNet-18/50, VGG-19, DenseNet121
WRN34-10, MobileNet v2, ViT-B
BERT-base (Textaufgaben)

Bewertungsmetriken

Genauigkeit (Acc): Modellleistung auf dem Testsatz
Angriffserfolgsquote (ASR): Effektivität des Hintertür-Anschlags
AUROC: Wasserzeichenerkennungsleistung
Rechenlast: Zeitkostenanalyse

Implementierungsdetails

Wasserzeichen-/Vergiftungsbudget: 4/255 bis 32/255
Wasserzeichenlänge: 100 bis 3000
Training: 200 Epochen, Kosinus-Lernraten-Planung
Optimierer: SGD, Impuls 0,9, Gewichtszerfall 10⁻⁴

Experimentelle Ergebnisse

Hauptergebnisse

1. Wasserzeichenerkennungsleistung

Wasserzeichenlänge	Narcissus (Nachvergiftung)	Narcissus (Concurrent)	AdvSc (Nachvergiftung)	AdvSc (Concurrent)
500	0,9509	0,9968	0,9218	0,9986
1000	0,9974	0,9992	0,9809	0,9995
2000	1,0000	1,0000	0,9994	1,0000

2. Vergiftungsnützlichkeitserhaltung

Nachvergiftungs-Wasserzeichen: Behält gute Angriffsleistung über alle Wasserzeichenlängen hinweg
Vergiftungs-Concurrent-Wasserzeichen: Angriffseffekt sinkt deutlich bei zu großer Wasserzeichenlänge

3. Theoretische Validierung

Experimentelle Ergebnisse validieren theoretische Vorhersagen:

Vergiftungs-Concurrent-Wasserzeichen benötigt kürzere Wasserzeichenlänge für gleiche Erkennungsleistung
Nachvergiftungs-Wasserzeichen hat geringere Auswirkung auf Vergiftungsnützlichkeit
Wasserzeichenlänge korreliert positiv mit Erkennungsleistung

Ablationsstudien

1. Wasserzeichenbudget-Auswirkung

Mit zunehmendem ε_w:

Erkennungsleistung (AUROC) verbessert sich
Vergiftungseffekt sinkt
Validiert Kompromissbeziehung in der Theorie

2. Wasserzeichenpositions-Analyse

Testen verschiedener Bildbereiche (oben links, unten links, oben rechts, unten rechts):

Positionsauswirkung auf Leistung ist minimal
Validiert Positionsunabhängigkeit in der Theorie

3. Modell-Transferierbarkeit

Zeigt gute Transferierbarkeit über verschiedene Architekturen:

Hohe AUROC-Werte (>0,95)
Stabile architekturübergreifende Erkennung

Robustheitsanalyse

1. Datenaugmentierungs-Widerstand

Testen von Random Flip, Cutout, Color Jitter usw.:

AUROC bleibt bei 1,0000
Zeigt starke Robustheit

2. Abwehrmethoden

Differenzielle Privatsphäre: Schwere Rauscheinführung führt zu Trainingsfehlschlag
Diffusions-Reinigung: Beschädigt gleichzeitig Wasserzeichen und Vergiftung
Gegnerische Entrauschung: Beeinträchtigt Vergiftungsnützlichkeit

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Theoretischer Beitrag: Etabliert theoretischen Rahmen für Datenvergiftungs-Wasserzeichen
Praktische Lösungen: Bietet zwei einsetzbare Wasserzeichenmethoden
Leistungsvalidierung: Experimente bestätigen Genauigkeit theoretischer Vorhersagen
Anwendungswert: Bietet Transparenz und Rechenschaftspflicht für „wohlwollende" Vergiftung

Einschränkungen

Unbekannte notwendige Bedingungen: Bietet nur hinreichende Bedingungen, notwendige Bedingungen erfordern weitere Forschung
Abwehr-Anfälligkeit: Leistungsrückgang bei starken Abwehrmethoden
Rechenlast: Vergiftungs-Concurrent-Wasserzeichen erfordert zusätzliche Rechenzeit
Anwendungsbereich: Hauptsächlich auf unmerkliche Vergiftungsanschläge ausgerichtet

Zukünftige Richtungen

Stärkere Robustheit: Entwurf abwehrresistenter Wasserzeichenschema
Notwendige Bedingungen: Erforschung notwendiger Bedingungen für Wasserzeichenerkennbarkeit
Effizienzoptimierung: Reduzierung von Rechen- und Speicherkosten
Anwendungserweiterung: Erweiterung auf mehr Vergiftungstypen und Domänen

Tiefgreifende Bewertung

Stärken

Problemwichtigkeit: Löst praktische Anforderungen für Datenvergiftungs-Transparenz
Theoretische Strenge: Bietet vollständige mathematische Analyse und Beweise
Methodische Innovation: Erstmals systematische Kombination von Wasserzeichen- und Vergiftungstechnik
Umfassende Experimente: Vollständige Validierung über mehrere Datensätze, Modelle und Anschläge
Praktischer Wert: Bietet einsetzbare Lösungen

Mängel

Unzureichende Abwehrüberlegung: Begrenzte Robustheit gegen starke Abwehrmethoden
Theoretische Vollständigkeit: Fehlende Analyse notwendiger Bedingungen
Anwendungsbereich-Einschränkung: Hauptsächlich für unmerkliche Anschläge geeignet
Rechnereffizienz: In einigen Szenarien höhere Kosten

Einflussfähigkeit

Akademischer Beitrag: Bahnbrechende Kombination zweier wichtiger Sicherheitsbereiche
Praktischer Wert: Bietet neue Werkzeuge für KI-Sicherheit und Datenschutz
Theoretische Bedeutung: Etabliert neuen theoretischen Analysrahmen
Industrielle Anwendung: Anwendbar auf Datensatz-Urheberrechtsschutz usw.

Anwendungsszenarien

Datensatz-Veröffentlichung: Urheberrechtsschutz für Open-Source-Datensätze
Kunstwerk-Schutz: Verhinderung unbefugter Nutzung durch generative KI
Unternehmens-Datenaustausch: Verfolgung der internen Datennutzung
Akademische Forschung: Quellenverifizierung von Forschungsdaten

Technische Implementierungsdetails

Algorithmus-Ablauf

Nachvergiftungs-Wasserzeichen-Algorithmus

def post_poisoning_watermark(poisoned_data, key, watermark_dims, budget):
    watermark = budget * sign(key[watermark_dims])
    watermarked_data = poisoned_data + watermark
    return watermarked_data

Erkennungs-Algorithmus

def detect_watermark(suspect_data, key, threshold):
    detection_value = key.T @ suspect_data
    return 1 if detection_value > threshold else 0

Theoretische Garantien

Basierend auf der McDiarmid-Ungleichung für Nachvergiftungs-Wasserzeichen:

Wenn q > (2/ε_w)√(2d log(1/ω))
P(ζᵀ(x₁ + δ₁) > ζᵀx₂) > 1 - 2ω

Praktische Bereitstellungsüberlegungen

Schlüsselverwaltung: Unterstützt Schlüsselrotation und HMAC-Authentifizierung
Integritätsverifizierung: SHA256-Hash gewährleistet Datenintegrität
Zugriffskontrolle: HTTPS-basierte sichere Schlüsselverteilung
Skalierbarkeit: Unterstützt großflächige Datensatzverarbeitung

Zusammenfassung: Dieses Papier leistet bahnbrechende Beiträge im Schnittstellenbereich von Datenvergiftung und Wasserzeichentechnik. Es bietet nicht nur strenge theoretische Analysen, sondern auch praktische Lösungen. Obwohl es Verbesserungspotenzial bei Abwehr-Robustheit und theoretischer Vollständigkeit gibt, hat das gelöste Problem erhebliche praktische Bedeutung und bietet neue Forschungsrichtungen und Werkzeuge für KI-Sicherheit und Datenschutz.