2025-11-10T02:43:43.995345

DITTO: A Spoofing Attack Framework on Watermarked LLMs via Knowledge Distillation

Ahn, Park, Han

The promise of LLM watermarking rests on a core assumption that a specific watermark proves authorship by a specific model. We demonstrate that this assumption is dangerously flawed. We introduce the threat of watermark spoofing, a sophisticated attack that allows a malicious model to generate text containing the authentic-looking watermark of a trusted, victim model. This enables the seamless misattribution of harmful content, such as disinformation, to reputable sources. The key to our attack is repurposing watermark radioactivity, the unintended inheritance of data patterns during fine-tuning, from a discoverable trait into an attack vector. By distilling knowledge from a watermarked teacher model, our framework allows an attacker to steal and replicate the watermarking signal of the victim model. This work reveals a critical security gap in text authorship verification and calls for a paradigm shift towards technologies capable of distinguishing authentic watermarks from expertly imitated ones. Our code is available at https://github.com/hsannn/ditto.git.

academic

DITTO: Ein Spoofing-Angriffsrahmen auf Wasserzeichnete LLMs durch Wissensdestillation

Grundlegende Informationen

Paper-ID: 2510.10987
Titel: DITTO: A Spoofing Attack Framework on Watermarked LLMs via Knowledge Distillation
Autoren: Hyeseon Ahn, Shinwoo Park, Yo-Sub Han (Yonsei University)
Klassifizierung: cs.CR (Kryptographie und Sicherheit), cs.AI (Künstliche Intelligenz)
Veröffentlichungsdatum: 13. Oktober 2025 (arXiv Preprint)
Paper-Link: https://arxiv.org/abs/2510.10987
Code-Link: https://github.com/hsannn/ditto.git

Zusammenfassung

Die Wasserzeichentechnik für große Sprachmodelle (LLMs) basiert auf einer Kernhypothese: Ein spezifisches Wasserzeichen kann die Urheberschaft eines bestimmten Modells nachweisen. Dieses Papier zeigt, dass diese Hypothese einen gefährlichen Fehler aufweist. Die Autoren präsentieren eine Wasserzeichen-Spoofing-Angriffsbedrohung, eine ausgefeilte Angriffsmethode, die es böswilligen Modellen ermöglicht, Text zu generieren, der die echten Wasserzeichen vertrauenswürdiger Opfermodelle enthält. Dies ermöglicht es, schädliche Inhalte (wie Desinformation) nahtlos fälschlicherweise vertrauenswürdigen Quellen zuzuordnen. Der Schlüssel des Angriffs liegt darin, die Wasserzeichen-Radioaktivität (unbeabsichtigte Vererbung von Datenmustern während des Feinabstimmungsprozesses) von einer erkennbaren Eigenschaft in einen Angriffsvektor umzuwandeln. Durch die Extraktion von Wissen aus dem wasserzeichneten Lehrermodell ermöglicht der Rahmen es Angreifern, die Wasserzeichensignale des Opfermodells zu stehlen und zu replizieren.

Forschungshintergrund und Motivation

Problemhintergrund

Mit der weit verbreiteten Anwendung großer Sprachmodelle in industriellen Anwendungen, Bildung und im täglichen Leben wird die Erkennung und Verifizierung von LLM-generierten Texten zunehmend kritisch. Regulierungsbehörden in den USA und der EU fordern eine klarere Nachverfolgbarkeit der Herkunft von LLM-generierten Inhalten. Führende Industrieakteure (wie Meta, OpenAI, Google DeepMind) setzen Wasserzeichentechniken als praktische Werkzeuge zur Herkunftsverifizierung ein.

Kernproblem

Die bestehende LLM-Wasserzeichentechnik basiert auf einer grundlegenden Annahme: Die Erkennung eines spezifischen Wasserzeichens kann die Urheberschaft eines bestimmten Modells nachweisen. Diese Annahme weist jedoch erhebliche Lücken auf, die böswillig ausgenutzt werden könnten, um Desinformation zu verbreiten und diese vertrauenswürdigen Quellen zuzuordnen.

Forschungsmotivation

Sicherheitsbedrohungserkennung: Bestehende Forschung konzentriert sich hauptsächlich auf Wasserzeichen-Löschangriffe, weniger auf Wasserzeichen-Fälschungsangriffe
Praktische Schädlichkeit: Wasserzeichen-Spoofing ist gefährlicher als Löschung, da es einen irreführenden Eindruck von Gewissheit erzeugt
Offenlegung technischer Mängel: Enthüllung grundlegender Sicherheitsmängel des aktuellen Wasserzeichen-Verifizierungsparadigmas

Kernbeiträge

Erstmalige Bewaffnung der Wasserzeichen-Radioaktivität: Umwandlung des ursprünglich zur Erkennung verwendeten Phänomens in ein leistungsstarkes Fehlzuordnungswerkzeug
Hochgradig adaptiver Angriffsrahmen: Nachweis der Wirksamkeit des Angriffs gegen n-Gramm- und Sampling-basierte Wasserzeichenschemata
Durchbrechung des Stärke-Qualitäts-Kompromisses: Feststellung, dass die Spoofing-Stärke erheblich erhöht werden kann, ohne die Textqualität wesentlich zu beeinträchtigen
Systematische Sicherheitsbewertung: Erste systematische Bewertung der Spoofing-Angriffsbedrohung für LLM-Wasserzeichen

Methodische Erklärung

Aufgabendefinition

Gegeben ein Wasserzeichenmodell MT als Ziel wünscht sich ein Angreifer, ein anderes Modell M zu trainieren, das Text generieren kann, der die Wasserzeichensignale von MT enthält, um den Wasserzeichendetektor zu täuschen. Der Angriff findet in einer Black-Box-Einstellung statt, in der der Angreifer keinen Zugriff auf die Logits des Zielmodells oder spezifische Informationen des Wasserzeichenschemas hat.

DITTO-Rahmenarchitektur

Der DITTO-Rahmen besteht aus drei Hauptphasen:

1. Wasserzeichen-Vererbung (Watermark Inheritance)

Übertragung der Wasserzeichenmuster des Zielmodells auf ein Open-Source-Schülermodell durch Wissensdestillation:

θS = arg max Σ Σ log P(xi|x1:i-1; θO)
     θO    x∈DT i=1

wobei DT der vom wasserzeichneten Lehrermodell MT generierte Datensatz ist, θS und θO sind die Parameter des Schüler- bzw. Originalmodells.

2. Wasserzeichen-Extraktion (Watermark Extraction)

Extraktion des Wasserzeichensignals durch Analyse der Logits-Unterschiede vor und nach dem Training:

Globale Abweichung:

δglobal = Ec∈DT[lMS(c)] - Ec∈DT[lMO(c)]

Lokale Abweichung:

δp = Ec∈DT|c ends with p[lMS(c)] - Ec∈DT|c ends with p[lMO(c)]

Finales Extraktionssignal:

EWS(c) = δglobal + Σ w(p) · δp
                   p∈prefixes(c)

3. Spoofing-Angriff (Spoofing Attack)

Injektion des extrahierten Wasserzeichensignals in das Angriffsmodell während der Inferenz:

l'MO(c) = lMO(c) + α · EWS(c)

wobei α ein Skalierungsparameter ist, der die Injektionsstärke steuert.

Technische Innovationspunkte

Nutzung der Wasserzeichen-Radioaktivität: Innovative Umwandlung der Wasserzeichen-Radioaktivität von einem Erkennungswerkzeug zu einem Angriffsvektor
Schemaagnostizität: Unabhängigkeit von Implementierungsdetails spezifischer Wasserzeichenschemata
Echtzeit-Injektionsmechanismus: Dynamische Injektion des Wasserzeichensignals während der Inferenzphase
Black-Box-Angriffseinstellung: Angriff unter praktischen Einschränkungen

Experimentelle Einrichtung

Datensätze

Dolly-15k: Enthält 15.000 manuell generierte Prompt-/Antwortpaare für Anweisungs-Feinabstimmung
MarkMyWords (MMW) Bookreport: Speziell für systematische Bewertung von Wasserzeichentechniken konzipierter Benchmark

Modellkonfiguration

Lehrer-Schüler-Modellpaare:
- Llama3.1-8B → Llama3.2-3B
- Llama3.2-3B → Llama3.2-1B

Bewertungsmetriken

TPR@FPR: True Positive Rate bei fester False Positive Rate (10%, 1%, 0,1%)
p-value: Statistische Signifikanz der Wasserzeichenerkennung (Median)
Perplexity: Bewertungsmetrik für Textqualität

Vergleichsmethoden

JSV (Jovanović et al., 2024)
De-Mark (Chen et al., 2025) - Gray-Box- und Black-Box-Einstellungen
Originales Wasserzeichenmodell als obere Benchmark-Grenze

Implementierungsdetails

Wasserzeichenparameter: δ=3, γ=0,5, z-threshold=4,0
Training: LoRA-Feinabstimmung über 3 Epochen
Angriffsintensität: α ∈ 2,5, 3, 3,5, 4, 4,5, 5

Experimentelle Ergebnisse

Hauptergebnisse

Auf dem MMW Bookreport-Datensatz, DITTO-Angriff auf Llama3.1-8B:

TPR@FPR=10%: 0,81
TPR@FPR=1%: 0,70
TPR@FPR=0,1%: 0,51
Median p-value: 7,97E-04
Perplexity: 4,18

Bessere Leistung auf Llama3.2-3B:

TPR@FPR=10%: 0,99
TPR@FPR=1%: 0,99
TPR@FPR=0,1%: 0,97
Median p-value: 5,48E-17
Perplexity: 2,44

Wichtigste Erkenntnisse

1. Unkonventionelle Beziehung zwischen Angriffsintensität und Textqualität

Experimente zeigen, dass mit zunehmendem Skalierungsparameter α die Perplexity nicht monoton ansteigt, sondern ein Schwankungsmuster aufweist. Dies widerlegt die konventionelle Annahme, dass „stärkere Angriffe zwangsläufig zu Qualitätsverschlechterung führen".

2. Schemaübergreifende Universalität

DITTO ist gleichermaßen wirksam gegen SynthID (Sampling-basiertes Wasserzeichen):

Llama3.1-8B: TPR@10%=0,88, p-value=7,10E-10
Llama3.2-3B: TPR@10%=0,90, p-value=8,12E-12

3. Einfluss der Modellgröße

Kleinere Modelle als Angriffsträger zeigen bessere Leistung, möglicherweise weil sie Wasserzeichenmuster leichter lernen und replizieren können.

Ablationsstudien

Experimente mit Variation des α-Parameters (2,5-5,0) zeigen:

p-value sinkt kontinuierlich mit zunehmendem α
Perplexity-Veränderungen sind unregelmäßig, ohne offensichtlichen Qualitätsverschlechterungstrend

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Grundlegender Sicherheitsmangel: Die Kernhypothese der aktuellen Wasserzeichentechnik weist erhebliche Lücken auf
Praktische Angriffsbedrohung: DITTO kann auch in Black-Box-Einstellungen wirksam angreifen
Paradigmenwechsel erforderlich: Übergang von Erkennungspräsenz zu Authentizitätsverifizierung

Einschränkungen

Abhängigkeit von Wasserzeichen-Vererbungseffekt: Angriffserfolg hängt von treuer Vererbung des Wasserzeichens durch das Schülermodell ab
Fehlende Abwehrforschung: Papier konzentriert sich auf Angriffe, erforscht keine entsprechenden Abwehrmaßnahmen
Begrenzte Schemaabdeckung: Nur zwei Hauptwasserzeichentypen getestet

Zukünftige Richtungen

Robuste Wasserzeichenentwurf: Entwicklung von Spoofing-resistenten Wasserzeichentechniken
Authentizitätsverifizierung: Methoden zur Unterscheidung echter und imitierter Wasserzeichen
Kryptographische Methoden: Mechanismen zur Bindung von Wasserzeichen an Modellidentität

Tiefgreifende Bewertung

Stärken

Wichtige Sicherheitserkenntnis: Enthüllung grundlegender Sicherheitsprobleme der Wasserzeichentechnik
Methodische Innovation: Erstmalige systematische Nutzung der Wasserzeichen-Radioaktivität für Angriffe
Experimentelle Vollständigkeit: Umfassende Bewertung über mehrere Modelle, Datensätze und Wasserzeichenschemata
Praktischer Bedrohungswert: Black-Box-Angriffseinstellung unter realistischen Einschränkungen

Mängel

Ethische Risiken: Bereitstellung von möglicherweise böswillig nutzbaren Angriffsmethoden
Fehlende Abwehr: Keine entsprechenden Abwehr- oder Minderungsstrategien bereitgestellt
Unzureichende theoretische Analyse: Mangel an theoretischer Analyse der Erfolgsbedingungen des Angriffs
Begrenzte Schemaabdeckung: Nur begrenzte Wasserzeichenschemata getestet

Auswirkungen

Akademischer Beitrag: Eröffnung neuer Richtungen in der Wasserzeichen-Sicherheitsforschung
Praktischer Wert: Warnung vor Sicherheitsrisiken aktueller Wasserzeichentechniken
Politische Auswirkungen: Mögliche Beeinflussung der Formulierung relevanter Regulierungspolitik

Anwendungsszenarien

Sicherheitsbewertung: Bewertung der Sicherheit bestehender Wasserzeichensysteme
Red-Team-Tests: Angriffstest-Werkzeug für AI-Sicherheitsteams
Forschungs-Benchmark: Angriffsbaseline für nachfolgende Abwehrforschung

Literaturverzeichnis

Dieses Papier zitiert wichtige Forschungen in den Bereichen Wasserzeichentechnik, Angriffsmethoden und AI-Sicherheit, einschließlich:

Kirchenbauer et al. (2023) - KGW-Wasserzeichenschema
Dathathri et al. (2024) - SynthID Sampling-basiertes Wasserzeichen
Sander et al. (2024) - Wasserzeichen-Radioaktivitätskonzept
sowie mehrere verwandte Arbeiten zu Wasserzeichen-Angriffen und -Abwehr

Gesamtbewertung: Dies ist ein Papier von großer Sicherheitsbedeutung, das grundlegende Lücken in der aktuellen LLM-Wasserzeichentechnik enthüllt. Obwohl es ethische Kontroversen gibt, sind sein akademischer Wert und seine Auswirkungen auf die Entwicklung des Feldes nicht zu übersehen. Das Papier zeigt die Richtung für die Entwicklung sichererer Wasserzeichentechniken in der Zukunft auf.