2025-11-10T02:43:43.995345

DITTO: A Spoofing Attack Framework on Watermarked LLMs via Knowledge Distillation

Ahn, Park, Han
The promise of LLM watermarking rests on a core assumption that a specific watermark proves authorship by a specific model. We demonstrate that this assumption is dangerously flawed. We introduce the threat of watermark spoofing, a sophisticated attack that allows a malicious model to generate text containing the authentic-looking watermark of a trusted, victim model. This enables the seamless misattribution of harmful content, such as disinformation, to reputable sources. The key to our attack is repurposing watermark radioactivity, the unintended inheritance of data patterns during fine-tuning, from a discoverable trait into an attack vector. By distilling knowledge from a watermarked teacher model, our framework allows an attacker to steal and replicate the watermarking signal of the victim model. This work reveals a critical security gap in text authorship verification and calls for a paradigm shift towards technologies capable of distinguishing authentic watermarks from expertly imitated ones. Our code is available at https://github.com/hsannn/ditto.git.
academic

DITTO: Ein Spoofing-Angriffsrahmen auf Wasserzeichnete LLMs durch Wissensdestillation

Grundlegende Informationen

  • Paper-ID: 2510.10987
  • Titel: DITTO: A Spoofing Attack Framework on Watermarked LLMs via Knowledge Distillation
  • Autoren: Hyeseon Ahn, Shinwoo Park, Yo-Sub Han (Yonsei University)
  • Klassifizierung: cs.CR (Kryptographie und Sicherheit), cs.AI (Künstliche Intelligenz)
  • Veröffentlichungsdatum: 13. Oktober 2025 (arXiv Preprint)
  • Paper-Link: https://arxiv.org/abs/2510.10987
  • Code-Link: https://github.com/hsannn/ditto.git

Zusammenfassung

Die Wasserzei­chentechnik für große Sprachmodelle (LLMs) basiert auf einer Kernhypothese: Ein spezifisches Wasserzeichen kann die Urheberschaft eines bestimmten Modells nachweisen. Dieses Papier zeigt, dass diese Hypothese einen gefährlichen Fehler aufweist. Die Autoren präsentieren eine Wasserzei­chen-Spoofing-Angriffsbedrohung, eine ausgefeilte Angriffsmethode, die es böswilligen Modellen ermöglicht, Text zu generieren, der die echten Wasserzeichen vertrauenswürdiger Opfermodelle enthält. Dies ermöglicht es, schädliche Inhalte (wie Desinformation) nahtlos fälschlicherweise vertrauenswürdigen Quellen zuzuordnen. Der Schlüssel des Angriffs liegt darin, die Wasserzei­chen-Radioaktivität (unbeabsichtigte Vererbung von Datenmustern während des Feinabstimmungsprozesses) von einer erkennbaren Eigenschaft in einen Angriffsvektor umzuwandeln. Durch die Extraktion von Wissen aus dem wasserzeichneten Lehrermodell ermöglicht der Rahmen es Angreifern, die Wasserzei­chensignale des Opfermodells zu stehlen und zu replizieren.

Forschungshintergrund und Motivation

Problemhintergrund

Mit der weit verbreiteten Anwendung großer Sprachmodelle in industriellen Anwendungen, Bildung und im täglichen Leben wird die Erkennung und Verifizierung von LLM-generierten Texten zunehmend kritisch. Regulierungsbehörden in den USA und der EU fordern eine klarere Nachverfolgbarkeit der Herkunft von LLM-generierten Inhalten. Führende Industrieakteure (wie Meta, OpenAI, Google DeepMind) setzen Wasserzei­chentechniken als praktische Werkzeuge zur Herkunftsverifizierung ein.

Kernproblem

Die bestehende LLM-Wasserzei­chentechnik basiert auf einer grundlegenden Annahme: Die Erkennung eines spezifischen Wasserzeichens kann die Urheberschaft eines bestimmten Modells nachweisen. Diese Annahme weist jedoch erhebliche Lücken auf, die böswillig ausgenutzt werden könnten, um Desinformation zu verbreiten und diese vertrauenswürdigen Quellen zuzuordnen.

Forschungsmotivation

  1. Sicherheitsbedrohungserkennung: Bestehende Forschung konzentriert sich hauptsächlich auf Wasserzei­chen-Löschangriffe, weniger auf Wasserzei­chen-Fälschungsangriffe
  2. Praktische Schädlichkeit: Wasserzei­chen-Spoofing ist gefährlicher als Löschung, da es einen irreführenden Eindruck von Gewissheit erzeugt
  3. Offenlegung technischer Mängel: Enthüllung grundlegender Sicherheitsmängel des aktuellen Wasserzei­chen-Verifizierungsparadigmas

Kernbeiträge

  1. Erstmalige Bewaffnung der Wasserzei­chen-Radioaktivität: Umwandlung des ursprünglich zur Erkennung verwendeten Phänomens in ein leistungsstarkes Fehlzuordnungswerkzeug
  2. Hochgradig adaptiver Angriffsrahmen: Nachweis der Wirksamkeit des Angriffs gegen n-Gramm- und Sampling-basierte Wasserzei­chenschemata
  3. Durchbrechung des Stärke-Qualitäts-Kompromisses: Feststellung, dass die Spoofing-Stärke erheblich erhöht werden kann, ohne die Textqualität wesentlich zu beeinträchtigen
  4. Systematische Sicherheitsbewertung: Erste systematische Bewertung der Spoofing-Angriffsbedrohung für LLM-Wasserzeichen

Methodische Erklärung

Aufgabendefinition

Gegeben ein Wasserzei­chenmodell MT als Ziel wünscht sich ein Angreifer, ein anderes Modell M zu trainieren, das Text generieren kann, der die Wasserzei­chensignale von MT enthält, um den Wasserzei­chendetektor zu täuschen. Der Angriff findet in einer Black-Box-Einstellung statt, in der der Angreifer keinen Zugriff auf die Logits des Zielmodells oder spezifische Informationen des Wasserzei­chenschemas hat.

DITTO-Rahmenarchitektur

Der DITTO-Rahmen besteht aus drei Hauptphasen:

1. Wasserzei­chen-Vererbung (Watermark Inheritance)

Übertragung der Wasserzei­chenmuster des Zielmodells auf ein Open-Source-Schülermodell durch Wissensdestillation:

θS = arg max Σ Σ log P(xi|x1:i-1; θO)
     θO    x∈DT i=1

wobei DT der vom wasserzeichneten Lehrermodell MT generierte Datensatz ist, θS und θO sind die Parameter des Schüler- bzw. Originalmodells.

2. Wasserzei­chen-Extraktion (Watermark Extraction)

Extraktion des Wasserzei­chensignals durch Analyse der Logits-Unterschiede vor und nach dem Training:

Globale Abweichung:

δglobal = Ec∈DT[lMS(c)] - Ec∈DT[lMO(c)]

Lokale Abweichung:

δp = Ec∈DT|c ends with p[lMS(c)] - Ec∈DT|c ends with p[lMO(c)]

Finales Extraktionssignal:

EWS(c) = δglobal + Σ w(p) · δp
                   p∈prefixes(c)

3. Spoofing-Angriff (Spoofing Attack)

Injektion des extrahierten Wasserzei­chensignals in das Angriffsmodell während der Inferenz:

l'MO(c) = lMO(c) + α · EWS(c)

wobei α ein Skalierungsparameter ist, der die Injektionsstärke steuert.

Technische Innovationspunkte

  1. Nutzung der Wasserzei­chen-Radioaktivität: Innovative Umwandlung der Wasserzei­chen-Radioaktivität von einem Erkennungswerkzeug zu einem Angriffsvektor
  2. Schemaagnostizität: Unabhängigkeit von Implementierungsdetails spezifischer Wasserzei­chenschemata
  3. Echtzeit-Injektionsmechanismus: Dynamische Injektion des Wasserzei­chensignals während der Inferenzphase
  4. Black-Box-Angriffseinstellung: Angriff unter praktischen Einschränkungen

Experimentelle Einrichtung

Datensätze

  1. Dolly-15k: Enthält 15.000 manuell generierte Prompt-/Antwortpaare für Anweisungs-Feinabstimmung
  2. MarkMyWords (MMW) Bookreport: Speziell für systematische Bewertung von Wasserzei­chentechniken konzipierter Benchmark

Modellkonfiguration

  • Lehrer-Schüler-Modellpaare:
    • Llama3.1-8B → Llama3.2-3B
    • Llama3.2-3B → Llama3.2-1B

Bewertungsmetriken

  1. TPR@FPR: True Positive Rate bei fester False Positive Rate (10%, 1%, 0,1%)
  2. p-value: Statistische Signifikanz der Wasserzei­chenerkennung (Median)
  3. Perplexity: Bewertungsmetrik für Textqualität

Vergleichsmethoden

  • JSV (Jovanović et al., 2024)
  • De-Mark (Chen et al., 2025) - Gray-Box- und Black-Box-Einstellungen
  • Originales Wasserzei­chenmodell als obere Benchmark-Grenze

Implementierungsdetails

  • Wasserzei­chenparameter: δ=3, γ=0,5, z-threshold=4,0
  • Training: LoRA-Feinabstimmung über 3 Epochen
  • Angriffsintensität: α ∈ 2,5, 3, 3,5, 4, 4,5, 5

Experimentelle Ergebnisse

Hauptergebnisse

Auf dem MMW Bookreport-Datensatz, DITTO-Angriff auf Llama3.1-8B:

  • TPR@FPR=10%: 0,81
  • TPR@FPR=1%: 0,70
  • TPR@FPR=0,1%: 0,51
  • Median p-value: 7,97E-04
  • Perplexity: 4,18

Bessere Leistung auf Llama3.2-3B:

  • TPR@FPR=10%: 0,99
  • TPR@FPR=1%: 0,99
  • TPR@FPR=0,1%: 0,97
  • Median p-value: 5,48E-17
  • Perplexity: 2,44

Wichtigste Erkenntnisse

1. Unkonventionelle Beziehung zwischen Angriffsintensität und Textqualität

Experimente zeigen, dass mit zunehmendem Skalierungsparameter α die Perplexity nicht monoton ansteigt, sondern ein Schwankungsmuster aufweist. Dies widerlegt die konventionelle Annahme, dass „stärkere Angriffe zwangsläufig zu Qualitätsverschlechterung führen".

2. Schemaübergreifende Universalität

DITTO ist gleichermaßen wirksam gegen SynthID (Sampling-basiertes Wasserzeichen):

  • Llama3.1-8B: TPR@10%=0,88, p-value=7,10E-10
  • Llama3.2-3B: TPR@10%=0,90, p-value=8,12E-12

3. Einfluss der Modellgröße

Kleinere Modelle als Angriffsträger zeigen bessere Leistung, möglicherweise weil sie Wasserzei­chenmuster leichter lernen und replizieren können.

Ablationsstudien

Experimente mit Variation des α-Parameters (2,5-5,0) zeigen:

  • p-value sinkt kontinuierlich mit zunehmendem α
  • Perplexity-Veränderungen sind unregelmäßig, ohne offensichtlichen Qualitätsverschlechterungstrend

Verwandte Arbeiten

LLM-Wasserzei­chentechniken

  1. Vokabular-Partitionierungsmethoden: KGW-Schema und Verbesserungen
  2. Sampling-basierte Methoden: SynthID, Tournament Sampling usw.
  3. Multi-Bit-Schemata: Unterstützung für benutzerverfolgbare Identifikatoren

Wasserzei­chen-Angriffsforschung

  1. Löschangriffe: Wasserzei­chen durch Umformulierung, Optimierung usw. entfernen
  2. Diebstahlangriffe: Reverse Engineering von Wasserzei­chenmechanismen
  3. Spoofing-Angriffe: Schwerpunkt dieses Papiers, relativ wenig erforscht

Wasserzei­chen-Radioaktivität

  • Erkennungszwecke: Von Sander et al. für Herkunftsprüfung verwendet
  • Abwehrforschung: Neutralisierungsmethoden von Pan et al.
  • Angriffsumwandlung: Erstmalige Bewaffnung in diesem Papier

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Grundlegender Sicherheitsmangel: Die Kernhypothese der aktuellen Wasserzei­chentechnik weist erhebliche Lücken auf
  2. Praktische Angriffsbedrohung: DITTO kann auch in Black-Box-Einstellungen wirksam angreifen
  3. Paradigmenwechsel erforderlich: Übergang von Erkennungspräsenz zu Authentizitätsverifizierung

Einschränkungen

  1. Abhängigkeit von Wasserzei­chen-Vererbungseffekt: Angriffserfolg hängt von treuer Vererbung des Wasserzeichens durch das Schülermodell ab
  2. Fehlende Abwehrforschung: Papier konzentriert sich auf Angriffe, erforscht keine entsprechenden Abwehrmaßnahmen
  3. Begrenzte Schemaabdeckung: Nur zwei Hauptwasserzei­chentypen getestet

Zukünftige Richtungen

  1. Robuste Wasserzei­chenentwurf: Entwicklung von Spoofing-resistenten Wasserzei­chentechniken
  2. Authentizitätsverifizierung: Methoden zur Unterscheidung echter und imitierter Wasserzeichen
  3. Kryptographische Methoden: Mechanismen zur Bindung von Wasserzeichen an Modellidentität

Tiefgreifende Bewertung

Stärken

  1. Wichtige Sicherheitserkenntnis: Enthüllung grundlegender Sicherheitsprobleme der Wasserzei­chentechnik
  2. Methodische Innovation: Erstmalige systematische Nutzung der Wasserzei­chen-Radioaktivität für Angriffe
  3. Experimentelle Vollständigkeit: Umfassende Bewertung über mehrere Modelle, Datensätze und Wasserzei­chenschemata
  4. Praktischer Bedrohungswert: Black-Box-Angriffseinstellung unter realistischen Einschränkungen

Mängel

  1. Ethische Risiken: Bereitstellung von möglicherweise böswillig nutzbaren Angriffsmethoden
  2. Fehlende Abwehr: Keine entsprechenden Abwehr- oder Minderungsstrategien bereitgestellt
  3. Unzureichende theoretische Analyse: Mangel an theoretischer Analyse der Erfolgsbedingungen des Angriffs
  4. Begrenzte Schemaabdeckung: Nur begrenzte Wasserzei­chenschemata getestet

Auswirkungen

  1. Akademischer Beitrag: Eröffnung neuer Richtungen in der Wasserzei­chen-Sicherheitsforschung
  2. Praktischer Wert: Warnung vor Sicherheitsrisiken aktueller Wasserzei­chentechniken
  3. Politische Auswirkungen: Mögliche Beeinflussung der Formulierung relevanter Regulierungspolitik

Anwendungsszenarien

  1. Sicherheitsbewertung: Bewertung der Sicherheit bestehender Wasserzei­chensysteme
  2. Red-Team-Tests: Angriffstest-Werkzeug für AI-Sicherheitsteams
  3. Forschungs-Benchmark: Angriffsbaseline für nachfolgende Abwehrforschung

Literaturverzeichnis

Dieses Papier zitiert wichtige Forschungen in den Bereichen Wasserzei­chentechnik, Angriffsmethoden und AI-Sicherheit, einschließlich:

  • Kirchenbauer et al. (2023) - KGW-Wasserzei­chenschema
  • Dathathri et al. (2024) - SynthID Sampling-basiertes Wasserzeichen
  • Sander et al. (2024) - Wasserzei­chen-Radioaktivitätskonzept
  • sowie mehrere verwandte Arbeiten zu Wasserzei­chen-Angriffen und -Abwehr

Gesamtbewertung: Dies ist ein Papier von großer Sicherheitsbedeutung, das grundlegende Lücken in der aktuellen LLM-Wasserzei­chentechnik enthüllt. Obwohl es ethische Kontroversen gibt, sind sein akademischer Wert und seine Auswirkungen auf die Entwicklung des Feldes nicht zu übersehen. Das Papier zeigt die Richtung für die Entwicklung sichererer Wasserzei­chentechniken in der Zukunft auf.