DITTO: A Spoofing Attack Framework on Watermarked LLMs via Knowledge Distillation
Ahn, Park, Han
The promise of LLM watermarking rests on a core assumption that a specific watermark proves authorship by a specific model. We demonstrate that this assumption is dangerously flawed. We introduce the threat of watermark spoofing, a sophisticated attack that allows a malicious model to generate text containing the authentic-looking watermark of a trusted, victim model. This enables the seamless misattribution of harmful content, such as disinformation, to reputable sources. The key to our attack is repurposing watermark radioactivity, the unintended inheritance of data patterns during fine-tuning, from a discoverable trait into an attack vector. By distilling knowledge from a watermarked teacher model, our framework allows an attacker to steal and replicate the watermarking signal of the victim model. This work reveals a critical security gap in text authorship verification and calls for a paradigm shift towards technologies capable of distinguishing authentic watermarks from expertly imitated ones. Our code is available at https://github.com/hsannn/ditto.git.
academic
DITTO: Ein Spoofing-Angriffsrahmen auf Wasserzeichnete LLMs durch Wissensdestillation
Die Wasserzeichentechnik für große Sprachmodelle (LLMs) basiert auf einer Kernhypothese: Ein spezifisches Wasserzeichen kann die Urheberschaft eines bestimmten Modells nachweisen. Dieses Papier zeigt, dass diese Hypothese einen gefährlichen Fehler aufweist. Die Autoren präsentieren eine Wasserzeichen-Spoofing-Angriffsbedrohung, eine ausgefeilte Angriffsmethode, die es böswilligen Modellen ermöglicht, Text zu generieren, der die echten Wasserzeichen vertrauenswürdiger Opfermodelle enthält. Dies ermöglicht es, schädliche Inhalte (wie Desinformation) nahtlos fälschlicherweise vertrauenswürdigen Quellen zuzuordnen. Der Schlüssel des Angriffs liegt darin, die Wasserzeichen-Radioaktivität (unbeabsichtigte Vererbung von Datenmustern während des Feinabstimmungsprozesses) von einer erkennbaren Eigenschaft in einen Angriffsvektor umzuwandeln. Durch die Extraktion von Wissen aus dem wasserzeichneten Lehrermodell ermöglicht der Rahmen es Angreifern, die Wasserzeichensignale des Opfermodells zu stehlen und zu replizieren.
Mit der weit verbreiteten Anwendung großer Sprachmodelle in industriellen Anwendungen, Bildung und im täglichen Leben wird die Erkennung und Verifizierung von LLM-generierten Texten zunehmend kritisch. Regulierungsbehörden in den USA und der EU fordern eine klarere Nachverfolgbarkeit der Herkunft von LLM-generierten Inhalten. Führende Industrieakteure (wie Meta, OpenAI, Google DeepMind) setzen Wasserzeichentechniken als praktische Werkzeuge zur Herkunftsverifizierung ein.
Die bestehende LLM-Wasserzeichentechnik basiert auf einer grundlegenden Annahme: Die Erkennung eines spezifischen Wasserzeichens kann die Urheberschaft eines bestimmten Modells nachweisen. Diese Annahme weist jedoch erhebliche Lücken auf, die böswillig ausgenutzt werden könnten, um Desinformation zu verbreiten und diese vertrauenswürdigen Quellen zuzuordnen.
Sicherheitsbedrohungserkennung: Bestehende Forschung konzentriert sich hauptsächlich auf Wasserzeichen-Löschangriffe, weniger auf Wasserzeichen-Fälschungsangriffe
Praktische Schädlichkeit: Wasserzeichen-Spoofing ist gefährlicher als Löschung, da es einen irreführenden Eindruck von Gewissheit erzeugt
Offenlegung technischer Mängel: Enthüllung grundlegender Sicherheitsmängel des aktuellen Wasserzeichen-Verifizierungsparadigmas
Erstmalige Bewaffnung der Wasserzeichen-Radioaktivität: Umwandlung des ursprünglich zur Erkennung verwendeten Phänomens in ein leistungsstarkes Fehlzuordnungswerkzeug
Hochgradig adaptiver Angriffsrahmen: Nachweis der Wirksamkeit des Angriffs gegen n-Gramm- und Sampling-basierte Wasserzeichenschemata
Durchbrechung des Stärke-Qualitäts-Kompromisses: Feststellung, dass die Spoofing-Stärke erheblich erhöht werden kann, ohne die Textqualität wesentlich zu beeinträchtigen
Systematische Sicherheitsbewertung: Erste systematische Bewertung der Spoofing-Angriffsbedrohung für LLM-Wasserzeichen
Gegeben ein Wasserzeichenmodell MT als Ziel wünscht sich ein Angreifer, ein anderes Modell M zu trainieren, das Text generieren kann, der die Wasserzeichensignale von MT enthält, um den Wasserzeichendetektor zu täuschen. Der Angriff findet in einer Black-Box-Einstellung statt, in der der Angreifer keinen Zugriff auf die Logits des Zielmodells oder spezifische Informationen des Wasserzeichenschemas hat.
Nutzung der Wasserzeichen-Radioaktivität: Innovative Umwandlung der Wasserzeichen-Radioaktivität von einem Erkennungswerkzeug zu einem Angriffsvektor
Schemaagnostizität: Unabhängigkeit von Implementierungsdetails spezifischer Wasserzeichenschemata
Echtzeit-Injektionsmechanismus: Dynamische Injektion des Wasserzeichensignals während der Inferenzphase
Black-Box-Angriffseinstellung: Angriff unter praktischen Einschränkungen
Experimente zeigen, dass mit zunehmendem Skalierungsparameter α die Perplexity nicht monoton ansteigt, sondern ein Schwankungsmuster aufweist. Dies widerlegt die konventionelle Annahme, dass „stärkere Angriffe zwangsläufig zu Qualitätsverschlechterung führen".
Dieses Papier zitiert wichtige Forschungen in den Bereichen Wasserzeichentechnik, Angriffsmethoden und AI-Sicherheit, einschließlich:
Kirchenbauer et al. (2023) - KGW-Wasserzeichenschema
Dathathri et al. (2024) - SynthID Sampling-basiertes Wasserzeichen
Sander et al. (2024) - Wasserzeichen-Radioaktivitätskonzept
sowie mehrere verwandte Arbeiten zu Wasserzeichen-Angriffen und -Abwehr
Gesamtbewertung: Dies ist ein Papier von großer Sicherheitsbedeutung, das grundlegende Lücken in der aktuellen LLM-Wasserzeichentechnik enthüllt. Obwohl es ethische Kontroversen gibt, sind sein akademischer Wert und seine Auswirkungen auf die Entwicklung des Feldes nicht zu übersehen. Das Papier zeigt die Richtung für die Entwicklung sichererer Wasserzeichentechniken in der Zukunft auf.