DITTO: A Spoofing Attack Framework on Watermarked LLMs via Knowledge Distillation
Ahn, Park, Han
The promise of LLM watermarking rests on a core assumption that a specific watermark proves authorship by a specific model. We demonstrate that this assumption is dangerously flawed. We introduce the threat of watermark spoofing, a sophisticated attack that allows a malicious model to generate text containing the authentic-looking watermark of a trusted, victim model. This enables the seamless misattribution of harmful content, such as disinformation, to reputable sources. The key to our attack is repurposing watermark radioactivity, the unintended inheritance of data patterns during fine-tuning, from a discoverable trait into an attack vector. By distilling knowledge from a watermarked teacher model, our framework allows an attacker to steal and replicate the watermarking signal of the victim model. This work reveals a critical security gap in text authorship verification and calls for a paradigm shift towards technologies capable of distinguishing authentic watermarks from expertly imitated ones. Our code is available at https://github.com/hsannn/ditto.git.
academic
DITTO : Un cadre d'attaque par usurpation d'identité sur les LLM filigranés via la distillation de connaissances
Les techniques de filigranage des modèles de langage de grande taille (LLM) reposent sur une hypothèse fondamentale : un filigrane spécifique peut prouver l'auteur d'un modèle particulier. Cet article démontre l'existence de défauts dangereux dans cette hypothèse. Les auteurs proposent une menace d'attaque par usurpation de filigrane, un mode d'attaque sophistiqué permettant à un modèle malveillant de générer du texte contenant le vrai filigrane d'un modèle victime de confiance. Cela permet à un contenu nuisible (comme la désinformation) d'être attribué de manière transparente à une source fiable. La clé de l'attaque consiste à transformer la radioactivité du filigrane (l'héritage involontaire de motifs de données au cours du processus d'ajustement fin) d'une caractéristique détectable en vecteur d'attaque. En extrayant les connaissances d'un modèle enseignant filigrane, ce cadre permet aux attaquants de voler et de reproduire les signaux de filigrane du modèle victime.
Avec l'application généralisée des modèles de langage de grande taille dans les applications industrielles, l'éducation et la vie quotidienne, la détection et la vérification du texte généré par les LLM deviennent essentielles. Les autorités de régulation aux États-Unis et dans l'Union européenne exigent une traçabilité plus claire de l'origine du contenu généré par les LLM. Les principaux acteurs industriels (tels que Meta, OpenAI, Google DeepMind) adoptent la technologie de filigranage comme outil pratique pour la vérification des sources.
Les techniques de filigranage des LLM existantes reposent sur une hypothèse fondamentale : la détection d'un filigrane spécifique prouve l'auteur d'un modèle particulier. Cependant, cette hypothèse présente de graves lacunes qui pourraient être exploitées de manière malveillante pour diffuser de la désinformation et l'attribuer à des sources fiables.
Identification des menaces de sécurité : Les recherches existantes se concentrent principalement sur les attaques d'effacement de filigrane, avec peu d'attention portée aux attaques de contrefaçon de filigrane
Danger pratique : L'usurpation de filigrane est plus dangereuse que l'effacement car elle crée une fausse certitude
Exposition des défauts techniques : Révéler les défauts de sécurité fondamentaux du paradigme actuel de vérification des filigranes
Première militarisation de la radioactivité du filigrane : Transformation du phénomène initialement utilisé pour la détection en un outil puissant d'attribution erronée
Cadre d'attaque hautement adaptable : Démonstration de l'efficacité de l'attaque contre les schémas de filigrane de type n-gramme et d'échantillonnage
Rupture du compromis intensité-qualité : Découverte de la possibilité d'augmenter significativement l'intensité de l'usurpation sans dégradation notable de la qualité du texte
Évaluation systématique de la sécurité : Première évaluation systématique de la menace d'attaque par usurpation d'identité sur les filigranes des LLM
Étant donné un modèle filigrane MT comme cible, l'attaquant souhaite entraîner un autre modèle M capable de générer du texte contenant les signaux de filigrane de MT, trompant ainsi le détecteur de filigrane. L'attaque se déroule dans un cadre de boîte noire, où l'attaquant n'a pas accès aux logits du modèle cible ni aux informations spécifiques du schéma de filigranage.
Transfert des motifs de filigrane du modèle cible vers un modèle étudiant open-source via la distillation de connaissances :
θS = arg max Σ Σ log P(xi|x1:i-1; θO)
θO x∈DT i=1
où DT est l'ensemble de données généré par le modèle enseignant filigrane MT, et θS et θO sont respectivement les paramètres du modèle étudiant et du modèle original.
Les expériences révèlent que, avec l'augmentation du paramètre d'échelle α, la perplexité n'augmente pas de manière monotone, mais présente plutôt un motif fluctuant. Cela remet en question l'hypothèse conventionnelle selon laquelle « une attaque plus forte entraîne inévitablement une dégradation de la qualité ».
Les modèles plus petits utilisés comme vecteurs d'attaque montrent de meilleures performances, probablement parce qu'il est plus facile d'apprendre et de reproduire les motifs de filigranage.
Cet article cite des recherches importantes dans les domaines du filigranage, des méthodes d'attaque et de la sécurité de l'IA, notamment :
Kirchenbauer et al. (2023) - Schéma de filigranage KGW
Dathathri et al. (2024) - Filigranage de type échantillonnage SynthID
Sander et al. (2024) - Concept de radioactivité du filigrane
Ainsi que plusieurs travaux connexes sur les attaques et défenses de filigranage
Évaluation globale : Cet article revêt une importance significative pour la sécurité, révélant les lacunes fondamentales de la technologie de filigranage des LLM actuels. Bien que controversé sur le plan éthique, sa valeur académique et son impact sur le développement du domaine ne peuvent être ignorés. L'article indique la direction pour le développement de technologies de filigranage plus sûres à l'avenir.