2025-11-10T02:43:43.995345

DITTO: A Spoofing Attack Framework on Watermarked LLMs via Knowledge Distillation

Ahn, Park, Han
The promise of LLM watermarking rests on a core assumption that a specific watermark proves authorship by a specific model. We demonstrate that this assumption is dangerously flawed. We introduce the threat of watermark spoofing, a sophisticated attack that allows a malicious model to generate text containing the authentic-looking watermark of a trusted, victim model. This enables the seamless misattribution of harmful content, such as disinformation, to reputable sources. The key to our attack is repurposing watermark radioactivity, the unintended inheritance of data patterns during fine-tuning, from a discoverable trait into an attack vector. By distilling knowledge from a watermarked teacher model, our framework allows an attacker to steal and replicate the watermarking signal of the victim model. This work reveals a critical security gap in text authorship verification and calls for a paradigm shift towards technologies capable of distinguishing authentic watermarks from expertly imitated ones. Our code is available at https://github.com/hsannn/ditto.git.
academic

DITTO : Un cadre d'attaque par usurpation d'identité sur les LLM filigranés via la distillation de connaissances

Informations de base

  • ID de l'article : 2510.10987
  • Titre : DITTO: A Spoofing Attack Framework on Watermarked LLMs via Knowledge Distillation
  • Auteurs : Hyeseon Ahn, Shinwoo Park, Yo-Sub Han (Université Yonsei)
  • Classification : cs.CR (Cryptographie et sécurité), cs.AI (Intelligence artificielle)
  • Date de publication : 13 octobre 2025 (prépublication arXiv)
  • Lien de l'article : https://arxiv.org/abs/2510.10987
  • Lien du code : https://github.com/hsannn/ditto.git

Résumé

Les techniques de filigranage des modèles de langage de grande taille (LLM) reposent sur une hypothèse fondamentale : un filigrane spécifique peut prouver l'auteur d'un modèle particulier. Cet article démontre l'existence de défauts dangereux dans cette hypothèse. Les auteurs proposent une menace d'attaque par usurpation de filigrane, un mode d'attaque sophistiqué permettant à un modèle malveillant de générer du texte contenant le vrai filigrane d'un modèle victime de confiance. Cela permet à un contenu nuisible (comme la désinformation) d'être attribué de manière transparente à une source fiable. La clé de l'attaque consiste à transformer la radioactivité du filigrane (l'héritage involontaire de motifs de données au cours du processus d'ajustement fin) d'une caractéristique détectable en vecteur d'attaque. En extrayant les connaissances d'un modèle enseignant filigrane, ce cadre permet aux attaquants de voler et de reproduire les signaux de filigrane du modèle victime.

Contexte et motivation de la recherche

Contexte du problème

Avec l'application généralisée des modèles de langage de grande taille dans les applications industrielles, l'éducation et la vie quotidienne, la détection et la vérification du texte généré par les LLM deviennent essentielles. Les autorités de régulation aux États-Unis et dans l'Union européenne exigent une traçabilité plus claire de l'origine du contenu généré par les LLM. Les principaux acteurs industriels (tels que Meta, OpenAI, Google DeepMind) adoptent la technologie de filigranage comme outil pratique pour la vérification des sources.

Problème central

Les techniques de filigranage des LLM existantes reposent sur une hypothèse fondamentale : la détection d'un filigrane spécifique prouve l'auteur d'un modèle particulier. Cependant, cette hypothèse présente de graves lacunes qui pourraient être exploitées de manière malveillante pour diffuser de la désinformation et l'attribuer à des sources fiables.

Motivation de la recherche

  1. Identification des menaces de sécurité : Les recherches existantes se concentrent principalement sur les attaques d'effacement de filigrane, avec peu d'attention portée aux attaques de contrefaçon de filigrane
  2. Danger pratique : L'usurpation de filigrane est plus dangereuse que l'effacement car elle crée une fausse certitude
  3. Exposition des défauts techniques : Révéler les défauts de sécurité fondamentaux du paradigme actuel de vérification des filigranes

Contributions principales

  1. Première militarisation de la radioactivité du filigrane : Transformation du phénomène initialement utilisé pour la détection en un outil puissant d'attribution erronée
  2. Cadre d'attaque hautement adaptable : Démonstration de l'efficacité de l'attaque contre les schémas de filigrane de type n-gramme et d'échantillonnage
  3. Rupture du compromis intensité-qualité : Découverte de la possibilité d'augmenter significativement l'intensité de l'usurpation sans dégradation notable de la qualité du texte
  4. Évaluation systématique de la sécurité : Première évaluation systématique de la menace d'attaque par usurpation d'identité sur les filigranes des LLM

Explication détaillée de la méthode

Définition de la tâche

Étant donné un modèle filigrane MT comme cible, l'attaquant souhaite entraîner un autre modèle M capable de générer du texte contenant les signaux de filigrane de MT, trompant ainsi le détecteur de filigrane. L'attaque se déroule dans un cadre de boîte noire, où l'attaquant n'a pas accès aux logits du modèle cible ni aux informations spécifiques du schéma de filigranage.

Architecture du cadre DITTO

Le cadre DITTO comprend trois phases principales :

1. Héritage du filigrane (Watermark Inheritance)

Transfert des motifs de filigrane du modèle cible vers un modèle étudiant open-source via la distillation de connaissances :

θS = arg max Σ Σ log P(xi|x1:i-1; θO)
     θO    x∈DT i=1

où DT est l'ensemble de données généré par le modèle enseignant filigrane MT, et θS et θO sont respectivement les paramètres du modèle étudiant et du modèle original.

2. Extraction du filigrane (Watermark Extraction)

Extraction des signaux de filigrane par analyse des différences de logits du modèle avant et après l'entraînement :

Déviation globale :

δglobal = Ec∈DT[lMS(c)] - Ec∈DT[lMO(c)]

Déviation locale :

δp = Ec∈DT|c ends with p[lMS(c)] - Ec∈DT|c ends with p[lMO(c)]

Signal d'extraction final :

EWS(c) = δglobal + Σ w(p) · δp
                   p∈prefixes(c)

3. Attaque par usurpation d'identité (Spoofing Attack)

Injection du signal de filigrane extrait dans le modèle de l'attaquant au moment de l'inférence :

l'MO(c) = lMO(c) + α · EWS(c)

où α est un paramètre d'échelle contrôlant l'intensité de l'injection.

Points d'innovation technique

  1. Exploitation de la radioactivité du filigrane : Transformation innovante de la radioactivité du filigrane d'un outil de détection en vecteur d'attaque
  2. Indépendance du schéma : Ne dépend pas des détails d'implémentation d'un schéma de filigranage spécifique
  3. Mécanisme d'injection en temps réel : Injection dynamique du signal de filigrane au cours de la phase d'inférence
  4. Cadre d'attaque en boîte noire : Attaque dans des conditions de contrainte pratique

Configuration expérimentale

Ensembles de données

  1. Dolly-15k : Contient 15 000 paires d'invites/réponses générées manuellement, utilisées pour l'ajustement fin des instructions
  2. MarkMyWords (MMW) Bookreport : Référence spécialisée pour l'évaluation systématique des techniques de filigranage

Configuration des modèles

  • Paires modèle enseignant-étudiant :
    • Llama3.1-8B → Llama3.2-3B
    • Llama3.2-3B → Llama3.2-1B

Indicateurs d'évaluation

  1. TPR@FPR : Taux de vrais positifs à taux de faux positifs fixe (10%, 1%, 0,1%)
  2. p-value : Signification statistique de la détection du filigrane (médiane)
  3. Perplexité : Indicateur d'évaluation de la qualité du texte

Méthodes de comparaison

  • JSV (Jovanović et al., 2024)
  • De-Mark (Chen et al., 2025) - Cadres boîte grise et boîte noire
  • Modèle filigrane original comme référence supérieure

Détails d'implémentation

  • Paramètres de filigranage : δ=3, γ=0.5, z-threshold=4.0
  • Entraînement : Ajustement fin LoRA sur 3 epochs
  • Intensité d'attaque : α ∈ 2.5, 3, 3.5, 4, 4.5, 5

Résultats expérimentaux

Résultats principaux

Sur l'ensemble de données MMW Bookreport, résultats de l'attaque DITTO contre Llama3.1-8B :

  • TPR@FPR=10% : 0.81
  • TPR@FPR=1% : 0.70
  • TPR@FPR=0.1% : 0.51
  • p-value médiane : 7.97E-04
  • Perplexité : 4.18

Performance meilleure sur Llama3.2-3B :

  • TPR@FPR=10% : 0.99
  • TPR@FPR=1% : 0.99
  • TPR@FPR=0.1% : 0.97
  • p-value médiane : 5.48E-17
  • Perplexité : 2.44

Découvertes clés

1. Relation non conventionnelle entre intensité d'attaque et qualité du texte

Les expériences révèlent que, avec l'augmentation du paramètre d'échelle α, la perplexité n'augmente pas de manière monotone, mais présente plutôt un motif fluctuant. Cela remet en question l'hypothèse conventionnelle selon laquelle « une attaque plus forte entraîne inévitablement une dégradation de la qualité ».

2. Généralité entre schémas

DITTO est également efficace contre SynthID (filigranage de type échantillonnage) :

  • Llama3.1-8B : TPR@10%=0.88, p-value=7.10E-10
  • Llama3.2-3B : TPR@10%=0.90, p-value=8.12E-12

3. Impact de la taille du modèle

Les modèles plus petits utilisés comme vecteurs d'attaque montrent de meilleures performances, probablement parce qu'il est plus facile d'apprendre et de reproduire les motifs de filigranage.

Expériences d'ablation

Les expériences faisant varier le paramètre α (2.5-5.0) démontrent :

  • La p-value diminue continuellement avec l'augmentation de α
  • Les variations de perplexité sont irrégulières, sans tendance claire de dégradation de la qualité

Travaux connexes

Techniques de filigranage des LLM

  1. Méthodes basées sur la partition du vocabulaire : Schéma KGW et ses versions améliorées
  2. Méthodes d'échantillonnage : SynthID, Tournament sampling, etc.
  3. Schémas multi-bits : Support des identifiants traçables par l'utilisateur

Recherche sur les attaques de filigranage

  1. Attaques d'effacement : Suppression du filigrane par paraphrase, optimisation, etc.
  2. Attaques de vol : Ingénierie inverse du mécanisme de filigranage
  3. Attaques par usurpation d'identité : Point focal de cet article, avec peu de recherches antérieures

Radioactivité du filigrane

  • Utilisation pour la détection : Utilisée par Sander et al. pour l'audit des sources
  • Recherche en défense : Méthodes de neutralisation de Pan et al.
  • Transformation en attaque : Première militarisation dans cet article

Conclusion et discussion

Conclusions principales

  1. Défaut de sécurité fondamental : L'hypothèse centrale de la technologie de filigranage actuelle présente de graves lacunes
  2. Menace d'attaque pratique : DITTO peut attaquer efficacement dans un cadre de boîte noire
  3. Besoin de changement de paradigme : Passage de la détection d'existence à la vérification d'authenticité

Limitations

  1. Dépendance à l'efficacité de l'héritage du filigrane : Le succès de l'attaque dépend de la reproduction fidèle du filigrane par le modèle étudiant
  2. Absence de recherche sur les mécanismes de défense : L'article se concentre sur l'attaque sans explorer les défenses correspondantes
  3. Couverture limitée des schémas : Seuls deux types de filigranage principaux ont été testés

Directions futures

  1. Conception de filigranes robustes : Développement de techniques de filigranage résistantes à l'usurpation d'identité
  2. Vérification d'authenticité : Méthodes pour distinguer les filigranes authentiques des imitations
  3. Approches cryptographiques : Mécanismes liant le filigrane à l'identité du modèle

Évaluation approfondie

Points forts

  1. Découverte de sécurité importante : Révélation des problèmes de sécurité fondamentaux de la technologie de filigranage
  2. Innovation méthodologique : Première utilisation systématique de la radioactivité du filigrane pour l'attaque
  3. Suffisance expérimentale : Évaluation complète sur plusieurs modèles, ensembles de données et schémas de filigranage
  4. Valeur de menace pratique : Attaque en boîte noire dans des conditions réalistes

Insuffisances

  1. Risques éthiques : Fourniture d'une méthode d'attaque potentiellement exploitable de manière malveillante
  2. Absence de défense : Absence de stratégies de défense ou d'atténuation correspondantes
  3. Analyse théorique insuffisante : Manque d'analyse théorique des conditions de succès de l'attaque
  4. Couverture limitée des schémas : Test limité à un nombre restreint de schémas de filigranage

Impact

  1. Contribution académique : Ouverture d'une nouvelle direction pour la recherche en sécurité des filigranes
  2. Valeur pratique : Avertissement sur les risques de sécurité de la technologie de filigranage actuelle
  3. Impact politique : Influence potentielle sur l'élaboration des politiques de régulation connexes

Scénarios d'application

  1. Évaluation de sécurité : Évaluation de la sécurité des systèmes de filigranage existants
  2. Test d'équipe rouge : Outil de test d'attaque pour les équipes de sécurité en IA
  3. Référence de recherche : Ligne de base d'attaque pour les recherches ultérieures en défense

Références

Cet article cite des recherches importantes dans les domaines du filigranage, des méthodes d'attaque et de la sécurité de l'IA, notamment :

  • Kirchenbauer et al. (2023) - Schéma de filigranage KGW
  • Dathathri et al. (2024) - Filigranage de type échantillonnage SynthID
  • Sander et al. (2024) - Concept de radioactivité du filigrane
  • Ainsi que plusieurs travaux connexes sur les attaques et défenses de filigranage

Évaluation globale : Cet article revêt une importance significative pour la sécurité, révélant les lacunes fondamentales de la technologie de filigranage des LLM actuels. Bien que controversé sur le plan éthique, sa valeur académique et son impact sur le développement du domaine ne peuvent être ignorés. L'article indique la direction pour le développement de technologies de filigranage plus sûres à l'avenir.