2025-11-10T02:43:43.995345

DITTO: A Spoofing Attack Framework on Watermarked LLMs via Knowledge Distillation

Ahn, Park, Han

The promise of LLM watermarking rests on a core assumption that a specific watermark proves authorship by a specific model. We demonstrate that this assumption is dangerously flawed. We introduce the threat of watermark spoofing, a sophisticated attack that allows a malicious model to generate text containing the authentic-looking watermark of a trusted, victim model. This enables the seamless misattribution of harmful content, such as disinformation, to reputable sources. The key to our attack is repurposing watermark radioactivity, the unintended inheritance of data patterns during fine-tuning, from a discoverable trait into an attack vector. By distilling knowledge from a watermarked teacher model, our framework allows an attacker to steal and replicate the watermarking signal of the victim model. This work reveals a critical security gap in text authorship verification and calls for a paradigm shift towards technologies capable of distinguishing authentic watermarks from expertly imitated ones. Our code is available at https://github.com/hsannn/ditto.git.

academic

DITTO : Un cadre d'attaque par usurpation d'identité sur les LLM filigranés via la distillation de connaissances

Informations de base

ID de l'article : 2510.10987
Titre : DITTO: A Spoofing Attack Framework on Watermarked LLMs via Knowledge Distillation
Auteurs : Hyeseon Ahn, Shinwoo Park, Yo-Sub Han (Université Yonsei)
Classification : cs.CR (Cryptographie et sécurité), cs.AI (Intelligence artificielle)
Date de publication : 13 octobre 2025 (prépublication arXiv)
Lien de l'article : https://arxiv.org/abs/2510.10987
Lien du code : https://github.com/hsannn/ditto.git

Résumé

Les techniques de filigranage des modèles de langage de grande taille (LLM) reposent sur une hypothèse fondamentale : un filigrane spécifique peut prouver l'auteur d'un modèle particulier. Cet article démontre l'existence de défauts dangereux dans cette hypothèse. Les auteurs proposent une menace d'attaque par usurpation de filigrane, un mode d'attaque sophistiqué permettant à un modèle malveillant de générer du texte contenant le vrai filigrane d'un modèle victime de confiance. Cela permet à un contenu nuisible (comme la désinformation) d'être attribué de manière transparente à une source fiable. La clé de l'attaque consiste à transformer la radioactivité du filigrane (l'héritage involontaire de motifs de données au cours du processus d'ajustement fin) d'une caractéristique détectable en vecteur d'attaque. En extrayant les connaissances d'un modèle enseignant filigrane, ce cadre permet aux attaquants de voler et de reproduire les signaux de filigrane du modèle victime.

Contexte et motivation de la recherche

Contexte du problème

Avec l'application généralisée des modèles de langage de grande taille dans les applications industrielles, l'éducation et la vie quotidienne, la détection et la vérification du texte généré par les LLM deviennent essentielles. Les autorités de régulation aux États-Unis et dans l'Union européenne exigent une traçabilité plus claire de l'origine du contenu généré par les LLM. Les principaux acteurs industriels (tels que Meta, OpenAI, Google DeepMind) adoptent la technologie de filigranage comme outil pratique pour la vérification des sources.

Problème central

Les techniques de filigranage des LLM existantes reposent sur une hypothèse fondamentale : la détection d'un filigrane spécifique prouve l'auteur d'un modèle particulier. Cependant, cette hypothèse présente de graves lacunes qui pourraient être exploitées de manière malveillante pour diffuser de la désinformation et l'attribuer à des sources fiables.

Motivation de la recherche

Identification des menaces de sécurité : Les recherches existantes se concentrent principalement sur les attaques d'effacement de filigrane, avec peu d'attention portée aux attaques de contrefaçon de filigrane
Danger pratique : L'usurpation de filigrane est plus dangereuse que l'effacement car elle crée une fausse certitude
Exposition des défauts techniques : Révéler les défauts de sécurité fondamentaux du paradigme actuel de vérification des filigranes

Contributions principales

Première militarisation de la radioactivité du filigrane : Transformation du phénomène initialement utilisé pour la détection en un outil puissant d'attribution erronée
Cadre d'attaque hautement adaptable : Démonstration de l'efficacité de l'attaque contre les schémas de filigrane de type n-gramme et d'échantillonnage
Rupture du compromis intensité-qualité : Découverte de la possibilité d'augmenter significativement l'intensité de l'usurpation sans dégradation notable de la qualité du texte
Évaluation systématique de la sécurité : Première évaluation systématique de la menace d'attaque par usurpation d'identité sur les filigranes des LLM

Explication détaillée de la méthode

Définition de la tâche

Étant donné un modèle filigrane MT comme cible, l'attaquant souhaite entraîner un autre modèle M capable de générer du texte contenant les signaux de filigrane de MT, trompant ainsi le détecteur de filigrane. L'attaque se déroule dans un cadre de boîte noire, où l'attaquant n'a pas accès aux logits du modèle cible ni aux informations spécifiques du schéma de filigranage.

Architecture du cadre DITTO

Le cadre DITTO comprend trois phases principales :

1. Héritage du filigrane (Watermark Inheritance)

Transfert des motifs de filigrane du modèle cible vers un modèle étudiant open-source via la distillation de connaissances :

θS = arg max Σ Σ log P(xi|x1:i-1; θO)
     θO    x∈DT i=1

où DT est l'ensemble de données généré par le modèle enseignant filigrane MT, et θS et θO sont respectivement les paramètres du modèle étudiant et du modèle original.

2. Extraction du filigrane (Watermark Extraction)

Extraction des signaux de filigrane par analyse des différences de logits du modèle avant et après l'entraînement :

Déviation globale :

δglobal = Ec∈DT[lMS(c)] - Ec∈DT[lMO(c)]

Déviation locale :

δp = Ec∈DT|c ends with p[lMS(c)] - Ec∈DT|c ends with p[lMO(c)]

Signal d'extraction final :

EWS(c) = δglobal + Σ w(p) · δp
                   p∈prefixes(c)

3. Attaque par usurpation d'identité (Spoofing Attack)

Injection du signal de filigrane extrait dans le modèle de l'attaquant au moment de l'inférence :

l'MO(c) = lMO(c) + α · EWS(c)

où α est un paramètre d'échelle contrôlant l'intensité de l'injection.

Points d'innovation technique

Exploitation de la radioactivité du filigrane : Transformation innovante de la radioactivité du filigrane d'un outil de détection en vecteur d'attaque
Indépendance du schéma : Ne dépend pas des détails d'implémentation d'un schéma de filigranage spécifique
Mécanisme d'injection en temps réel : Injection dynamique du signal de filigrane au cours de la phase d'inférence
Cadre d'attaque en boîte noire : Attaque dans des conditions de contrainte pratique

Configuration expérimentale

Ensembles de données

Dolly-15k : Contient 15 000 paires d'invites/réponses générées manuellement, utilisées pour l'ajustement fin des instructions
MarkMyWords (MMW) Bookreport : Référence spécialisée pour l'évaluation systématique des techniques de filigranage

Configuration des modèles

Paires modèle enseignant-étudiant :
- Llama3.1-8B → Llama3.2-3B
- Llama3.2-3B → Llama3.2-1B

Indicateurs d'évaluation

TPR@FPR : Taux de vrais positifs à taux de faux positifs fixe (10%, 1%, 0,1%)
p-value : Signification statistique de la détection du filigrane (médiane)
Perplexité : Indicateur d'évaluation de la qualité du texte

Méthodes de comparaison

JSV (Jovanović et al., 2024)
De-Mark (Chen et al., 2025) - Cadres boîte grise et boîte noire
Modèle filigrane original comme référence supérieure

Détails d'implémentation

Paramètres de filigranage : δ=3, γ=0.5, z-threshold=4.0
Entraînement : Ajustement fin LoRA sur 3 epochs
Intensité d'attaque : α ∈ 2.5, 3, 3.5, 4, 4.5, 5

Résultats expérimentaux

Résultats principaux

Sur l'ensemble de données MMW Bookreport, résultats de l'attaque DITTO contre Llama3.1-8B :

TPR@FPR=10% : 0.81
TPR@FPR=1% : 0.70
TPR@FPR=0.1% : 0.51
p-value médiane : 7.97E-04
Perplexité : 4.18

Performance meilleure sur Llama3.2-3B :

TPR@FPR=10% : 0.99
TPR@FPR=1% : 0.99
TPR@FPR=0.1% : 0.97
p-value médiane : 5.48E-17
Perplexité : 2.44

Découvertes clés

1. Relation non conventionnelle entre intensité d'attaque et qualité du texte

Les expériences révèlent que, avec l'augmentation du paramètre d'échelle α, la perplexité n'augmente pas de manière monotone, mais présente plutôt un motif fluctuant. Cela remet en question l'hypothèse conventionnelle selon laquelle « une attaque plus forte entraîne inévitablement une dégradation de la qualité ».

2. Généralité entre schémas

DITTO est également efficace contre SynthID (filigranage de type échantillonnage) :

Llama3.1-8B : TPR@10%=0.88, p-value=7.10E-10
Llama3.2-3B : TPR@10%=0.90, p-value=8.12E-12

3. Impact de la taille du modèle

Les modèles plus petits utilisés comme vecteurs d'attaque montrent de meilleures performances, probablement parce qu'il est plus facile d'apprendre et de reproduire les motifs de filigranage.

Expériences d'ablation

Les expériences faisant varier le paramètre α (2.5-5.0) démontrent :

La p-value diminue continuellement avec l'augmentation de α
Les variations de perplexité sont irrégulières, sans tendance claire de dégradation de la qualité

Travaux connexes

Techniques de filigranage des LLM

Méthodes basées sur la partition du vocabulaire : Schéma KGW et ses versions améliorées
Méthodes d'échantillonnage : SynthID, Tournament sampling, etc.
Schémas multi-bits : Support des identifiants traçables par l'utilisateur

Recherche sur les attaques de filigranage

Attaques d'effacement : Suppression du filigrane par paraphrase, optimisation, etc.
Attaques de vol : Ingénierie inverse du mécanisme de filigranage
Attaques par usurpation d'identité : Point focal de cet article, avec peu de recherches antérieures

Radioactivité du filigrane

Utilisation pour la détection : Utilisée par Sander et al. pour l'audit des sources
Recherche en défense : Méthodes de neutralisation de Pan et al.
Transformation en attaque : Première militarisation dans cet article

Conclusion et discussion

Conclusions principales

Défaut de sécurité fondamental : L'hypothèse centrale de la technologie de filigranage actuelle présente de graves lacunes
Menace d'attaque pratique : DITTO peut attaquer efficacement dans un cadre de boîte noire
Besoin de changement de paradigme : Passage de la détection d'existence à la vérification d'authenticité

Limitations

Dépendance à l'efficacité de l'héritage du filigrane : Le succès de l'attaque dépend de la reproduction fidèle du filigrane par le modèle étudiant
Absence de recherche sur les mécanismes de défense : L'article se concentre sur l'attaque sans explorer les défenses correspondantes
Couverture limitée des schémas : Seuls deux types de filigranage principaux ont été testés

Directions futures

Conception de filigranes robustes : Développement de techniques de filigranage résistantes à l'usurpation d'identité
Vérification d'authenticité : Méthodes pour distinguer les filigranes authentiques des imitations
Approches cryptographiques : Mécanismes liant le filigrane à l'identité du modèle

Évaluation approfondie

Points forts

Découverte de sécurité importante : Révélation des problèmes de sécurité fondamentaux de la technologie de filigranage
Innovation méthodologique : Première utilisation systématique de la radioactivité du filigrane pour l'attaque
Suffisance expérimentale : Évaluation complète sur plusieurs modèles, ensembles de données et schémas de filigranage
Valeur de menace pratique : Attaque en boîte noire dans des conditions réalistes

Insuffisances

Risques éthiques : Fourniture d'une méthode d'attaque potentiellement exploitable de manière malveillante
Absence de défense : Absence de stratégies de défense ou d'atténuation correspondantes
Analyse théorique insuffisante : Manque d'analyse théorique des conditions de succès de l'attaque
Couverture limitée des schémas : Test limité à un nombre restreint de schémas de filigranage

Impact

Contribution académique : Ouverture d'une nouvelle direction pour la recherche en sécurité des filigranes
Valeur pratique : Avertissement sur les risques de sécurité de la technologie de filigranage actuelle
Impact politique : Influence potentielle sur l'élaboration des politiques de régulation connexes

Scénarios d'application

Évaluation de sécurité : Évaluation de la sécurité des systèmes de filigranage existants
Test d'équipe rouge : Outil de test d'attaque pour les équipes de sécurité en IA
Référence de recherche : Ligne de base d'attaque pour les recherches ultérieures en défense

Références

Cet article cite des recherches importantes dans les domaines du filigranage, des méthodes d'attaque et de la sécurité de l'IA, notamment :

Kirchenbauer et al. (2023) - Schéma de filigranage KGW
Dathathri et al. (2024) - Filigranage de type échantillonnage SynthID
Sander et al. (2024) - Concept de radioactivité du filigrane
Ainsi que plusieurs travaux connexes sur les attaques et défenses de filigranage

Évaluation globale : Cet article revêt une importance significative pour la sécurité, révélant les lacunes fondamentales de la technologie de filigranage des LLM actuels. Bien que controversé sur le plan éthique, sa valeur académique et son impact sur le développement du domaine ne peuvent être ignorés. L'article indique la direction pour le développement de technologies de filigranage plus sûres à l'avenir.