2025-11-20T03:28:13.599904

Provable Watermarking for Data Poisoning Attacks

Zhu, Yu, Gao
In recent years, data poisoning attacks have been increasingly designed to appear harmless and even beneficial, often with the intention of verifying dataset ownership or safeguarding private data from unauthorized use. However, these developments have the potential to cause misunderstandings and conflicts, as data poisoning has traditionally been regarded as a security threat to machine learning systems. To address this issue, it is imperative for harmless poisoning generators to claim ownership of their generated datasets, enabling users to identify potential poisoning to prevent misuse. In this paper, we propose the deployment of watermarking schemes as a solution to this challenge. We introduce two provable and practical watermarking approaches for data poisoning: {\em post-poisoning watermarking} and {\em poisoning-concurrent watermarking}. Our analyses demonstrate that when the watermarking length is $Θ(\sqrt{d}/ε_w)$ for post-poisoning watermarking, and falls within the range of $Θ(1/ε_w^2)$ to $O(\sqrt{d}/ε_p)$ for poisoning-concurrent watermarking, the watermarked poisoning dataset provably ensures both watermarking detectability and poisoning utility, certifying the practicality of watermarking under data poisoning attacks. We validate our theoretical findings through experiments on several attacks, models, and datasets.
academic

Marquage Prouvable pour les Attaques par Empoisonnement de Données

Informations Fondamentales

  • ID de l'article: 2510.09210
  • Titre: Provable Watermarking for Data Poisoning Attacks
  • Auteurs: Yifan Zhu, Lijia Yu, Xiao-Shan Gao
  • Classification: cs.CR (Cryptographie et Sécurité), cs.LG (Apprentissage Automatique)
  • Conférence de publication: NeurIPS 2025 (39e Conférence sur les Systèmes de Traitement de l'Information Neuronale)
  • Lien de l'article: https://arxiv.org/abs/2510.09210

Résumé

Ces dernières années, les attaques par empoisonnement de données sont de plus en plus conçues sous des formes apparemment inoffensives, voire bénéfiques, souvent utilisées pour vérifier la propriété des ensembles de données ou protéger les données privées contre les utilisations non autorisées. Cependant, ces développements peuvent conduire à des malentendus et des conflits, car l'empoisonnement de données est traditionnellement considéré comme une menace de sécurité pour les systèmes d'apprentissage automatique. Pour résoudre ce problème, les générateurs d'empoisonnement inoffensif doivent déclarer la propriété de leurs ensembles de données générés, permettant aux utilisateurs d'identifier les empoisonnements potentiels pour prévenir les abus. Cet article propose le déploiement de schémas de marquage comme solution à ce défi, en introduisant deux méthodes de marquage d'empoisonnement de données prouvables et pratiques: le marquage post-empoisonnement et le marquage concurrent d'empoisonnement. L'analyse montre que lorsque la longueur du marquage est Θ(√d/ε_w) (marquage post-empoisonnement) et dans la plage Θ(1/ε_w²) à O(√d/ε_p) (marquage concurrent d'empoisonnement), les ensembles de données empoisonnés marqués garantissent de manière prouvable la détectabilité du marquage et l'utilité de l'empoisonnement.

Contexte et Motivation de la Recherche

Définition du Problème

  1. Changement de perspective traditionnelle: Les attaques par empoisonnement de données passent des menaces malveillantes traditionnelles à des applications « bienveillantes », telles que la vérification de la propriété des ensembles de données, la prévention des utilisations non autorisées, etc.
  2. Problèmes de transparence: Lorsque l'empoisonnement est utilisé à des fins de protection, les utilisateurs autorisés peuvent involontairement utiliser des données empoisonnées, ce qui entraîne des malentendus et des conflits
  3. Absence de responsabilité: Les méthodes de détection existantes manquent d'un cadre unifié et d'un mécanisme de déclaration prouvable

Importance

  • Avec la dépendance croissante de l'entraînement de modèles à grande échelle vis-à-vis des données extraites du web ou synthétiques, l'impact de l'empoisonnement de données devient de plus en plus significatif
  • Les artistes et les créateurs de données ont besoin de protéger leur propriété intellectuelle contre l'utilisation non autorisée par l'IA générative
  • Il est nécessaire d'établir un équilibre entre la protection des données et la transparence

Limitations des Méthodes Existantes

  • Les méthodes de détection varient selon le type d'attaque, ce qui rend l'unification difficile
  • Basées sur des algorithmes d'entraînement heuristiques, elles manquent de mécanismes prouvables
  • Elles ne peuvent pas fournir de déclarations claires et vérifiables pour les ensembles de données empoisonnés

Contributions Principales

  1. Premier cadre de marquage pour l'empoisonnement de données: Application de la technologie de marquage au scénario d'empoisonnement de données, offrant transparence et responsabilité
  2. Deux schémas de marquage:
    • Marquage post-empoisonnement: Une entité tierce crée un marquage pour les ensembles de données déjà empoisonnés
    • Marquage concurrent d'empoisonnement: Le générateur d'empoisonnement crée simultanément le marquage et l'empoisonnement
  3. Garanties théoriques: Fournit une analyse théorique rigoureuse de la détectabilité du marquage et de l'utilité de l'empoisonnement
  4. Vérification pratique: Valide les conclusions théoriques sur diverses attaques, modèles et ensembles de données

Explication Détaillée de la Méthode

Définition de la Tâche

  • Entrée: Ensemble de données original D, budget d'empoisonnement ε_p, budget de marquage ε_w
  • Sortie: Ensemble de données empoisonné marqué, clé de détection ζ
  • Contraintes: Maintenir l'utilité de l'empoisonnement tout en garantissant la détectabilité du marquage

Architecture du Modèle

1. Marquage Post-Empoisonnement (Post-Poisoning Watermarking)

Données originales x → Empoisonnement δ_p → Données empoisonnées x' → Marquage δ_w → Données finales x' + δ_w
  • Une entité tierce ajoute un marquage aux données déjà empoisonnées
  • Budget de perturbation total: ε_p + ε_w
  • Exigence de longueur de marquage: Θ(√d/ε_w)

2. Marquage Concurrent d'Empoisonnement (Poisoning-Concurrent Watermarking)

Données originales x → Application simultanée d'empoisonnement et de marquage → Données finales x + δ_p + δ_w
  • Le générateur d'empoisonnement contrôle simultanément l'empoisonnement et le marquage
  • Séparation dimensionnelle: Dimensions de marquage W, Dimensions d'empoisonnement P = d\W
  • Budget de perturbation total: max{ε_p, ε_w}
  • Exigence de longueur de marquage: Θ(1/ε_w²) à O(√d/ε_p)

3. Mécanisme de Détection

  • Clé: Vecteur de dimension d ζ
  • Détection: Calcul du produit scalaire ζᵀx, comparaison avec un seuil
  • Décision: ζᵀ(données empoisonnées) > seuil > ζᵀ(données normales)

Points d'Innovation Technique

1. Innovation du Cadre Théorique

  • Analyse au niveau des échantillons: Chaque point de données est marqué et clé indépendamment
  • Version universelle: Une seule clé applicable à tous les échantillons
  • Généralisation distributive: Extension des résultats sur échantillons finis à la distribution globale

2. Garanties Mathématiques

Utilisant l'inégalité de McDiarmid et la théorie de la dimension VC, on prouve:

  • Détectabilité: Distinction à haute probabilité entre données empoisonnées et normales
  • Préservation de l'utilité: L'impact du marquage sur l'effet d'empoisonnement est contrôlable
  • Performance de généralisation: Extension des résultats sur échantillons finis à la distribution

3. Stratégie de Séparation Dimensionnelle

Le marquage concurrent d'empoisonnement évite les interférences par séparation dimensionnelle:

  • Le marquage utilise les dimensions W = {d₁, d₂, ..., d_q}
  • L'empoisonnement utilise les dimensions P = d\W
  • Réduit les interactions mutuelles, améliore les performances

Configuration Expérimentale

Ensembles de Données

  • CIFAR-10/CIFAR-100: Ensembles de données classiques de classification d'images
  • Tiny-ImageNet: Petit ImageNet
  • SST-2: Ensemble de données d'analyse de sentiments textuels

Méthodes d'Attaque

Attaques par Porte Dérobée

  • Narcissus: Attaque par porte dérobée à étiquette propre
  • AdvSc: Attaque par porte dérobée adversariale

Attaques de Disponibilité

  • UE (Unlearnable Examples): Exemples non apprenables
  • AP (Adversarial Poisoning): Empoisonnement adversarial

Architectures de Modèles

  • ResNet-18/50, VGG-19, DenseNet121
  • WRN34-10, MobileNet v2, ViT-B
  • BERT-base (tâches textuelles)

Métriques d'Évaluation

  • Précision (Acc): Performance du modèle sur l'ensemble de test
  • Taux de Succès d'Attaque (ASR): Efficacité de l'attaque par porte dérobée
  • AUROC: Performance de détection du marquage
  • Surcharge de Calcul: Analyse des coûts temporels

Détails d'Implémentation

  • Budget de marquage/empoisonnement: 4/255 à 32/255
  • Longueur de marquage: 100 à 3000
  • Entraînement: 200 épochs, planification du taux d'apprentissage en cosinus
  • Optimiseur: SGD, momentum 0.9, décroissance de poids 10⁻⁴

Résultats Expérimentaux

Résultats Principaux

1. Performance de Détection du Marquage

Longueur de MarquageNarcissus (Post)Narcissus (Concurrent)AdvSc (Post)AdvSc (Concurrent)
5000.95090.99680.92180.9986
10000.99740.99920.98090.9995
20001.00001.00000.99941.0000

2. Préservation de l'Utilité de l'Empoisonnement

  • Marquage post-empoisonnement: Maintient une bonne performance d'attaque sur toutes les longueurs de marquage
  • Marquage concurrent d'empoisonnement: La performance d'attaque diminue notablement avec des longueurs de marquage trop grandes

3. Vérification Théorique

Les résultats expérimentaux valident les prédictions théoriques:

  • Le marquage concurrent d'empoisonnement nécessite des longueurs de marquage plus courtes pour atteindre la même performance de détection
  • Le marquage post-empoisonnement a un impact plus faible sur l'utilité de l'empoisonnement
  • La longueur du marquage est positivement corrélée à la performance de détection

Expériences d'Ablation

1. Impact du Budget de Marquage

Avec l'augmentation de ε_w:

  • La performance de détection (AUROC) s'améliore
  • L'effet d'empoisonnement diminue
  • Valide la relation de compromis dans la théorie

2. Analyse de la Position du Marquage

Test de différentes régions d'image (haut-gauche, bas-gauche, haut-droit, bas-droit):

  • L'impact de la position sur les performances est minime
  • Valide l'indépendance de position dans la théorie

3. Transférabilité du Modèle

Démontre une bonne transférabilité entre différentes architectures:

  • Scores AUROC élevés (>0.95)
  • Détection stable entre architectures

Analyse de Robustesse

1. Résistance à l'Augmentation de Données

Test de Random Flip, Cutout, Color Jitter, etc.:

  • AUROC maintenu à 1.0000
  • Démontre une forte robustesse

2. Méthodes de Défense

  • Confidentialité Différentielle: Le bruit grave entraîne l'échec de l'entraînement
  • Purification par Diffusion: Détruit simultanément le marquage et l'empoisonnement
  • Débruitage Adversarial: Affecte l'utilité de l'empoisonnement

Travaux Connexes

Recherche sur l'Empoisonnement de Données

  • Attaques par Porte Dérobée: BadNets, Narcissus, etc.
  • Attaques de Disponibilité: Exemples non apprenables, empoisonnement adversarial
  • Méthodes de Défense: Algorithmes de détection, purification de données

Technologie de Marquage

  • Marquage de Modèles: Protection des droits d'auteur des réseaux de neurones
  • Marquage de Données: Vérification de la propriété des ensembles de données
  • Marquage de Texte: Détection de contenu généré par les grands modèles de langage

Distinction Technique

Cet article applique pour la première fois systématiquement la technologie de marquage au scénario d'empoisonnement de données, fournissant des garanties théoriques et des solutions pratiques.

Conclusions et Discussion

Conclusions Principales

  1. Contribution Théorique: Établit un cadre théorique pour le marquage d'empoisonnement de données
  2. Solutions Pratiques: Fournit deux méthodes de marquage déployables
  3. Vérification des Performances: Les expériences confirment l'exactitude des prédictions théoriques
  4. Valeur d'Application: Fournit transparence et responsabilité pour l'empoisonnement « bienveillant »

Limitations

  1. Conditions Nécessaires Inconnues: Fournit uniquement des conditions suffisantes, les conditions nécessaires restent à étudier
  2. Fragilité de la Défense: Les performances diminuent face à des méthodes de défense fortes
  3. Surcharge de Calcul: Le marquage concurrent d'empoisonnement nécessite du temps de calcul supplémentaire
  4. Portée d'Application: Principalement ciblé sur les attaques d'empoisonnement imperceptibles

Directions Futures

  1. Robustesse Accrue: Concevoir des schémas de marquage résistant aux défenses
  2. Conditions Nécessaires: Explorer les conditions nécessaires pour la détectabilité du marquage
  3. Optimisation de l'Efficacité: Réduire les surcharges de calcul et de stockage
  4. Extension d'Application: Étendre à d'autres types d'empoisonnement et domaines

Évaluation Approfondie

Points Forts

  1. Importance du Problème: Résout les besoins pratiques de transparence de l'empoisonnement de données
  2. Rigueur Théorique: Fournit une analyse mathématique complète et des preuves
  3. Innovation Méthodologique: Combine systématiquement pour la première fois les techniques de marquage et d'empoisonnement
  4. Expérimentation Complète: Vérification complète sur plusieurs ensembles de données, modèles et attaques
  5. Valeur Pratique: Fournit des solutions déployables

Insuffisances

  1. Considération Insuffisante de la Défense: Robustesse limitée face aux méthodes de défense fortes
  2. Complétude Théorique: Manque d'analyse des conditions nécessaires
  3. Limitation de la Portée d'Application: Principalement applicable aux attaques imperceptibles
  4. Efficacité de Calcul: Surcharge relativement élevée dans certains scénarios

Impact

  1. Contribution Académique: Combine de manière novatrice deux domaines de sécurité importants
  2. Valeur Pratique: Fournit de nouveaux outils pour la sécurité de l'IA et la protection des données
  3. Signification Théorique: Établit un nouveau cadre d'analyse théorique
  4. Application Industrielle: Applicable à la protection des droits d'auteur des ensembles de données, etc.

Scénarios d'Application

  1. Publication d'Ensembles de Données: Protection des droits d'auteur des ensembles de données open-source
  2. Protection des Œuvres Artistiques: Prévention de l'utilisation non autorisée par l'IA générative
  3. Partage de Données Entreprise: Suivi de l'utilisation des données internes
  4. Recherche Académique: Vérification de la source des données de recherche

Détails d'Implémentation Technique

Flux d'Algorithme

Algorithme de Marquage Post-Empoisonnement

def post_poisoning_watermark(poisoned_data, key, watermark_dims, budget):
    watermark = budget * sign(key[watermark_dims])
    watermarked_data = poisoned_data + watermark
    return watermarked_data

Algorithme de Détection

def detect_watermark(suspect_data, key, threshold):
    detection_value = key.T @ suspect_data
    return 1 if detection_value > threshold else 0

Garanties Théoriques

Basées sur l'inégalité de McDiarmid, pour le marquage post-empoisonnement:

  • Lorsque q > (2/ε_w)√(2d log(1/ω))
  • P(ζᵀ(x₁ + δ₁) > ζᵀx₂) > 1 - 2ω

Considérations de Déploiement Pratique

  1. Gestion des Clés: Support de la rotation des clés et authentification HMAC
  2. Vérification d'Intégrité: Hachage SHA256 pour assurer l'intégrité des données
  3. Contrôle d'Accès: Distribution sécurisée des clés basée sur HTTPS
  4. Scalabilité: Support du traitement d'ensembles de données à grande échelle

Résumé: Cet article apporte des contributions novatrices à l'intersection des domaines de l'empoisonnement de données et de la technologie de marquage, fournissant non seulement une analyse théorique rigoureuse, mais aussi des solutions pratiques. Bien qu'il y ait de la place pour l'amélioration en termes de robustesse de défense et de complétude théorique, le problème qu'il résout a une signification pratique importante, fournissant de nouvelles directions de recherche et outils pour les domaines de la sécurité de l'IA et de la protection des données.