2025-11-20T03:28:13.599904

Provable Watermarking for Data Poisoning Attacks

Zhu, Yu, Gao

In recent years, data poisoning attacks have been increasingly designed to appear harmless and even beneficial, often with the intention of verifying dataset ownership or safeguarding private data from unauthorized use. However, these developments have the potential to cause misunderstandings and conflicts, as data poisoning has traditionally been regarded as a security threat to machine learning systems. To address this issue, it is imperative for harmless poisoning generators to claim ownership of their generated datasets, enabling users to identify potential poisoning to prevent misuse. In this paper, we propose the deployment of watermarking schemes as a solution to this challenge. We introduce two provable and practical watermarking approaches for data poisoning: {\em post-poisoning watermarking} and {\em poisoning-concurrent watermarking}. Our analyses demonstrate that when the watermarking length is $Î(\sqrt{d}/Îµ_w)$ for post-poisoning watermarking, and falls within the range of $Î(1/Îµ_w^2)$ to $O(\sqrt{d}/Îµ_p)$ for poisoning-concurrent watermarking, the watermarked poisoning dataset provably ensures both watermarking detectability and poisoning utility, certifying the practicality of watermarking under data poisoning attacks. We validate our theoretical findings through experiments on several attacks, models, and datasets.

academic

Marquage Prouvable pour les Attaques par Empoisonnement de Données

Informations Fondamentales

ID de l'article: 2510.09210
Titre: Provable Watermarking for Data Poisoning Attacks
Auteurs: Yifan Zhu, Lijia Yu, Xiao-Shan Gao
Classification: cs.CR (Cryptographie et Sécurité), cs.LG (Apprentissage Automatique)
Conférence de publication: NeurIPS 2025 (39e Conférence sur les Systèmes de Traitement de l'Information Neuronale)
Lien de l'article: https://arxiv.org/abs/2510.09210

Résumé

Ces dernières années, les attaques par empoisonnement de données sont de plus en plus conçues sous des formes apparemment inoffensives, voire bénéfiques, souvent utilisées pour vérifier la propriété des ensembles de données ou protéger les données privées contre les utilisations non autorisées. Cependant, ces développements peuvent conduire à des malentendus et des conflits, car l'empoisonnement de données est traditionnellement considéré comme une menace de sécurité pour les systèmes d'apprentissage automatique. Pour résoudre ce problème, les générateurs d'empoisonnement inoffensif doivent déclarer la propriété de leurs ensembles de données générés, permettant aux utilisateurs d'identifier les empoisonnements potentiels pour prévenir les abus. Cet article propose le déploiement de schémas de marquage comme solution à ce défi, en introduisant deux méthodes de marquage d'empoisonnement de données prouvables et pratiques: le marquage post-empoisonnement et le marquage concurrent d'empoisonnement. L'analyse montre que lorsque la longueur du marquage est Θ(√d/ε_w) (marquage post-empoisonnement) et dans la plage Θ(1/ε_w²) à O(√d/ε_p) (marquage concurrent d'empoisonnement), les ensembles de données empoisonnés marqués garantissent de manière prouvable la détectabilité du marquage et l'utilité de l'empoisonnement.

Contexte et Motivation de la Recherche

Définition du Problème

Changement de perspective traditionnelle: Les attaques par empoisonnement de données passent des menaces malveillantes traditionnelles à des applications « bienveillantes », telles que la vérification de la propriété des ensembles de données, la prévention des utilisations non autorisées, etc.
Problèmes de transparence: Lorsque l'empoisonnement est utilisé à des fins de protection, les utilisateurs autorisés peuvent involontairement utiliser des données empoisonnées, ce qui entraîne des malentendus et des conflits
Absence de responsabilité: Les méthodes de détection existantes manquent d'un cadre unifié et d'un mécanisme de déclaration prouvable

Importance

Avec la dépendance croissante de l'entraînement de modèles à grande échelle vis-à-vis des données extraites du web ou synthétiques, l'impact de l'empoisonnement de données devient de plus en plus significatif
Les artistes et les créateurs de données ont besoin de protéger leur propriété intellectuelle contre l'utilisation non autorisée par l'IA générative
Il est nécessaire d'établir un équilibre entre la protection des données et la transparence

Limitations des Méthodes Existantes

Les méthodes de détection varient selon le type d'attaque, ce qui rend l'unification difficile
Basées sur des algorithmes d'entraînement heuristiques, elles manquent de mécanismes prouvables
Elles ne peuvent pas fournir de déclarations claires et vérifiables pour les ensembles de données empoisonnés

Contributions Principales

Premier cadre de marquage pour l'empoisonnement de données: Application de la technologie de marquage au scénario d'empoisonnement de données, offrant transparence et responsabilité
Deux schémas de marquage:
- Marquage post-empoisonnement: Une entité tierce crée un marquage pour les ensembles de données déjà empoisonnés
- Marquage concurrent d'empoisonnement: Le générateur d'empoisonnement crée simultanément le marquage et l'empoisonnement
Garanties théoriques: Fournit une analyse théorique rigoureuse de la détectabilité du marquage et de l'utilité de l'empoisonnement
Vérification pratique: Valide les conclusions théoriques sur diverses attaques, modèles et ensembles de données

Explication Détaillée de la Méthode

Définition de la Tâche

Entrée: Ensemble de données original D, budget d'empoisonnement ε_p, budget de marquage ε_w
Sortie: Ensemble de données empoisonné marqué, clé de détection ζ
Contraintes: Maintenir l'utilité de l'empoisonnement tout en garantissant la détectabilité du marquage

Architecture du Modèle

1. Marquage Post-Empoisonnement (Post-Poisoning Watermarking)

Données originales x → Empoisonnement δ_p → Données empoisonnées x' → Marquage δ_w → Données finales x' + δ_w

Une entité tierce ajoute un marquage aux données déjà empoisonnées
Budget de perturbation total: ε_p + ε_w
Exigence de longueur de marquage: Θ(√d/ε_w)

2. Marquage Concurrent d'Empoisonnement (Poisoning-Concurrent Watermarking)

Données originales x → Application simultanée d'empoisonnement et de marquage → Données finales x + δ_p + δ_w

Le générateur d'empoisonnement contrôle simultanément l'empoisonnement et le marquage
Séparation dimensionnelle: Dimensions de marquage W, Dimensions d'empoisonnement P = d\W
Budget de perturbation total: max{ε_p, ε_w}
Exigence de longueur de marquage: Θ(1/ε_w²) à O(√d/ε_p)

3. Mécanisme de Détection

Clé: Vecteur de dimension d ζ
Détection: Calcul du produit scalaire ζᵀx, comparaison avec un seuil
Décision: ζᵀ(données empoisonnées) > seuil > ζᵀ(données normales)

Points d'Innovation Technique

1. Innovation du Cadre Théorique

Analyse au niveau des échantillons: Chaque point de données est marqué et clé indépendamment
Version universelle: Une seule clé applicable à tous les échantillons
Généralisation distributive: Extension des résultats sur échantillons finis à la distribution globale

2. Garanties Mathématiques

Utilisant l'inégalité de McDiarmid et la théorie de la dimension VC, on prouve:

Détectabilité: Distinction à haute probabilité entre données empoisonnées et normales
Préservation de l'utilité: L'impact du marquage sur l'effet d'empoisonnement est contrôlable
Performance de généralisation: Extension des résultats sur échantillons finis à la distribution

3. Stratégie de Séparation Dimensionnelle

Le marquage concurrent d'empoisonnement évite les interférences par séparation dimensionnelle:

Le marquage utilise les dimensions W = {d₁, d₂, ..., d_q}
L'empoisonnement utilise les dimensions P = d\W
Réduit les interactions mutuelles, améliore les performances

Configuration Expérimentale

Ensembles de Données

CIFAR-10/CIFAR-100: Ensembles de données classiques de classification d'images
Tiny-ImageNet: Petit ImageNet
SST-2: Ensemble de données d'analyse de sentiments textuels

Méthodes d'Attaque

Attaques par Porte Dérobée

Narcissus: Attaque par porte dérobée à étiquette propre
AdvSc: Attaque par porte dérobée adversariale

Attaques de Disponibilité

UE (Unlearnable Examples): Exemples non apprenables
AP (Adversarial Poisoning): Empoisonnement adversarial

Architectures de Modèles

ResNet-18/50, VGG-19, DenseNet121
WRN34-10, MobileNet v2, ViT-B
BERT-base (tâches textuelles)

Métriques d'Évaluation

Précision (Acc): Performance du modèle sur l'ensemble de test
Taux de Succès d'Attaque (ASR): Efficacité de l'attaque par porte dérobée
AUROC: Performance de détection du marquage
Surcharge de Calcul: Analyse des coûts temporels

Détails d'Implémentation

Budget de marquage/empoisonnement: 4/255 à 32/255
Longueur de marquage: 100 à 3000
Entraînement: 200 épochs, planification du taux d'apprentissage en cosinus
Optimiseur: SGD, momentum 0.9, décroissance de poids 10⁻⁴

Résultats Expérimentaux

Résultats Principaux

1. Performance de Détection du Marquage

Longueur de Marquage	Narcissus (Post)	Narcissus (Concurrent)	AdvSc (Post)	AdvSc (Concurrent)
500	0.9509	0.9968	0.9218	0.9986
1000	0.9974	0.9992	0.9809	0.9995
2000	1.0000	1.0000	0.9994	1.0000

2. Préservation de l'Utilité de l'Empoisonnement

Marquage post-empoisonnement: Maintient une bonne performance d'attaque sur toutes les longueurs de marquage
Marquage concurrent d'empoisonnement: La performance d'attaque diminue notablement avec des longueurs de marquage trop grandes

3. Vérification Théorique

Les résultats expérimentaux valident les prédictions théoriques:

Le marquage concurrent d'empoisonnement nécessite des longueurs de marquage plus courtes pour atteindre la même performance de détection
Le marquage post-empoisonnement a un impact plus faible sur l'utilité de l'empoisonnement
La longueur du marquage est positivement corrélée à la performance de détection

Expériences d'Ablation

1. Impact du Budget de Marquage

Avec l'augmentation de ε_w:

La performance de détection (AUROC) s'améliore
L'effet d'empoisonnement diminue
Valide la relation de compromis dans la théorie

2. Analyse de la Position du Marquage

Test de différentes régions d'image (haut-gauche, bas-gauche, haut-droit, bas-droit):

L'impact de la position sur les performances est minime
Valide l'indépendance de position dans la théorie

3. Transférabilité du Modèle

Démontre une bonne transférabilité entre différentes architectures:

Scores AUROC élevés (>0.95)
Détection stable entre architectures

Analyse de Robustesse

1. Résistance à l'Augmentation de Données

Test de Random Flip, Cutout, Color Jitter, etc.:

AUROC maintenu à 1.0000
Démontre une forte robustesse

2. Méthodes de Défense

Confidentialité Différentielle: Le bruit grave entraîne l'échec de l'entraînement
Purification par Diffusion: Détruit simultanément le marquage et l'empoisonnement
Débruitage Adversarial: Affecte l'utilité de l'empoisonnement

Travaux Connexes

Recherche sur l'Empoisonnement de Données

Attaques par Porte Dérobée: BadNets, Narcissus, etc.
Attaques de Disponibilité: Exemples non apprenables, empoisonnement adversarial
Méthodes de Défense: Algorithmes de détection, purification de données

Technologie de Marquage

Marquage de Modèles: Protection des droits d'auteur des réseaux de neurones
Marquage de Données: Vérification de la propriété des ensembles de données
Marquage de Texte: Détection de contenu généré par les grands modèles de langage

Distinction Technique

Cet article applique pour la première fois systématiquement la technologie de marquage au scénario d'empoisonnement de données, fournissant des garanties théoriques et des solutions pratiques.

Conclusions et Discussion

Conclusions Principales

Contribution Théorique: Établit un cadre théorique pour le marquage d'empoisonnement de données
Solutions Pratiques: Fournit deux méthodes de marquage déployables
Vérification des Performances: Les expériences confirment l'exactitude des prédictions théoriques
Valeur d'Application: Fournit transparence et responsabilité pour l'empoisonnement « bienveillant »

Limitations

Conditions Nécessaires Inconnues: Fournit uniquement des conditions suffisantes, les conditions nécessaires restent à étudier
Fragilité de la Défense: Les performances diminuent face à des méthodes de défense fortes
Surcharge de Calcul: Le marquage concurrent d'empoisonnement nécessite du temps de calcul supplémentaire
Portée d'Application: Principalement ciblé sur les attaques d'empoisonnement imperceptibles

Directions Futures

Robustesse Accrue: Concevoir des schémas de marquage résistant aux défenses
Conditions Nécessaires: Explorer les conditions nécessaires pour la détectabilité du marquage
Optimisation de l'Efficacité: Réduire les surcharges de calcul et de stockage
Extension d'Application: Étendre à d'autres types d'empoisonnement et domaines

Évaluation Approfondie

Points Forts

Importance du Problème: Résout les besoins pratiques de transparence de l'empoisonnement de données
Rigueur Théorique: Fournit une analyse mathématique complète et des preuves
Innovation Méthodologique: Combine systématiquement pour la première fois les techniques de marquage et d'empoisonnement
Expérimentation Complète: Vérification complète sur plusieurs ensembles de données, modèles et attaques
Valeur Pratique: Fournit des solutions déployables

Insuffisances

Considération Insuffisante de la Défense: Robustesse limitée face aux méthodes de défense fortes
Complétude Théorique: Manque d'analyse des conditions nécessaires
Limitation de la Portée d'Application: Principalement applicable aux attaques imperceptibles
Efficacité de Calcul: Surcharge relativement élevée dans certains scénarios

Impact

Contribution Académique: Combine de manière novatrice deux domaines de sécurité importants
Valeur Pratique: Fournit de nouveaux outils pour la sécurité de l'IA et la protection des données
Signification Théorique: Établit un nouveau cadre d'analyse théorique
Application Industrielle: Applicable à la protection des droits d'auteur des ensembles de données, etc.

Scénarios d'Application

Publication d'Ensembles de Données: Protection des droits d'auteur des ensembles de données open-source
Protection des Œuvres Artistiques: Prévention de l'utilisation non autorisée par l'IA générative
Partage de Données Entreprise: Suivi de l'utilisation des données internes
Recherche Académique: Vérification de la source des données de recherche

Détails d'Implémentation Technique

Flux d'Algorithme

Algorithme de Marquage Post-Empoisonnement

def post_poisoning_watermark(poisoned_data, key, watermark_dims, budget):
    watermark = budget * sign(key[watermark_dims])
    watermarked_data = poisoned_data + watermark
    return watermarked_data

Algorithme de Détection

def detect_watermark(suspect_data, key, threshold):
    detection_value = key.T @ suspect_data
    return 1 if detection_value > threshold else 0

Garanties Théoriques

Basées sur l'inégalité de McDiarmid, pour le marquage post-empoisonnement:

Lorsque q > (2/ε_w)√(2d log(1/ω))
P(ζᵀ(x₁ + δ₁) > ζᵀx₂) > 1 - 2ω

Considérations de Déploiement Pratique

Gestion des Clés: Support de la rotation des clés et authentification HMAC
Vérification d'Intégrité: Hachage SHA256 pour assurer l'intégrité des données
Contrôle d'Accès: Distribution sécurisée des clés basée sur HTTPS
Scalabilité: Support du traitement d'ensembles de données à grande échelle

Résumé: Cet article apporte des contributions novatrices à l'intersection des domaines de l'empoisonnement de données et de la technologie de marquage, fournissant non seulement une analyse théorique rigoureuse, mais aussi des solutions pratiques. Bien qu'il y ait de la place pour l'amélioration en termes de robustesse de défense et de complétude théorique, le problème qu'il résout a une signification pratique importante, fournissant de nouvelles directions de recherche et outils pour les domaines de la sécurité de l'IA et de la protection des données.