2025-11-20T03:28:13.599904

Provable Watermarking for Data Poisoning Attacks

Zhu, Yu, Gao

In recent years, data poisoning attacks have been increasingly designed to appear harmless and even beneficial, often with the intention of verifying dataset ownership or safeguarding private data from unauthorized use. However, these developments have the potential to cause misunderstandings and conflicts, as data poisoning has traditionally been regarded as a security threat to machine learning systems. To address this issue, it is imperative for harmless poisoning generators to claim ownership of their generated datasets, enabling users to identify potential poisoning to prevent misuse. In this paper, we propose the deployment of watermarking schemes as a solution to this challenge. We introduce two provable and practical watermarking approaches for data poisoning: {\em post-poisoning watermarking} and {\em poisoning-concurrent watermarking}. Our analyses demonstrate that when the watermarking length is $Î(\sqrt{d}/Îµ_w)$ for post-poisoning watermarking, and falls within the range of $Î(1/Îµ_w^2)$ to $O(\sqrt{d}/Îµ_p)$ for poisoning-concurrent watermarking, the watermarked poisoning dataset provably ensures both watermarking detectability and poisoning utility, certifying the practicality of watermarking under data poisoning attacks. We validate our theoretical findings through experiments on several attacks, models, and datasets.

academic

Provable Watermarking for Data Poisoning Attacks

基本信息

论文ID: 2510.09210
标题: Provable Watermarking for Data Poisoning Attacks
作者: Yifan Zhu, Lijia Yu, Xiao-Shan Gao
分类: cs.CR (Cryptography and Security), cs.LG (Machine Learning)
发表会议: NeurIPS 2025 (39th Conference on Neural Information Processing Systems)
论文链接: https://arxiv.org/abs/2510.09210

摘要

近年来，数据投毒攻击越来越多地被设计为看似无害甚至有益的形式，常用于验证数据集所有权或保护私有数据免受未授权使用。然而，这些发展可能导致误解和冲突，因为数据投毒传统上被视为对机器学习系统的安全威胁。为解决这一问题，无害投毒生成器必须声明其生成数据集的所有权，使用户能够识别潜在投毒以防止误用。本文提出部署水印方案作为解决这一挑战的方案，引入了两种可证明且实用的数据投毒水印方法：后投毒水印和投毒并发水印。分析表明，当水印长度为Θ(√d/ε_w)（后投毒水印）和Θ(1/ε_w²)到O(√d/ε_p)范围内（投毒并发水印）时，水印投毒数据集可证明地确保水印可检测性和投毒效用。

研究背景与动机

问题定义

传统观念转变：数据投毒攻击正从传统的恶意威胁转向"善意"应用，如数据集所有权验证、防止未授权使用等
透明度问题：当投毒被用于保护目的时，授权用户可能无意中使用被投毒的数据，导致误解和冲突
问责制缺失：现有检测方法缺乏统一框架和可证明的声明机制

重要性

随着大规模模型训练越来越依赖网络爬取或合成数据，数据投毒的影响日益显著
艺术家和数据创作者需要保护其知识产权免受生成式AI的未授权使用
需要在数据保护和透明度之间建立平衡

现有方法局限性

检测方法因攻击类型而异，难以统一
基于启发式训练算法，缺乏可证明机制
无法为投毒数据集提供清晰、可验证的声明

核心贡献

首次提出数据投毒水印框架：将水印技术应用于数据投毒场景，提供透明度和问责制
两种水印方案：
- 后投毒水印：第三方实体为已投毒数据集创建水印
- 投毒并发水印：投毒生成器同时创建水印和投毒
理论保证：提供水印可检测性和投毒效用的严格理论分析
实用性验证：在多种攻击、模型和数据集上验证理论发现

方法详解

任务定义

输入：原始数据集D，投毒预算ε_p，水印预算ε_w
输出：水印投毒数据集，检测密钥ζ
约束：保持投毒效用的同时确保水印可检测性

模型架构

1. 后投毒水印 (Post-Poisoning Watermarking)

原始数据 x → 投毒 δ_p → 投毒数据 x' → 水印 δ_w → 最终数据 x' + δ_w

第三方实体为已投毒数据添加水印
总扰动预算：ε_p + ε_w
水印长度要求：Θ(√d/ε_w)

2. 投毒并发水印 (Poisoning-Concurrent Watermarking)

原始数据 x → 同时应用投毒和水印 → 最终数据 x + δ_p + δ_w

投毒生成器同时控制投毒和水印
维度分离：水印维度W，投毒维度P = d\W
总扰动预算：max{ε_p, ε_w}
水印长度要求：Θ(1/ε_w²)到O(√d/ε_p)

3. 检测机制

密钥：d维向量ζ
检测：计算内积ζᵀx，与阈值比较
判定：ζᵀ(投毒数据) > 阈值 > ζᵀ(正常数据)

技术创新点

1. 理论框架创新

样本级分析：每个数据点独立水印和密钥
通用版本：单一密钥适用于所有样本
分布泛化：从有限样本扩展到整体分布

2. 数学保证

利用McDiarmid不等式和VC维理论，证明：

可检测性：高概率区分投毒和正常数据
效用保持：水印对投毒效果影响可控
泛化性能：有限样本结果扩展到分布

3. 维度分离策略

投毒并发水印通过维度分离避免干扰：

水印使用维度W = {d₁, d₂, ..., d_q}
投毒使用维度P = d\W
减少相互影响，提高性能

实验设置

数据集

CIFAR-10/CIFAR-100：经典图像分类数据集
Tiny-ImageNet：小规模ImageNet
SST-2：文本情感分析数据集

攻击方法

后门攻击

Narcissus：清洁标签后门攻击
AdvSc：对抗性后门攻击

可用性攻击

UE (Unlearnable Examples)：不可学习样本
AP (Adversarial Poisoning)：对抗性投毒

模型架构

ResNet-18/50, VGG-19, DenseNet121
WRN34-10, MobileNet v2, ViT-B
BERT-base (文本任务)

评价指标

准确率 (Acc)：模型在测试集上的性能
攻击成功率 (ASR)：后门攻击的有效性
AUROC：水印检测性能
计算开销：时间成本分析

实现细节

水印/投毒预算：4/255到32/255
水印长度：100到3000
训练：200轮，余弦学习率调度
优化器：SGD，动量0.9，权重衰减10⁻⁴

实验结果

主要结果

1. 水印检测性能

水印长度	Narcissus (后投毒)	Narcissus (并发)	AdvSc (后投毒)	AdvSc (并发)
500	0.9509	0.9968	0.9218	0.9986
1000	0.9974	0.9992	0.9809	0.9995
2000	1.0000	1.0000	0.9994	1.0000

2. 投毒效用保持

后投毒水印：在所有水印长度下保持良好的攻击性能
投毒并发水印：水印长度过大时攻击效果下降明显

3. 理论验证

实验结果验证了理论预测：

投毒并发水印需要更短的水印长度达到相同检测性能
后投毒水印对投毒效用影响更小
水印长度与检测性能呈正相关

消融实验

1. 水印预算影响

随着ε_w增加：

检测性能(AUROC)提升
投毒效果下降
验证理论中的权衡关系

2. 水印位置分析

测试不同图像区域(左上、左下、右上、右下)：

位置对性能影响微小
验证理论中位置无关性

3. 模型迁移性

在不同架构间展现良好迁移性：

高AUROC分数(>0.95)
跨架构检测稳定

鲁棒性分析

1. 数据增强抗性

测试Random Flip, Cutout, Color Jitter等：

AUROC保持1.0000
展现强鲁棒性

2. 防御方法

差分隐私：严重噪声导致训练失败
扩散净化：同时破坏水印和投毒
对抗性去噪：影响投毒效用

结论与讨论

主要结论

理论贡献：建立了数据投毒水印的理论框架
实用方案：提供两种可部署的水印方法
性能验证：实验证实理论预测的准确性
应用价值：为"善意"投毒提供透明度和问责制

局限性

必要条件未知：仅提供充分条件，必要条件有待研究
防御脆弱性：面对强防御方法时性能下降
计算开销：投毒并发水印需要额外计算时间
适用范围：主要针对不可感知投毒攻击

未来方向

更强鲁棒性：设计抗防御的水印方案
必要条件：探索水印可检测性的必要条件
效率优化：减少计算和存储开销
应用扩展：扩展到更多投毒类型和领域

深度评价

优点

问题重要性：解决数据投毒透明度的实际需求
理论严谨：提供完整的数学分析和证明
方法创新：首次系统性结合水印和投毒技术
实验充分：多数据集、多模型、多攻击的全面验证
实用价值：提供可部署的解决方案

不足

防御考虑不足：对强防御方法的鲁棒性有限
理论完备性：缺少必要条件分析
适用范围限制：主要适用于不可感知攻击
计算效率：某些场景下开销较高

影响力

学术贡献：开创性地结合两个重要安全领域
实用价值：为AI安全和数据保护提供新工具
理论意义：建立新的理论分析框架
产业应用：适用于数据集版权保护等场景

适用场景

数据集发布：开源数据集的版权保护
艺术作品保护：防止生成式AI未授权使用
企业数据共享：内部数据使用追踪
学术研究：研究数据的来源验证

技术实现细节

算法流程

后投毒水印算法

def post_poisoning_watermark(poisoned_data, key, watermark_dims, budget):
    watermark = budget * sign(key[watermark_dims])
    watermarked_data = poisoned_data + watermark
    return watermarked_data

检测算法

def detect_watermark(suspect_data, key, threshold):
    detection_value = key.T @ suspect_data
    return 1 if detection_value > threshold else 0

理论保证

基于McDiarmid不等式，对于后投毒水印：

当q > (2/ε_w)√(2d log(1/ω))时
P(ζᵀ(x₁ + δ₁) > ζᵀx₂) > 1 - 2ω

实际部署考虑

密钥管理：支持密钥轮换和HMAC认证
完整性验证：SHA256哈希确保数据完整性
访问控制：基于HTTPS的安全密钥分发
可扩展性：支持大规模数据集处理

总结：本文在数据投毒和水印技术的交叉领域做出了开创性贡献，不仅提供了严谨的理论分析，还给出了实用的解决方案。尽管在防御鲁棒性和理论完备性方面还有改进空间，但其解决的问题具有重要的现实意义，为AI安全和数据保护领域提供了新的研究方向和工具。