2025-11-20T03:28:13.599904

Provable Watermarking for Data Poisoning Attacks

Zhu, Yu, Gao

In recent years, data poisoning attacks have been increasingly designed to appear harmless and even beneficial, often with the intention of verifying dataset ownership or safeguarding private data from unauthorized use. However, these developments have the potential to cause misunderstandings and conflicts, as data poisoning has traditionally been regarded as a security threat to machine learning systems. To address this issue, it is imperative for harmless poisoning generators to claim ownership of their generated datasets, enabling users to identify potential poisoning to prevent misuse. In this paper, we propose the deployment of watermarking schemes as a solution to this challenge. We introduce two provable and practical watermarking approaches for data poisoning: {\em post-poisoning watermarking} and {\em poisoning-concurrent watermarking}. Our analyses demonstrate that when the watermarking length is $Î(\sqrt{d}/Îµ_w)$ for post-poisoning watermarking, and falls within the range of $Î(1/Îµ_w^2)$ to $O(\sqrt{d}/Îµ_p)$ for poisoning-concurrent watermarking, the watermarked poisoning dataset provably ensures both watermarking detectability and poisoning utility, certifying the practicality of watermarking under data poisoning attacks. We validate our theoretical findings through experiments on several attacks, models, and datasets.

academic

データポイズニング攻撃に対する証明可能な透かし

基本情報

論文ID: 2510.09210
タイトル: Provable Watermarking for Data Poisoning Attacks
著者: Yifan Zhu, Lijia Yu, Xiao-Shan Gao
分類: cs.CR（暗号化とセキュリティ）、cs.LG（機械学習）
発表会議: NeurIPS 2025（第39回ニューラル情報処理システム会議）
論文リンク: https://arxiv.org/abs/2510.09210

要約

近年、データポイズニング攻撃は無害、あるいは有益な形式として設計されることが増えており、データセット所有権の検証やプライベートデータの不正使用からの保護に一般的に使用されています。しかし、これらの発展は誤解と対立をもたらす可能性があります。なぜなら、データポイズニングは従来、機械学習システムへのセキュリティ脅威と見なされてきたからです。この問題に対処するため、無害なポイズニング生成器は生成されたデータセットの所有権を主張する必要があり、ユーザーが潜在的なポイズニングを識別して誤用を防ぐことができます。本論文は、この課題の解決策として透かしスキームの導入を提案し、事後ポイズニング透かしとポイズニング並行透かしという2つの証明可能で実用的なデータポイズニング透かし方法を導入しました。分析により、透かし長がΘ(√d/ε_w)（事後ポイズニング透かし）およびΘ(1/ε_w²)からO(√d/ε_p)の範囲内（ポイズニング並行透かし）である場合、透かし付きポイズニングデータセットは透かし検出可能性とポイズニング有用性を証明可能に保証することが示されています。

研究背景と動機

問題定義

従来の概念の転換：データポイズニング攻撃は従来の悪意のある脅威から「善意」のアプリケーション（データセット所有権検証、不正使用の防止など）へと移行しています
透明性の問題：ポイズニングが保護目的で使用される場合、認可されたユーザーが無意識のうちにポイズニングされたデータを使用し、誤解と対立が生じる可能性があります
説明責任の欠如：既存の検出方法には統一されたフレームワークと証明可能な主張メカニズムが不足しています

重要性

大規模モデルのトレーニングがウェブスクレイピングまたは合成データにますます依存するようになるにつれて、データポイズニングの影響は増加しています
アーティストとデータクリエイターは、生成型AIによる不正使用からその知的財産を保護する必要があります
データ保護と透明性のバランスを確立する必要があります

既存方法の制限

検出方法は攻撃タイプによって異なり、統一が困難です
ヒューリスティックなトレーニングアルゴリズムに基づいており、証明可能なメカニズムが不足しています
ポイズニングされたデータセットに対して明確で検証可能な主張を提供できません

核心的貢献

データポイズニング透かしフレームワークの初提案：透かし技術をデータポイズニングシナリオに適用し、透明性と説明責任を提供します
2つの透かしスキーム：
- 事後ポイズニング透かし：第三者エンティティがすでにポイズニングされたデータセットの透かしを作成します
- ポイズニング並行透かし：ポイズニング生成器が同時に透かしとポイズニングを作成します
理論的保証：透かし検出可能性とポイズニング有用性の厳密な理論分析を提供します
実用性の検証：複数の攻撃、モデル、データセットにおいて理論的発見を検証します

方法の詳細

タスク定義

入力：元のデータセットD、ポイズニング予算ε_p、透かし予算ε_w
出力：透かし付きポイズニングデータセット、検出キーζ
制約：ポイズニング有用性を維持しながら透かし検出可能性を保証します

モデルアーキテクチャ

1. 事後ポイズニング透かし（Post-Poisoning Watermarking）

元のデータ x → ポイズニング δ_p → ポイズニングデータ x' → 透かし δ_w → 最終データ x' + δ_w

第三者エンティティがすでにポイズニングされたデータに透かしを追加します
総摂動予算：ε_p + ε_w
透かし長要件：Θ(√d/ε_w)

2. ポイズニング並行透かし（Poisoning-Concurrent Watermarking）

元のデータ x → ポイズニングと透かしを同時に適用 → 最終データ x + δ_p + δ_w

ポイズニング生成器がポイズニングと透かしを同時に制御します
次元分離：透かし次元W、ポイズニング次元P = d\W
総摂動予算：max{ε_p, ε_w}
透かし長要件：Θ(1/ε_w²)からO(√d/ε_p)

3. 検出メカニズム

キー：d次元ベクトルζ
検出：内積ζᵀxを計算し、閾値と比較します
判定：ζᵀ(ポイズニングデータ) > 閾値 > ζᵀ(正常データ)

技術的革新点

1. 理論フレームワークの革新

サンプルレベル分析：各データポイントは独立した透かしとキーを持ちます
汎用版：単一キーがすべてのサンプルに適用可能です
分布一般化：有限サンプルから全体分布への拡張

2. 数学的保証

McDiarmid不等式とVC次元理論を利用して、以下を証明します：

検出可能性：高確率でポイズニングと正常データを区別します
有用性の保持：透かしのポイズニング効果への影響は制御可能です
一般化性能：有限サンプル結果を分布に拡張します

3. 次元分離戦略

ポイズニング並行透かしは次元分離を通じて干渉を回避します：

透かしは次元W = {d₁, d₂, ..., d_q}を使用します
ポイズニングは次元P = d\Wを使用します
相互影響を減らし、パフォーマンスを向上させます

実験設定

データセット

CIFAR-10/CIFAR-100：古典的な画像分類データセット
Tiny-ImageNet：小規模ImageNet
SST-2：テキスト感情分析データセット

攻撃方法

バックドア攻撃

Narcissus：クリーンラベルバックドア攻撃
AdvSc：対抗的バックドア攻撃

可用性攻撃

UE（Unlearnable Examples）：学習不可能なサンプル
AP（Adversarial Poisoning）：対抗的ポイズニング

モデルアーキテクチャ

ResNet-18/50、VGG-19、DenseNet121
WRN34-10、MobileNet v2、ViT-B
BERT-base（テキストタスク）

評価指標

精度（Acc）：テストセットに対するモデルのパフォーマンス
攻撃成功率（ASR）：バックドア攻撃の有効性
AUROC：透かし検出パフォーマンス
計算オーバーヘッド：時間コスト分析

実装詳細

透かし/ポイズニング予算：4/255から32/255
透かし長：100から3000
トレーニング：200エポック、コサイン学習率スケジューリング
オプティマイザ：SGD、モメンタム0.9、重み減衰10⁻⁴

実験結果

主要結果

1. 透かし検出パフォーマンス

透かし長	Narcissus（事後）	Narcissus（並行）	AdvSc（事後）	AdvSc（並行）
500	0.9509	0.9968	0.9218	0.9986
1000	0.9974	0.9992	0.9809	0.9995
2000	1.0000	1.0000	0.9994	1.0000

2. ポイズニング有用性の保持

事後ポイズニング透かし：すべての透かし長にわたって良好な攻撃パフォーマンスを維持します
ポイズニング並行透かし：透かし長が大きすぎる場合、攻撃効果が明らかに低下します

3. 理論検証

実験結果は理論予測を検証します：

ポイズニング並行透かしは同じ検出パフォーマンスを達成するためにより短い透かし長が必要です
事後ポイズニング透かしはポイズニング有用性への影響がより小さいです
透かし長と検出パフォーマンスは正の相関があります

アブレーション実験

1. 透かし予算の影響

ε_wが増加するにつれて：

検出パフォーマンス（AUROC）が向上します
ポイズニング効果が低下します
理論における権衡関係を検証します

2. 透かし位置分析

異なる画像領域（左上、左下、右上、右下）をテストします：

位置がパフォーマンスに与える影響は微小です
理論における位置無関性を検証します

3. モデル転移性

異なるアーキテクチャ間で良好な転移性を示します：

高いAUROCスコア（>0.95）
アーキテクチャ間での検出の安定性

ロバストネス分析

1. データ拡張への耐性

Random Flip、Cutout、Color Jitterなどをテストします：

AUROCは1.0000を維持します
強いロバストネスを示します

2. 防御方法

差分プライバシー：深刻なノイズがトレーニング失敗を招きます
拡散浄化：透かしとポイズニングの両方を破壊します
対抗的デノイジング：ポイズニング有用性に影響します

結論と考察

主要な結論

理論的貢献：データポイズニング透かしの理論フレームワークを確立しました
実用的なソリューション：2つの展開可能な透かし方法を提供します
パフォーマンス検証：実験が理論予測の正確性を確認しました
応用価値：「善意」のポイズニングに透明性と説明責任を提供します

制限事項

必要条件が不明：充分条件のみを提供し、必要条件は今後の研究が必要です
防御脆弱性：強い防御方法に直面するとパフォーマンスが低下します
計算オーバーヘッド：ポイズニング並行透かしには追加の計算時間が必要です
適用範囲：主に知覚不可能なポイズニング攻撃を対象としています

将来の方向性

より強いロバストネス：防御に対抗する透かしスキームの設計
必要条件：透かし検出可能性の必要条件の探索
効率最適化：計算とストレージオーバーヘッドの削減
応用拡張：より多くのポイズニングタイプと領域への拡張

深い評価

利点

問題の重要性：データポイズニング透明性の実際的なニーズに対処します
理論的厳密性：完全な数学分析と証明を提供します
方法の革新性：透かしとポイズニング技術を初めて体系的に組み合わせます
実験の充実：複数のデータセット、モデル、攻撃の包括的な検証
実用価値：展開可能なソリューションを提供します

不足点

防御への考慮不足：強い防御方法に対するロバストネスが限定的です
理論的完全性：必要条件分析が不足しています
適用範囲の制限：主に知覚不可能な攻撃に適用可能です
計算効率：特定のシナリオではオーバーヘッドが高いです

影響力

学術的貢献：2つの重要なセキュリティ領域を革新的に組み合わせます
実用価値：AIセキュリティとデータ保護に新しいツールを提供します
理論的意義：新しい理論分析フレームワークを確立します
産業応用：データセット著作権保護などのシナリオに適用可能です

適用シナリオ

データセット公開：オープンソースデータセットの著作権保護
芸術作品保護：生成型AIによる不正使用の防止
企業データ共有：内部データ使用追跡
学術研究：研究データのソース検証

技術実装詳細

アルゴリズムフロー

事後ポイズニング透かしアルゴリズム

def post_poisoning_watermark(poisoned_data, key, watermark_dims, budget):
    watermark = budget * sign(key[watermark_dims])
    watermarked_data = poisoned_data + watermark
    return watermarked_data

検出アルゴリズム

def detect_watermark(suspect_data, key, threshold):
    detection_value = key.T @ suspect_data
    return 1 if detection_value > threshold else 0

理論的保証

McDiarmid不等式に基づいて、事後ポイズニング透かしについて：

q > (2/ε_w)√(2d log(1/ω))の場合
P(ζᵀ(x₁ + δ₁) > ζᵀx₂) > 1 - 2ω

実装展開の考慮事項

キー管理：キーローテーションとHMAC認証をサポートします
完全性検証：SHA256ハッシュがデータ完全性を保証します
アクセス制御：HTTPSベースのセキュアキー配布
スケーラビリティ：大規模データセット処理をサポートします

要約：本論文は、データポイズニングと透かし技術の交差領域において革新的な貢献を行い、厳密な理論分析を提供するだけでなく、実用的なソリューションも提供しています。防御ロバストネスと理論的完全性の面でまだ改善の余地がありますが、解決する問題は重要な現実的意義を持ち、AIセキュリティとデータ保護分野に新しい研究方向とツールを提供しています。