In recent years, data poisoning attacks have been increasingly designed to appear harmless and even beneficial, often with the intention of verifying dataset ownership or safeguarding private data from unauthorized use. However, these developments have the potential to cause misunderstandings and conflicts, as data poisoning has traditionally been regarded as a security threat to machine learning systems. To address this issue, it is imperative for harmless poisoning generators to claim ownership of their generated datasets, enabling users to identify potential poisoning to prevent misuse. In this paper, we propose the deployment of watermarking schemes as a solution to this challenge. We introduce two provable and practical watermarking approaches for data poisoning: {\em post-poisoning watermarking} and {\em poisoning-concurrent watermarking}. Our analyses demonstrate that when the watermarking length is $Î(\sqrt{d}/ε_w)$ for post-poisoning watermarking, and falls within the range of $Î(1/ε_w^2)$ to $O(\sqrt{d}/ε_p)$ for poisoning-concurrent watermarking, the watermarked poisoning dataset provably ensures both watermarking detectability and poisoning utility, certifying the practicality of watermarking under data poisoning attacks. We validate our theoretical findings through experiments on several attacks, models, and datasets.
論文ID : 2510.09210タイトル : Provable Watermarking for Data Poisoning Attacks著者 : Yifan Zhu, Lijia Yu, Xiao-Shan Gao分類 : cs.CR(暗号化とセキュリティ)、cs.LG(機械学習)発表会議 : NeurIPS 2025(第39回ニューラル情報処理システム会議)論文リンク : https://arxiv.org/abs/2510.09210 近年、データポイズニング攻撃は無害、あるいは有益な形式として設計されることが増えており、データセット所有権の検証やプライベートデータの不正使用からの保護に一般的に使用されています。しかし、これらの発展は誤解と対立をもたらす可能性があります。なぜなら、データポイズニングは従来、機械学習システムへのセキュリティ脅威と見なされてきたからです。この問題に対処するため、無害なポイズニング生成器は生成されたデータセットの所有権を主張する必要があり、ユーザーが潜在的なポイズニングを識別して誤用を防ぐことができます。本論文は、この課題の解決策として透かしスキームの導入を提案し、事後ポイズニング透かし とポイズニング並行透かし という2つの証明可能で実用的なデータポイズニング透かし方法を導入しました。分析により、透かし長がΘ(√d/ε_w)(事後ポイズニング透かし)およびΘ(1/ε_w²)からO(√d/ε_p)の範囲内(ポイズニング並行透かし)である場合、透かし付きポイズニングデータセットは透かし検出可能性とポイズニング有用性を証明可能に保証することが示されています。
従来の概念の転換 :データポイズニング攻撃は従来の悪意のある脅威から「善意」のアプリケーション(データセット所有権検証、不正使用の防止など)へと移行しています透明性の問題 :ポイズニングが保護目的で使用される場合、認可されたユーザーが無意識のうちにポイズニングされたデータを使用し、誤解と対立が生じる可能性があります説明責任の欠如 :既存の検出方法には統一されたフレームワークと証明可能な主張メカニズムが不足しています大規模モデルのトレーニングがウェブスクレイピングまたは合成データにますます依存するようになるにつれて、データポイズニングの影響は増加しています アーティストとデータクリエイターは、生成型AIによる不正使用からその知的財産を保護する必要があります データ保護と透明性のバランスを確立する必要があります 検出方法は攻撃タイプによって異なり、統一が困難です ヒューリスティックなトレーニングアルゴリズムに基づいており、証明可能なメカニズムが不足しています ポイズニングされたデータセットに対して明確で検証可能な主張を提供できません データポイズニング透かしフレームワークの初提案 :透かし技術をデータポイズニングシナリオに適用し、透明性と説明責任を提供します2つの透かしスキーム :
事後ポイズニング透かし:第三者エンティティがすでにポイズニングされたデータセットの透かしを作成します ポイズニング並行透かし:ポイズニング生成器が同時に透かしとポイズニングを作成します 理論的保証 :透かし検出可能性とポイズニング有用性の厳密な理論分析を提供します実用性の検証 :複数の攻撃、モデル、データセットにおいて理論的発見を検証します入力 :元のデータセットD、ポイズニング予算ε_p、透かし予算ε_w出力 :透かし付きポイズニングデータセット、検出キーζ制約 :ポイズニング有用性を維持しながら透かし検出可能性を保証します元のデータ x → ポイズニング δ_p → ポイズニングデータ x' → 透かし δ_w → 最終データ x' + δ_w
第三者エンティティがすでにポイズニングされたデータに透かしを追加します 総摂動予算:ε_p + ε_w 透かし長要件:Θ(√d/ε_w) 元のデータ x → ポイズニングと透かしを同時に適用 → 最終データ x + δ_p + δ_w
ポイズニング生成器がポイズニングと透かしを同時に制御します 次元分離:透かし次元W、ポイズニング次元P = d \W 総摂動予算:max{ε_p, ε_w} 透かし長要件:Θ(1/ε_w²)からO(√d/ε_p) キー :d次元ベクトルζ検出 :内積ζᵀxを計算し、閾値と比較します判定 :ζᵀ(ポイズニングデータ) > 閾値 > ζᵀ(正常データ)サンプルレベル分析 :各データポイントは独立した透かしとキーを持ちます汎用版 :単一キーがすべてのサンプルに適用可能です分布一般化 :有限サンプルから全体分布への拡張McDiarmid不等式とVC次元理論を利用して、以下を証明します:
検出可能性 :高確率でポイズニングと正常データを区別します有用性の保持 :透かしのポイズニング効果への影響は制御可能です一般化性能 :有限サンプル結果を分布に拡張しますポイズニング並行透かしは次元分離を通じて干渉を回避します:
透かしは次元W = {d₁, d₂, ..., d_q}を使用します ポイズニングは次元P = d \Wを使用します 相互影響を減らし、パフォーマンスを向上させます CIFAR-10/CIFAR-100 :古典的な画像分類データセットTiny-ImageNet :小規模ImageNetSST-2 :テキスト感情分析データセットNarcissus :クリーンラベルバックドア攻撃AdvSc :対抗的バックドア攻撃UE(Unlearnable Examples) :学習不可能なサンプルAP(Adversarial Poisoning) :対抗的ポイズニングResNet-18/50、VGG-19、DenseNet121 WRN34-10、MobileNet v2、ViT-B BERT-base(テキストタスク) 精度(Acc) :テストセットに対するモデルのパフォーマンス攻撃成功率(ASR) :バックドア攻撃の有効性AUROC :透かし検出パフォーマンス計算オーバーヘッド :時間コスト分析透かし/ポイズニング予算:4/255から32/255 透かし長:100から3000 トレーニング:200エポック、コサイン学習率スケジューリング オプティマイザ:SGD、モメンタム0.9、重み減衰10⁻⁴ 透かし長 Narcissus(事後) Narcissus(並行) AdvSc(事後) AdvSc(並行) 500 0.9509 0.9968 0.9218 0.9986 1000 0.9974 0.9992 0.9809 0.9995 2000 1.0000 1.0000 0.9994 1.0000
事後ポイズニング透かし :すべての透かし長にわたって良好な攻撃パフォーマンスを維持しますポイズニング並行透かし :透かし長が大きすぎる場合、攻撃効果が明らかに低下します実験結果は理論予測を検証します:
ポイズニング並行透かしは同じ検出パフォーマンスを達成するためにより短い透かし長が必要です 事後ポイズニング透かしはポイズニング有用性への影響がより小さいです 透かし長と検出パフォーマンスは正の相関があります ε_wが増加するにつれて:
検出パフォーマンス(AUROC)が向上します ポイズニング効果が低下します 理論における権衡関係を検証します 異なる画像領域(左上、左下、右上、右下)をテストします:
位置がパフォーマンスに与える影響は微小です 理論における位置無関性を検証します 異なるアーキテクチャ間で良好な転移性を示します:
高いAUROCスコア(>0.95) アーキテクチャ間での検出の安定性 Random Flip、Cutout、Color Jitterなどをテストします:
AUROCは1.0000を維持します 強いロバストネスを示します 差分プライバシー :深刻なノイズがトレーニング失敗を招きます拡散浄化 :透かしとポイズニングの両方を破壊します対抗的デノイジング :ポイズニング有用性に影響しますバックドア攻撃 :BadNets、Narcissusなど可用性攻撃 :学習不可能なサンプル、対抗的ポイズニング防御方法 :検出アルゴリズム、データ浄化モデル透かし :ニューラルネットワーク著作権保護データ透かし :データセット所有権検証テキスト透かし :大規模言語モデル生成コンテンツ検出本論文は、透かし技術をデータポイズニングシナリオに初めて体系的に適用し、理論的保証と実用的なソリューションを提供します。
理論的貢献 :データポイズニング透かしの理論フレームワークを確立しました実用的なソリューション :2つの展開可能な透かし方法を提供しますパフォーマンス検証 :実験が理論予測の正確性を確認しました応用価値 :「善意」のポイズニングに透明性と説明責任を提供します必要条件が不明 :充分条件のみを提供し、必要条件は今後の研究が必要です防御脆弱性 :強い防御方法に直面するとパフォーマンスが低下します計算オーバーヘッド :ポイズニング並行透かしには追加の計算時間が必要です適用範囲 :主に知覚不可能なポイズニング攻撃を対象としていますより強いロバストネス :防御に対抗する透かしスキームの設計必要条件 :透かし検出可能性の必要条件の探索効率最適化 :計算とストレージオーバーヘッドの削減応用拡張 :より多くのポイズニングタイプと領域への拡張問題の重要性 :データポイズニング透明性の実際的なニーズに対処します理論的厳密性 :完全な数学分析と証明を提供します方法の革新性 :透かしとポイズニング技術を初めて体系的に組み合わせます実験の充実 :複数のデータセット、モデル、攻撃の包括的な検証実用価値 :展開可能なソリューションを提供します防御への考慮不足 :強い防御方法に対するロバストネスが限定的です理論的完全性 :必要条件分析が不足しています適用範囲の制限 :主に知覚不可能な攻撃に適用可能です計算効率 :特定のシナリオではオーバーヘッドが高いです学術的貢献 :2つの重要なセキュリティ領域を革新的に組み合わせます実用価値 :AIセキュリティとデータ保護に新しいツールを提供します理論的意義 :新しい理論分析フレームワークを確立します産業応用 :データセット著作権保護などのシナリオに適用可能ですデータセット公開 :オープンソースデータセットの著作権保護芸術作品保護 :生成型AIによる不正使用の防止企業データ共有 :内部データ使用追跡学術研究 :研究データのソース検証def post_poisoning_watermark(poisoned_data, key, watermark_dims, budget):
watermark = budget * sign(key[watermark_dims])
watermarked_data = poisoned_data + watermark
return watermarked_data
def detect_watermark(suspect_data, key, threshold):
detection_value = key.T @ suspect_data
return 1 if detection_value > threshold else 0
McDiarmid不等式に基づいて、事後ポイズニング透かしについて:
q > (2/ε_w)√(2d log(1/ω))の場合 P(ζᵀ(x₁ + δ₁) > ζᵀx₂) > 1 - 2ω キー管理 :キーローテーションとHMAC認証をサポートします完全性検証 :SHA256ハッシュがデータ完全性を保証しますアクセス制御 :HTTPSベースのセキュアキー配布スケーラビリティ :大規模データセット処理をサポートします要約 :本論文は、データポイズニングと透かし技術の交差領域において革新的な貢献を行い、厳密な理論分析を提供するだけでなく、実用的なソリューションも提供しています。防御ロバストネスと理論的完全性の面でまだ改善の余地がありますが、解決する問題は重要な現実的意義を持ち、AIセキュリティとデータ保護分野に新しい研究方向とツールを提供しています。