2025-11-10T02:43:43.995345

DITTO: A Spoofing Attack Framework on Watermarked LLMs via Knowledge Distillation

Ahn, Park, Han
The promise of LLM watermarking rests on a core assumption that a specific watermark proves authorship by a specific model. We demonstrate that this assumption is dangerously flawed. We introduce the threat of watermark spoofing, a sophisticated attack that allows a malicious model to generate text containing the authentic-looking watermark of a trusted, victim model. This enables the seamless misattribution of harmful content, such as disinformation, to reputable sources. The key to our attack is repurposing watermark radioactivity, the unintended inheritance of data patterns during fine-tuning, from a discoverable trait into an attack vector. By distilling knowledge from a watermarked teacher model, our framework allows an attacker to steal and replicate the watermarking signal of the victim model. This work reveals a critical security gap in text authorship verification and calls for a paradigm shift towards technologies capable of distinguishing authentic watermarks from expertly imitated ones. Our code is available at https://github.com/hsannn/ditto.git.
academic

DITTO: 知識蒸留を用いた透かし入りLLMへのなりすまし攻撃フレームワーク

基本情報

  • 論文ID: 2510.10987
  • タイトル: DITTO: A Spoofing Attack Framework on Watermarked LLMs via Knowledge Distillation
  • 著者: Hyeseon Ahn, Shinwoo Park, Yo-Sub Han (延世大学)
  • 分類: cs.CR (暗号化とセキュリティ)、cs.AI (人工知能)
  • 発表日: 2025年10月13日 (arXiv プレプリント)
  • 論文リンク: https://arxiv.org/abs/2510.10987
  • コードリンク: https://github.com/hsannn/ditto.git

要旨

大規模言語モデル(LLM)の透かし技術は、特定の透かしが特定モデルの著者身分を証明できるという中核的な仮定に基づいている。本論文は、この仮定に危険な欠陥が存在することを実証する。著者らは透かしなりすまし攻撃の脅威を提案し、これは悪意あるモデルが信頼できる被害者モデルの真正な透かしを含むテキストを生成することを可能にする高度な攻撃方法である。これにより、虚偽情報などの有害なコンテンツが信頼できるソースに無理なく誤って帰属される可能性がある。攻撃の鍵は、透かしの放射性(微調整プロセス中のデータパターンの無意識的継承)を検出可能な特性から攻撃ベクトルへと変換することである。透かし教師モデルから知識を抽出することにより、このフレームワークは攻撃者が被害者モデルの透かし信号を窃取および複製することを可能にする。

研究背景と動機

問題背景

大規模言語モデルが産業応用、教育、日常生活に広く普及するにつれて、LLM生成テキストの検出と検証が極めて重要になっている。米国とEUの規制当局は、LLM生成コンテンツに対してより明確なソース追跡可能性を要求している。Meta、OpenAI、Google DeepMindなどの主要な産業参加者は、ソース検証の実用的なツールとして透かし技術を採用している。

中核的問題

既存のLLM透かし技術は、特定の透かしの検出が特定モデルの著者身分を証明できるという根本的な仮定に基づいている。しかし、この仮定には重大な欠陥があり、虚偽情報の拡散に悪用され、それを信頼できるソースに帰属させるために利用される可能性がある。

研究動機

  1. セキュリティ脅威の特定: 既存研究は主に透かし除去攻撃に焦点を当てており、透かし偽造攻撃への関心は少ない
  2. 実際の危険性: 透かしなりすまし攻撃は除去攻撃よりも危険である。なぜなら、それは誤解を招く確実性を生み出すからである
  3. 技術的欠陥の露出: 現在の透かし検証パラダイムの根本的なセキュリティ欠陥を明らかにする

中核的貢献

  1. 透かし放射性の初めての武器化: 元々検出用に使用されていた現象を強力な誤帰属ツールに変換
  2. 高度に適応可能な攻撃フレームワーク: n-gramおよびサンプリング型透かしスキームに対する攻撃の有効性を実証
  3. 強度と品質のトレードオフの打破: テキスト品質の著しい低下なしに、なりすまし強度を大幅に増加させることが可能であることを発見
  4. 体系的なセキュリティ評価: LLM透かしのなりすまし攻撃脅威の初めての体系的評価

方法の詳細

タスク定義

透かし入りモデルMTを目標として、攻撃者は別のモデルMを訓練して、MTの透かし信号を含むテキストを生成し、透かし検出器を欺くことを希望する。攻撃はブラックボックス設定で実行され、攻撃者は目標モデルのロジットまたは透かしスキームの具体的な情報にアクセスできない。

DITTOフレームワークアーキテクチャ

DITTOフレームワークは3つの主要なステージで構成されている:

1. 透かし継承 (Watermark Inheritance)

知識蒸留を通じて目標モデルの透かしパターンをオープンソースの学生モデルに転送:

θS = arg max Σ Σ log P(xi|x1:i-1; θO)
     θO    x∈DT i=1

ここで、DTは透かし教師モデルMTによって生成されたデータセット、θSとθOはそれぞれ学生モデルと元のモデルのパラメータである。

2. 透かし抽出 (Watermark Extraction)

訓練前後のモデルロジット差異を分析して透かし信号を抽出:

グローバルバイアス:

δglobal = Ec∈DT[lMS(c)] - Ec∈DT[lMO(c)]

ローカルバイアス:

δp = Ec∈DT|c ends with p[lMS(c)] - Ec∈DT|c ends with p[lMO(c)]

最終抽出信号:

EWS(c) = δglobal + Σ w(p) · δp
                   p∈prefixes(c)

3. なりすまし攻撃 (Spoofing Attack)

推論時に抽出された透かし信号を攻撃者モデルに注入:

l'MO(c) = lMO(c) + α · EWS(c)

ここで、αは注入強度を制御するスケーリングパラメータである。

技術的革新点

  1. 透かし放射性の活用: 透かし放射性を検出ツールから攻撃ベクトルへと革新的に変換
  2. スキーム非依存性: 特定の透かしスキームの実装詳細に依存しない
  3. リアルタイム注入メカニズム: 推論段階での動的な透かし信号注入
  4. ブラックボックス攻撃設定: 実際の制約条件下での攻撃

実験設定

データセット

  1. Dolly-15k: 15,000個の人工生成されたプロンプト/応答ペアを含み、指示微調整に使用
  2. MarkMyWords (MMW) Bookreport: 透かし技術の体系的評価用に特別に設計されたベンチマーク

モデル構成

  • 教師-学生モデルペア:
    • Llama3.1-8B → Llama3.2-3B
    • Llama3.2-3B → Llama3.2-1B

評価指標

  1. TPR@FPR: 固定偽陽性率(10%、1%、0.1%)での真陽性率
  2. p値: 透かし検出の統計的有意性(中央値)
  3. パープレキシティ: テキスト品質評価指標

比較手法

  • JSV (Jovanović et al., 2024)
  • De-Mark (Chen et al., 2025) - グレーボックスおよびブラックボックス設定
  • 元の透かし入りモデル - 上限ベースラインとして

実装詳細

  • 透かしパラメータ: δ=3、γ=0.5、z-threshold=4.0
  • 訓練: 3エポックのLoRA微調整
  • 攻撃強度: α ∈ 2.5、3、3.5、4、4.5、5

実験結果

主要結果

MMW Bookreportデータセット上でのDITTO攻撃(Llama3.1-8B):

  • TPR@FPR=10%: 0.81
  • TPR@FPR=1%: 0.70
  • TPR@FPR=0.1%: 0.51
  • 中央値p値: 7.97E-04
  • パープレキシティ: 4.18

Llama3.2-3B上ではさらに優れた性能:

  • TPR@FPR=10%: 0.99
  • TPR@FPR=1%: 0.99
  • TPR@FPR=0.1%: 0.97
  • 中央値p値: 5.48E-17
  • パープレキシティ: 2.44

主要な発見

1. 攻撃強度とテキスト品質の非従来的関係

実験により、スケーリングパラメータαの増加に伴い、パープレキシティが単調に増加するのではなく、変動パターンを示すことが明らかになった。これは「より強い攻撃は必然的に品質低下をもたらす」という従来の仮定を打ち破る。

2. スキーム間の汎用性

DITTOはSynthID(サンプリング型透かし)に対しても同様に有効:

  • Llama3.1-8B: TPR@10%=0.88、p値=7.10E-10
  • Llama3.2-3B: TPR@10%=0.90、p値=8.12E-12

3. モデルサイズの影響

攻撃ベクトルとしてのより小さいモデルはより優れた性能を示し、これは透かしパターンの学習と複製がより容易であることが原因と考えられる。

アブレーション実験

αパラメータ(2.5-5.0)の変動実験により:

  • p値はαの増加に伴い継続的に低下
  • パープレキシティの変化は不規則で、明らかな品質低下傾向がない

関連研究

LLM透かし技術

  1. 語彙分割ベースの方法: KGWスキームおよびその改善版
  2. サンプリング型方法: SynthID、Tournament samplingなど
  3. マルチビットスキーム: ユーザー追跡可能な識別子をサポート

透かし攻撃研究

  1. 除去攻撃: パラフレーズ、最適化などの方法による透かし除去
  2. 窃取攻撃: 透かしメカニズムのリバースエンジニアリング
  3. なりすまし攻撃: 本論文の焦点、相対的に研究が少ない領域

透かし放射性

  • 検出用途: Sanderらによるソース監査への使用
  • 防御研究: Panらの中和方法
  • 攻撃への転化: 本論文が初めて武器化

結論と考察

主要な結論

  1. 根本的なセキュリティ欠陥: 現在の透かし技術の中核的仮定に重大な欠陥が存在
  2. 実用的な攻撃脅威: DITTOはブラックボックス設定でも効果的に攻撃可能
  3. パラダイム転換の必要性: 検出の存在から真正性検証への転換が必要

限界

  1. 透かし継承効果への依存: 攻撃の成功は学生モデルによる透かしの忠実な継承に依存
  2. 防御メカニズム研究の欠如: 論文は攻撃に焦点を当てており、対応する防御は探索していない
  3. スキームカバレッジの限定: 2つの主要な透かしタイプのみをテスト

今後の方向性

  1. 堅牢な透かし設計: なりすまし耐性を持つ透かし技術の開発
  2. 真正性検証: 真正な透かしと模倣透かしを区別する方法
  3. 暗号学的方法: 透かしをモデル身分に結合するメカニズム

深い評価

利点

  1. 重要なセキュリティ発見: 透かし技術の根本的なセキュリティ問題を露出
  2. 方法の革新性: 透かし放射性を利用した攻撃の初めての体系的化
  3. 実験の充実性: 複数のモデル、データセット、透かしスキーム間での包括的評価
  4. 実用的な脅威価値: 現実的な制約下でのブラックボックス攻撃設定

不足点

  1. 倫理的リスク: 悪意のある利用の可能性がある攻撃方法を提供
  2. 防御の欠如: 対応する防御または緩和戦略を提供していない
  3. 理論的分析の不足: 攻撃成功条件の理論的分析が不足
  4. スキームカバレッジの限定: 限定的な透かしスキームのみをテスト

影響力

  1. 学術的貢献: 透かしセキュリティ研究に新たな方向性を開く
  2. 実用的価値: 現在の透かし技術のセキュリティリスクに警告
  3. 政策への影響: 関連する規制政策の策定に影響を与える可能性

適用シナリオ

  1. セキュリティ評価: 既存の透かしシステムのセキュリティ評価
  2. レッドチームテスト: AIセキュリティチームの攻撃的テストツール
  3. 研究ベンチマーク: 後続の防御研究のための攻撃ベースライン

参考文献

本論文は、透かし技術、攻撃方法、AIセキュリティなどの分野における重要な研究を引用している。これには以下が含まれる:

  • Kirchenbauer et al. (2023) - KGW透かしスキーム
  • Dathathri et al. (2024) - SynthIDサンプリング型透かし
  • Sander et al. (2024) - 透かし放射性の概念
  • および透かし攻撃と防御に関する複数の関連研究

総合評価: これは現在のLLM透かし技術の根本的な欠陥を露出させる、重要なセキュリティ意義を持つ論文である。倫理的な議論は存在するが、その学術的価値と領域発展への推進力は否定できない。本論文は、今後のより安全な透かし技術開発の方向性を示している。