2025-11-10T02:43:43.995345

DITTO: A Spoofing Attack Framework on Watermarked LLMs via Knowledge Distillation

Ahn, Park, Han
The promise of LLM watermarking rests on a core assumption that a specific watermark proves authorship by a specific model. We demonstrate that this assumption is dangerously flawed. We introduce the threat of watermark spoofing, a sophisticated attack that allows a malicious model to generate text containing the authentic-looking watermark of a trusted, victim model. This enables the seamless misattribution of harmful content, such as disinformation, to reputable sources. The key to our attack is repurposing watermark radioactivity, the unintended inheritance of data patterns during fine-tuning, from a discoverable trait into an attack vector. By distilling knowledge from a watermarked teacher model, our framework allows an attacker to steal and replicate the watermarking signal of the victim model. This work reveals a critical security gap in text authorship verification and calls for a paradigm shift towards technologies capable of distinguishing authentic watermarks from expertly imitated ones. Our code is available at https://github.com/hsannn/ditto.git.
academic

DITTO: A Spoofing Attack Framework on Watermarked LLMs via Knowledge Distillation

基本信息

  • 论文ID: 2510.10987
  • 标题: DITTO: A Spoofing Attack Framework on Watermarked LLMs via Knowledge Distillation
  • 作者: Hyeseon Ahn, Shinwoo Park, Yo-Sub Han (Yonsei University)
  • 分类: cs.CR (Cryptography and Security), cs.AI (Artificial Intelligence)
  • 发表时间: 2025年10月13日 (arXiv预印本)
  • 论文链接: https://arxiv.org/abs/2510.10987
  • 代码链接: https://github.com/hsannn/ditto.git

摘要

大语言模型(LLM)水印技术基于一个核心假设:特定的水印能够证明特定模型的作者身份。本文证明了这一假设存在危险缺陷。作者提出了水印欺骗攻击威胁,这是一种复杂的攻击方式,允许恶意模型生成包含可信受害者模型真实水印的文本。这使得有害内容(如虚假信息)可以被无缝地错误归因于可信来源。攻击的关键是将水印放射性(微调过程中数据模式的无意继承)从可发现特征转变为攻击载体。通过从水印教师模型中提取知识,该框架允许攻击者窃取并复制受害者模型的水印信号。

研究背景与动机

问题背景

随着大语言模型在工业应用、教育和日常生活中的广泛应用,对LLM生成文本的检测和验证变得至关重要。美国和欧盟的监管机构都要求LLM生成内容具有更清晰的来源追溯能力。主要的工业参与者(如Meta、OpenAI、Google DeepMind)都将水印技术作为来源验证的实用工具。

核心问题

现有的LLM水印技术基于一个根本假设:检测到特定水印就能证明特定模型的作者身份。然而,这一假设存在严重漏洞,可能被恶意利用来传播虚假信息并将其归因于可信来源。

研究动机

  1. 安全威胁识别:现有研究主要关注水印擦除攻击,较少关注水印伪造攻击
  2. 实际危害性:水印欺骗比擦除更危险,因为它会产生误导性的确定感
  3. 技术缺陷暴露:揭示当前水印验证范式的根本性安全缺陷

核心贡献

  1. 首次将水印放射性武器化:将原本用于检测的现象转变为强大的错误归因工具
  2. 高度适应性攻击框架:证明了攻击对n-gram和采样型水印方案的有效性
  3. 打破强度-质量权衡:发现可以显著增加欺骗强度而不明显降低文本质量
  4. 系统性安全评估:首次系统性地评估了LLM水印的欺骗攻击威胁

方法详解

任务定义

给定一个水印模型MT作为目标,攻击者希望训练另一个模型M,使其能够生成包含MT水印信号的文本,从而欺骗水印检测器。攻击在黑盒设置下进行,攻击者无法访问目标模型的logits或水印方案的具体信息。

DITTO框架架构

DITTO框架包含三个主要阶段:

1. 水印继承 (Watermark Inheritance)

通过知识蒸馏将目标模型的水印模式转移到开源学生模型:

θS = arg max Σ Σ log P(xi|x1:i-1; θO)
     θO    x∈DT i=1

其中DT是由水印教师模型MT生成的数据集,θS和θO分别是学生模型和原始模型的参数。

2. 水印提取 (Watermark Extraction)

通过分析训练前后模型logits差异来提取水印信号:

全局偏差

δglobal = Ec∈DT[lMS(c)] - Ec∈DT[lMO(c)]

局部偏差

δp = Ec∈DT|c ends with p[lMS(c)] - Ec∈DT|c ends with p[lMO(c)]

最终提取信号

EWS(c) = δglobal + Σ w(p) · δp
                   p∈prefixes(c)

3. 欺骗攻击 (Spoofing Attack)

在推理时将提取的水印信号注入攻击者模型:

l'MO(c) = lMO(c) + α · EWS(c)

其中α是控制注入强度的缩放参数。

技术创新点

  1. 利用水印放射性:创新性地将水印放射性从检测工具转变为攻击载体
  2. 方案无关性:不依赖于特定水印方案的实现细节
  3. 实时注入机制:在推理阶段动态注入水印信号
  4. 黑盒攻击设置:在实际约束条件下进行攻击

实验设置

数据集

  1. Dolly-15k:包含15,000个人工生成的提示/响应对,用于指令微调
  2. MarkMyWords (MMW) Bookreport:专门用于水印技术系统评估的基准测试

模型配置

  • 教师-学生模型对
    • Llama3.1-8B → Llama3.2-3B
    • Llama3.2-3B → Llama3.2-1B

评价指标

  1. TPR@FPR:在固定假阳性率(10%, 1%, 0.1%)下的真阳性率
  2. p-value:水印检测的统计显著性(中位数)
  3. Perplexity:文本质量评估指标

对比方法

  • JSV (Jovanović et al., 2024)
  • De-Mark (Chen et al., 2025) - 灰盒和黑盒设置
  • 原始水印模型作为上界基准

实现细节

  • 水印参数:δ=3, γ=0.5, z-threshold=4.0
  • 训练:3个epoch的LoRA微调
  • 攻击强度:α ∈ 2.5, 3, 3.5, 4, 4.5, 5

实验结果

主要结果

在MMW Bookreport数据集上,DITTO攻击Llama3.1-8B的结果:

  • TPR@FPR=10%: 0.81
  • TPR@FPR=1%: 0.70
  • TPR@FPR=0.1%: 0.51
  • 中位数p-value: 7.97E-04
  • Perplexity: 4.18

在Llama3.2-3B上表现更佳:

  • TPR@FPR=10%: 0.99
  • TPR@FPR=1%: 0.99
  • TPR@FPR=0.1%: 0.97
  • 中位数p-value: 5.48E-17
  • Perplexity: 2.44

关键发现

1. 攻击强度与文本质量的非传统关系

实验发现,随着缩放参数α的增加,perplexity并不单调上升,而是呈现波动模式。这打破了"更强攻击必然导致质量下降"的传统假设。

2. 跨方案通用性

DITTO对SynthID(采样型水印)同样有效:

  • Llama3.1-8B: TPR@10%=0.88, p-value=7.10E-10
  • Llama3.2-3B: TPR@10%=0.90, p-value=8.12E-12

3. 模型规模影响

较小的模型作为攻击载体时表现更好,可能因为更容易学习和复制水印模式。

消融实验

通过变化α参数(2.5-5.0)的实验表明:

  • p-value随α增加而持续下降
  • Perplexity变化不规律,没有明显的质量退化趋势

相关工作

LLM水印技术

  1. 基于词表分割的方法:KGW方案及其改进版本
  2. 采样型方法:SynthID、Tournament sampling等
  3. 多比特方案:支持用户可追踪标识符

水印攻击研究

  1. 擦除攻击:通过释义、优化等方法移除水印
  2. 窃取攻击:逆向工程水印机制
  3. 欺骗攻击:本文重点,相对研究较少

水印放射性

  • 检测用途:Sander等人用于来源审计
  • 防御研究:Pan等人的中和方法
  • 攻击转化:本文首次将其武器化

结论与讨论

主要结论

  1. 根本性安全缺陷:当前水印技术的核心假设存在严重漏洞
  2. 实用攻击威胁:DITTO在黑盒设置下即可有效攻击
  3. 范式转换需求:需要从存在检测转向真实性验证

局限性

  1. 依赖水印继承效果:攻击成功依赖于学生模型对水印的忠实继承
  2. 缺乏防御机制研究:论文专注于攻击,未探索对应防御
  3. 有限的方案覆盖:仅测试了两种主要水印类型

未来方向

  1. 鲁棒水印设计:开发抗欺骗的水印技术
  2. 真实性验证:区分真实和模仿水印的方法
  3. 密码学方法:将水印与模型身份绑定的机制

深度评价

优点

  1. 重要安全发现:揭示了水印技术的根本性安全问题
  2. 方法创新性:首次系统化地利用水印放射性进行攻击
  3. 实验充分性:跨多种模型、数据集和水印方案的全面评估
  4. 实际威胁价值:在现实约束下的黑盒攻击设置

不足

  1. 伦理风险:提供了可能被恶意利用的攻击方法
  2. 防御缺失:未提供相应的防御或缓解策略
  3. 理论分析不足:缺乏对攻击成功条件的理论分析
  4. 方案覆盖有限:仅测试了有限的水印方案

影响力

  1. 学术贡献:为水印安全研究开辟新方向
  2. 实用价值:警示当前水印技术的安全风险
  3. 政策影响:可能影响相关监管政策的制定

适用场景

  1. 安全评估:评估现有水印系统的安全性
  2. 红队测试:AI安全团队的攻击性测试工具
  3. 研究基准:后续防御研究的攻击基线

参考文献

本文引用了水印技术、攻击方法和AI安全等领域的重要研究,包括:

  • Kirchenbauer et al. (2023) - KGW水印方案
  • Dathathri et al. (2024) - SynthID采样型水印
  • Sander et al. (2024) - 水印放射性概念
  • 以及多项水印攻击和防御的相关工作

总体评价:这是一篇具有重要安全意义的论文,揭示了当前LLM水印技术的根本性漏洞。虽然存在伦理争议,但其学术价值和对领域发展的推动作用不容忽视。论文为未来更安全的水印技术发展指明了方向。