2025-11-10T02:43:43.995345

DITTO: A Spoofing Attack Framework on Watermarked LLMs via Knowledge Distillation

Ahn, Park, Han

The promise of LLM watermarking rests on a core assumption that a specific watermark proves authorship by a specific model. We demonstrate that this assumption is dangerously flawed. We introduce the threat of watermark spoofing, a sophisticated attack that allows a malicious model to generate text containing the authentic-looking watermark of a trusted, victim model. This enables the seamless misattribution of harmful content, such as disinformation, to reputable sources. The key to our attack is repurposing watermark radioactivity, the unintended inheritance of data patterns during fine-tuning, from a discoverable trait into an attack vector. By distilling knowledge from a watermarked teacher model, our framework allows an attacker to steal and replicate the watermarking signal of the victim model. This work reveals a critical security gap in text authorship verification and calls for a paradigm shift towards technologies capable of distinguishing authentic watermarks from expertly imitated ones. Our code is available at https://github.com/hsannn/ditto.git.

academic

DITTO: A Spoofing Attack Framework on Watermarked LLMs via Knowledge Distillation

基本信息

论文ID: 2510.10987
标题: DITTO: A Spoofing Attack Framework on Watermarked LLMs via Knowledge Distillation
作者: Hyeseon Ahn, Shinwoo Park, Yo-Sub Han (Yonsei University)
分类: cs.CR (Cryptography and Security), cs.AI (Artificial Intelligence)
发表时间: 2025年10月13日 (arXiv预印本)
论文链接: https://arxiv.org/abs/2510.10987
代码链接: https://github.com/hsannn/ditto.git

安全威胁识别：现有研究主要关注水印擦除攻击，较少关注水印伪造攻击
实际危害性：水印欺骗比擦除更危险，因为它会产生误导性的确定感
技术缺陷暴露：揭示当前水印验证范式的根本性安全缺陷

核心贡献

首次将水印放射性武器化：将原本用于检测的现象转变为强大的错误归因工具
高度适应性攻击框架：证明了攻击对n-gram和采样型水印方案的有效性
打破强度-质量权衡：发现可以显著增加欺骗强度而不明显降低文本质量
系统性安全评估：首次系统性地评估了LLM水印的欺骗攻击威胁

θS = arg max Σ Σ log P(xi|x1:i-1; θO)
     θO    x∈DT i=1

其中DT是由水印教师模型MT生成的数据集，θS和θO分别是学生模型和原始模型的参数。

2. 水印提取 (Watermark Extraction)

通过分析训练前后模型logits差异来提取水印信号：

全局偏差：

δglobal = Ec∈DT[lMS(c)] - Ec∈DT[lMO(c)]

局部偏差：

δp = Ec∈DT|c ends with p[lMS(c)] - Ec∈DT|c ends with p[lMO(c)]

最终提取信号：

EWS(c) = δglobal + Σ w(p) · δp
                   p∈prefixes(c)

3. 欺骗攻击 (Spoofing Attack)

在推理时将提取的水印信号注入攻击者模型：

l'MO(c) = lMO(c) + α · EWS(c)

其中α是控制注入强度的缩放参数。

技术创新点

利用水印放射性：创新性地将水印放射性从检测工具转变为攻击载体
方案无关性：不依赖于特定水印方案的实现细节
实时注入机制：在推理阶段动态注入水印信号
黑盒攻击设置：在实际约束条件下进行攻击

实验设置

数据集

Dolly-15k：包含15,000个人工生成的提示/响应对，用于指令微调
MarkMyWords (MMW) Bookreport：专门用于水印技术系统评估的基准测试

模型配置

教师-学生模型对：
- Llama3.1-8B → Llama3.2-3B
- Llama3.2-3B → Llama3.2-1B

评价指标

TPR@FPR：在固定假阳性率(10%, 1%, 0.1%)下的真阳性率
p-value：水印检测的统计显著性(中位数)
Perplexity：文本质量评估指标

对比方法

JSV (Jovanović et al., 2024)
De-Mark (Chen et al., 2025) - 灰盒和黑盒设置
原始水印模型作为上界基准

实现细节

水印参数：δ=3, γ=0.5, z-threshold=4.0
训练：3个epoch的LoRA微调
攻击强度：α ∈ 2.5, 3, 3.5, 4, 4.5, 5

实验结果

主要结果

在MMW Bookreport数据集上，DITTO攻击Llama3.1-8B的结果：

TPR@FPR=10%: 0.81
TPR@FPR=1%: 0.70
TPR@FPR=0.1%: 0.51
中位数p-value: 7.97E-04
Perplexity: 4.18

在Llama3.2-3B上表现更佳：

TPR@FPR=10%: 0.99
TPR@FPR=1%: 0.99
TPR@FPR=0.1%: 0.97
中位数p-value: 5.48E-17
Perplexity: 2.44

Llama3.1-8B: TPR@10%=0.88, p-value=7.10E-10
Llama3.2-3B: TPR@10%=0.90, p-value=8.12E-12

3. 模型规模影响

较小的模型作为攻击载体时表现更好，可能因为更容易学习和复制水印模式。

消融实验

通过变化α参数(2.5-5.0)的实验表明：

p-value随α增加而持续下降
Perplexity变化不规律，没有明显的质量退化趋势

结论与讨论

主要结论

根本性安全缺陷：当前水印技术的核心假设存在严重漏洞
实用攻击威胁：DITTO在黑盒设置下即可有效攻击
范式转换需求：需要从存在检测转向真实性验证

局限性

依赖水印继承效果：攻击成功依赖于学生模型对水印的忠实继承
缺乏防御机制研究：论文专注于攻击，未探索对应防御
有限的方案覆盖：仅测试了两种主要水印类型

未来方向

鲁棒水印设计：开发抗欺骗的水印技术
真实性验证：区分真实和模仿水印的方法
密码学方法：将水印与模型身份绑定的机制

深度评价

优点

重要安全发现：揭示了水印技术的根本性安全问题
方法创新性：首次系统化地利用水印放射性进行攻击
实验充分性：跨多种模型、数据集和水印方案的全面评估
实际威胁价值：在现实约束下的黑盒攻击设置

不足

伦理风险：提供了可能被恶意利用的攻击方法
防御缺失：未提供相应的防御或缓解策略
理论分析不足：缺乏对攻击成功条件的理论分析
方案覆盖有限：仅测试了有限的水印方案

影响力

学术贡献：为水印安全研究开辟新方向
实用价值：警示当前水印技术的安全风险
政策影响：可能影响相关监管政策的制定

适用场景

安全评估：评估现有水印系统的安全性
红队测试：AI安全团队的攻击性测试工具
研究基准：后续防御研究的攻击基线

参考文献

本文引用了水印技术、攻击方法和AI安全等领域的重要研究，包括：

Kirchenbauer et al. (2023) - KGW水印方案
Dathathri et al. (2024) - SynthID采样型水印
Sander et al. (2024) - 水印放射性概念
以及多项水印攻击和防御的相关工作

总体评价：这是一篇具有重要安全意义的论文，揭示了当前LLM水印技术的根本性漏洞。虽然存在伦理争议，但其学术价值和对领域发展的推动作用不容忽视。论文为未来更安全的水印技术发展指明了方向。