Identifying training data within large-scale models is critical for copyright litigation, privacy auditing, and ensuring fair evaluation. The conventional approaches treat it as a simple binary classification task without statistical guarantees. A recent approach is designed to control the false discovery rate (FDR), but its guarantees rely on strong, easily violated assumptions. In this paper, we introduce Provable Training Data Identification (PTDI), a rigorous method that identifies a set of training data with strict false discovery rate (FDR) control. Specifically, our method computes p-values for each data point using a set of known unseen data, and then constructs a conservative estimator for the data usage proportion of the test set, which allows us to scale these p-values. Our approach then selects the final set of training data by identifying all points whose scaled p-values fall below a data-dependent threshold. This entire procedure enables the discovery of training data with provable, strict FDR control and significantly boosted power. Extensive experiments across a wide range of models (LLMs and VLMs), and datasets demonstrate that PTDI strictly controls the FDR and achieves higher power.
- 论文ID: 2510.09717
- 标题: High-Power Training Data Identification with Provable Statistical Guarantees
- 作者: Zhenlong Liu, Hao Zeng, Weiran Huang, Hongxin Wei
- 分类: cs.LG cs.AI
- 发表时间/会议: Preprint (2025年10月)
- 论文链接: https://arxiv.org/abs/2510.09717
识别大规模模型中的训练数据对于版权诉讼、隐私审计和确保公平评估至关重要。传统方法将其视为简单的二元分类任务,缺乏统计保证。最近的方法虽然设计了控制错误发现率(FDR)的机制,但其保证依赖于容易违反的强假设。本文提出了可证明训练数据识别(PTDI)方法,这是一种严格控制错误发现率的方法。该方法使用已知的未见数据集计算每个数据点的p值,然后构造测试集数据使用比例的保守估计器来缩放这些p值。最后通过识别缩放p值低于数据依赖阈值的所有点来选择最终的训练数据集合。整个过程实现了可证明的严格FDR控制,并显著提升了统计功效。
随着机器学习模型的广泛部署,训练数据识别变得至关重要,主要体现在:
- 版权争议:如Strike 3诉Meta案,涉及2,396部版权影片,潜在法定赔偿超过3.5亿美元
- 数据隐私:符合GDPR、CCPA等隐私法规要求
- 数据污染:确保评估基准的公平性,防止训练数据泄露
- 传统方法:将训练数据检测视为简单的二元分类任务,缺乏理论保证
- 最近方法:如Hu等人(2025)提出的knockoff统计方法虽然控制FDR,但存在以下问题:
- 需要访问模型梯度,在黑盒设置中不可用
- 构造有效knockoff困难,容易违反对称分布假设
- 可能导致无效的FDR控制
本文旨在设计一个分布无关的方法,在白盒和黑盒设置下都能提供严格的FDR控制,同时具有更高的统计功效。
- 提出PTDI方法:一种新颖且通用的方法,实现分布无关的有限样本FDR控制,可与现有检测方法结合使用
- 理论保证:提供严格的理论证明(定理1),确保PTDI严格控制错误发现率
- 广泛实验验证:在多种模型(LLM和VLM)、任务(预训练和微调)和数据集上验证方法的有效性
- 实用性:方法模型无关,适用于黑盒和白盒设置,仅需未见数据作为校准集
给定目标模型θ、校准集Dcal(大小为n)和测试集Dtest = {Xn+j}^m_,目标是选择索引子集S ⊆ {1,...,m},使得错误发现率控制在用户指定水平α ∈ (0,1):
FDR=E[max(∣S∣,1)∑j=1m1{Mn+j=0,j∈S}]≤α
对每个测试点计算p值:
pj=n+11+∑i=1n1{Ti≤Tn+j}
其中T(X;θ)是检测分数(如困惑度),较低分数表示更可能是训练成员。
使用减法估计器π̂sub估计测试集中训练数据的比例πtest:
π^sub=1−n1∑i=1n1{T(Xi)∈R}m+11(1+∑j=1m1{T(Xn+j)∈R})
其中R = (τ,+∞)是通过分位数阈值η构造的稀疏成员区域。
计算缩放p值:
p~j=(1−π^test)pj
应用BH程序选择最终集合:
S={j∣p~j≤mk∗α}
其中k∗=max{k∣p~(k)≤mkα}
- 保守估计器设计:减法估计器确保E(1-πtest)/(1-π̂sub) ≤ 1,维持FDR控制
- p值缩放技术:通过缩放p值克服标准BH程序的保守性,显著提升统计功效
- 分布无关保证:不依赖于特定的分布假设,具有广泛适用性
- LLM预训练:WikiMIA、ArxivTection
- LLM微调:XSum、BBC Real Time
- 视觉语言模型:VL-MIA/Flickr、VL-MIA/DALL-E
- LLM:GPT-2、GPT-Neo、GPT-NeoX-20B、LLaMA-7B、Pythia(1.4B和6.9B)
- VLM:LLaVA-1.5、MiniGPT-4
- LLM:困惑度(Perplexity)、Zlib压缩比、MIN-K%、修正熵(M-Entropy)
- VLM:MaxRényi-K%
- FDR:错误发现率的经验估计
- Power:统计功效,正确识别真实成员的比例
在所有实验设置中,PTDI方法都严格控制FDR在目标水平以下:
- WikiMIA上Pythia-1.4B,目标FDR=5%:PTDI实现4.94% vs KTD的13.11%
- 所有模型和数据集组合都显示实际FDR低于目标水平
p值缩放显著提升统计功效:
- WikiMIA上GPT-NeoX-20B,目标FDR=0.5,MIN-K%分数:功效从0.44提升到0.75
- 在不同目标FDR水平下,缩放方法始终优于vanilla方法
- 增加校准集大小(ρ = n/m从0.1到1.0)减少FDP和功效的方差
- 所有ρ值都能有效控制FDR
- 在η ∈ {0.01, 0.05, 0.1, 0.5}范围内,方法都能稳健控制FDR
- 默认设置η = 0.05
- 在不同数据使用比例(πtest = 0.3, 0.5, 0.7)下都能维持FDR控制
- PTDI在所有测试设置下都严格控制FDR
- KTD在WikiMIA和XSum上某些α值下失控
- 在FDR控制有效的情况下,PTDI在GPT-2上功效更优
提出了偏差校正的矩估计器π̂mom,在有确认成员数据可用时进一步提升功效,同时保持FDR控制。
- 数据污染研究:防止基准数据泄露到训练集
- 启发式检测分数:困惑度、MIN-k%等方法缺乏理论保证
- 统计严格方法:Dekoninck等人和Oren等人的方法仅适用于数据集级别假设
- 隐私角度:MIA旨在确定特定数据点是否用于训练
- 二元分类方法:关注平均分类准确率
- 假设检验框架:Attack-P等方法优先考虑低FPR下的TPR
- Benjamini-Hochberg程序:标准FDR控制工具
- conformal p值:Jin & Candès的方法需要强i.i.d假设
- knockoff统计:Hu等人的方法需要高质量knockoff生成
- PTDI方法实现了严格的FDR控制,具有分布无关的有限样本保证
- p值缩放技术显著提升统计功效,同时维持理论严格性
- 方法具有广泛适用性,可与现有检测方法结合使用
- 校准集要求:需要与测试集分布相似的未见数据校准集
- 异构数据挑战:对于高度异构的测试数据,构造代表性校准集困难
- 分布不匹配:校准数据与测试数据的显著分布不匹配可能使FDR保证失效
- 开发更鲁棒的数据使用比例估计方法
- 研究在分布不匹配情况下的FDR控制
- 扩展到更复杂的检测场景
- 理论严格性:提供了完整的数学证明和有限样本保证
- 实用性强:方法简单易实现,可与现有工具结合
- 实验充分:涵盖多种模型、任务和数据集的广泛评估
- 创新性:p值缩放技术巧妙解决了BH程序保守性问题
- 假设限制:依赖于能够获得合适校准集的假设
- 计算开销:需要对大量候选数据点计算检测分数
- 参数选择:虽然对η鲁棒,但最优选择仍需经验指导
- 学术贡献:为训练数据识别提供了首个严格的统计框架
- 实用价值:在版权诉讼和隐私审计中具有直接应用价值
- 可复现性:算法描述清晰,易于复现和扩展
- 版权保护:识别模型训练中使用的受版权保护内容
- 隐私审计:验证个人数据是否被用于模型训练
- 基准评估:检测和移除评估数据集中的污染样本
- 模型审计:在监管环境中验证模型合规性
论文引用了多个重要工作,包括:
- Benjamini & Hochberg (1995): FDR控制的经典BH程序
- Shi et al. (2024): WikiMIA数据集和MIN-K%检测方法
- Hu et al. (2025): 基于knockoff统计的训练数据检测
- Jin & Candès (2023): conformal p值在选择问题中的应用
总结:这是一篇在训练数据识别领域具有重要理论和实践价值的论文。PTDI方法不仅提供了严格的统计保证,还在实际应用中展现出优异的性能。该工作为解决当前AI模型透明度和问责制问题提供了重要工具。