2025-11-21T11:01:15.942804

High-Power Training Data Identification with Provable Statistical Guarantees

Liu, Zeng, Huang et al.
Identifying training data within large-scale models is critical for copyright litigation, privacy auditing, and ensuring fair evaluation. The conventional approaches treat it as a simple binary classification task without statistical guarantees. A recent approach is designed to control the false discovery rate (FDR), but its guarantees rely on strong, easily violated assumptions. In this paper, we introduce Provable Training Data Identification (PTDI), a rigorous method that identifies a set of training data with strict false discovery rate (FDR) control. Specifically, our method computes p-values for each data point using a set of known unseen data, and then constructs a conservative estimator for the data usage proportion of the test set, which allows us to scale these p-values. Our approach then selects the final set of training data by identifying all points whose scaled p-values fall below a data-dependent threshold. This entire procedure enables the discovery of training data with provable, strict FDR control and significantly boosted power. Extensive experiments across a wide range of models (LLMs and VLMs), and datasets demonstrate that PTDI strictly controls the FDR and achieves higher power.
academic

High-Power Training Data Identification with Provable Statistical Guarantees

基本信息

  • 论文ID: 2510.09717
  • 标题: High-Power Training Data Identification with Provable Statistical Guarantees
  • 作者: Zhenlong Liu, Hao Zeng, Weiran Huang, Hongxin Wei
  • 分类: cs.LG cs.AI
  • 发表时间/会议: Preprint (2025年10月)
  • 论文链接: https://arxiv.org/abs/2510.09717

摘要

识别大规模模型中的训练数据对于版权诉讼、隐私审计和确保公平评估至关重要。传统方法将其视为简单的二元分类任务,缺乏统计保证。最近的方法虽然设计了控制错误发现率(FDR)的机制,但其保证依赖于容易违反的强假设。本文提出了可证明训练数据识别(PTDI)方法,这是一种严格控制错误发现率的方法。该方法使用已知的未见数据集计算每个数据点的p值,然后构造测试集数据使用比例的保守估计器来缩放这些p值。最后通过识别缩放p值低于数据依赖阈值的所有点来选择最终的训练数据集合。整个过程实现了可证明的严格FDR控制,并显著提升了统计功效。

研究背景与动机

问题重要性

随着机器学习模型的广泛部署,训练数据识别变得至关重要,主要体现在:

  1. 版权争议:如Strike 3诉Meta案,涉及2,396部版权影片,潜在法定赔偿超过3.5亿美元
  2. 数据隐私:符合GDPR、CCPA等隐私法规要求
  3. 数据污染:确保评估基准的公平性,防止训练数据泄露

现有方法局限性

  1. 传统方法:将训练数据检测视为简单的二元分类任务,缺乏理论保证
  2. 最近方法:如Hu等人(2025)提出的knockoff统计方法虽然控制FDR,但存在以下问题:
    • 需要访问模型梯度,在黑盒设置中不可用
    • 构造有效knockoff困难,容易违反对称分布假设
    • 可能导致无效的FDR控制

研究动机

本文旨在设计一个分布无关的方法,在白盒和黑盒设置下都能提供严格的FDR控制,同时具有更高的统计功效。

核心贡献

  1. 提出PTDI方法:一种新颖且通用的方法,实现分布无关的有限样本FDR控制,可与现有检测方法结合使用
  2. 理论保证:提供严格的理论证明(定理1),确保PTDI严格控制错误发现率
  3. 广泛实验验证:在多种模型(LLM和VLM)、任务(预训练和微调)和数据集上验证方法的有效性
  4. 实用性:方法模型无关,适用于黑盒和白盒设置,仅需未见数据作为校准集

方法详解

任务定义

给定目标模型θ、校准集Dcal(大小为n)和测试集Dtest = {Xn+j}^m_,目标是选择索引子集S ⊆ {1,...,m},使得错误发现率控制在用户指定水平α ∈ (0,1):

FDR=E[j=1m1{Mn+j=0,jS}max(S,1)]α\text{FDR} = E\left[\frac{\sum_{j=1}^m \mathbf{1}\{M_{n+j} = 0, j \in S\}}{\max(|S|, 1)}\right] \leq \alpha

核心算法:PTDI

步骤1:构造conformal p值

对每个测试点计算p值: pj=1+i=1n1{TiTn+j}n+1p_j = \frac{1 + \sum_{i=1}^n \mathbf{1}\{T_i \leq T_{n+j}\}}{n+1}

其中T(X;θ)是检测分数(如困惑度),较低分数表示更可能是训练成员。

步骤2:估计数据使用比例

使用减法估计器π̂sub估计测试集中训练数据的比例πtest: π^sub=11m+1(1+j=1m1{T(Xn+j)R})1ni=1n1{T(Xi)R}\hat{\pi}_{sub} = 1 - \frac{\frac{1}{m+1}(1 + \sum_{j=1}^m \mathbf{1}\{T(X_{n+j}) \in R\})}{\frac{1}{n}\sum_{i=1}^n \mathbf{1}\{T(X_i) \in R\}}

其中R = (τ,+∞)是通过分位数阈值η构造的稀疏成员区域。

步骤3:缩放p值

计算缩放p值: p~j=(1π^test)pj\tilde{p}_j = (1-\hat{\pi}_{test})p_j

步骤4:Benjamini-Hochberg程序

应用BH程序选择最终集合: S={jp~jkmα}S = \{j | \tilde{p}_j \leq \frac{k^*}{m}\alpha\} 其中k=max{kp~(k)kmα}k^* = \max\{k | \tilde{p}_{(k)} \leq \frac{k}{m}\alpha\}

技术创新点

  1. 保守估计器设计:减法估计器确保E(1-πtest)/(1-π̂sub) ≤ 1,维持FDR控制
  2. p值缩放技术:通过缩放p值克服标准BH程序的保守性,显著提升统计功效
  3. 分布无关保证:不依赖于特定的分布假设,具有广泛适用性

实验设置

数据集

  • LLM预训练:WikiMIA、ArxivTection
  • LLM微调:XSum、BBC Real Time
  • 视觉语言模型:VL-MIA/Flickr、VL-MIA/DALL-E

模型

  • LLM:GPT-2、GPT-Neo、GPT-NeoX-20B、LLaMA-7B、Pythia(1.4B和6.9B)
  • VLM:LLaVA-1.5、MiniGPT-4

检测分数

  • LLM:困惑度(Perplexity)、Zlib压缩比、MIN-K%、修正熵(M-Entropy)
  • VLM:MaxRényi-K%

评价指标

  • FDR:错误发现率的经验估计
  • Power:统计功效,正确识别真实成员的比例

实验结果

主要结果

FDR控制有效性

在所有实验设置中,PTDI方法都严格控制FDR在目标水平以下:

  • WikiMIA上Pythia-1.4B,目标FDR=5%:PTDI实现4.94% vs KTD的13.11%
  • 所有模型和数据集组合都显示实际FDR低于目标水平

统计功效提升

p值缩放显著提升统计功效:

  • WikiMIA上GPT-NeoX-20B,目标FDR=0.5,MIN-K%分数:功效从0.44提升到0.75
  • 在不同目标FDR水平下,缩放方法始终优于vanilla方法

消融实验

校准集大小影响

  • 增加校准集大小(ρ = n/m从0.1到1.0)减少FDP和功效的方差
  • 所有ρ值都能有效控制FDR

超参数η的鲁棒性

  • 在η ∈ {0.01, 0.05, 0.1, 0.5}范围内,方法都能稳健控制FDR
  • 默认设置η = 0.05

πtest变化的鲁棒性

  • 在不同数据使用比例(πtest = 0.3, 0.5, 0.7)下都能维持FDR控制

与KTD方法对比

  • PTDI在所有测试设置下都严格控制FDR
  • KTD在WikiMIA和XSum上某些α值下失控
  • 在FDR控制有效的情况下,PTDI在GPT-2上功效更优

调整矩估计器

提出了偏差校正的矩估计器π̂mom,在有确认成员数据可用时进一步提升功效,同时保持FDR控制。

相关工作

大规模模型中的训练数据检测

  • 数据污染研究:防止基准数据泄露到训练集
  • 启发式检测分数:困惑度、MIN-k%等方法缺乏理论保证
  • 统计严格方法:Dekoninck等人和Oren等人的方法仅适用于数据集级别假设

成员推理攻击

  • 隐私角度:MIA旨在确定特定数据点是否用于训练
  • 二元分类方法:关注平均分类准确率
  • 假设检验框架:Attack-P等方法优先考虑低FPR下的TPR

FDR控制

  • Benjamini-Hochberg程序:标准FDR控制工具
  • conformal p值:Jin & Candès的方法需要强i.i.d假设
  • knockoff统计:Hu等人的方法需要高质量knockoff生成

结论与讨论

主要结论

  1. PTDI方法实现了严格的FDR控制,具有分布无关的有限样本保证
  2. p值缩放技术显著提升统计功效,同时维持理论严格性
  3. 方法具有广泛适用性,可与现有检测方法结合使用

局限性

  1. 校准集要求:需要与测试集分布相似的未见数据校准集
  2. 异构数据挑战:对于高度异构的测试数据,构造代表性校准集困难
  3. 分布不匹配:校准数据与测试数据的显著分布不匹配可能使FDR保证失效

未来方向

  1. 开发更鲁棒的数据使用比例估计方法
  2. 研究在分布不匹配情况下的FDR控制
  3. 扩展到更复杂的检测场景

深度评价

优点

  1. 理论严格性:提供了完整的数学证明和有限样本保证
  2. 实用性强:方法简单易实现,可与现有工具结合
  3. 实验充分:涵盖多种模型、任务和数据集的广泛评估
  4. 创新性:p值缩放技术巧妙解决了BH程序保守性问题

不足

  1. 假设限制:依赖于能够获得合适校准集的假设
  2. 计算开销:需要对大量候选数据点计算检测分数
  3. 参数选择:虽然对η鲁棒,但最优选择仍需经验指导

影响力

  1. 学术贡献:为训练数据识别提供了首个严格的统计框架
  2. 实用价值:在版权诉讼和隐私审计中具有直接应用价值
  3. 可复现性:算法描述清晰,易于复现和扩展

适用场景

  1. 版权保护:识别模型训练中使用的受版权保护内容
  2. 隐私审计:验证个人数据是否被用于模型训练
  3. 基准评估:检测和移除评估数据集中的污染样本
  4. 模型审计:在监管环境中验证模型合规性

参考文献

论文引用了多个重要工作,包括:

  • Benjamini & Hochberg (1995): FDR控制的经典BH程序
  • Shi et al. (2024): WikiMIA数据集和MIN-K%检测方法
  • Hu et al. (2025): 基于knockoff统计的训练数据检测
  • Jin & Candès (2023): conformal p值在选择问题中的应用

总结:这是一篇在训练数据识别领域具有重要理论和实践价值的论文。PTDI方法不仅提供了严格的统计保证,还在实际应用中展现出优异的性能。该工作为解决当前AI模型透明度和问责制问题提供了重要工具。