2025-11-21T11:01:15.942804

High-Power Training Data Identification with Provable Statistical Guarantees

Liu, Zeng, Huang et al.

Identifying training data within large-scale models is critical for copyright litigation, privacy auditing, and ensuring fair evaluation. The conventional approaches treat it as a simple binary classification task without statistical guarantees. A recent approach is designed to control the false discovery rate (FDR), but its guarantees rely on strong, easily violated assumptions. In this paper, we introduce Provable Training Data Identification (PTDI), a rigorous method that identifies a set of training data with strict false discovery rate (FDR) control. Specifically, our method computes p-values for each data point using a set of known unseen data, and then constructs a conservative estimator for the data usage proportion of the test set, which allows us to scale these p-values. Our approach then selects the final set of training data by identifying all points whose scaled p-values fall below a data-dependent threshold. This entire procedure enables the discovery of training data with provable, strict FDR control and significantly boosted power. Extensive experiments across a wide range of models (LLMs and VLMs), and datasets demonstrate that PTDI strictly controls the FDR and achieves higher power.

academic

High-Power Training Data Identification with Provable Statistical Guarantees

基本信息

论文ID: 2510.09717
标题: High-Power Training Data Identification with Provable Statistical Guarantees
作者: Zhenlong Liu, Hao Zeng, Weiran Huang, Hongxin Wei
分类: cs.LG cs.AI
发表时间/会议: Preprint (2025年10月)
论文链接: https://arxiv.org/abs/2510.09717

摘要

识别大规模模型中的训练数据对于版权诉讼、隐私审计和确保公平评估至关重要。传统方法将其视为简单的二元分类任务，缺乏统计保证。最近的方法虽然设计了控制错误发现率(FDR)的机制，但其保证依赖于容易违反的强假设。本文提出了可证明训练数据识别(PTDI)方法，这是一种严格控制错误发现率的方法。该方法使用已知的未见数据集计算每个数据点的p值，然后构造测试集数据使用比例的保守估计器来缩放这些p值。最后通过识别缩放p值低于数据依赖阈值的所有点来选择最终的训练数据集合。整个过程实现了可证明的严格FDR控制，并显著提升了统计功效。

研究背景与动机

问题重要性

随着机器学习模型的广泛部署，训练数据识别变得至关重要，主要体现在：

版权争议：如Strike 3诉Meta案，涉及2,396部版权影片，潜在法定赔偿超过3.5亿美元
数据隐私：符合GDPR、CCPA等隐私法规要求
数据污染：确保评估基准的公平性，防止训练数据泄露

现有方法局限性

传统方法：将训练数据检测视为简单的二元分类任务，缺乏理论保证
最近方法：如Hu等人(2025)提出的knockoff统计方法虽然控制FDR，但存在以下问题：
- 需要访问模型梯度，在黑盒设置中不可用
- 构造有效knockoff困难，容易违反对称分布假设
- 可能导致无效的FDR控制

研究动机

本文旨在设计一个分布无关的方法，在白盒和黑盒设置下都能提供严格的FDR控制，同时具有更高的统计功效。

核心贡献

提出PTDI方法：一种新颖且通用的方法，实现分布无关的有限样本FDR控制，可与现有检测方法结合使用
理论保证：提供严格的理论证明(定理1)，确保PTDI严格控制错误发现率
广泛实验验证：在多种模型(LLM和VLM)、任务(预训练和微调)和数据集上验证方法的有效性
实用性：方法模型无关，适用于黑盒和白盒设置，仅需未见数据作为校准集

方法详解

任务定义

给定目标模型θ、校准集Dcal(大小为n)和测试集Dtest = {Xn+j}^m_，目标是选择索引子集S ⊆ {1,...,m}，使得错误发现率控制在用户指定水平α ∈ (0,1)：

$\text{FDR} = E\left[\frac{\sum_{j=1}^m \mathbf{1}\{M_{n+j} = 0, j \in S\}}{\max(|S|, 1)}\right] \leq \alpha$

核心算法：PTDI

步骤1：构造conformal p值

对每个测试点计算p值： $p_j = \frac{1 + \sum_{i=1}^n \mathbf{1}\{T_i \leq T_{n+j}\}}{n+1}$

其中T(X;θ)是检测分数(如困惑度)，较低分数表示更可能是训练成员。

步骤2：估计数据使用比例

使用减法估计器π̂sub估计测试集中训练数据的比例πtest： $\hat{\pi}_{sub} = 1 - \frac{\frac{1}{m+1}(1 + \sum_{j=1}^m \mathbf{1}\{T(X_{n+j}) \in R\})}{\frac{1}{n}\sum_{i=1}^n \mathbf{1}\{T(X_i) \in R\}}$

其中R = (τ,+∞)是通过分位数阈值η构造的稀疏成员区域。

步骤3：缩放p值

计算缩放p值： $\tilde{p}_j = (1-\hat{\pi}_{test})p_j$

步骤4：Benjamini-Hochberg程序

应用BH程序选择最终集合： $S = \{j | \tilde{p}_j \leq \frac{k^*}{m}\alpha\}$ 其中 $k^* = \max\{k | \tilde{p}_{(k)} \leq \frac{k}{m}\alpha\}$

技术创新点

保守估计器设计：减法估计器确保E(1-πtest)/(1-π̂sub) ≤ 1，维持FDR控制
p值缩放技术：通过缩放p值克服标准BH程序的保守性，显著提升统计功效
分布无关保证：不依赖于特定的分布假设，具有广泛适用性

实验设置

数据集

LLM预训练：WikiMIA、ArxivTection
LLM微调：XSum、BBC Real Time
视觉语言模型：VL-MIA/Flickr、VL-MIA/DALL-E

模型

LLM：GPT-2、GPT-Neo、GPT-NeoX-20B、LLaMA-7B、Pythia(1.4B和6.9B)
VLM：LLaVA-1.5、MiniGPT-4

检测分数

LLM：困惑度(Perplexity)、Zlib压缩比、MIN-K%、修正熵(M-Entropy)
VLM：MaxRényi-K%

评价指标

FDR：错误发现率的经验估计
Power：统计功效，正确识别真实成员的比例

实验结果

主要结果

FDR控制有效性

在所有实验设置中，PTDI方法都严格控制FDR在目标水平以下：

WikiMIA上Pythia-1.4B，目标FDR=5%：PTDI实现4.94% vs KTD的13.11%
所有模型和数据集组合都显示实际FDR低于目标水平

统计功效提升

p值缩放显著提升统计功效：

WikiMIA上GPT-NeoX-20B，目标FDR=0.5，MIN-K%分数：功效从0.44提升到0.75
在不同目标FDR水平下，缩放方法始终优于vanilla方法

消融实验

校准集大小影响

增加校准集大小(ρ = n/m从0.1到1.0)减少FDP和功效的方差
所有ρ值都能有效控制FDR

超参数η的鲁棒性

在η ∈ {0.01, 0.05, 0.1, 0.5}范围内，方法都能稳健控制FDR
默认设置η = 0.05

πtest变化的鲁棒性

在不同数据使用比例(πtest = 0.3, 0.5, 0.7)下都能维持FDR控制

与KTD方法对比

PTDI在所有测试设置下都严格控制FDR
KTD在WikiMIA和XSum上某些α值下失控
在FDR控制有效的情况下，PTDI在GPT-2上功效更优

调整矩估计器

提出了偏差校正的矩估计器π̂mom，在有确认成员数据可用时进一步提升功效，同时保持FDR控制。

相关工作

大规模模型中的训练数据检测

数据污染研究：防止基准数据泄露到训练集
启发式检测分数：困惑度、MIN-k%等方法缺乏理论保证
统计严格方法：Dekoninck等人和Oren等人的方法仅适用于数据集级别假设

成员推理攻击

隐私角度：MIA旨在确定特定数据点是否用于训练
二元分类方法：关注平均分类准确率
假设检验框架：Attack-P等方法优先考虑低FPR下的TPR

FDR控制

Benjamini-Hochberg程序：标准FDR控制工具
conformal p值：Jin & Candès的方法需要强i.i.d假设
knockoff统计：Hu等人的方法需要高质量knockoff生成

结论与讨论

主要结论

PTDI方法实现了严格的FDR控制，具有分布无关的有限样本保证
p值缩放技术显著提升统计功效，同时维持理论严格性
方法具有广泛适用性，可与现有检测方法结合使用

局限性

校准集要求：需要与测试集分布相似的未见数据校准集
异构数据挑战：对于高度异构的测试数据，构造代表性校准集困难
分布不匹配：校准数据与测试数据的显著分布不匹配可能使FDR保证失效

未来方向

开发更鲁棒的数据使用比例估计方法
研究在分布不匹配情况下的FDR控制
扩展到更复杂的检测场景

深度评价

优点

理论严格性：提供了完整的数学证明和有限样本保证
实用性强：方法简单易实现，可与现有工具结合
实验充分：涵盖多种模型、任务和数据集的广泛评估
创新性：p值缩放技术巧妙解决了BH程序保守性问题

不足

假设限制：依赖于能够获得合适校准集的假设
计算开销：需要对大量候选数据点计算检测分数
参数选择：虽然对η鲁棒，但最优选择仍需经验指导

影响力

学术贡献：为训练数据识别提供了首个严格的统计框架
实用价值：在版权诉讼和隐私审计中具有直接应用价值
可复现性：算法描述清晰，易于复现和扩展

适用场景

版权保护：识别模型训练中使用的受版权保护内容
隐私审计：验证个人数据是否被用于模型训练
基准评估：检测和移除评估数据集中的污染样本
模型审计：在监管环境中验证模型合规性

参考文献

论文引用了多个重要工作，包括：

Benjamini & Hochberg (1995): FDR控制的经典BH程序
Shi et al. (2024): WikiMIA数据集和MIN-K%检测方法
Hu et al. (2025): 基于knockoff统计的训练数据检测
Jin & Candès (2023): conformal p值在选择问题中的应用

总结：这是一篇在训练数据识别领域具有重要理论和实践价值的论文。PTDI方法不仅提供了严格的统计保证，还在实际应用中展现出优异的性能。该工作为解决当前AI模型透明度和问责制问题提供了重要工具。