2025-11-21T11:01:15.942804

High-Power Training Data Identification with Provable Statistical Guarantees

Liu, Zeng, Huang et al.

Identifying training data within large-scale models is critical for copyright litigation, privacy auditing, and ensuring fair evaluation. The conventional approaches treat it as a simple binary classification task without statistical guarantees. A recent approach is designed to control the false discovery rate (FDR), but its guarantees rely on strong, easily violated assumptions. In this paper, we introduce Provable Training Data Identification (PTDI), a rigorous method that identifies a set of training data with strict false discovery rate (FDR) control. Specifically, our method computes p-values for each data point using a set of known unseen data, and then constructs a conservative estimator for the data usage proportion of the test set, which allows us to scale these p-values. Our approach then selects the final set of training data by identifying all points whose scaled p-values fall below a data-dependent threshold. This entire procedure enables the discovery of training data with provable, strict FDR control and significantly boosted power. Extensive experiments across a wide range of models (LLMs and VLMs), and datasets demonstrate that PTDI strictly controls the FDR and achieves higher power.

academic

高出力学習データ識別と証明可能な統計的保証

基本情報

論文ID: 2510.09717
タイトル: High-Power Training Data Identification with Provable Statistical Guarantees
著者: Zhenlong Liu, Hao Zeng, Weiran Huang, Hongxin Wei
分類: cs.LG cs.AI
発表時期/会議: プレプリント (2025年10月)
論文リンク: https://arxiv.org/abs/2510.09717

要約

大規模モデルにおける学習データの識別は、著作権訴訟、プライバシー監査、および公正な評価の確保に不可欠である。従来の方法はこれを単純な二値分類タスクとして扱い、統計的保証を欠いている。最近の方法は偽発見率(FDR)を制御するメカニズムを設計しているが、その保証は容易に違反される強い仮定に依存している。本論文は、証明可能な学習データ識別(PTDI)方法を提案する。これはFDRを厳密に制御する方法である。本方法は既知の未見データセットを使用して各データポイントのp値を計算し、その後、テストセットデータ使用比率の保守的推定量を構築してこれらのp値をスケーリングする。最後に、スケーリングされたp値がデータ依存閾値以下のすべてのポイントを識別することで、最終的な学習データセットを選択する。プロセス全体は証明可能な厳密なFDR制御を実現し、統計的検出力を大幅に向上させる。

研究背景と動機

問題の重要性

機械学習モデルの広範な展開に伴い、学習データの識別は以下の点で重要となっている:

著作権紛争: Strike 3対Meta事件など、2,396本の著作権映画が関係し、法定賠償金が3億5,000万ドルを超える可能性がある
データプライバシー: GDPR、CCPA等のプライバシー規制への適合要件
データ汚染: 評価ベンチマークの公正性を確保し、学習データの漏洩を防止

既存方法の限界

従来の方法: 学習データ検出を単純な二値分類タスクとして扱い、理論的保証を欠く
最近の方法: Hu等(2025)が提案したノックオフ統計手法はFDRを制御するが、以下の問題がある:
- モデル勾配へのアクセスが必要であり、ブラックボックス設定では利用不可
- 有効なノックオフの構築が困難で、対称分布仮定を容易に違反する
- FDR制御が無効になる可能性がある

研究動機

本論文は、ホワイトボックスおよびブラックボックス設定の両方で厳密なFDR制御を提供し、より高い統計的検出力を持つ分布無関係な方法を設計することを目指している。

核心的貢献

PTDI方法の提案: 分布無関係な有限標本FDR制御を実現し、既存の検出方法と組み合わせて使用できる新規で汎用的な方法
理論的保証: 厳密な理論的証明(定理1)を提供し、PTDIが偽発見率を厳密に制御することを確保
広範な実験検証: 複数のモデル(LLMおよびVLM)、タスク(事前学習および微調整)、データセット上で方法の有効性を検証
実用性: 方法はモデル非依存であり、ブラックボックスおよびホワイトボックス設定に適用可能で、キャリブレーションセットとして未見データのみが必要

方法の詳細

タスク定義

目標モデルθ、キャリブレーションセットDcal(サイズn)、およびテストセットDtest = {Xn+j}^m_が与えられたとき、目標はインデックス部分集合S ⊆ {1,...,m}を選択し、ユーザー指定水準α ∈ (0,1)でFDRを制御することである:

$\text{FDR} = E\left[\frac{\sum_{j=1}^m \mathbf{1}\{M_{n+j} = 0, j \in S\}}{\max(|S|, 1)}\right] \leq \alpha$

コアアルゴリズム: PTDI

ステップ1: Conformal p値の構築

各テストポイントに対してp値を計算する: $p_j = \frac{1 + \sum_{i=1}^n \mathbf{1}\{T_i \leq T_{n+j}\}}{n+1}$

ここで、T(X;θ)は検出スコア(例: パープレキシティ)であり、より低いスコアはより学習成員である可能性が高いことを示す。

ステップ2: データ使用比率の推定

減法推定量π̂subを使用してテストセット内の学習データの比率πtestを推定する: $\hat{\pi}_{sub} = 1 - \frac{\frac{1}{m+1}(1 + \sum_{j=1}^m \mathbf{1}\{T(X_{n+j}) \in R\})}{\frac{1}{n}\sum_{i=1}^n \mathbf{1}\{T(X_i) \in R\}}$