2025-11-21T11:01:15.942804

High-Power Training Data Identification with Provable Statistical Guarantees

Liu, Zeng, Huang et al.
Identifying training data within large-scale models is critical for copyright litigation, privacy auditing, and ensuring fair evaluation. The conventional approaches treat it as a simple binary classification task without statistical guarantees. A recent approach is designed to control the false discovery rate (FDR), but its guarantees rely on strong, easily violated assumptions. In this paper, we introduce Provable Training Data Identification (PTDI), a rigorous method that identifies a set of training data with strict false discovery rate (FDR) control. Specifically, our method computes p-values for each data point using a set of known unseen data, and then constructs a conservative estimator for the data usage proportion of the test set, which allows us to scale these p-values. Our approach then selects the final set of training data by identifying all points whose scaled p-values fall below a data-dependent threshold. This entire procedure enables the discovery of training data with provable, strict FDR control and significantly boosted power. Extensive experiments across a wide range of models (LLMs and VLMs), and datasets demonstrate that PTDI strictly controls the FDR and achieves higher power.
academic

高出力学習データ識別と証明可能な統計的保証

基本情報

  • 論文ID: 2510.09717
  • タイトル: High-Power Training Data Identification with Provable Statistical Guarantees
  • 著者: Zhenlong Liu, Hao Zeng, Weiran Huang, Hongxin Wei
  • 分類: cs.LG cs.AI
  • 発表時期/会議: プレプリント (2025年10月)
  • 論文リンク: https://arxiv.org/abs/2510.09717

要約

大規模モデルにおける学習データの識別は、著作権訴訟、プライバシー監査、および公正な評価の確保に不可欠である。従来の方法はこれを単純な二値分類タスクとして扱い、統計的保証を欠いている。最近の方法は偽発見率(FDR)を制御するメカニズムを設計しているが、その保証は容易に違反される強い仮定に依存している。本論文は、証明可能な学習データ識別(PTDI)方法を提案する。これはFDRを厳密に制御する方法である。本方法は既知の未見データセットを使用して各データポイントのp値を計算し、その後、テストセットデータ使用比率の保守的推定量を構築してこれらのp値をスケーリングする。最後に、スケーリングされたp値がデータ依存閾値以下のすべてのポイントを識別することで、最終的な学習データセットを選択する。プロセス全体は証明可能な厳密なFDR制御を実現し、統計的検出力を大幅に向上させる。

研究背景と動機

問題の重要性

機械学習モデルの広範な展開に伴い、学習データの識別は以下の点で重要となっている:

  1. 著作権紛争: Strike 3対Meta事件など、2,396本の著作権映画が関係し、法定賠償金が3億5,000万ドルを超える可能性がある
  2. データプライバシー: GDPR、CCPA等のプライバシー規制への適合要件
  3. データ汚染: 評価ベンチマークの公正性を確保し、学習データの漏洩を防止

既存方法の限界

  1. 従来の方法: 学習データ検出を単純な二値分類タスクとして扱い、理論的保証を欠く
  2. 最近の方法: Hu等(2025)が提案したノックオフ統計手法はFDRを制御するが、以下の問題がある:
    • モデル勾配へのアクセスが必要であり、ブラックボックス設定では利用不可
    • 有効なノックオフの構築が困難で、対称分布仮定を容易に違反する
    • FDR制御が無効になる可能性がある

研究動機

本論文は、ホワイトボックスおよびブラックボックス設定の両方で厳密なFDR制御を提供し、より高い統計的検出力を持つ分布無関係な方法を設計することを目指している。

核心的貢献

  1. PTDI方法の提案: 分布無関係な有限標本FDR制御を実現し、既存の検出方法と組み合わせて使用できる新規で汎用的な方法
  2. 理論的保証: 厳密な理論的証明(定理1)を提供し、PTDIが偽発見率を厳密に制御することを確保
  3. 広範な実験検証: 複数のモデル(LLMおよびVLM)、タスク(事前学習および微調整)、データセット上で方法の有効性を検証
  4. 実用性: 方法はモデル非依存であり、ブラックボックスおよびホワイトボックス設定に適用可能で、キャリブレーションセットとして未見データのみが必要

方法の詳細

タスク定義

目標モデルθ、キャリブレーションセットDcal(サイズn)、およびテストセットDtest = {Xn+j}^m_が与えられたとき、目標はインデックス部分集合S ⊆ {1,...,m}を選択し、ユーザー指定水準α ∈ (0,1)でFDRを制御することである:

FDR=E[j=1m1{Mn+j=0,jS}max(S,1)]α\text{FDR} = E\left[\frac{\sum_{j=1}^m \mathbf{1}\{M_{n+j} = 0, j \in S\}}{\max(|S|, 1)}\right] \leq \alpha

コアアルゴリズム: PTDI

ステップ1: Conformal p値の構築

各テストポイントに対してp値を計算する: pj=1+i=1n1{TiTn+j}n+1p_j = \frac{1 + \sum_{i=1}^n \mathbf{1}\{T_i \leq T_{n+j}\}}{n+1}

ここで、T(X;θ)は検出スコア(例: パープレキシティ)であり、より低いスコアはより学習成員である可能性が高いことを示す。

ステップ2: データ使用比率の推定

減法推定量π̂subを使用してテストセット内の学習データの比率πtestを推定する: π^sub=11m+1(1+j=1m1{T(Xn+j)R})1ni=1n1{T(Xi)R}\hat{\pi}_{sub} = 1 - \frac{\frac{1}{m+1}(1 + \sum_{j=1}^m \mathbf{1}\{T(X_{n+j}) \in R\})}{\frac{1}{n}\sum_{i=1}^n \mathbf{1}\{T(X_i) \in R\}}

ここで、R = (τ,+∞)は分位数閾値ηを通じて構築された疎な成員領域である。

ステップ3: p値のスケーリング

スケーリングされたp値を計算する: p~j=(1π^test)pj\tilde{p}_j = (1-\hat{\pi}_{test})p_j

ステップ4: Benjamini-Hochberg手順

BH手順を適用して最終集合を選択する: S={jp~jkmα}S = \{j | \tilde{p}_j \leq \frac{k^*}{m}\alpha\} ここで、k=max{kp~(k)kmα}k^* = \max\{k | \tilde{p}_{(k)} \leq \frac{k}{m}\alpha\}

技術的革新点

  1. 保守的推定量の設計: 減法推定量はE(1-πtest)/(1-π̂sub) ≤ 1を確保し、FDR制御を維持
  2. p値スケーリング技術: スケーリングされたp値を通じてBH手順の保守性を克服し、統計的検出力を大幅に向上
  3. 分布無関係な保証: 特定の分布仮定に依存せず、広範な適用可能性を持つ

実験設定

データセット

  • LLM事前学習: WikiMIA、ArxivTection
  • LLM微調整: XSum、BBC Real Time
  • 視覚言語モデル: VL-MIA/Flickr、VL-MIA/DALL-E

モデル

  • LLM: GPT-2、GPT-Neo、GPT-NeoX-20B、LLaMA-7B、Pythia(1.4Bおよび6.9B)
  • VLM: LLaVA-1.5、MiniGPT-4

検出スコア

  • LLM: パープレキシティ、Zlib圧縮比、MIN-K%、修正エントロピー(M-Entropy)
  • VLM: MaxRényi-K%

評価指標

  • FDR: 偽発見率の経験的推定
  • Power: 統計的検出力、真の成員を正しく識別する比率

実験結果

主要結果

FDR制御の有効性

すべての実験設定において、PTDI方法は目標水準以下でFDRを厳密に制御する:

  • WikiMIA上のPythia-1.4B、目標FDR=5%: PTDIは4.94%を実現 vs KTDの13.11%
  • すべてのモデルおよびデータセット組み合わせが、実際のFDRが目標水準以下であることを示す

統計的検出力の向上

p値スケーリングは統計的検出力を大幅に向上させる:

  • WikiMIA上のGPT-NeoX-20B、目標FDR=0.5、MIN-K%スコア: 検出力が0.44から0.75に向上
  • 異なる目標FDR水準下で、スケーリング方法は常にバニラ方法を上回る

アブレーション実験

キャリブレーションセットサイズの影響

  • キャリブレーションセットサイズの増加(ρ = n/mが0.1から1.0)はFDPおよび検出力の分散を減少
  • すべてのρ値でFDRを有効に制御

ハイパーパラメータηの堅牢性

  • η ∈ {0.01, 0.05, 0.1, 0.5}の範囲内で、方法はFDRを堅牢に制御
  • デフォルト設定はη = 0.05

πtest変化への堅牢性

  • 異なるデータ使用比率(πtest = 0.3, 0.5, 0.7)下でもFDR制御を維持

KTD方法との比較

  • PTDIはすべてのテスト設定でFDRを厳密に制御
  • KTDはWikiMIAおよびXSum上の特定のα値で制御不能
  • FDR制御が有効な場合、PTDIはGPT-2上でより優れた検出力を示す

調整モーメント推定量

確認された成員データが利用可能な場合、バイアス補正されたモーメント推定量π̂momを提案し、FDR制御を維持しながらさらに検出力を向上

関連研究

大規模モデルにおける学習データ検出

  • データ汚染研究: ベンチマークデータが学習セットに漏洩することを防止
  • ヒューリスティック検出スコア: パープレキシティ、MIN-k%等の方法は理論的保証を欠く
  • 統計的厳密な方法: Dekoninck等およびOren等の方法はデータセットレベルの仮定にのみ適用可能

メンバーシップ推論攻撃

  • プライバシー観点: MIAは特定のデータポイントが学習に使用されたかどうかを判定することを目指す
  • 二値分類方法: 平均分類精度に焦点
  • 仮説検定フレームワーク: Attack-P等の方法は低FPR下のTPRを優先

FDR制御

  • Benjamini-Hochberg手順: FDR制御の標準ツール
  • Conformal p値: Jin & Candèsの方法は強いi.i.d仮定が必要
  • ノックオフ統計: Hu等の方法は高品質なノックオフ生成が必要

結論と考察

主要な結論

  1. PTDI方法は厳密なFDR制御を実現し、分布無関係な有限標本保証を持つ
  2. p値スケーリング技術は統計的検出力を大幅に向上させ、理論的厳密性を維持
  3. 方法は広範な適用可能性を持ち、既存の検出方法と組み合わせて使用可能

限界

  1. キャリブレーションセット要件: テストセットと分布が類似した未見データのキャリブレーションセットが必要
  2. 異質データの課題: 高度に異質なテストデータに対して、代表的なキャリブレーションセットの構築が困難
  3. 分布不一致: キャリブレーションデータとテストデータの著しい分布不一致はFDR保証を無効にする可能性

今後の方向性

  1. より堅牢なデータ使用比率推定方法の開発
  2. 分布不一致下でのFDR制御の研究
  3. より複雑な検出シナリオへの拡張

深い評価

利点

  1. 理論的厳密性: 完全な数学的証明と有限標本保証を提供
  2. 実用性: 方法は単純で実装しやすく、既存ツールと組み合わせ可能
  3. 実験の充実: 複数のモデル、タスク、データセットにわたる広範な評価
  4. 革新性: p値スケーリング技術はBH手順の保守性を巧妙に解決

不足点

  1. 仮定の制限: 適切なキャリブレーションセットを取得できるという仮定に依存
  2. 計算オーバーヘッド: 多数の候補データポイントに対して検出スコアを計算する必要
  3. パラメータ選択: ηに対して堅牢であるが、最適な選択には依然として経験的指導が必要

影響力

  1. 学術的貢献: 学習データ識別に対する最初の厳密な統計フレームワークを提供
  2. 実用的価値: 著作権訴訟およびプライバシー監査に直接的な応用価値
  3. 再現性: アルゴリズム記述が明確で、再現および拡張が容易

適用シナリオ

  1. 著作権保護: モデル学習で使用された著作権保護コンテンツの識別
  2. プライバシー監査: 個人データがモデル学習に使用されたかどうかの検証
  3. ベンチマーク評価: 評価データセット内の汚染サンプルの検出と除去
  4. モデル監査: 規制環境でのモデル適合性の検証

参考文献

論文は以下を含む複数の重要な研究を引用している:

  • Benjamini & Hochberg (1995): FDR制御の古典的BH手順
  • Shi et al. (2024): WikiMIAデータセットおよびMIN-K%検出方法
  • Hu et al. (2025): ノックオフ統計に基づく学習データ検出
  • Jin & Candès (2023): 選択問題におけるconformal p値

要約: これは学習データ識別分野において重要な理論的および実践的価値を持つ論文である。PTDI方法は厳密な統計的保証を提供するだけでなく、実際の応用において優れた性能を示す。本研究は、現在のAIモデルの透明性と説明責任の問題を解決するための重要なツールを提供している。