Identifying training data within large-scale models is critical for copyright litigation, privacy auditing, and ensuring fair evaluation. The conventional approaches treat it as a simple binary classification task without statistical guarantees. A recent approach is designed to control the false discovery rate (FDR), but its guarantees rely on strong, easily violated assumptions. In this paper, we introduce Provable Training Data Identification (PTDI), a rigorous method that identifies a set of training data with strict false discovery rate (FDR) control. Specifically, our method computes p-values for each data point using a set of known unseen data, and then constructs a conservative estimator for the data usage proportion of the test set, which allows us to scale these p-values. Our approach then selects the final set of training data by identifying all points whose scaled p-values fall below a data-dependent threshold. This entire procedure enables the discovery of training data with provable, strict FDR control and significantly boosted power. Extensive experiments across a wide range of models (LLMs and VLMs), and datasets demonstrate that PTDI strictly controls the FDR and achieves higher power.
- ID de l'article: 2510.09717
- Titre: High-Power Training Data Identification with Provable Statistical Guarantees
- Auteurs: Zhenlong Liu, Hao Zeng, Weiran Huang, Hongxin Wei
- Classification: cs.LG cs.AI
- Date de publication/Conférence: Préimpression (octobre 2025)
- Lien de l'article: https://arxiv.org/abs/2510.09717
L'identification des données d'entraînement dans les modèles à grande échelle est cruciale pour les litiges relatifs aux droits d'auteur, les audits de confidentialité et l'assurance d'une évaluation équitable. Les méthodes traditionnelles la traitent comme une simple tâche de classification binaire, dépourvue de garanties statistiques. Les approches récentes, bien qu'elles aient conçu des mécanismes de contrôle du taux de fausses découvertes (FDR), reposent sur des hypothèses fortes facilement violées. Cet article propose la méthode PTDI (Provably Training Data Identification), une approche qui contrôle rigoureusement le FDR. La méthode calcule une valeur p pour chaque point de données à l'aide d'un ensemble de données non vues connu, puis construit un estimateur conservateur de la proportion de données d'ensemble de test pour mettre à l'échelle ces valeurs p. Enfin, elle sélectionne l'ensemble final de données d'entraînement en identifiant tous les points dont les valeurs p mises à l'échelle sont inférieures à un seuil dépendant des données. L'ensemble du processus réalise un contrôle FDR rigoureusement prouvable tout en améliorant significativement la puissance statistique.
Avec le déploiement généralisé des modèles d'apprentissage automatique, l'identification des données d'entraînement devient cruciale, se manifestant principalement par:
- Litiges relatifs aux droits d'auteur: Comme l'affaire Strike 3 contre Meta, impliquant 2 396 films protégeables par le droit d'auteur, avec des dommages légaux potentiels dépassant 350 millions de dollars
- Confidentialité des données: Conformité aux réglementations sur la confidentialité telles que le RGPD et la CCPA
- Contamination des données: Assurance de l'équité des repères d'évaluation, prévention des fuites de données d'entraînement
- Méthodes traditionnelles: Traitent la détection des données d'entraînement comme une simple tâche de classification binaire, dépourvue de garanties théoriques
- Méthodes récentes: Comme la méthode knockoff statistique proposée par Hu et al. (2025), qui contrôle le FDR mais présente les problèmes suivants:
- Nécessite l'accès aux gradients du modèle, indisponible dans les paramètres de boîte noire
- Construction difficile de knockoffs efficaces, violation facile de l'hypothèse de distribution symétrique
- Peut entraîner un contrôle FDR invalide
Cet article vise à concevoir une méthode indépendante de la distribution qui fournit un contrôle FDR rigoureux dans les paramètres de boîte blanche et de boîte noire, tout en offrant une puissance statistique supérieure.
- Proposition de la méthode PTDI: Une approche nouvelle et générale réalisant un contrôle FDR en échantillon fini indépendant de la distribution, pouvant être combinée avec les méthodes de détection existantes
- Garanties théoriques: Fournit une preuve théorique rigoureuse (Théorème 1) assurant que PTDI contrôle strictement le taux de fausses découvertes
- Vérification expérimentale étendue: Valide l'efficacité de la méthode sur plusieurs modèles (LLM et VLM), tâches (pré-entraînement et ajustement fin) et ensembles de données
- Praticité: La méthode est indépendante du modèle, applicable aux paramètres de boîte noire et de boîte blanche, nécessitant uniquement des données non vues comme ensemble d'étalonnage
Étant donné un modèle cible θ, un ensemble d'étalonnage D_cal (de taille n) et un ensemble de test D_test = {X_{n+j}}^m_, l'objectif est de sélectionner un sous-ensemble d'indices S ⊆ {1,...,m} tel que le taux de fausses découvertes soit contrôlé à un niveau α ∈ (0,1) spécifié par l'utilisateur:
FDR=E[max(∣S∣,1)∑j=1m1{Mn+j=0,j∈S}]≤α
Calcul d'une valeur p pour chaque point de test:
pj=n+11+∑i=1n1{Ti≤Tn+j}
où T(X;θ) est le score de détection (par exemple, perplexité), les scores plus bas indiquant une probabilité plus élevée d'être un membre d'entraînement.
Estimation de la proportion π_test de données d'entraînement dans l'ensemble de test à l'aide de l'estimateur de soustraction π̂_sub:
π^sub=1−n1∑i=1n1{T(Xi)∈R}m+11(1+∑j=1m1{T(Xn+j)∈R})
où R = (τ,+∞) est une région d'adhésion clairsemée construite via un seuil de quantile η.
Calcul des valeurs p mises à l'échelle:
p~j=(1−π^test)pj
Application de la procédure BH pour sélectionner l'ensemble final:
S={j∣p~j≤mk∗α}
où k∗=max{k∣p~(k)≤mkα}
- Conception d'estimateurs conservateurs: L'estimateur de soustraction assure E(1-π_test)/(1-π̂_sub) ≤ 1, maintenant le contrôle FDR
- Technique de mise à l'échelle des valeurs p: Surmonte le conservatisme de la procédure BH standard par la mise à l'échelle des valeurs p, améliorant significativement la puissance statistique
- Garanties indépendantes de la distribution: Ne dépend pas d'hypothèses de distribution spécifiques, possédant une large applicabilité
- Pré-entraînement LLM: WikiMIA, ArxivTection
- Ajustement fin LLM: XSum, BBC Real Time
- Modèles de vision-langage: VL-MIA/Flickr, VL-MIA/DALL-E
- LLM: GPT-2, GPT-Neo, GPT-NeoX-20B, LLaMA-7B, Pythia (1.4B et 6.9B)
- VLM: LLaVA-1.5, MiniGPT-4
- LLM: Perplexité, ratio de compression Zlib, MIN-K%, entropie corrigée (M-Entropy)
- VLM: MaxRényi-K%
- FDR: Estimation empirique du taux de fausses découvertes
- Puissance: Puissance statistique, proportion de vrais membres correctement identifiés
La méthode PTDI contrôle strictement le FDR en dessous du niveau cible dans tous les paramètres expérimentaux:
- Sur WikiMIA avec Pythia-1.4B, FDR cible=5%: PTDI réalise 4.94% vs 13.11% pour KTD
- Toutes les combinaisons modèle-ensemble de données affichent un FDR réel inférieur au niveau cible
La mise à l'échelle des valeurs p améliore significativement la puissance statistique:
- Sur WikiMIA avec GPT-NeoX-20B, FDR cible=0.5, score MIN-K%: puissance augmente de 0.44 à 0.75
- À différents niveaux de FDR cible, la méthode de mise à l'échelle surpasse systématiquement la méthode vanilla
- L'augmentation de la taille de l'ensemble d'étalonnage (ρ = n/m de 0.1 à 1.0) réduit la variance du FDP et de la puissance
- Tous les ρ contrôlent efficacement le FDR
- Sur la plage η ∈ {0.01, 0.05, 0.1, 0.5}, la méthode contrôle robustement le FDR
- Paramètre par défaut η = 0.05
- Maintient le contrôle FDR à différentes proportions d'utilisation de données (π_test = 0.3, 0.5, 0.7)
- PTDI contrôle strictement le FDR dans tous les paramètres de test
- KTD perd le contrôle sur WikiMIA et XSum pour certaines valeurs de α
- Lorsque le contrôle FDR est efficace, PTDI offre une puissance supérieure sur GPT-2
Propose un estimateur de moments corrigé des biais π̂_mom qui améliore davantage la puissance lorsque des données de membres confirmés sont disponibles, tout en maintenant le contrôle FDR.
- Recherche sur la contamination des données: Prévention des fuites de données de repères dans l'ensemble d'entraînement
- Scores de détection heuristiques: Méthodes telles que la perplexité et MIN-k% manquent de garanties théoriques
- Méthodes statistiquement rigoureuses: Les méthodes de Dekoninck et al. et Oren et al. ne s'appliquent qu'aux hypothèses au niveau de l'ensemble de données
- Perspective de confidentialité: L'MIA vise à déterminer si un point de données spécifique a été utilisé pour l'entraînement
- Méthodes de classification binaire: Concentrées sur la précision moyenne de classification
- Cadre de test d'hypothèse: Les méthodes telles que Attack-P privilégient le TPR à faible FPR
- Procédure Benjamini-Hochberg: Outil standard de contrôle FDR
- Valeurs p conformes: La méthode de Jin & Candès nécessite une hypothèse i.i.d forte
- Statistique knockoff: La méthode de Hu et al. nécessite une génération de knockoff de haute qualité
- La méthode PTDI réalise un contrôle FDR rigoureux avec des garanties en échantillon fini indépendantes de la distribution
- La technique de mise à l'échelle des valeurs p améliore significativement la puissance statistique tout en maintenant la rigueur théorique
- La méthode possède une large applicabilité et peut être combinée avec les méthodes de détection existantes
- Exigences d'étalonnage: Nécessite un ensemble d'étalonnage de données non vues avec une distribution similaire à l'ensemble de test
- Défis des données hétérogènes: Pour les données de test hautement hétérogènes, la construction d'un ensemble d'étalonnage représentatif est difficile
- Décalage de distribution: Un décalage de distribution significatif entre les données d'étalonnage et de test peut invalider les garanties FDR
- Développer des méthodes d'estimation de proportion de données utilisées plus robustes
- Étudier le contrôle FDR en cas de décalage de distribution
- Étendre à des scénarios de détection plus complexes
- Rigueur théorique: Fournit des preuves mathématiques complètes et des garanties en échantillon fini
- Forte praticité: La méthode est simple à implémenter et peut être combinée avec les outils existants
- Expériences suffisantes: Évaluation étendue couvrant plusieurs modèles, tâches et ensembles de données
- Innovativité: La technique de mise à l'échelle des valeurs p résout intelligemment le problème du conservatisme de la procédure BH
- Limitations des hypothèses: Dépend de l'hypothèse de pouvoir obtenir un ensemble d'étalonnage approprié
- Surcharge de calcul: Nécessite le calcul de scores de détection pour de nombreux points candidats
- Sélection de paramètres: Bien que robuste à η, le choix optimal nécessite toujours une orientation empirique
- Contribution académique: Fournit le premier cadre statistique rigoureux pour l'identification des données d'entraînement
- Valeur pratique: Possède une valeur d'application directe dans les litiges relatifs aux droits d'auteur et les audits de confidentialité
- Reproductibilité: Description d'algorithme claire, facile à reproduire et étendre
- Protection des droits d'auteur: Identification du contenu protégeable par le droit d'auteur utilisé dans l'entraînement du modèle
- Audit de confidentialité: Vérification si les données personnelles ont été utilisées pour l'entraînement du modèle
- Évaluation des repères: Détection et suppression des échantillons contaminés dans les ensembles de données d'évaluation
- Audit de modèle: Vérification de la conformité du modèle dans les environnements réglementaires
L'article cite plusieurs travaux importants, notamment:
- Benjamini & Hochberg (1995): Procédure BH classique de contrôle FDR
- Shi et al. (2024): Ensemble de données WikiMIA et méthode de détection MIN-K%
- Hu et al. (2025): Détection des données d'entraînement basée sur la statistique knockoff
- Jin & Candès (2023): Valeurs p conformes dans les problèmes de sélection
Résumé: Cet article est d'une importance théorique et pratique significative dans le domaine de l'identification des données d'entraînement. La méthode PTDI non seulement fournit des garanties statistiques rigoureuses, mais démontre également des performances exceptionnelles dans les applications pratiques. Ce travail fournit un outil important pour résoudre les problèmes actuels de transparence et de responsabilité des modèles d'IA.