2025-11-21T11:01:15.942804

High-Power Training Data Identification with Provable Statistical Guarantees

Liu, Zeng, Huang et al.
Identifying training data within large-scale models is critical for copyright litigation, privacy auditing, and ensuring fair evaluation. The conventional approaches treat it as a simple binary classification task without statistical guarantees. A recent approach is designed to control the false discovery rate (FDR), but its guarantees rely on strong, easily violated assumptions. In this paper, we introduce Provable Training Data Identification (PTDI), a rigorous method that identifies a set of training data with strict false discovery rate (FDR) control. Specifically, our method computes p-values for each data point using a set of known unseen data, and then constructs a conservative estimator for the data usage proportion of the test set, which allows us to scale these p-values. Our approach then selects the final set of training data by identifying all points whose scaled p-values fall below a data-dependent threshold. This entire procedure enables the discovery of training data with provable, strict FDR control and significantly boosted power. Extensive experiments across a wide range of models (LLMs and VLMs), and datasets demonstrate that PTDI strictly controls the FDR and achieves higher power.
academic

Identificazione dei Dati di Addestramento ad Alta Potenza con Garanzie Statistiche Provabili

Informazioni Fondamentali

  • ID Articolo: 2510.09717
  • Titolo: High-Power Training Data Identification with Provable Statistical Guarantees
  • Autori: Zhenlong Liu, Hao Zeng, Weiran Huang, Hongxin Wei
  • Classificazione: cs.LG cs.AI
  • Data di Pubblicazione/Conferenza: Preprint (Ottobre 2025)
  • Link Articolo: https://arxiv.org/abs/2510.09717

Riassunto

L'identificazione dei dati di addestramento nei modelli su larga scala è cruciale per le controversie di copyright, gli audit sulla privacy e per garantire valutazioni eque. I metodi tradizionali la trattano come un semplice compito di classificazione binaria, mancando di garanzie statistiche. Sebbene i metodi recenti abbiano progettato meccanismi per controllare il tasso di scoperta falsa (FDR), le loro garanzie dipendono da forti ipotesi facilmente violabili. Questo articolo propone il metodo PTDI (Provable Training Data Identification), un approccio che controlla rigorosamente il tasso di scoperta falsa. Il metodo calcola un p-value per ogni punto dati utilizzando un dataset noto di dati non visti, quindi costruisce uno stimatore conservativo della proporzione di dati del set di test per scalare questi p-value. Infine, seleziona l'insieme finale dei dati di addestramento identificando tutti i punti con p-value scalati inferiori a una soglia dipendente dai dati. L'intero processo realizza un controllo FDR provabilmente rigoroso e migliora significativamente la potenza statistica.

Contesto di Ricerca e Motivazione

Importanza del Problema

Con il diffuso dispiegamento dei modelli di machine learning, l'identificazione dei dati di addestramento è diventata cruciale, principalmente evidenziata da:

  1. Controversie di Copyright: Come il caso Strike 3 contro Meta, che coinvolge 2.396 film protetti da copyright, con potenziali danni legali che superano i 350 milioni di dollari
  2. Privacy dei Dati: Conformità ai requisiti delle normative sulla privacy come GDPR e CCPA
  3. Contaminazione dei Dati: Garantire l'equità dei benchmark di valutazione, prevenire la fuga di dati di addestramento

Limitazioni dei Metodi Esistenti

  1. Metodi Tradizionali: Trattano il rilevamento dei dati di addestramento come un semplice compito di classificazione binaria, mancando di garanzie teoriche
  2. Metodi Recenti: Come il metodo knockoff statistico proposto da Hu et al. (2025) che controlla l'FDR, ma presenta i seguenti problemi:
    • Richiedono l'accesso ai gradienti del modello, non disponibili in impostazioni black-box
    • Difficili da costruire knockoff efficaci, facilmente violano l'ipotesi di distribuzione simmetrica
    • Possono portare a un controllo FDR non valido

Motivazione della Ricerca

Questo articolo mira a progettare un metodo indipendente dalla distribuzione che fornisca un rigoroso controllo FDR sia in impostazioni white-box che black-box, con una potenza statistica più elevata.

Contributi Principali

  1. Propone il Metodo PTDI: Un metodo nuovo e versatile che realizza il controllo FDR a campione finito indipendente dalla distribuzione, utilizzabile con i metodi di rilevamento esistenti
  2. Garanzie Teoriche: Fornisce una prova teorica rigorosa (Teorema 1) che assicura il controllo rigoroso del tasso di scoperta falsa da parte di PTDI
  3. Verifica Sperimentale Ampia: Valida l'efficacia del metodo su più modelli (LLM e VLM), compiti (pre-addestramento e fine-tuning) e dataset
  4. Praticità: Il metodo è model-agnostic, applicabile sia in impostazioni black-box che white-box, richiedendo solo dati non visti come set di calibrazione

Spiegazione Dettagliata del Metodo

Definizione del Compito

Dato un modello target θ, un set di calibrazione D_cal (di dimensione n) e un set di test D_test = {X_{n+j}}^m_, l'obiettivo è selezionare un sottoinsieme di indici S ⊆ {1,...,m} tale che il tasso di scoperta falsa sia controllato a un livello specificato dall'utente α ∈ (0,1):

FDR=E[j=1m1{Mn+j=0,jS}max(S,1)]α\text{FDR} = E\left[\frac{\sum_{j=1}^m \mathbf{1}\{M_{n+j} = 0, j \in S\}}{\max(|S|, 1)}\right] \leq \alpha

Algoritmo Principale: PTDI

Fase 1: Costruzione di p-value Conformi

Calcolare il p-value per ogni punto di test: pj=1+i=1n1{TiTn+j}n+1p_j = \frac{1 + \sum_{i=1}^n \mathbf{1}\{T_i \leq T_{n+j}\}}{n+1}

dove T(X;θ) è il punteggio di rilevamento (come la perplessità), con punteggi più bassi che indicano una maggiore probabilità di essere un membro dell'addestramento.

Fase 2: Stima della Proporzione di Utilizzo dei Dati

Utilizzare lo stimatore di sottrazione π̂_sub per stimare la proporzione di dati di addestramento nel set di test π_test: π^sub=11m+1(1+j=1m1{T(Xn+j)R})1ni=1n1{T(Xi)R}\hat{\pi}_{sub} = 1 - \frac{\frac{1}{m+1}(1 + \sum_{j=1}^m \mathbf{1}\{T(X_{n+j}) \in R\})}{\frac{1}{n}\sum_{i=1}^n \mathbf{1}\{T(X_i) \in R\}}

dove R = (τ,+∞) è una regione di appartenenza sparsa costruita tramite una soglia di quantile η.

Fase 3: Scalatura dei p-value

Calcolare i p-value scalati: p~j=(1π^test)pj\tilde{p}_j = (1-\hat{\pi}_{test})p_j

Fase 4: Procedura di Benjamini-Hochberg

Applicare la procedura BH per selezionare l'insieme finale: S={jp~jkmα}S = \{j | \tilde{p}_j \leq \frac{k^*}{m}\alpha\} dove k=max{kp~(k)kmα}k^* = \max\{k | \tilde{p}_{(k)} \leq \frac{k}{m}\alpha\}

Punti di Innovazione Tecnica

  1. Progettazione dello Stimatore Conservativo: Lo stimatore di sottrazione assicura E(1-π_test)/(1-π̂_sub) ≤ 1, mantenendo il controllo FDR
  2. Tecnica di Scalatura dei p-value: Supera il conservatorismo della procedura BH standard scalando i p-value, migliorando significativamente la potenza statistica
  3. Garanzie Indipendenti dalla Distribuzione: Non dipende da ipotesi di distribuzione specifiche, con ampia applicabilità

Configurazione Sperimentale

Dataset

  • Pre-addestramento LLM: WikiMIA, ArxivTection
  • Fine-tuning LLM: XSum, BBC Real Time
  • Modelli Visione-Linguaggio: VL-MIA/Flickr, VL-MIA/DALL-E

Modelli

  • LLM: GPT-2, GPT-Neo, GPT-NeoX-20B, LLaMA-7B, Pythia (1.4B e 6.9B)
  • VLM: LLaVA-1.5, MiniGPT-4

Punteggi di Rilevamento

  • LLM: Perplessità, Rapporto di Compressione Zlib, MIN-K%, Entropia Modificata (M-Entropy)
  • VLM: MaxRényi-K%

Metriche di Valutazione

  • FDR: Stima empirica del tasso di scoperta falsa
  • Power: Potenza statistica, proporzione di veri membri correttamente identificati

Risultati Sperimentali

Risultati Principali

Efficacia del Controllo FDR

In tutte le impostazioni sperimentali, il metodo PTDI controlla rigorosamente l'FDR al di sotto del livello target:

  • Su WikiMIA con Pythia-1.4B, FDR target=5%: PTDI realizza 4.94% vs 13.11% di KTD
  • Tutte le combinazioni di modelli e dataset mostrano FDR effettivo inferiore al livello target

Miglioramento della Potenza Statistica

La scalatura dei p-value migliora significativamente la potenza statistica:

  • Su WikiMIA con GPT-NeoX-20B, FDR target=0.5, punteggio MIN-K%: la potenza aumenta da 0.44 a 0.75
  • A diversi livelli di FDR target, il metodo di scalatura supera costantemente il metodo vanilla

Esperimenti di Ablazione

Impatto della Dimensione del Set di Calibrazione

  • L'aumento della dimensione del set di calibrazione (ρ = n/m da 0.1 a 1.0) riduce la varianza di FDP e potenza
  • Tutti i valori di ρ controllano efficacemente l'FDR

Robustezza dell'Iperparametro η

  • Nel range η ∈ {0.01, 0.05, 0.1, 0.5}, il metodo controlla robustamente l'FDR
  • Impostazione predefinita η = 0.05

Robustezza alle Variazioni di π_test

  • Con diverse proporzioni di utilizzo dei dati (π_test = 0.3, 0.5, 0.7) mantiene il controllo FDR

Confronto con il Metodo KTD

  • PTDI controlla rigorosamente l'FDR in tutte le impostazioni di test
  • KTD perde il controllo su WikiMIA e XSum per alcuni valori di α
  • Quando il controllo FDR è efficace, PTDI ha migliore potenza su GPT-2

Stimatore dei Momenti Aggiustato

Propone uno stimatore dei momenti corretto per la distorsione π̂_mom che migliora ulteriormente la potenza quando sono disponibili dati di membri confermati, mantenendo il controllo FDR.

Lavori Correlati

Rilevamento dei Dati di Addestramento nei Modelli su Larga Scala

  • Ricerca sulla Contaminazione dei Dati: Prevenire la fuga di dati di benchmark nel set di addestramento
  • Punteggi di Rilevamento Euristici: Metodi come perplessità e MIN-k% mancano di garanzie teoriche
  • Metodi Statisticamente Rigorosi: I metodi di Dekoninck et al. e Oren et al. si applicano solo alle ipotesi a livello di dataset

Attacchi di Inferenza di Appartenenza

  • Prospettiva sulla Privacy: MIA mira a determinare se un punto dati specifico è stato utilizzato per l'addestramento
  • Metodi di Classificazione Binaria: Si concentrano sulla precisione media di classificazione
  • Framework di Test di Ipotesi: Metodi come Attack-P danno priorità al TPR a basso FPR

Controllo FDR

  • Procedura di Benjamini-Hochberg: Strumento standard per il controllo FDR
  • P-value Conformi: Il metodo di Jin & Candès richiede forti ipotesi i.i.d
  • Statistiche Knockoff: Il metodo di Hu et al. richiede la generazione di knockoff di alta qualità

Conclusioni e Discussione

Conclusioni Principali

  1. Il metodo PTDI realizza un controllo FDR rigoroso con garanzie a campione finito indipendenti dalla distribuzione
  2. La tecnica di scalatura dei p-value migliora significativamente la potenza statistica mantenendo il rigore teorico
  3. Il metodo ha ampia applicabilità e può essere combinato con metodi di rilevamento esistenti

Limitazioni

  1. Requisito del Set di Calibrazione: Richiede un set di calibrazione di dati non visti con distribuzione simile al set di test
  2. Sfide con Dati Eterogenei: Per dati di test altamente eterogenei, è difficile costruire un set di calibrazione rappresentativo
  3. Disallineamento di Distribuzione: Un significativo disallineamento di distribuzione tra dati di calibrazione e test può invalidare le garanzie FDR

Direzioni Future

  1. Sviluppare metodi di stima della proporzione di utilizzo dei dati più robusti
  2. Ricercare il controllo FDR in caso di disallineamento di distribuzione
  3. Estendere a scenari di rilevamento più complessi

Valutazione Approfondita

Punti di Forza

  1. Rigore Teorico: Fornisce prove matematiche complete e garanzie a campione finito
  2. Forte Praticità: Il metodo è semplice da implementare e può essere combinato con strumenti esistenti
  3. Valutazione Sperimentale Ampia: Copre una valutazione estesa su più modelli, compiti e dataset
  4. Innovazione: La tecnica di scalatura dei p-value risolve abilmente il problema del conservatorismo della procedura BH

Carenze

  1. Limitazioni delle Ipotesi: Dipende dall'ipotesi di poter ottenere un set di calibrazione appropriato
  2. Costo Computazionale: Richiede il calcolo dei punteggi di rilevamento per numerosi punti candidati
  3. Selezione dei Parametri: Sebbene robusto rispetto a η, la scelta ottimale richiede ancora orientamento empirico

Impatto

  1. Contributo Accademico: Fornisce il primo framework statistico rigoroso per l'identificazione dei dati di addestramento
  2. Valore Pratico: Ha applicazione diretta in controversie di copyright e audit sulla privacy
  3. Riproducibilità: La descrizione dell'algoritmo è chiara e facile da riprodurre ed estendere

Scenari di Applicazione

  1. Protezione del Copyright: Identificare contenuti protetti da copyright utilizzati nell'addestramento del modello
  2. Audit sulla Privacy: Verificare se i dati personali sono stati utilizzati per l'addestramento del modello
  3. Valutazione dei Benchmark: Rilevare e rimuovere campioni contaminati nei dataset di valutazione
  4. Audit del Modello: Verificare la conformità del modello in ambienti normativi

Riferimenti Bibliografici

L'articolo cita numerosi lavori importanti, inclusi:

  • Benjamini & Hochberg (1995): Procedura BH classica per il controllo FDR
  • Shi et al. (2024): Dataset WikiMIA e metodo di rilevamento MIN-K%
  • Hu et al. (2025): Rilevamento dei dati di addestramento basato su statistiche knockoff
  • Jin & Candès (2023): P-value conformi nei problemi di selezione

Sintesi: Questo è un articolo di importante valore teorico e pratico nel campo dell'identificazione dei dati di addestramento. Il metodo PTDI non solo fornisce garanzie statistiche rigorose, ma dimostra anche eccellenti prestazioni nelle applicazioni pratiche. Questo lavoro fornisce uno strumento importante per affrontare i problemi attuali di trasparenza e responsabilità dei modelli di IA.