2025-11-21T11:01:15.942804

High-Power Training Data Identification with Provable Statistical Guarantees

Liu, Zeng, Huang et al.
Identifying training data within large-scale models is critical for copyright litigation, privacy auditing, and ensuring fair evaluation. The conventional approaches treat it as a simple binary classification task without statistical guarantees. A recent approach is designed to control the false discovery rate (FDR), but its guarantees rely on strong, easily violated assumptions. In this paper, we introduce Provable Training Data Identification (PTDI), a rigorous method that identifies a set of training data with strict false discovery rate (FDR) control. Specifically, our method computes p-values for each data point using a set of known unseen data, and then constructs a conservative estimator for the data usage proportion of the test set, which allows us to scale these p-values. Our approach then selects the final set of training data by identifying all points whose scaled p-values fall below a data-dependent threshold. This entire procedure enables the discovery of training data with provable, strict FDR control and significantly boosted power. Extensive experiments across a wide range of models (LLMs and VLMs), and datasets demonstrate that PTDI strictly controls the FDR and achieves higher power.
academic

Identificación de Datos de Entrenamiento de Alta Potencia con Garantías Estadísticas Comprobables

Información Básica

  • ID del Artículo: 2510.09717
  • Título: High-Power Training Data Identification with Provable Statistical Guarantees
  • Autores: Zhenlong Liu, Hao Zeng, Weiran Huang, Hongxin Wei
  • Clasificación: cs.LG cs.AI
  • Fecha de Publicación/Conferencia: Preimpresión (octubre de 2025)
  • Enlace del Artículo: https://arxiv.org/abs/2510.09717

Resumen

La identificación de datos de entrenamiento en modelos a gran escala es crucial para litigios de derechos de autor, auditorías de privacidad y garantizar evaluaciones justas. Los métodos tradicionales la tratan como una tarea simple de clasificación binaria, careciendo de garantías estadísticas. Aunque los métodos recientes han diseñado mecanismos para controlar la tasa de descubrimiento falso (FDR), sus garantías dependen de supuestos fuertes que se violan fácilmente. Este artículo propone el método de Identificación Comprobable de Datos de Entrenamiento (PTDI), que controla estrictamente la FDR. El método calcula valores p para cada punto de datos utilizando un conjunto de datos no visto conocido, luego construye un estimador conservador de la proporción de datos del conjunto de prueba para escalar estos valores p. Finalmente, selecciona el conjunto final de datos de entrenamiento identificando todos los puntos con valores p escalados por debajo de un umbral dependiente de los datos. Todo el proceso logra control comprobable y estricto de FDR, mejorando significativamente la potencia estadística.

Antecedentes de Investigación y Motivación

Importancia del Problema

Con el despliegue generalizado de modelos de aprendizaje automático, la identificación de datos de entrenamiento se ha vuelto crítica, manifestándose principalmente en:

  1. Controversias de Derechos de Autor: Como el caso Strike 3 contra Meta, que involucra 2,396 películas con derechos de autor, con daños legales potenciales superiores a 350 millones de dólares
  2. Privacidad de Datos: Cumplimiento con regulaciones de privacidad como GDPR y CCPA
  3. Contaminación de Datos: Garantizar la equidad de los puntos de referencia de evaluación, previniendo fugas de datos de entrenamiento

Limitaciones de Métodos Existentes

  1. Métodos Tradicionales: Tratan la detección de datos de entrenamiento como una tarea simple de clasificación binaria, careciendo de garantías teóricas
  2. Métodos Recientes: Como el método de estadística knockoff propuesto por Hu et al. (2025), que controla FDR pero presenta los siguientes problemas:
    • Requiere acceso a gradientes del modelo, no disponible en configuraciones de caja negra
    • Construcción difícil de knockoffs efectivos, violando fácilmente supuestos de distribución simétrica
    • Puede resultar en control inválido de FDR

Motivación de la Investigación

Este artículo tiene como objetivo diseñar un método agnóstico de distribución que proporcione control estricto de FDR tanto en configuraciones de caja blanca como de caja negra, con mayor potencia estadística.

Contribuciones Principales

  1. Propone el Método PTDI: Un método novedoso y versátil que logra control de FDR en muestra finita agnóstico de distribución, combinable con métodos de detección existentes
  2. Garantías Teóricas: Proporciona prueba teórica rigurosa (Teorema 1) que asegura que PTDI controla estrictamente la tasa de descubrimiento falso
  3. Verificación Experimental Extensa: Valida la efectividad del método en múltiples modelos (LLM y VLM), tareas (preentrenamiento y ajuste fino) y conjuntos de datos
  4. Practicidad: El método es agnóstico del modelo, aplicable a configuraciones de caja negra y blanca, requiriendo solo datos no vistos como conjunto de calibración

Explicación Detallada del Método

Definición de Tarea

Dado un modelo objetivo θ, conjunto de calibración D_cal (tamaño n) y conjunto de prueba D_test = {X_{n+j}}^m_, el objetivo es seleccionar un subconjunto de índices S ⊆ {1,...,m}, tal que la tasa de descubrimiento falso se controle en un nivel especificado por el usuario α ∈ (0,1):

FDR=E[j=1m1{Mn+j=0,jS}max(S,1)]α\text{FDR} = E\left[\frac{\sum_{j=1}^m \mathbf{1}\{M_{n+j} = 0, j \in S\}}{\max(|S|, 1)}\right] \leq \alpha

Algoritmo Principal: PTDI

Paso 1: Construcción de Valores p Conformales

Calcular valor p para cada punto de prueba: pj=1+i=1n1{TiTn+j}n+1p_j = \frac{1 + \sum_{i=1}^n \mathbf{1}\{T_i \leq T_{n+j}\}}{n+1}

donde T(X;θ) es la puntuación de detección (como perplejidad), con puntuaciones más bajas indicando mayor probabilidad de ser miembro del entrenamiento.

Paso 2: Estimación de la Proporción de Datos Utilizados

Utilizar el estimador sustractivo π̂_sub para estimar la proporción de datos de entrenamiento en el conjunto de prueba π_test: π^sub=11m+1(1+j=1m1{T(Xn+j)R})1ni=1n1{T(Xi)R}\hat{\pi}_{sub} = 1 - \frac{\frac{1}{m+1}(1 + \sum_{j=1}^m \mathbf{1}\{T(X_{n+j}) \in R\})}{\frac{1}{n}\sum_{i=1}^n \mathbf{1}\{T(X_i) \in R\}}

donde R = (τ,+∞) es una región de membresía dispersa construida mediante umbral de cuantil η.

Paso 3: Escalado de Valores p

Calcular valores p escalados: p~j=(1π^test)pj\tilde{p}_j = (1-\hat{\pi}_{test})p_j

Paso 4: Procedimiento Benjamini-Hochberg

Aplicar procedimiento BH para seleccionar conjunto final: S={jp~jkmα}S = \{j | \tilde{p}_j \leq \frac{k^*}{m}\alpha\} donde k=max{kp~(k)kmα}k^* = \max\{k | \tilde{p}_{(k)} \leq \frac{k}{m}\alpha\}

Puntos de Innovación Técnica

  1. Diseño de Estimador Conservador: El estimador sustractivo asegura E(1-π_test)/(1-π̂_sub) ≤ 1, manteniendo control de FDR
  2. Técnica de Escalado de Valores p: Supera el conservadurismo del procedimiento BH estándar mediante escalado de valores p, mejorando significativamente la potencia estadística
  3. Garantía Agnóstica de Distribución: No depende de supuestos de distribución específicos, con amplia aplicabilidad

Configuración Experimental

Conjuntos de Datos

  • Preentrenamiento de LLM: WikiMIA, ArxivTection
  • Ajuste Fino de LLM: XSum, BBC Real Time
  • Modelos de Lenguaje Visual: VL-MIA/Flickr, VL-MIA/DALL-E

Modelos

  • LLM: GPT-2, GPT-Neo, GPT-NeoX-20B, LLaMA-7B, Pythia (1.4B y 6.9B)
  • VLM: LLaVA-1.5, MiniGPT-4

Puntuaciones de Detección

  • LLM: Perplejidad, Ratio de Compresión Zlib, MIN-K%, Entropía Modificada (M-Entropy)
  • VLM: MaxRényi-K%

Métricas de Evaluación

  • FDR: Estimación empírica de la tasa de descubrimiento falso
  • Potencia: Potencia estadística, proporción de miembros verdaderos identificados correctamente

Resultados Experimentales

Resultados Principales

Efectividad del Control de FDR

En todas las configuraciones experimentales, el método PTDI controla estrictamente FDR por debajo del nivel objetivo:

  • Pythia-1.4B en WikiMIA, FDR objetivo=5%: PTDI logra 4.94% vs KTD 13.11%
  • Todas las combinaciones de modelos y conjuntos de datos muestran FDR real por debajo del nivel objetivo

Mejora de Potencia Estadística

El escalado de valores p mejora significativamente la potencia estadística:

  • GPT-NeoX-20B en WikiMIA, FDR objetivo=0.5, puntuación MIN-K%: potencia mejora de 0.44 a 0.75
  • En diferentes niveles de FDR objetivo, el método escalado siempre supera al método vanilla

Experimentos de Ablación

Impacto del Tamaño del Conjunto de Calibración

  • Aumentar tamaño de calibración (ρ = n/m de 0.1 a 1.0) reduce varianza de FDP y potencia
  • Todos los valores ρ controlan efectivamente FDR

Robustez del Hiperparámetro η

  • En rango η ∈ {0.01, 0.05, 0.1, 0.5}, el método controla robustamente FDR
  • Configuración predeterminada η = 0.05

Robustez ante Variación de π_test

  • Con diferentes proporciones de uso de datos (π_test = 0.3, 0.5, 0.7) se mantiene control de FDR

Comparación con Método KTD

  • PTDI controla estrictamente FDR en todas las configuraciones de prueba
  • KTD pierde control en WikiMIA y XSum para ciertos valores de α
  • Cuando el control de FDR es efectivo, PTDI muestra mejor potencia en GPT-2

Estimador de Momentos Ajustado

Se propone estimador de momentos π̂_mom con corrección de sesgo, que mejora aún más la potencia cuando hay datos de miembros confirmados disponibles, manteniendo control de FDR.

Trabajo Relacionado

Detección de Datos de Entrenamiento en Modelos a Gran Escala

  • Investigación de Contaminación de Datos: Prevención de fugas de datos de referencia a conjuntos de entrenamiento
  • Puntuaciones de Detección Heurísticas: Métodos como perplejidad, MIN-k% carecen de garantías teóricas
  • Métodos Estadísticamente Rigurosos: Métodos de Dekoninck et al. y Oren et al. solo aplicables a supuestos a nivel de conjunto de datos

Ataques de Inferencia de Membresía

  • Perspectiva de Privacidad: MIA determina si puntos de datos específicos se utilizaron en entrenamiento
  • Métodos de Clasificación Binaria: Enfocados en precisión de clasificación promedio
  • Marco de Prueba de Hipótesis: Métodos como Attack-P priorizan TPR bajo FPR bajo

Control de FDR

  • Procedimiento Benjamini-Hochberg: Herramienta estándar de control de FDR
  • Valores p Conformales: Método de Jin & Candès requiere supuesto fuerte i.i.d
  • Estadística Knockoff: Método de Hu et al. requiere generación de knockoff de alta calidad

Conclusiones y Discusión

Conclusiones Principales

  1. El método PTDI logra control estricto de FDR con garantías de muestra finita agnósticas de distribución
  2. La técnica de escalado de valores p mejora significativamente la potencia estadística manteniendo rigor teórico
  3. El método tiene amplia aplicabilidad, combinable con métodos de detección existentes

Limitaciones

  1. Requisito de Conjunto de Calibración: Requiere conjunto de calibración de datos no vistos con distribución similar al conjunto de prueba
  2. Desafío de Datos Heterogéneos: Para datos de prueba altamente heterogéneos, es difícil construir conjunto de calibración representativo
  3. Desajuste de Distribución: Desajuste significativo entre datos de calibración y prueba puede invalidar garantía de FDR

Direcciones Futuras

  1. Desarrollar métodos más robustos de estimación de proporción de uso de datos
  2. Investigar control de FDR bajo desajuste de distribución
  3. Extender a escenarios de detección más complejos

Evaluación Profunda

Fortalezas

  1. Rigor Teórico: Proporciona prueba matemática completa y garantías de muestra finita
  2. Practicidad Fuerte: Método simple de implementar, combinable con herramientas existentes
  3. Evaluación Experimental Extensa: Cobertura amplia de múltiples modelos, tareas y conjuntos de datos
  4. Innovación: Técnica de escalado de valores p resuelve ingeniosamente conservadurismo del procedimiento BH

Insuficiencias

  1. Limitación de Supuestos: Depende del supuesto de poder obtener conjunto de calibración apropiado
  2. Costo Computacional: Requiere calcular puntuaciones de detección para muchos puntos candidatos
  3. Selección de Parámetros: Aunque robusto a η, la selección óptima aún requiere orientación empírica

Impacto

  1. Contribución Académica: Proporciona primer marco estadístico riguroso para identificación de datos de entrenamiento
  2. Valor Práctico: Aplicación directa en litigios de derechos de autor y auditorías de privacidad
  3. Reproducibilidad: Descripción clara del algoritmo, fácil de reproducir y extender

Escenarios de Aplicación

  1. Protección de Derechos de Autor: Identificar contenido protegido por derechos de autor utilizado en entrenamiento de modelos
  2. Auditoría de Privacidad: Verificar si datos personales fueron utilizados en entrenamiento de modelos
  3. Evaluación de Referencia: Detectar y eliminar muestras contaminadas en conjuntos de datos de evaluación
  4. Auditoría de Modelos: Verificar cumplimiento de modelos en entornos regulatorios

Referencias

El artículo cita múltiples trabajos importantes, incluyendo:

  • Benjamini & Hochberg (1995): Procedimiento BH clásico para control de FDR
  • Shi et al. (2024): Conjunto de datos WikiMIA y método de detección MIN-K%
  • Hu et al. (2025): Detección de datos de entrenamiento basada en estadística knockoff
  • Jin & Candès (2023): Valores p conformales en problemas de selección

Resumen: Este es un artículo con valor teórico y práctico importante en el campo de identificación de datos de entrenamiento. El método PTDI no solo proporciona garantías estadísticas rigurosas, sino que también demuestra rendimiento excepcional en aplicaciones prácticas. Este trabajo proporciona herramientas importantes para abordar cuestiones actuales de transparencia y responsabilidad en modelos de IA.