Identifying training data within large-scale models is critical for copyright litigation, privacy auditing, and ensuring fair evaluation. The conventional approaches treat it as a simple binary classification task without statistical guarantees. A recent approach is designed to control the false discovery rate (FDR), but its guarantees rely on strong, easily violated assumptions. In this paper, we introduce Provable Training Data Identification (PTDI), a rigorous method that identifies a set of training data with strict false discovery rate (FDR) control. Specifically, our method computes p-values for each data point using a set of known unseen data, and then constructs a conservative estimator for the data usage proportion of the test set, which allows us to scale these p-values. Our approach then selects the final set of training data by identifying all points whose scaled p-values fall below a data-dependent threshold. This entire procedure enables the discovery of training data with provable, strict FDR control and significantly boosted power. Extensive experiments across a wide range of models (LLMs and VLMs), and datasets demonstrate that PTDI strictly controls the FDR and achieves higher power.
- ID del Artículo: 2510.09717
- Título: High-Power Training Data Identification with Provable Statistical Guarantees
- Autores: Zhenlong Liu, Hao Zeng, Weiran Huang, Hongxin Wei
- Clasificación: cs.LG cs.AI
- Fecha de Publicación/Conferencia: Preimpresión (octubre de 2025)
- Enlace del Artículo: https://arxiv.org/abs/2510.09717
La identificación de datos de entrenamiento en modelos a gran escala es crucial para litigios de derechos de autor, auditorías de privacidad y garantizar evaluaciones justas. Los métodos tradicionales la tratan como una tarea simple de clasificación binaria, careciendo de garantías estadísticas. Aunque los métodos recientes han diseñado mecanismos para controlar la tasa de descubrimiento falso (FDR), sus garantías dependen de supuestos fuertes que se violan fácilmente. Este artículo propone el método de Identificación Comprobable de Datos de Entrenamiento (PTDI), que controla estrictamente la FDR. El método calcula valores p para cada punto de datos utilizando un conjunto de datos no visto conocido, luego construye un estimador conservador de la proporción de datos del conjunto de prueba para escalar estos valores p. Finalmente, selecciona el conjunto final de datos de entrenamiento identificando todos los puntos con valores p escalados por debajo de un umbral dependiente de los datos. Todo el proceso logra control comprobable y estricto de FDR, mejorando significativamente la potencia estadística.
Con el despliegue generalizado de modelos de aprendizaje automático, la identificación de datos de entrenamiento se ha vuelto crítica, manifestándose principalmente en:
- Controversias de Derechos de Autor: Como el caso Strike 3 contra Meta, que involucra 2,396 películas con derechos de autor, con daños legales potenciales superiores a 350 millones de dólares
- Privacidad de Datos: Cumplimiento con regulaciones de privacidad como GDPR y CCPA
- Contaminación de Datos: Garantizar la equidad de los puntos de referencia de evaluación, previniendo fugas de datos de entrenamiento
- Métodos Tradicionales: Tratan la detección de datos de entrenamiento como una tarea simple de clasificación binaria, careciendo de garantías teóricas
- Métodos Recientes: Como el método de estadística knockoff propuesto por Hu et al. (2025), que controla FDR pero presenta los siguientes problemas:
- Requiere acceso a gradientes del modelo, no disponible en configuraciones de caja negra
- Construcción difícil de knockoffs efectivos, violando fácilmente supuestos de distribución simétrica
- Puede resultar en control inválido de FDR
Este artículo tiene como objetivo diseñar un método agnóstico de distribución que proporcione control estricto de FDR tanto en configuraciones de caja blanca como de caja negra, con mayor potencia estadística.
- Propone el Método PTDI: Un método novedoso y versátil que logra control de FDR en muestra finita agnóstico de distribución, combinable con métodos de detección existentes
- Garantías Teóricas: Proporciona prueba teórica rigurosa (Teorema 1) que asegura que PTDI controla estrictamente la tasa de descubrimiento falso
- Verificación Experimental Extensa: Valida la efectividad del método en múltiples modelos (LLM y VLM), tareas (preentrenamiento y ajuste fino) y conjuntos de datos
- Practicidad: El método es agnóstico del modelo, aplicable a configuraciones de caja negra y blanca, requiriendo solo datos no vistos como conjunto de calibración
Dado un modelo objetivo θ, conjunto de calibración D_cal (tamaño n) y conjunto de prueba D_test = {X_{n+j}}^m_, el objetivo es seleccionar un subconjunto de índices S ⊆ {1,...,m}, tal que la tasa de descubrimiento falso se controle en un nivel especificado por el usuario α ∈ (0,1):
FDR=E[max(∣S∣,1)∑j=1m1{Mn+j=0,j∈S}]≤α
Calcular valor p para cada punto de prueba:
pj=n+11+∑i=1n1{Ti≤Tn+j}
donde T(X;θ) es la puntuación de detección (como perplejidad), con puntuaciones más bajas indicando mayor probabilidad de ser miembro del entrenamiento.
Utilizar el estimador sustractivo π̂_sub para estimar la proporción de datos de entrenamiento en el conjunto de prueba π_test:
π^sub=1−n1∑i=1n1{T(Xi)∈R}m+11(1+∑j=1m1{T(Xn+j)∈R})
donde R = (τ,+∞) es una región de membresía dispersa construida mediante umbral de cuantil η.
Calcular valores p escalados:
p~j=(1−π^test)pj
Aplicar procedimiento BH para seleccionar conjunto final:
S={j∣p~j≤mk∗α}
donde k∗=max{k∣p~(k)≤mkα}
- Diseño de Estimador Conservador: El estimador sustractivo asegura E(1-π_test)/(1-π̂_sub) ≤ 1, manteniendo control de FDR
- Técnica de Escalado de Valores p: Supera el conservadurismo del procedimiento BH estándar mediante escalado de valores p, mejorando significativamente la potencia estadística
- Garantía Agnóstica de Distribución: No depende de supuestos de distribución específicos, con amplia aplicabilidad
- Preentrenamiento de LLM: WikiMIA, ArxivTection
- Ajuste Fino de LLM: XSum, BBC Real Time
- Modelos de Lenguaje Visual: VL-MIA/Flickr, VL-MIA/DALL-E
- LLM: GPT-2, GPT-Neo, GPT-NeoX-20B, LLaMA-7B, Pythia (1.4B y 6.9B)
- VLM: LLaVA-1.5, MiniGPT-4
- LLM: Perplejidad, Ratio de Compresión Zlib, MIN-K%, Entropía Modificada (M-Entropy)
- VLM: MaxRényi-K%
- FDR: Estimación empírica de la tasa de descubrimiento falso
- Potencia: Potencia estadística, proporción de miembros verdaderos identificados correctamente
En todas las configuraciones experimentales, el método PTDI controla estrictamente FDR por debajo del nivel objetivo:
- Pythia-1.4B en WikiMIA, FDR objetivo=5%: PTDI logra 4.94% vs KTD 13.11%
- Todas las combinaciones de modelos y conjuntos de datos muestran FDR real por debajo del nivel objetivo
El escalado de valores p mejora significativamente la potencia estadística:
- GPT-NeoX-20B en WikiMIA, FDR objetivo=0.5, puntuación MIN-K%: potencia mejora de 0.44 a 0.75
- En diferentes niveles de FDR objetivo, el método escalado siempre supera al método vanilla
- Aumentar tamaño de calibración (ρ = n/m de 0.1 a 1.0) reduce varianza de FDP y potencia
- Todos los valores ρ controlan efectivamente FDR
- En rango η ∈ {0.01, 0.05, 0.1, 0.5}, el método controla robustamente FDR
- Configuración predeterminada η = 0.05
- Con diferentes proporciones de uso de datos (π_test = 0.3, 0.5, 0.7) se mantiene control de FDR
- PTDI controla estrictamente FDR en todas las configuraciones de prueba
- KTD pierde control en WikiMIA y XSum para ciertos valores de α
- Cuando el control de FDR es efectivo, PTDI muestra mejor potencia en GPT-2
Se propone estimador de momentos π̂_mom con corrección de sesgo, que mejora aún más la potencia cuando hay datos de miembros confirmados disponibles, manteniendo control de FDR.
- Investigación de Contaminación de Datos: Prevención de fugas de datos de referencia a conjuntos de entrenamiento
- Puntuaciones de Detección Heurísticas: Métodos como perplejidad, MIN-k% carecen de garantías teóricas
- Métodos Estadísticamente Rigurosos: Métodos de Dekoninck et al. y Oren et al. solo aplicables a supuestos a nivel de conjunto de datos
- Perspectiva de Privacidad: MIA determina si puntos de datos específicos se utilizaron en entrenamiento
- Métodos de Clasificación Binaria: Enfocados en precisión de clasificación promedio
- Marco de Prueba de Hipótesis: Métodos como Attack-P priorizan TPR bajo FPR bajo
- Procedimiento Benjamini-Hochberg: Herramienta estándar de control de FDR
- Valores p Conformales: Método de Jin & Candès requiere supuesto fuerte i.i.d
- Estadística Knockoff: Método de Hu et al. requiere generación de knockoff de alta calidad
- El método PTDI logra control estricto de FDR con garantías de muestra finita agnósticas de distribución
- La técnica de escalado de valores p mejora significativamente la potencia estadística manteniendo rigor teórico
- El método tiene amplia aplicabilidad, combinable con métodos de detección existentes
- Requisito de Conjunto de Calibración: Requiere conjunto de calibración de datos no vistos con distribución similar al conjunto de prueba
- Desafío de Datos Heterogéneos: Para datos de prueba altamente heterogéneos, es difícil construir conjunto de calibración representativo
- Desajuste de Distribución: Desajuste significativo entre datos de calibración y prueba puede invalidar garantía de FDR
- Desarrollar métodos más robustos de estimación de proporción de uso de datos
- Investigar control de FDR bajo desajuste de distribución
- Extender a escenarios de detección más complejos
- Rigor Teórico: Proporciona prueba matemática completa y garantías de muestra finita
- Practicidad Fuerte: Método simple de implementar, combinable con herramientas existentes
- Evaluación Experimental Extensa: Cobertura amplia de múltiples modelos, tareas y conjuntos de datos
- Innovación: Técnica de escalado de valores p resuelve ingeniosamente conservadurismo del procedimiento BH
- Limitación de Supuestos: Depende del supuesto de poder obtener conjunto de calibración apropiado
- Costo Computacional: Requiere calcular puntuaciones de detección para muchos puntos candidatos
- Selección de Parámetros: Aunque robusto a η, la selección óptima aún requiere orientación empírica
- Contribución Académica: Proporciona primer marco estadístico riguroso para identificación de datos de entrenamiento
- Valor Práctico: Aplicación directa en litigios de derechos de autor y auditorías de privacidad
- Reproducibilidad: Descripción clara del algoritmo, fácil de reproducir y extender
- Protección de Derechos de Autor: Identificar contenido protegido por derechos de autor utilizado en entrenamiento de modelos
- Auditoría de Privacidad: Verificar si datos personales fueron utilizados en entrenamiento de modelos
- Evaluación de Referencia: Detectar y eliminar muestras contaminadas en conjuntos de datos de evaluación
- Auditoría de Modelos: Verificar cumplimiento de modelos en entornos regulatorios
El artículo cita múltiples trabajos importantes, incluyendo:
- Benjamini & Hochberg (1995): Procedimiento BH clásico para control de FDR
- Shi et al. (2024): Conjunto de datos WikiMIA y método de detección MIN-K%
- Hu et al. (2025): Detección de datos de entrenamiento basada en estadística knockoff
- Jin & Candès (2023): Valores p conformales en problemas de selección
Resumen: Este es un artículo con valor teórico y práctico importante en el campo de identificación de datos de entrenamiento. El método PTDI no solo proporciona garantías estadísticas rigurosas, sino que también demuestra rendimiento excepcional en aplicaciones prácticas. Este trabajo proporciona herramientas importantes para abordar cuestiones actuales de transparencia y responsabilidad en modelos de IA.