Identifying training data within large-scale models is critical for copyright litigation, privacy auditing, and ensuring fair evaluation. The conventional approaches treat it as a simple binary classification task without statistical guarantees. A recent approach is designed to control the false discovery rate (FDR), but its guarantees rely on strong, easily violated assumptions. In this paper, we introduce Provable Training Data Identification (PTDI), a rigorous method that identifies a set of training data with strict false discovery rate (FDR) control. Specifically, our method computes p-values for each data point using a set of known unseen data, and then constructs a conservative estimator for the data usage proportion of the test set, which allows us to scale these p-values. Our approach then selects the final set of training data by identifying all points whose scaled p-values fall below a data-dependent threshold. This entire procedure enables the discovery of training data with provable, strict FDR control and significantly boosted power. Extensive experiments across a wide range of models (LLMs and VLMs), and datasets demonstrate that PTDI strictly controls the FDR and achieves higher power.
- Paper-ID: 2510.09717
- Titel: High-Power Training Data Identification with Provable Statistical Guarantees
- Autoren: Zhenlong Liu, Hao Zeng, Weiran Huang, Hongxin Wei
- Klassifikation: cs.LG cs.AI
- Veröffentlichungszeitpunkt/Konferenz: Preprint (Oktober 2025)
- Paper-Link: https://arxiv.org/abs/2510.09717
Die Identifikation von Trainingsdaten in großskaligen Modellen ist für Urheberrechtsstreitigkeiten, Datenschutzprüfungen und die Gewährleistung fairer Bewertungen von entscheidender Bedeutung. Herkömmliche Methoden behandeln dies als einfache binäre Klassifikationsaufgabe ohne statistische Garantien. Neuere Ansätze haben zwar Mechanismen zur Kontrolle der False Discovery Rate (FDR) entwickelt, doch ihre Garantien beruhen auf leicht zu verletzenden starken Annahmen. Dieses Papier präsentiert die Provably Trainable Data Identification (PTDI)-Methode, ein Verfahren zur strikten Kontrolle der FDR. Die Methode berechnet p-Werte für jeden Datenpunkt unter Verwendung eines bekannten, ungesehenen Datensatzes und konstruiert dann einen konservativen Schätzer des Anteils der Testmengendaten, um diese p-Werte zu skalieren. Abschließend wird die endgültige Trainingsmenge durch Identifikation aller Punkte mit skalierten p-Werten unterhalb eines datenabhängigen Schwellwerts ausgewählt. Der gesamte Prozess erreicht nachweisbare strikte FDR-Kontrolle und zeigt deutlich verbesserte statistische Aussagekraft.
Mit der weit verbreiteten Bereitstellung von Machine-Learning-Modellen wird die Identifikation von Trainingsdaten zunehmend kritisch, was sich hauptsächlich in folgenden Aspekten manifestiert:
- Urheberrechtsstreitigkeiten: Wie im Fall Strike 3 gegen Meta mit 2.396 urheberrechtlich geschützten Filmen und potenziellen gesetzlichen Schadensersatzzahlungen von über 350 Millionen Dollar
- Datenschutz: Einhaltung von Datenschutzbestimmungen wie GDPR und CCPA
- Datenverschmutzung: Gewährleistung der Fairness von Bewertungs-Benchmarks und Verhinderung von Trainingsdatenlecks
- Herkömmliche Methoden: Behandeln die Erkennung von Trainingsdaten als einfache binäre Klassifikationsaufgabe ohne theoretische Garantien
- Neuere Methoden: Wie die von Hu et al. (2025) vorgeschlagene Knockoff-Statistik-Methode, die zwar FDR kontrolliert, aber folgende Probleme aufweist:
- Erfordert Zugriff auf Modellgradienten, nicht in Black-Box-Einstellungen verfügbar
- Schwierig, effektive Knockoffs zu konstruieren, leicht zu verletzende symmetrische Verteilungsannahmen
- Kann zu ungültiger FDR-Kontrolle führen
Dieses Papier zielt darauf ab, eine verteilungsunabhängige Methode zu entwickeln, die strikte FDR-Kontrolle sowohl in White-Box- als auch Black-Box-Einstellungen bietet und gleichzeitig höhere statistische Aussagekraft aufweist.
- PTDI-Methode: Ein neuartiges und universelles Verfahren, das verteilungsunabhängige endliche Stichproben-FDR-Kontrolle erreicht und mit bestehenden Erkennungsmethoden kombiniert werden kann
- Theoretische Garantien: Bietet strikte theoretische Beweise (Theorem 1), die sicherstellen, dass PTDI die False Discovery Rate strikt kontrolliert
- Umfangreiche experimentelle Validierung: Validierung der Methode über mehrere Modelle (LLM und VLM), Aufgaben (Vortraining und Feinabstimmung) und Datensätze
- Praktikabilität: Modellunabhängige Methode, anwendbar auf Black-Box- und White-Box-Einstellungen, benötigt nur ungesehene Daten als Kalibrierungssatz
Gegeben ein Zielmodell θ, ein Kalibrierungssatz D_cal (Größe n) und ein Testsatz D_test = {X_{n+j}}^m_, besteht das Ziel darin, eine Indexuntermenge S ⊆ {1,...,m} auszuwählen, sodass die False Discovery Rate auf einem benutzerdefinierten Niveau α ∈ (0,1) kontrolliert wird:
FDR=E[max(∣S∣,1)∑j=1m1{Mn+j=0,j∈S}]≤α
Berechnung des p-Werts für jeden Testpunkt:
pj=n+11+∑i=1n1{Ti≤Tn+j}
wobei T(X;θ) ein Erkennungsscore ist (z.B. Perplexität), wobei niedrigere Scores eine höhere Wahrscheinlichkeit für Trainingsmitgliedschaft andeuten.
Verwendung des Subtraktionsschätzers π̂_sub zur Schätzung des Anteils der Trainingsdaten im Testsatz π_test:
π^sub=1−n1∑i=1n1{T(Xi)∈R}m+11(1+∑j=1m1{T(Xn+j)∈R})
wobei R = (τ,+∞) ein spärlicher Mitgliedschaftsbereich ist, der durch einen Quantilschwellwert η konstruiert wird.
Berechnung der skalierten p-Werte:
p~j=(1−π^test)pj
Anwendung des BH-Verfahrens zur Auswahl der endgültigen Menge:
S={j∣p~j≤mk∗α}
wobei k∗=max{k∣p~(k)≤mkα}
- Konservativer Schätzer-Design: Der Subtraktionsschätzer stellt sicher, dass E(1-π_test)/(1-π̂_sub) ≤ 1, wodurch die FDR-Kontrolle gewährleistet bleibt
- p-Wert-Skalierungstechnik: Überwindung der Konservativität des Standard-BH-Verfahrens durch p-Wert-Skalierung, was die statistische Aussagekraft deutlich verbessert
- Verteilungsunabhängige Garantien: Nicht abhängig von spezifischen Verteilungsannahmen, mit breiter Anwendbarkeit
- LLM-Vortraining: WikiMIA, ArxivTection
- LLM-Feinabstimmung: XSum, BBC Real Time
- Vision-Language-Modelle: VL-MIA/Flickr, VL-MIA/DALL-E
- LLM: GPT-2, GPT-Neo, GPT-NeoX-20B, LLaMA-7B, Pythia (1.4B und 6.9B)
- VLM: LLaVA-1.5, MiniGPT-4
- LLM: Perplexität, Zlib-Komprimierungsverhältnis, MIN-K%, korrigierte Entropie (M-Entropy)
- VLM: MaxRényi-K%
- FDR: Empirische Schätzung der False Discovery Rate
- Power: Statistische Aussagekraft, Anteil der korrekt identifizierten echten Mitglieder
Die PTDI-Methode kontrolliert die FDR in allen experimentellen Einstellungen strikt unterhalb des Zielniveaus:
- Pythia-1.4B auf WikiMIA, Ziel-FDR=5%: PTDI erreicht 4,94% vs. KTD 13,11%
- Alle Modell- und Datensatzkombinationen zeigen tatsächliche FDR unterhalb des Zielniveaus
Die p-Wert-Skalierung verbessert die statistische Aussagekraft deutlich:
- GPT-NeoX-20B auf WikiMIA, Ziel-FDR=0,5, MIN-K%-Score: Aussagekraft von 0,44 auf 0,75 verbessert
- Bei verschiedenen Ziel-FDR-Niveaus ist die Skalierungsmethode der Vanilla-Methode durchweg überlegen
- Vergrößerung des Kalibrierungssatzes (ρ = n/m von 0,1 bis 1,0) reduziert die Varianz von FDP und Aussagekraft
- Alle ρ-Werte ermöglichen effektive FDR-Kontrolle
- Im Bereich η ∈ {0,01, 0,05, 0,1, 0,5} kontrolliert die Methode robust die FDR
- Standardeinstellung η = 0,05
- Bei verschiedenen Datennutzungsanteilen (π_test = 0,3, 0,5, 0,7) bleibt die FDR-Kontrolle erhalten
- PTDI kontrolliert die FDR in allen Testeinstellungen strikt
- KTD verliert die Kontrolle auf WikiMIA und XSum bei einigen α-Werten
- Wenn die FDR-Kontrolle effektiv ist, ist PTDI auf GPT-2 aussagekräftiger
Ein verzerrungskorrigierter Momentschätzer π̂_mom wird vorgeschlagen, der bei Verfügbarkeit von bestätigten Mitgliedsdaten die Aussagekraft weiter verbessert und gleichzeitig die FDR-Kontrolle beibehält.
- Datenverschmutzungsforschung: Verhinderung von Benchmark-Datenlecks in Trainingsmengen
- Heuristische Erkennungsscores: Perplexität, MIN-k% und andere Methoden ohne theoretische Garantien
- Statistisch strikte Methoden: Methoden von Dekoninck et al. und Oren et al. gelten nur für Datensatz-Level-Annahmen
- Datenschutzperspektive: MIA zielt darauf ab, festzustellen, ob spezifische Datenpunkte zum Training verwendet wurden
- Binäre Klassifikationsmethoden: Fokus auf durchschnittliche Klassifikationsgenauigkeit
- Hypothesentestrahmen: Methoden wie Attack-P priorisieren TPR bei niedriger FPR
- Benjamini-Hochberg-Verfahren: Standard-FDR-Kontrollinstrument
- Conformal p-Werte: Methode von Jin & Candès erfordert starke i.i.d-Annahmen
- Knockoff-Statistik: Methode von Hu et al. erfordert hochwertige Knockoff-Generierung
- Die PTDI-Methode erreicht strikte FDR-Kontrolle mit verteilungsunabhängigen endlichen Stichprobengarantien
- Die p-Wert-Skalierungstechnik verbessert die statistische Aussagekraft deutlich und behält theoretische Strenge bei
- Die Methode hat breite Anwendbarkeit und kann mit bestehenden Erkennungsmethoden kombiniert werden
- Kalibrierungssatz-Anforderung: Benötigt einen ungesehenen Datensatz-Kalibrierungssatz mit ähnlicher Verteilung wie der Testsatz
- Heterogene Daten-Herausforderung: Für hochgradig heterogene Testdaten ist die Konstruktion eines repräsentativen Kalibrierungssatzes schwierig
- Verteilungsmismatch: Signifikanter Verteilungsmismatch zwischen Kalibrierungs- und Testdaten kann die FDR-Garantien ungültig machen
- Entwicklung robusterer Schätzmethoden für Datennutzungsanteile
- Untersuchung der FDR-Kontrolle unter Verteilungsmismatch-Bedingungen
- Erweiterung auf komplexere Erkennungsszenarien
- Theoretische Strenge: Bietet vollständige mathematische Beweise und endliche Stichprobengarantien
- Hohe Praktikabilität: Methode ist einfach zu implementieren und kann mit bestehenden Werkzeugen kombiniert werden
- Umfangreiche Experimente: Breite Bewertung über mehrere Modelle, Aufgaben und Datensätze
- Innovativität: p-Wert-Skalierungstechnik löst elegant das Konservativitätsproblem des BH-Verfahrens
- Annahmebeschränkungen: Abhängig von der Annahme, einen geeigneten Kalibrierungssatz erhalten zu können
- Rechenkomplexität: Erfordert Berechnung von Erkennungsscores für eine große Anzahl von Kandidatendatenpunkten
- Parameterauswahl: Obwohl robust gegenüber η, erfordert die optimale Auswahl noch empirische Anleitung
- Akademischer Beitrag: Bietet das erste strikte statistische Rahmenwerk für die Trainingsdatenidentifikation
- Praktischer Wert: Direkter Anwendungswert in Urheberrechtsstreitigkeiten und Datenschutzprüfungen
- Reproduzierbarkeit: Klare Algorithmusbeschreibung, leicht zu reproduzieren und zu erweitern
- Urheberrechtsschutz: Identifikation von urheberrechtlich geschützten Inhalten, die beim Modelltraining verwendet wurden
- Datenschutzprüfung: Überprüfung, ob persönliche Daten beim Modelltraining verwendet wurden
- Benchmark-Bewertung: Erkennung und Entfernung von Verschmutzungsproben in Bewertungsdatensätzen
- Modellprüfung: Überprüfung der Modellkonformität in Regulierungsumgebungen
Das Papier zitiert mehrere wichtige Arbeiten, darunter:
- Benjamini & Hochberg (1995): Klassisches BH-Verfahren zur FDR-Kontrolle
- Shi et al. (2024): WikiMIA-Datensatz und MIN-K%-Erkennungsmethode
- Hu et al. (2025): Trainingsdatenerkennung basierend auf Knockoff-Statistik
- Jin & Candès (2023): Conformal p-Werte in Auswahlproblemen
Zusammenfassung: Dies ist ein Papier mit wichtigem theoretischem und praktischem Wert im Bereich der Trainingsdatenidentifikation. Die PTDI-Methode bietet nicht nur strikte statistische Garantien, sondern zeigt auch hervorragende Leistung in praktischen Anwendungen. Diese Arbeit bietet wichtige Werkzeuge zur Lösung aktueller Probleme der Transparenz und Rechenschaftspflicht von KI-Modellen.