2025-11-21T11:01:15.942804

High-Power Training Data Identification with Provable Statistical Guarantees

Liu, Zeng, Huang et al.

Identifying training data within large-scale models is critical for copyright litigation, privacy auditing, and ensuring fair evaluation. The conventional approaches treat it as a simple binary classification task without statistical guarantees. A recent approach is designed to control the false discovery rate (FDR), but its guarantees rely on strong, easily violated assumptions. In this paper, we introduce Provable Training Data Identification (PTDI), a rigorous method that identifies a set of training data with strict false discovery rate (FDR) control. Specifically, our method computes p-values for each data point using a set of known unseen data, and then constructs a conservative estimator for the data usage proportion of the test set, which allows us to scale these p-values. Our approach then selects the final set of training data by identifying all points whose scaled p-values fall below a data-dependent threshold. This entire procedure enables the discovery of training data with provable, strict FDR control and significantly boosted power. Extensive experiments across a wide range of models (LLMs and VLMs), and datasets demonstrate that PTDI strictly controls the FDR and achieves higher power.

academic

उच्च-शक्ति प्रशिक्षण डेटा पहचान सिद्ध सांख्यिकीय गारंटी के साथ

बुनियादी जानकारी

पेपर ID: 2510.09717
शीर्षक: High-Power Training Data Identification with Provable Statistical Guarantees
लेखक: Zhenlong Liu, Hao Zeng, Weiran Huang, Hongxin Wei
वर्गीकरण: cs.LG cs.AI
प्रकाशन समय/सम्मेलन: प्रीप्रिंट (अक्टूबर 2025)
पेपर लिंक: https://arxiv.org/abs/2510.09717

सारांश

बड़े पैमाने के मॉडल में प्रशिक्षण डेटा की पहचान करना कॉपीराइट मुकदमेबाजी, गोपनीयता ऑडिट और निष्पक्ष मूल्यांकन सुनिश्चित करने के लिए महत्वपूर्ण है। पारंपरिक विधियां इसे सरल द्विआधारी वर्गीकरण कार्य के रूप में मानती हैं, जिनमें सांख्यिकीय गारंटी नहीं होती। हाल की विधियां हालांकि त्रुटि खोज दर (FDR) को नियंत्रित करने के लिए तंत्र डिजाइन करती हैं, लेकिन उनकी गारंटी आसानी से उल्लंघन किए जाने वाले मजबूत मानदंडों पर निर्भर करती है। यह पेपर सिद्ध प्रशिक्षण डेटा पहचान (PTDI) विधि प्रस्तावित करता है, जो त्रुटि खोज दर को कठोरता से नियंत्रित करने वाली विधि है। यह विधि ज्ञात अदेखे डेटा सेट का उपयोग करके प्रत्येक डेटा बिंदु के लिए p-मान की गणना करती है, फिर परीक्षण सेट डेटा उपयोग अनुपात के संरक्षणवादी अनुमानक का निर्माण करके इन p-मानों को स्केल करती है। अंत में, स्केल किए गए p-मान को डेटा-निर्भर सीमा से नीचे सभी बिंदुओं की पहचान करके अंतिम प्रशिक्षण डेटा सेट का चयन किया जाता है। संपूर्ण प्रक्रिया सिद्ध कठोर FDR नियंत्रण प्राप्त करती है और सांख्यिकीय शक्ति में उल्लेखनीय सुधार करती है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या की महत्ता

मशीन लर्निंग मॉडल के व्यापक तैनाती के साथ, प्रशिक्षण डेटा पहचान महत्वपूर्ण हो गई है, मुख्य रूप से निम्नलिखित में प्रतिबिंबित:

कॉपीराइट विवाद: Strike 3 बनाम Meta मामले जैसे, जिसमें 2,396 कॉपीराइट फिल्में शामिल हैं, संभावित वैधानिक क्षति $3.5 बिलियन से अधिक है
डेटा गोपनीयता: GDPR, CCPA जैसे गोपनीयता कानूनों के अनुपालन की आवश्यकता
डेटा प्रदूषण: मूल्यांकन बेंचमार्क की निष्पक्षता सुनिश्चित करना, प्रशिक्षण डेटा रिसाव को रोकना

मौजूदा विधियों की सीमाएं

पारंपरिक विधियां: प्रशिक्षण डेटा पहचान को सरल द्विआधारी वर्गीकरण कार्य के रूप में मानती हैं, सैद्धांतिक गारंटी की कमी
हाल की विधियां: जैसे Hu et al. (2025) द्वारा प्रस्तावित knockoff सांख्यिकीय विधि हालांकि FDR को नियंत्रित करती है, लेकिन निम्नलिखित समस्याएं हैं:
- मॉडल ग्रेडिएंट तक पहुंच की आवश्यकता, ब्लैक-बॉक्स सेटिंग में उपलब्ध नहीं
- प्रभावी knockoff निर्माण कठिन, सममित वितरण मानदंड का उल्लंघन करना आसान
- अमान्य FDR नियंत्रण का कारण बन सकता है

अनुसंधान प्रेरणा

यह पेपर एक वितरण-अज्ञेयवादी विधि डिजाइन करने का लक्ष्य रखता है, जो व्हाइट-बॉक्स और ब्लैक-बॉक्स दोनों सेटिंग में कठोर FDR नियंत्रण प्रदान कर सके, साथ ही उच्च सांख्यिकीय शक्ति भी हो।

मुख्य योगदान

PTDI विधि प्रस्तावित करना: एक नई और सामान्य विधि, वितरण-अज्ञेयवादी परिमित-नमूना FDR नियंत्रण प्राप्त करना, मौजूदा पहचान विधियों के साथ संयोजन में उपयोग किया जा सकता है
सैद्धांतिक गारंटी: कठोर सैद्धांतिक प्रमाण (प्रमेय 1) प्रदान करना, PTDI कठोर त्रुटि खोज दर नियंत्रण सुनिश्चित करना
व्यापक प्रायोगिक सत्यापन: कई मॉडल (LLM और VLM), कार्य (प्री-ट्रेनिंग और फाइन-ट्यूनिंग) और डेटा सेट पर विधि की प्रभावशीलता सत्यापित करना
व्यावहारिकता: विधि मॉडल-अज्ञेयवादी, ब्लैक-बॉक्स और व्हाइट-बॉक्स सेटिंग में लागू, केवल अदेखे डेटा को कैलिब्रेशन सेट के रूप में आवश्यकता

विधि विवरण

कार्य परिभाषा

लक्ष्य मॉडल θ, कैलिब्रेशन सेट D_cal (आकार n) और परीक्षण सेट D_test = {X_{n+j}}^m_ दिया गया, लक्ष्य सूचकांक उप-समूह S ⊆ {1,...,m} का चयन करना है, जिससे त्रुटि खोज दर उपयोगकर्ता-निर्दिष्ट स्तर α ∈ (0,1) पर नियंत्रित हो:

$\text{FDR} = E\left[\frac{\sum_{j=1}^m \mathbf{1}\{M_{n+j} = 0, j \in S\}}{\max(|S|, 1)}\right] \leq \alpha$

मुख्य एल्गोरिदम: PTDI

चरण 1: Conformal p-मान निर्माण

प्रत्येक परीक्षण बिंदु के लिए p-मान की गणना करें: $p_j = \frac{1 + \sum_{i=1}^n \mathbf{1}\{T_i \leq T_{n+j}\}}{n+1}$

जहां T(X;θ) पहचान स्कोर है (जैसे perplexity), कम स्कोर प्रशिक्षण सदस्य होने की अधिक संभावना दर्शाता है।

चरण 2: डेटा उपयोग अनुपात अनुमान

घटाव अनुमानक π̂_sub का उपयोग करके परीक्षण सेट में प्रशिक्षण डेटा के अनुपात π_test का अनुमान लगाएं: $\hat{\pi}_{sub} = 1 - \frac{\frac{1}{m+1}(1 + \sum_{j=1}^m \mathbf{1}\{T(X_{n+j}) \in R\})}{\frac{1}{n}\sum_{i=1}^n \mathbf{1}\{T(X_i) \in R\}}$

जहां R = (τ,+∞) मात्रा सीमा η के माध्यम से निर्मित विरल सदस्य क्षेत्र है।

चरण 3: p-मान स्केलिंग

स्केल किए गए p-मान की गणना करें: $\tilde{p}_j = (1-\hat{\pi}_{test})p_j$

चरण 4: Benjamini-Hochberg प्रक्रिया

अंतिम सेट का चयन करने के लिए BH प्रक्रिया लागू करें: $S = \{j | \tilde{p}_j \leq \frac{k^*}{m}\alpha\}$ जहां $k^* = \max\{k | \tilde{p}_{(k)} \leq \frac{k}{m}\alpha\}$

तकनीकी नवाचार

संरक्षणवादी अनुमानक डिजाइन: घटाव अनुमानक E(1-π_test)/(1-π̂_sub) ≤ 1 सुनिश्चित करता है, FDR नियंत्रण बनाए रखता है
p-मान स्केलिंग तकनीक: मानक BH प्रक्रिया की रूढ़िवादिता को दूर करने के लिए p-मान स्केलिंग के माध्यम से, सांख्यिकीय शक्ति में उल्लेखनीय सुधार
वितरण-अज्ञेयवादी गारंटी: विशिष्ट वितरण मानदंडों पर निर्भर नहीं, व्यापक प्रयोज्यता

प्रायोगिक सेटअप

डेटा सेट

LLM प्री-ट्रेनिंग: WikiMIA, ArxivTection
LLM फाइन-ट्यूनिंग: XSum, BBC Real Time
विजन-भाषा मॉडल: VL-MIA/Flickr, VL-MIA/DALL-E

मॉडल

LLM: GPT-2, GPT-Neo, GPT-NeoX-20B, LLaMA-7B, Pythia (1.4B और 6.9B)
VLM: LLaVA-1.5, MiniGPT-4

पहचान स्कोर

LLM: Perplexity, Zlib संपीड़न अनुपात, MIN-K%, संशोधित एंट्रॉपी (M-Entropy)
VLM: MaxRényi-K%

मूल्यांकन मेट्रिक्स

FDR: त्रुटि खोज दर का अनुभवजन्य अनुमान
Power: सांख्यिकीय शक्ति, वास्तविक सदस्यों की सही पहचान का अनुपात

प्रायोगिक परिणाम

मुख्य परिणाम

FDR नियंत्रण प्रभावशीलता

सभी प्रायोगिक सेटिंग में, PTDI विधि लक्ष्य स्तर से नीचे FDR को कठोरता से नियंत्रित करती है:

WikiMIA पर Pythia-1.4B, लक्ष्य FDR=5%: PTDI 4.94% प्राप्त करता है बनाम KTD का 13.11%
सभी मॉडल और डेटा सेट संयोजन वास्तविक FDR को लक्ष्य स्तर से नीचे दिखाते हैं

सांख्यिकीय शक्ति में सुधार

p-मान स्केलिंग सांख्यिकीय शक्ति में उल्लेखनीय सुधार करता है:

WikiMIA पर GPT-NeoX-20B, लक्ष्य FDR=0.5, MIN-K% स्कोर: शक्ति 0.44 से 0.75 तक सुधरी
विभिन्न लक्ष्य FDR स्तरों पर, स्केलिंग विधि हमेशा vanilla विधि से बेहतर है

विलोपन प्रयोग

कैलिब्रेशन सेट आकार प्रभाव

कैलिब्रेशन सेट आकार बढ़ाना (ρ = n/m 0.1 से 1.0 तक) FDP और शक्ति के विचरण को कम करता है
सभी ρ मान प्रभावी FDR नियंत्रण प्रदान करते हैं

हाइपरपैरामीटर η की मजबूती

η ∈ {0.01, 0.05, 0.1, 0.5} श्रेणी में, विधि FDR को मजबूती से नियंत्रित करती है
डिफ़ॉल्ट सेटिंग η = 0.05

π_test परिवर्तन की मजबूती

विभिन्न डेटा उपयोग अनुपातों (π_test = 0.3, 0.5, 0.7) पर FDR नियंत्रण बनाए रखता है

KTD विधि के साथ तुलना

PTDI सभी परीक्षण सेटिंग में FDR को कठोरता से नियंत्रित करता है
KTD WikiMIA और XSum पर कुछ α मानों पर नियंत्रण खो देता है
FDR नियंत्रण प्रभावी होने के मामलों में, PTDI GPT-2 पर बेहतर शक्ति प्रदान करता है

समायोजित मोमेंट अनुमानक

पूर्वाग्रह-सुधारित मोमेंट अनुमानक π̂_mom प्रस्तावित किया गया है, जब पुष्टि किए गए सदस्य डेटा उपलब्ध हो तो शक्ति को और बढ़ाता है, साथ ही FDR नियंत्रण बनाए रखता है।

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

PTDI विधि कठोर FDR नियंत्रण प्राप्त करती है, वितरण-अज्ञेयवादी परिमित-नमूना गारंटी के साथ
p-मान स्केलिंग तकनीक सांख्यिकीय शक्ति में उल्लेखनीय सुधार करती है, साथ ही सैद्धांतिक कठोरता बनाए रखती है
विधि व्यापक प्रयोज्यता है, मौजूदा पहचान विधियों के साथ संयोजन में उपयोग किया जा सकता है

सीमाएं

कैलिब्रेशन सेट आवश्यकता: परीक्षण सेट वितरण के समान अदेखे डेटा कैलिब्रेशन सेट की आवश्यकता
विषम डेटा चुनौतियां: अत्यधिक विषम परीक्षण डेटा के लिए, प्रतिनिधि कैलिब्रेशन सेट निर्माण कठिन
वितरण बेमेल: कैलिब्रेशन डेटा और परीक्षण डेटा के बीच महत्वपूर्ण वितरण बेमेल FDR गारंटी को अमान्य कर सकता है

भविष्य की दिशा

अधिक मजबूत डेटा उपयोग अनुपात अनुमान विधियां विकसित करना
वितरण बेमेल स्थितियों में FDR नियंत्रण पर अनुसंधान
अधिक जटिल पहचान परिदृश्यों तक विस्तार

गहन मूल्यांकन

लाभ

सैद्धांतिक कठोरता: पूर्ण गणितीय प्रमाण और परिमित-नमूना गारंटी प्रदान करता है
व्यावहारिकता: विधि सरल और कार्यान्वयन में आसान, मौजूदा उपकरणों के साथ संयोजन योग्य
पर्याप्त प्रयोग: कई मॉडल, कार्य और डेटा सेट पर व्यापक मूल्यांकन
नवाचार: p-मान स्केलिंग तकनीक BH प्रक्रिया की रूढ़िवादिता समस्या को चतुराई से हल करती है

कमियां

मानदंड सीमाएं: उपयुक्त कैलिब्रेशन सेट प्राप्त करने की क्षमता के मानदंड पर निर्भर
कम्प्यूटेशनल ओवरहेड: बड़ी संख्या में उम्मीदवार डेटा बिंदुओं के लिए पहचान स्कोर की गणना की आवश्यकता
पैरामीटर चयन: हालांकि η के लिए मजबूत, इष्टतम चयन अभी भी अनुभवजन्य मार्गदर्शन की आवश्यकता

प्रभाव

शैक्षणिक योगदान: प्रशिक्षण डेटा पहचान के लिए पहली कठोर सांख्यिकीय ढांचा प्रदान करता है
व्यावहारिक मूल्य: कॉपीराइट मुकदमेबाजी और गोपनीयता ऑडिट में सीधी अनुप्रयोग मूल्य
पुनरुत्पादनीयता: एल्गोरिदम विवरण स्पष्ट, पुनरुत्पादन और विस्तार में आसान

प्रयोज्य परिदृश्य

कॉपीराइट सुरक्षा: मॉडल प्रशिक्षण में उपयोग की गई कॉपीराइट-संरक्षित सामग्री की पहचान
गोपनीयता ऑडिट: यह सत्यापित करना कि क्या व्यक्तिगत डेटा मॉडल प्रशिक्षण के लिए उपयोग किया गया था
बेंचमार्क मूल्यांकन: मूल्यांकन डेटा सेट में प्रदूषण नमूनों की पहचान और हटाना
मॉडल ऑडिट: नियामक वातावरण में मॉडल अनुपालन सत्यापित करना

संदर्भ

पेपर कई महत्वपूर्ण कार्यों का हवाला देता है, जिनमें शामिल हैं:

Benjamini & Hochberg (1995): FDR नियंत्रण की शास्त्रीय BH प्रक्रिया
Shi et al. (2024): WikiMIA डेटा सेट और MIN-K% पहचान विधि
Hu et al. (2025): Knockoff सांख्यिकी पर आधारित प्रशिक्षण डेटा पहचान
Jin & Candès (2023): चयन समस्याओं में Conformal p-मान

सारांश: यह प्रशिक्षण डेटा पहचान क्षेत्र में महत्वपूर्ण सैद्धांतिक और व्यावहारिक मूल्य वाला एक पेपर है। PTDI विधि न केवल कठोर सांख्यिकीय गारंटी प्रदान करती है, बल्कि व्यावहारिक अनुप्रयोग में उत्कृष्ट प्रदर्शन भी दिखाती है। यह कार्य वर्तमान AI मॉडल पारदर्शिता और जवाबदेही समस्याओं को हल करने के लिए महत्वपूर्ण उपकरण प्रदान करता है।