Identifying training data within large-scale models is critical for copyright litigation, privacy auditing, and ensuring fair evaluation. The conventional approaches treat it as a simple binary classification task without statistical guarantees. A recent approach is designed to control the false discovery rate (FDR), but its guarantees rely on strong, easily violated assumptions. In this paper, we introduce Provable Training Data Identification (PTDI), a rigorous method that identifies a set of training data with strict false discovery rate (FDR) control. Specifically, our method computes p-values for each data point using a set of known unseen data, and then constructs a conservative estimator for the data usage proportion of the test set, which allows us to scale these p-values. Our approach then selects the final set of training data by identifying all points whose scaled p-values fall below a data-dependent threshold. This entire procedure enables the discovery of training data with provable, strict FDR control and significantly boosted power. Extensive experiments across a wide range of models (LLMs and VLMs), and datasets demonstrate that PTDI strictly controls the FDR and achieves higher power.
- معرّف الورقة: 2510.09717
- العنوان: High-Power Training Data Identification with Provable Statistical Guarantees
- المؤلفون: Zhenlong Liu, Hao Zeng, Weiran Huang, Hongxin Wei
- التصنيف: cs.LG cs.AI
- وقت النشر/المؤتمر: ورقة بحثية أولية (أكتوبر 2025)
- رابط الورقة: https://arxiv.org/abs/2510.09717
يعتبر تحديد بيانات التدريب في النماذج واسعة النطاق أمراً حاسماً للدعاوى القانونية المتعلقة بحقوق الطبع والنشر وتدقيق الخصوصية وضمان التقييم العادل. تعامل الطرق التقليدية معها كمهمة تصنيف ثنائية بسيطة، وتفتقر إلى ضمانات إحصائية. على الرغم من أن الطرق الحديثة صممت آليات للتحكم في معدل الاكتشاف الخاطئ (FDR)، إلا أن ضماناتها تعتمد على افتراضات قوية يسهل انتهاكها. تقدم هذه الورقة طريقة تحديد بيانات التدريب القابلة للإثبات (PTDI)، وهي طريقة تتحكم بشكل صارم في معدل الاكتشاف الخاطئ. تستخدم الطريقة مجموعة بيانات معروفة غير مرئية لحساب قيمة p لكل نقطة بيانات، ثم تبني مقدراً محافظاً لنسبة استخدام بيانات مجموعة الاختبار لتوسيع هذه القيم. وأخيراً، يتم اختيار مجموعة البيانات النهائية للتدريب من خلال تحديد جميع النقاط التي تقل قيم p المعاد توسيعها فيها عن حد يعتمد على البيانات. تحقق العملية برمتها تحكماً صارماً وقابلاً للإثبات في معدل الاكتشاف الخاطئ، مع تحسين كبير في القوة الإحصائية.
مع الانتشار الواسع لنماذج التعلم الآلي، أصبح تحديد بيانات التدريب حاسماً، وينعكس ذلك بشكل أساسي في:
- النزاعات المتعلقة بحقوق الطبع والنشر: كما في قضية Strike 3 ضد Meta، التي تتضمن 2,396 فيلماً محمياً بحقوق الطبع والنشر، مع تعويضات قانونية محتملة تتجاوز 3.5 مليار دولار
- خصوصية البيانات: الامتثال لقوانين الخصوصية مثل GDPR و CCPA
- تلوث البيانات: ضمان عدالة معايير التقييم ومنع تسرب بيانات التدريب
- الطرق التقليدية: تعامل كشف بيانات التدريب كمهمة تصنيف ثنائية بسيطة، وتفتقر إلى ضمانات نظرية
- الطرق الحديثة: مثل طريقة إحصائيات knockoff التي اقترحها Hu وآخرون (2025)، والتي تتحكم في معدل الاكتشاف الخاطئ لكن تعاني من:
- الحاجة إلى الوصول إلى تدرجات النموذج، وهو غير متاح في الإعدادات ذات الصندوق الأسود
- صعوبة بناء knockoff فعال، مما يؤدي بسهولة إلى انتهاك افتراض التوزيع المتماثل
- قد يؤدي إلى فقدان التحكم في معدل الاكتشاف الخاطئ
تهدف هذه الورقة إلى تصميم طريقة مستقلة عن التوزيع توفر تحكماً صارماً في معدل الاكتشاف الخاطئ في إعدادات الصندوق الأبيض والأسود، مع تحقيق قوة إحصائية أعلى.
- اقتراح طريقة PTDI: طريقة جديدة وعامة تحقق تحكماً في معدل الاكتشاف الخاطئ بعينة محدودة مستقلة عن التوزيع، ويمكن دمجها مع طرق الكشف الموجودة
- ضمانات نظرية: توفير إثبات نظري صارم (النظرية 1) يضمن أن PTDI تتحكم بشكل صارم في معدل الاكتشاف الخاطئ
- التحقق التجريبي الشامل: التحقق من فعالية الطريقة على نماذج متعددة (نماذج اللغة الكبيرة والنماذج اللغوية البصرية)، ومهام (التدريب المسبق والضبط الدقيق)، ومجموعات بيانات متنوعة
- الجدوى العملية: الطريقة مستقلة عن النموذج، وتنطبق على إعدادات الصندوق الأسود والأبيض، وتتطلب فقط بيانات غير مرئية كمجموعة معايرة
بالنظر إلى نموذج الهدف θ ومجموعة المعايرة Dcal (بحجم n) ومجموعة الاختبار Dtest = {Xn+j}^m_، الهدف هو اختيار مجموعة فرعية من الفهارس S ⊆ {1,...,m} بحيث يتم التحكم في معدل الاكتشاف الخاطئ عند مستوى محدد من قبل المستخدم α ∈ (0,1):
FDR=E[max(∣S∣,1)∑j=1m1{Mn+j=0,j∈S}]≤α
حساب قيمة p لكل نقطة اختبار:
pj=n+11+∑i=1n1{Ti≤Tn+j}
حيث T(X;θ) هي درجة الكشف (مثل الارتباك)، والدرجات المنخفضة تشير إلى احتمالية أعلى لكونها عضواً في التدريب.
استخدام مقدر الطرح π̂sub لتقدير نسبة بيانات التدريب في مجموعة الاختبار πtest:
π^sub=1−n1∑i=1n1{T(Xi)∈R}m+11(1+∑j=1m1{T(Xn+j)∈R})
حيث R = (τ,+∞) هي منطقة عضوية متناثرة يتم بناؤها من خلال حد كمي η.
حساب قيم p الموسعة:
p~j=(1−π^test)pj
تطبيق إجراء BH لاختيار المجموعة النهائية:
S={j∣p~j≤mk∗α}
حيث k∗=max{k∣p~(k)≤mkα}
- تصميم المقدر المحافظ: مقدر الطرح يضمن E(1-πtest)/(1-π̂sub) ≤ 1، مما يحافظ على التحكم في معدل الاكتشاف الخاطئ
- تقنية توسيع قيم p: التغلب على محافظية إجراء BH القياسي من خلال توسيع قيم p، مما يحسن بشكل كبير القوة الإحصائية
- الضمان المستقل عن التوزيع: لا يعتمد على افتراضات توزيع محددة، مما يوفر قابلية تطبيق واسعة
- التدريب المسبق للنماذج اللغوية الكبيرة: WikiMIA و ArxivTection
- الضبط الدقيق للنماذج اللغوية الكبيرة: XSum و BBC Real Time
- النماذج اللغوية البصرية: VL-MIA/Flickr و VL-MIA/DALL-E
- نماذج اللغة الكبيرة: GPT-2 و GPT-Neo و GPT-NeoX-20B و LLaMA-7B و Pythia (1.4B و 6.9B)
- النماذج اللغوية البصرية: LLaVA-1.5 و MiniGPT-4
- نماذج اللغة الكبيرة: الارتباك (Perplexity) والنسبة المضغوطة Zlib و MIN-K% والإنتروبيا المعدلة (M-Entropy)
- النماذج اللغوية البصرية: MaxRényi-K%
- معدل الاكتشاف الخاطئ (FDR): التقدير التجريبي لمعدل الاكتشاف الخاطئ
- القوة الإحصائية (Power): نسبة الأعضاء الحقيقيين المكتشفين بشكل صحيح
تتحكم طريقة PTDI بشكل صارم في معدل الاكتشاف الخاطئ تحت المستوى المستهدف في جميع إعدادات التجارب:
- على WikiMIA مع Pythia-1.4B، معدل الاكتشاف الخاطئ المستهدف = 5%: حققت PTDI 4.94% مقابل 13.11% لـ KTD
- تظهر جميع مجموعات النماذج ومجموعات البيانات معدل اكتشاف خاطئ فعلي أقل من المستوى المستهدف
يحسن توسيع قيم p بشكل كبير القوة الإحصائية:
- على WikiMIA مع GPT-NeoX-20B، معدل الاكتشاف الخاطئ المستهدف = 0.5، درجة MIN-K%: تحسنت القوة من 0.44 إلى 0.75
- في مستويات معدل الاكتشاف الخاطئ المستهدفة المختلفة، تتفوق طريقة التوسيع باستمرار على الطريقة الأساسية
- زيادة حجم مجموعة المعايرة (ρ = n/m من 0.1 إلى 1.0) تقلل من تباين FDP والقوة الإحصائية
- جميع قيم ρ تتحكم بفعالية في معدل الاكتشاف الخاطئ
- في النطاق η ∈ {0.01, 0.05, 0.1, 0.5}، تتحكم الطريقة بشكل قوي في معدل الاكتشاف الخاطئ
- الإعداد الافتراضي η = 0.05
- تحت نسب استخدام بيانات مختلفة (πtest = 0.3, 0.5, 0.7)، تحافظ على التحكم في معدل الاكتشاف الخاطئ
- تتحكم PTDI بشكل صارم في معدل الاكتشاف الخاطئ في جميع إعدادات الاختبار
- تفقد KTD التحكم في بعض قيم α على WikiMIA و XSum
- عندما يكون التحكم في معدل الاكتشاف الخاطئ فعالاً، تتمتع PTDI بقوة إحصائية أفضل على GPT-2
تم اقتراح مقدر لحظات مصحح الانحياز π̂mom، والذي يحسن القوة الإحصائية بشكل أكبر عند توفر بيانات أعضاء مؤكدة، مع الحفاظ على التحكم في معدل الاكتشاف الخاطئ.
- أبحاث تلوث البيانات: منع تسرب بيانات المعايير إلى مجموعة التدريب
- درجات الكشف الاستكشافية: طرق مثل الارتباك و MIN-k% تفتقر إلى ضمانات نظرية
- الطرق الإحصائية الصارمة: طرق Dekoninck وآخرين و Oren وآخرين تنطبق فقط على افتراضات مستوى مجموعة البيانات
- منظور الخصوصية: يهدف MIA إلى تحديد ما إذا كانت نقطة بيانات محددة مستخدمة في التدريب
- طرق التصنيف الثنائي: التركيز على دقة التصنيف المتوسطة
- إطار اختبار الفرضيات: طرق مثل Attack-P تعطي الأولوية لـ TPR عند معدلات FPR منخفضة
- إجراء Benjamini-Hochberg: أداة التحكم في معدل الاكتشاف الخاطئ القياسية
- قيم p المطابقة: تتطلب طريقة Jin & Candès افتراضات i.i.d قوية
- إحصائيات knockoff: تتطلب طريقة Hu وآخرين توليد knockoff عالي الجودة
- تحقق طريقة PTDI تحكماً صارماً في معدل الاكتشاف الخاطئ مع ضمانات عينة محدودة مستقلة عن التوزيع
- تحسن تقنية توسيع قيم p بشكل كبير القوة الإحصائية مع الحفاظ على الصرامة النظرية
- تتمتع الطريقة بقابلية تطبيق واسعة ويمكن دمجها مع طرق الكشف الموجودة
- متطلبات مجموعة المعايرة: تتطلب مجموعة بيانات معايرة غير مرئية بتوزيع مشابه لمجموعة الاختبار
- تحديات البيانات غير المتجانسة: بالنسبة للبيانات غير المتجانسة بشكل كبير، يصعب بناء مجموعة معايرة تمثيلية
- عدم تطابق التوزيع: قد يؤدي عدم تطابق التوزيع الكبير بين بيانات المعايرة والاختبار إلى فشل ضمان معدل الاكتشاف الخاطئ
- تطوير طرق أكثر متانة لتقدير نسبة استخدام البيانات
- دراسة التحكم في معدل الاكتشاف الخاطئ في حالات عدم تطابق التوزيع
- التوسع إلى سيناريوهات كشف أكثر تعقيداً
- الصرامة النظرية: توفير إثبات رياضي كامل وضمانات عينة محدودة
- قوة عملية: الطريقة بسيطة وسهلة التنفيذ، ويمكن دمجها مع الأدوات الموجودة
- تقييم شامل: تقييم واسع يغطي نماذج وعمليات ومجموعات بيانات متنوعة
- الابتكار: تقنية توسيع قيم p تحل بذكاء مشكلة محافظية إجراء BH
- قيود الافتراضات: تعتمد على افتراض القدرة على الحصول على مجموعة معايرة مناسبة
- التكلفة الحسابية: تتطلب حساب درجات الكشف لعدد كبير من نقاط البيانات المرشحة
- اختيار المعاملات: على الرغم من المتانة فيما يتعلق بـ η، إلا أن الاختيار الأمثل لا يزال يتطلب إرشادات تجريبية
- المساهمة الأكاديمية: توفير أول إطار عمل إحصائي صارم لتحديد بيانات التدريب
- القيمة العملية: تطبيق مباشر في دعاوى حقوق الطبع والنشر وتدقيق الخصوصية
- قابلية الاستنساخ: وصف الخوارزمية واضح وسهل الاستنساخ والتوسع
- حماية حقوق الطبع والنشر: تحديد المحتوى المحمي بحقوق الطبع والنشر المستخدم في تدريب النموذج
- تدقيق الخصوصية: التحقق من ما إذا تم استخدام البيانات الشخصية في تدريب النموذج
- تقييم المعايير: الكشف عن وإزالة عينات التلوث من مجموعات بيانات التقييم
- تدقيق النموذج: التحقق من امتثال النموذج في البيئات التنظيمية
تستشهد الورقة بأعمال مهمة متعددة، بما في ذلك:
- Benjamini & Hochberg (1995): إجراء BH الكلاسيكي للتحكم في معدل الاكتشاف الخاطئ
- Shi et al. (2024): مجموعة بيانات WikiMIA وطريقة كشف MIN-K%
- Hu et al. (2025): كشف بيانات التدريب بناءً على إحصائيات knockoff
- Jin & Candès (2023): قيم p المطابقة في مشاكل الاختيار
الملخص: هذه ورقة بحثية ذات قيمة نظرية وعملية مهمة في مجال تحديد بيانات التدريب. لا توفر طريقة PTDI ضمانات إحصائية صارمة فحسب، بل تظهر أيضاً أداءً متفوقاً في التطبيقات العملية. يوفر هذا العمل أداة مهمة لحل مشاكل الشفافية والمساءلة الحالية في نماذج الذكاء الاصطناعي.