2025-11-21T11:01:15.942804

High-Power Training Data Identification with Provable Statistical Guarantees

Liu, Zeng, Huang et al.

Identifying training data within large-scale models is critical for copyright litigation, privacy auditing, and ensuring fair evaluation. The conventional approaches treat it as a simple binary classification task without statistical guarantees. A recent approach is designed to control the false discovery rate (FDR), but its guarantees rely on strong, easily violated assumptions. In this paper, we introduce Provable Training Data Identification (PTDI), a rigorous method that identifies a set of training data with strict false discovery rate (FDR) control. Specifically, our method computes p-values for each data point using a set of known unseen data, and then constructs a conservative estimator for the data usage proportion of the test set, which allows us to scale these p-values. Our approach then selects the final set of training data by identifying all points whose scaled p-values fall below a data-dependent threshold. This entire procedure enables the discovery of training data with provable, strict FDR control and significantly boosted power. Extensive experiments across a wide range of models (LLMs and VLMs), and datasets demonstrate that PTDI strictly controls the FDR and achieves higher power.

academic

تحديد بيانات التدريب عالية الأداء مع ضمانات إحصائية قابلة للإثبات

المعلومات الأساسية

معرّف الورقة: 2510.09717
العنوان: High-Power Training Data Identification with Provable Statistical Guarantees
المؤلفون: Zhenlong Liu, Hao Zeng, Weiran Huang, Hongxin Wei
التصنيف: cs.LG cs.AI
وقت النشر/المؤتمر: ورقة بحثية أولية (أكتوبر 2025)
رابط الورقة: https://arxiv.org/abs/2510.09717

الملخص

يعتبر تحديد بيانات التدريب في النماذج واسعة النطاق أمراً حاسماً للدعاوى القانونية المتعلقة بحقوق الطبع والنشر وتدقيق الخصوصية وضمان التقييم العادل. تعامل الطرق التقليدية معها كمهمة تصنيف ثنائية بسيطة، وتفتقر إلى ضمانات إحصائية. على الرغم من أن الطرق الحديثة صممت آليات للتحكم في معدل الاكتشاف الخاطئ (FDR)، إلا أن ضماناتها تعتمد على افتراضات قوية يسهل انتهاكها. تقدم هذه الورقة طريقة تحديد بيانات التدريب القابلة للإثبات (PTDI)، وهي طريقة تتحكم بشكل صارم في معدل الاكتشاف الخاطئ. تستخدم الطريقة مجموعة بيانات معروفة غير مرئية لحساب قيمة p لكل نقطة بيانات، ثم تبني مقدراً محافظاً لنسبة استخدام بيانات مجموعة الاختبار لتوسيع هذه القيم. وأخيراً، يتم اختيار مجموعة البيانات النهائية للتدريب من خلال تحديد جميع النقاط التي تقل قيم p المعاد توسيعها فيها عن حد يعتمد على البيانات. تحقق العملية برمتها تحكماً صارماً وقابلاً للإثبات في معدل الاكتشاف الخاطئ، مع تحسين كبير في القوة الإحصائية.

الخلفية البحثية والدافع

أهمية المشكلة

مع الانتشار الواسع لنماذج التعلم الآلي، أصبح تحديد بيانات التدريب حاسماً، وينعكس ذلك بشكل أساسي في:

النزاعات المتعلقة بحقوق الطبع والنشر: كما في قضية Strike 3 ضد Meta، التي تتضمن 2,396 فيلماً محمياً بحقوق الطبع والنشر، مع تعويضات قانونية محتملة تتجاوز 3.5 مليار دولار
خصوصية البيانات: الامتثال لقوانين الخصوصية مثل GDPR و CCPA
تلوث البيانات: ضمان عدالة معايير التقييم ومنع تسرب بيانات التدريب

قيود الطرق الموجودة

الطرق التقليدية: تعامل كشف بيانات التدريب كمهمة تصنيف ثنائية بسيطة، وتفتقر إلى ضمانات نظرية
الطرق الحديثة: مثل طريقة إحصائيات knockoff التي اقترحها Hu وآخرون (2025)، والتي تتحكم في معدل الاكتشاف الخاطئ لكن تعاني من:
- الحاجة إلى الوصول إلى تدرجات النموذج، وهو غير متاح في الإعدادات ذات الصندوق الأسود
- صعوبة بناء knockoff فعال، مما يؤدي بسهولة إلى انتهاك افتراض التوزيع المتماثل
- قد يؤدي إلى فقدان التحكم في معدل الاكتشاف الخاطئ

الدافع البحثي

تهدف هذه الورقة إلى تصميم طريقة مستقلة عن التوزيع توفر تحكماً صارماً في معدل الاكتشاف الخاطئ في إعدادات الصندوق الأبيض والأسود، مع تحقيق قوة إحصائية أعلى.

المساهمات الأساسية

اقتراح طريقة PTDI: طريقة جديدة وعامة تحقق تحكماً في معدل الاكتشاف الخاطئ بعينة محدودة مستقلة عن التوزيع، ويمكن دمجها مع طرق الكشف الموجودة
ضمانات نظرية: توفير إثبات نظري صارم (النظرية 1) يضمن أن PTDI تتحكم بشكل صارم في معدل الاكتشاف الخاطئ
التحقق التجريبي الشامل: التحقق من فعالية الطريقة على نماذج متعددة (نماذج اللغة الكبيرة والنماذج اللغوية البصرية)، ومهام (التدريب المسبق والضبط الدقيق)، ومجموعات بيانات متنوعة
الجدوى العملية: الطريقة مستقلة عن النموذج، وتنطبق على إعدادات الصندوق الأسود والأبيض، وتتطلب فقط بيانات غير مرئية كمجموعة معايرة

شرح الطريقة

تعريف المهمة

بالنظر إلى نموذج الهدف θ ومجموعة المعايرة Dcal (بحجم n) ومجموعة الاختبار Dtest = {Xn+j}^m_، الهدف هو اختيار مجموعة فرعية من الفهارس S ⊆ {1,...,m} بحيث يتم التحكم في معدل الاكتشاف الخاطئ عند مستوى محدد من قبل المستخدم α ∈ (0,1):

$\text{FDR} = E\left[\frac{\sum_{j=1}^m \mathbf{1}\{M_{n+j} = 0, j \in S\}}{\max(|S|, 1)}\right] \leq \alpha$

الخوارزمية الأساسية: PTDI

الخطوة 1: بناء قيم p المطابقة

حساب قيمة p لكل نقطة اختبار: $p_j = \frac{1 + \sum_{i=1}^n \mathbf{1}\{T_i \leq T_{n+j}\}}{n+1}$

حيث T(X;θ) هي درجة الكشف (مثل الارتباك)، والدرجات المنخفضة تشير إلى احتمالية أعلى لكونها عضواً في التدريب.

الخطوة 2: تقدير نسبة استخدام البيانات

استخدام مقدر الطرح π̂sub لتقدير نسبة بيانات التدريب في مجموعة الاختبار πtest: $\hat{\pi}_{sub} = 1 - \frac{\frac{1}{m+1}(1 + \sum_{j=1}^m \mathbf{1}\{T(X_{n+j}) \in R\})}{\frac{1}{n}\sum_{i=1}^n \mathbf{1}\{T(X_i) \in R\}}$

حيث R = (τ,+∞) هي منطقة عضوية متناثرة يتم بناؤها من خلال حد كمي η.

الخطوة 3: توسيع قيم p

حساب قيم p الموسعة: $\tilde{p}_j = (1-\hat{\pi}_{test})p_j$

الخطوة 4: إجراء Benjamini-Hochberg

تطبيق إجراء BH لاختيار المجموعة النهائية: $S = \{j | \tilde{p}_j \leq \frac{k^*}{m}\alpha\}$ حيث $k^* = \max\{k | \tilde{p}_{(k)} \leq \frac{k}{m}\alpha\}$

نقاط الابتكار التقني

تصميم المقدر المحافظ: مقدر الطرح يضمن E(1-πtest)/(1-π̂sub) ≤ 1، مما يحافظ على التحكم في معدل الاكتشاف الخاطئ
تقنية توسيع قيم p: التغلب على محافظية إجراء BH القياسي من خلال توسيع قيم p، مما يحسن بشكل كبير القوة الإحصائية
الضمان المستقل عن التوزيع: لا يعتمد على افتراضات توزيع محددة، مما يوفر قابلية تطبيق واسعة

إعداد التجارب

مجموعات البيانات

التدريب المسبق للنماذج اللغوية الكبيرة: WikiMIA و ArxivTection
الضبط الدقيق للنماذج اللغوية الكبيرة: XSum و BBC Real Time
النماذج اللغوية البصرية: VL-MIA/Flickr و VL-MIA/DALL-E

النماذج

نماذج اللغة الكبيرة: GPT-2 و GPT-Neo و GPT-NeoX-20B و LLaMA-7B و Pythia (1.4B و 6.9B)
النماذج اللغوية البصرية: LLaVA-1.5 و MiniGPT-4

درجات الكشف

نماذج اللغة الكبيرة: الارتباك (Perplexity) والنسبة المضغوطة Zlib و MIN-K% والإنتروبيا المعدلة (M-Entropy)
النماذج اللغوية البصرية: MaxRényi-K%

مقاييس التقييم

معدل الاكتشاف الخاطئ (FDR): التقدير التجريبي لمعدل الاكتشاف الخاطئ
القوة الإحصائية (Power): نسبة الأعضاء الحقيقيين المكتشفين بشكل صحيح

نتائج التجارب

النتائج الرئيسية

فعالية التحكم في معدل الاكتشاف الخاطئ

تتحكم طريقة PTDI بشكل صارم في معدل الاكتشاف الخاطئ تحت المستوى المستهدف في جميع إعدادات التجارب:

على WikiMIA مع Pythia-1.4B، معدل الاكتشاف الخاطئ المستهدف = 5%: حققت PTDI 4.94% مقابل 13.11% لـ KTD
تظهر جميع مجموعات النماذج ومجموعات البيانات معدل اكتشاف خاطئ فعلي أقل من المستوى المستهدف

تحسين القوة الإحصائية

يحسن توسيع قيم p بشكل كبير القوة الإحصائية:

على WikiMIA مع GPT-NeoX-20B، معدل الاكتشاف الخاطئ المستهدف = 0.5، درجة MIN-K%: تحسنت القوة من 0.44 إلى 0.75
في مستويات معدل الاكتشاف الخاطئ المستهدفة المختلفة، تتفوق طريقة التوسيع باستمرار على الطريقة الأساسية

تجارب الاستبدال

تأثير حجم مجموعة المعايرة

زيادة حجم مجموعة المعايرة (ρ = n/m من 0.1 إلى 1.0) تقلل من تباين FDP والقوة الإحصائية
جميع قيم ρ تتحكم بفعالية في معدل الاكتشاف الخاطئ

متانة المعامل الفائق η

في النطاق η ∈ {0.01, 0.05, 0.1, 0.5}، تتحكم الطريقة بشكل قوي في معدل الاكتشاف الخاطئ
الإعداد الافتراضي η = 0.05

متانة التغييرات في πtest

تحت نسب استخدام بيانات مختلفة (πtest = 0.3, 0.5, 0.7)، تحافظ على التحكم في معدل الاكتشاف الخاطئ

المقارنة مع طريقة KTD

تتحكم PTDI بشكل صارم في معدل الاكتشاف الخاطئ في جميع إعدادات الاختبار
تفقد KTD التحكم في بعض قيم α على WikiMIA و XSum
عندما يكون التحكم في معدل الاكتشاف الخاطئ فعالاً، تتمتع PTDI بقوة إحصائية أفضل على GPT-2

مقدر اللحظات المعدل

تم اقتراح مقدر لحظات مصحح الانحياز π̂mom، والذي يحسن القوة الإحصائية بشكل أكبر عند توفر بيانات أعضاء مؤكدة، مع الحفاظ على التحكم في معدل الاكتشاف الخاطئ.

الأعمال ذات الصلة

كشف بيانات التدريب في النماذج واسعة النطاق

أبحاث تلوث البيانات: منع تسرب بيانات المعايير إلى مجموعة التدريب
درجات الكشف الاستكشافية: طرق مثل الارتباك و MIN-k% تفتقر إلى ضمانات نظرية
الطرق الإحصائية الصارمة: طرق Dekoninck وآخرين و Oren وآخرين تنطبق فقط على افتراضات مستوى مجموعة البيانات

هجمات الاستدلال على العضوية

منظور الخصوصية: يهدف MIA إلى تحديد ما إذا كانت نقطة بيانات محددة مستخدمة في التدريب
طرق التصنيف الثنائي: التركيز على دقة التصنيف المتوسطة
إطار اختبار الفرضيات: طرق مثل Attack-P تعطي الأولوية لـ TPR عند معدلات FPR منخفضة

التحكم في معدل الاكتشاف الخاطئ

إجراء Benjamini-Hochberg: أداة التحكم في معدل الاكتشاف الخاطئ القياسية
قيم p المطابقة: تتطلب طريقة Jin & Candès افتراضات i.i.d قوية
إحصائيات knockoff: تتطلب طريقة Hu وآخرين توليد knockoff عالي الجودة

الخلاصة والمناقشة

الاستنتاجات الرئيسية

تحقق طريقة PTDI تحكماً صارماً في معدل الاكتشاف الخاطئ مع ضمانات عينة محدودة مستقلة عن التوزيع
تحسن تقنية توسيع قيم p بشكل كبير القوة الإحصائية مع الحفاظ على الصرامة النظرية
تتمتع الطريقة بقابلية تطبيق واسعة ويمكن دمجها مع طرق الكشف الموجودة

القيود

متطلبات مجموعة المعايرة: تتطلب مجموعة بيانات معايرة غير مرئية بتوزيع مشابه لمجموعة الاختبار
تحديات البيانات غير المتجانسة: بالنسبة للبيانات غير المتجانسة بشكل كبير، يصعب بناء مجموعة معايرة تمثيلية
عدم تطابق التوزيع: قد يؤدي عدم تطابق التوزيع الكبير بين بيانات المعايرة والاختبار إلى فشل ضمان معدل الاكتشاف الخاطئ

الاتجاهات المستقبلية

تطوير طرق أكثر متانة لتقدير نسبة استخدام البيانات
دراسة التحكم في معدل الاكتشاف الخاطئ في حالات عدم تطابق التوزيع
التوسع إلى سيناريوهات كشف أكثر تعقيداً

التقييم المتعمق

المزايا

الصرامة النظرية: توفير إثبات رياضي كامل وضمانات عينة محدودة
قوة عملية: الطريقة بسيطة وسهلة التنفيذ، ويمكن دمجها مع الأدوات الموجودة
تقييم شامل: تقييم واسع يغطي نماذج وعمليات ومجموعات بيانات متنوعة
الابتكار: تقنية توسيع قيم p تحل بذكاء مشكلة محافظية إجراء BH

أوجه القصور

قيود الافتراضات: تعتمد على افتراض القدرة على الحصول على مجموعة معايرة مناسبة
التكلفة الحسابية: تتطلب حساب درجات الكشف لعدد كبير من نقاط البيانات المرشحة
اختيار المعاملات: على الرغم من المتانة فيما يتعلق بـ η، إلا أن الاختيار الأمثل لا يزال يتطلب إرشادات تجريبية

التأثير

المساهمة الأكاديمية: توفير أول إطار عمل إحصائي صارم لتحديد بيانات التدريب
القيمة العملية: تطبيق مباشر في دعاوى حقوق الطبع والنشر وتدقيق الخصوصية
قابلية الاستنساخ: وصف الخوارزمية واضح وسهل الاستنساخ والتوسع

السيناريوهات المعمول بها

حماية حقوق الطبع والنشر: تحديد المحتوى المحمي بحقوق الطبع والنشر المستخدم في تدريب النموذج
تدقيق الخصوصية: التحقق من ما إذا تم استخدام البيانات الشخصية في تدريب النموذج
تقييم المعايير: الكشف عن وإزالة عينات التلوث من مجموعات بيانات التقييم
تدقيق النموذج: التحقق من امتثال النموذج في البيئات التنظيمية

المراجع

تستشهد الورقة بأعمال مهمة متعددة، بما في ذلك:

Benjamini & Hochberg (1995): إجراء BH الكلاسيكي للتحكم في معدل الاكتشاف الخاطئ
Shi et al. (2024): مجموعة بيانات WikiMIA وطريقة كشف MIN-K%
Hu et al. (2025): كشف بيانات التدريب بناءً على إحصائيات knockoff
Jin & Candès (2023): قيم p المطابقة في مشاكل الاختيار

الملخص: هذه ورقة بحثية ذات قيمة نظرية وعملية مهمة في مجال تحديد بيانات التدريب. لا توفر طريقة PTDI ضمانات إحصائية صارمة فحسب، بل تظهر أيضاً أداءً متفوقاً في التطبيقات العملية. يوفر هذا العمل أداة مهمة لحل مشاكل الشفافية والمساءلة الحالية في نماذج الذكاء الاصطناعي.