Minimax Optimal Kernel Two-Sample Tests with Random Features
Mukherjee, Sriperumbudur
Reproducing Kernel Hilbert Space (RKHS) embedding of probability distributions has proved to be an effective approach, via MMD (maximum mean discrepancy), for nonparametric hypothesis testing problems involving distributions defined over general (non-Euclidean) domains. While a substantial amount of work has been done on this topic, only recently have minimax optimal two-sample tests been constructed that incorporate, unlike MMD, both the mean element and a regularized version of the covariance operator. However, as with most kernel algorithms, the optimal test scales cubically in the sample size, limiting its applicability. In this paper, we propose a spectral-regularized two-sample test based on random Fourier feature (RFF) approximation and investigate the trade-offs between statistical optimality and computational efficiency. We show the proposed test to be minimax optimal if the approximation order of RFF (which depends on the smoothness of the likelihood ratio and the decay rate of the eigenvalues of the integral operator) is sufficiently large. We develop a practically implementable permutation-based version of the proposed test with a data-adaptive strategy for selecting the regularization parameter. Finally, through numerical experiments on simulated and benchmark datasets, we demonstrate that the proposed RFF-based test is computationally efficient and performs almost similarly (with a small drop in power) to the exact test.
academic
اختبارات النواة ثنائية العينة المثلى بالحد الأدنى مع الميزات العشوائية
تقترح هذه الورقة طريقة اختبار ثنائية العينة منتظمة طيفياً قائمة على تقريب ميزات فورييه العشوائية (RFF) لمشكلة الاختبار ثنائي العينة بناءً على تضمينات فضاء هيلبرت النواة القابلة للإعادة (RKHS). تحافظ الطريقة على الأمثلية الإحصائية مع تقليل التعقيد الحسابي بشكل كبير من المستوى المكعب إلى ما يقرب من الخطي، وتوفر نسخة عملية قابلة للتحقيق بالكامل من البيانات.
الاختبار ثنائي العينة هو مشكلة أساسية في الإحصاء، تهدف إلى تحديد ما إذا كانت توزيعات الاحتمالات لعينتين عشوائيتين متساوية من خلال تحليل العينات. تواجه طرق الاختبار البارامترية وغير البارامترية التقليدية قيوداً كبيرة عند التعامل مع البيانات عالية الأبعاد أو التوزيعات على المجالات غير الإقليدية.
دون الأمثلية في اختبار MMD: على الرغم من التطبيق الواسع لاختبار الفرق المتوسط الأقصى (MMD)، فإنه يفتقر إلى الأمثلية بالحد الأدنى، ويأخذ في الاعتبار فقط تضمين المتوسط ويتجاهل معلومات مشغل التباين
الاختناق الحسابي للطرق المنتظمة طيفياً: على الرغم من أن اختبار MMD المنتظم طيفياً الذي تم اقتراحه مؤخراً يحقق الأمثلية بالحد الأدنى، فإن التعقيد الحسابي هو O(n³)، مما يحد من تطبيقه على البيانات الضخمة
صعوبة اختيار المعاملات: يعتمد اختيار معامل التنظيم على خصائص التوزيع غير المعروفة، وتفتقر إلى استراتيجيات التكيف المدفوعة بالبيانات
تهدف هذه الورقة إلى تحسين الكفاءة الحسابية لاختبار ثنائي العينة منتظم طيفياً بشكل كبير من خلال تقنية تقريب ميزات فورييه العشوائية، مع الحفاظ على الأمثلية الإحصائية، وتطوير نسخة تكيفية قابلة للاستخدام العملي.
اختبار فعال حسابياً وأمثل إحصائياً: يقترح اختبار ثنائي العينة منتظم طيفياً قائم على RFF، مما يقلل التعقيد الحسابي من O(n³) إلى O(nl² + nld)، مع الحفاظ على الأمثلية بالحد الأدنى في ظل شروط كافية
الضمانات النظرية: يؤسس الارتباط النظري بين ترتيب تقريب RFF والأمثلية الإحصائية، ويثبت أمثلية الاختبار بالحد الأدنى عندما يفي عدد الميزات l بشروط محددة
نسخة تكيفية عملية: يطور نسخة مدفوعة بالبيانات بالكامل بناءً على اختبار التبديل، تتضمن استراتيجيات اختيار تكيفية لمعامل التنظيم والدالة النواة
التحقق التجريبي الشامل: يتحقق من فعالية الطريقة من خلال البيانات الاصطناعية ومجموعات البيانات المرجعية، ويعرض التوازن الجيد بين الكفاءة الحسابية والأداء الإحصائي
Gretton, A., et al. (2012). اختبار نواة ثنائي العينة. JMLR.
Hagrass, O., et al. (2024). اختبارات نواة منتظمة طيفياً ثنائية العينة. Annals of Statistics.
Rahimi, A., & Recht, B. (2007). ميزات عشوائية للآلات النواة واسعة النطاق. NIPS.
Choi, I., & Kim, I. (2024). المقايضة بين الحساب والإحصاء في اختبار نواة ثنائي العينة مع ميزات فورييه العشوائية.
Sriperumbudur, B. K., & Sterge, N. (2022). تقريب PCA النواة التقريبي: المقايضة بين الحساب والإحصاء. Annals of Statistics.
التقييم العام: هذه ورقة عالية الجودة في الإحصاء النظري، تطبق بنجاح تقنية تقريب الميزات العشوائية على اختبار ثنائي العينة منتظم طيفياً، مما يحسن الكفاءة الحسابية بشكل كبير مع الحفاظ على الأمثلية الإحصائية. يتمتع التحليل النظري للورقة بعمق وتفصيل، والتحقق التجريبي شامل، وله قيمة مهمة لكل من نظرية التعلم الإحصائي والتطبيقات العملية.