2025-11-22T21:43:16.336737

A Martingale Kernel Two-Sample Test

Chatterjee, Ramdas

The Maximum Mean Discrepancy (MMD) is a widely used multivariate distance metric for two-sample testing. The standard MMD test statistic has an intractable null distribution typically requiring costly resampling or permutation approaches for calibration. In this work we leverage a martingale interpretation of the estimated squared MMD to propose martingale MMD (mMMD), a quadratic-time statistic which has a limiting standard Gaussian distribution under the null. Moreover we show that the test is consistent against any fixed alternative and for large sample sizes, mMMD offers substantial computational savings over the standard MMD test, with only a minor loss in power.

academic

एक मार्टिंगेल कर्नल दो-नमूना परीक्षण

बुनियादी जानकारी

पेपर ID: 2510.11853
शीर्षक: A Martingale Kernel Two-Sample Test
लेखक: Anirban Chatterjee (शिकागो विश्वविद्यालय), Aaditya Ramdas (कार्नेगी मेलन विश्वविद्यालय)
वर्गीकरण: stat.ME, math.ST, stat.TH
प्रकाशन तिथि: 13 अक्टूबर 2025
पेपर लिंक: https://arxiv.org/abs/2510.11853

सारांश

अधिकतम माध्य विसंगति (Maximum Mean Discrepancy, MMD) दो-नमूना परीक्षणों में व्यापक रूप से उपयोग की जाने वाली बहुभिन्न दूरी मीट्रिक है। मानक MMD परीक्षण सांख्यिकी में कठिन शून्य वितरण होता है, जिसके लिए आमतौर पर महंगे पुनः-नमूनाकरण या क्रमपरिवर्तन विधियों की आवश्यकता होती है। यह पेपर वर्ग MMD के अनुमान की मार्टिंगेल व्याख्या का उपयोग करके मार्टिंगेल MMD (mMMD) प्रस्तावित करता है - एक द्विघात समय सांख्यिकी जिसका शून्य परिकल्पना के तहत सीमांत मानक गाऊसी वितरण होता है। इसके अतिरिक्त, हम सिद्ध करते हैं कि परीक्षण किसी भी निश्चित वैकल्पिक परिकल्पना के लिए सुसंगत है, बड़े नमूना आकारों के लिए, mMMD मानक MMD परीक्षण की तुलना में महत्वपूर्ण कम्प्यूटेशनल बचत प्रदान करता है, और शक्ति हानि न्यूनतम है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या विवरण

दो-नमूना परीक्षण सांख्यिकी में एक शास्त्रीय समस्या है, जिसका उद्देश्य स्वतंत्र नमूनों के आधार पर दो वितरण P और Q समान हैं या नहीं यह परीक्षण करना है: $H_0: P = Q \quad \text{बनाम} \quad H_1: P \neq Q$

मौजूदा विधियों की सीमाएं

पैरामीट्रिक विधियां: मॉडल गलत विनिर्देश या गैर-यूक्लिडियन डेटा पर अक्सर विफल होती हैं
शास्त्रीय गैर-पैरामीट्रिक विधियां: मुख्य रूप से एकल-आयामी डेटा के लिए उपयुक्त, बहुआयामी विस्तार कठिन है
मानक MMD परीक्षण: शून्य वितरण अनंत भारित χ² चर के योग के रूप में होता है, भार अज्ञात वितरण पर निर्भर करते हैं, कम्प्यूटेशनल रूप से गहन पुनः-नमूनाकरण या क्रमपरिवर्तन विधियों की आवश्यकता होती है

अनुसंधान प्रेरणा

MMD कर्नल विधियों के रूप में सामान्य डोमेन में वितरण अंतर का पता लगाने में उत्कृष्ट प्रदर्शन करता है
थ्रेशोल्ड τα का निर्धारण MMD परीक्षण की मुख्य व्यावहारिक चुनौती है
मौजूदा आघूर्ण-आधारित पैरामीट्रिक सन्निकटन में सुसंगतता या सटीकता की गारंटी का अभाव है
आसानी से संभाले जाने वाले शून्य वितरण के साथ एक कुशल विकल्प की आवश्यकता है

मुख्य योगदान

mMMD परीक्षण प्रस्तावित करना: मार्टिंगेल संरचना पर आधारित नई MMD विविधता, मानक गाऊसी शून्य वितरण के साथ
सैद्धांतिक गारंटियां:
- शून्य परिकल्पना के तहत स्पर्शोन्मुख सामान्यता सिद्ध की गई (प्रमेय 2, 3)
- निश्चित वैकल्पिक परिकल्पना के लिए सुसंगतता स्थापित की गई (प्रमेय 6, 7)
- वैकल्पिक परिकल्पना के तहत वितरण अभिसरण दिया गया (प्रमेय 8)
कम्प्यूटेशनल दक्षता: पुनः-नमूनाकरण से बचा जाता है, O(n²) जटिलता बनाए रखता है लेकिन वास्तविक रन समय में महत्वपूर्ण कमी
विस्तारित अनुप्रयोग:
- बहु-कर्नल परीक्षण (mmMMD)
- सामान्य सांख्यिकी परिवार Tn,γ, जिसमें मानक MMD और mMMD विशेष मामले हैं

विधि विवरण

कार्य परिभाषा

दो वितरण P और Q से मीट्रिक स्पेस X पर स्वतंत्र नमूने दिए गए:

Xn = {X₁, ..., Xn} ~ P
Yn = {Y₁, ..., Yn} ~ Q

उद्देश्य: H₀: P = Q बनाम H₁: P ≠ Q परीक्षण करना

मुख्य विचार: मार्टिंगेल संरचना

मुख्य अवलोकन: वर्ग MMD अनुमानक के संशोधित रूप में मार्टिंगेल संरचना होती है।

साक्षी फलन विधि:

सैद्धांतिक रूप से इष्टतम साक्षी फलन: f₀ = (νP - νQ)/‖νP - νQ‖K
प्रत्येक 2 ≤ i ≤ n के लिए, ऐतिहासिक डेटा का उपयोग करके अनुमान लगाएं: $\hat{f}_i = \frac{1}{i}\sum_{j=1}^{i-1}[K(X_j, \cdot) - K(Y_j, \cdot)]$

mMMD सांख्यिकी

$T_n := \frac{1}{n}\sum_{i=2}^n \langle \hat{f}_i, K(X_i, \cdot) - K(Y_i, \cdot) \rangle_K$

कर्नल ट्रिक का उपयोग करके, इसे सरल बनाया जा सकता है: $T_n = \frac{1}{n}\sum_{i=2}^n \frac{1}{i}\sum_{j=1}^{i-1}[K(X_i, X_j) - K(X_i, Y_j) - K(X_j, Y_i) + K(Y_i, Y_j)]$

मानकीकृत सांख्यिकी

स्पर्शोन्मुख सामान्यता प्राप्त करने के लिए, विचरण अनुमान को परिभाषित करें: $\sigma_n^2 := \frac{1}{n^2}\sum_{i=2}^n \left(\frac{1}{i}\sum_{j=1}^{i-1}K(X_i, X_j) - K(X_i, Y_j) - K(X_j, Y_i) + K(Y_i, Y_j)\right)^2$

अंतिम परीक्षण सांख्यिकी: $\eta_n = T_n/\sigma_n$

परीक्षण नियम

$\Psi_n := \mathbf{1}\{\eta_n > z_{1-\alpha}\}$ जहां z₁₋α मानक सामान्य वितरण का (1-α) मात्रा है।

तकनीकी नवाचार बिंदु

मार्टिंगेल संरचना की पहचान: पहली बार MMD अनुमानक में मार्टिंगेल अंतर अनुक्रम की पहचान की गई
पुनः-नमूनाकरण से बचना: मार्टिंगेल केंद्रीय सीमा प्रमेय का उपयोग करके सीधे मानक गाऊसी वितरण प्राप्त करना
आयाम स्वतंत्रता: उपयुक्त शर्तों के तहत, शून्य वितरण डेटा आयाम पर निर्भर नहीं करता है
एकीकृत ढांचा: Tn,γ परिवार कई MMD विविधताओं को एकीकृत करता है

प्रायोगिक सेटअप

सैद्धांतिक सत्यापन प्रयोग

शून्य वितरण सत्यापन:

आयाम: d ∈ {10, 100, 250, 500}
डेटा वितरण: Nd(0d, Id) और td(10)
कर्नल फलन: गाऊसी और लाप्लास कर्नल (माध्यिका अनुमानी बैंडविड्थ)
नमूना आकार: n = 200, 2000 बार दोहराया गया

शक्ति तुलना प्रयोग

सेटअप:

P = Nd(0d, Id), Q = Nd(μd,j,ε, Id)
कॉन्फ़िगरेशन: (d,j,ε) = (10,5,0.3), (50,5,0.3), (100,5,0.5)
तुलना विधियां: मानक MMD, रैखिक समय MMD (LMMD), ब्लॉक MMD (BMMD), क्रॉस MMD (xMMD), BetMMD

वास्तविक डेटा प्रयोग

MNIST डेटासेट:

5 अंकों की जोड़ी तुलना: क्रमिक रूप से बढ़ती ओवरलैप
प्रत्येक समूह से 100 नमूने निकाले गए, 100 बार दोहराया गया
महत्व स्तर: α = 0.05

बहु-कर्नल प्रयोग

कॉन्फ़िगरेशन:

mmMMD गाऊसी: 3 गाऊसी कर्नल, बैंडविड्थ (1,2,4)λmed
mmMMD लाप्लास: 3 लाप्लास कर्नल, समान बैंडविड्थ
mmMMD मिश्रित: गाऊसी और लाप्लास कर्नल का मिश्रण

प्रायोगिक परिणाम

शून्य वितरण सत्यापन

मुख्य निष्कर्ष: सभी सेटअप में, ηn का अनुभवजन्य वितरण मानक गाऊसी वितरण से निकटता से मेल खाता है
दृढ़ता: परिणाम डेटा वितरण, कर्नल चयन और आयाम के लिए दृढ़ता प्रदर्शित करते हैं
तुलना लाभ: मानक MMD के जटिल शून्य वितरण के साथ तीव्र विपरीतता

शक्ति तुलना

विधि	(10,5,0.3)	(50,5,0.3)	(100,5,0.5)
mMMD	0.85	0.78	0.82
MMD	0.92	0.85	0.89
xMMD	0.83	0.76	0.80
BMMD	0.65	0.58	0.62
LMMD	0.45	0.38	0.42

मुख्य निष्कर्ष:

mMMD शक्ति मानक MMD के करीब है, अन्य कम्प्यूटेशनल रूप से कुशल विविधताओं से बेहतर है
xMMD के साथ तुलनीय प्रदर्शन, लेकिन नमूना विभाजन से बचा जाता है

कम्प्यूटेशनल दक्षता

नमूना आकार	mMMD	MMD	LMMD	BMMD	xMMD
100	0.0008±0.0007	0.0817±0.0078	0.0007±0.0003	0.0006±0.0003	0.0004±0.0001
200	0.0026±0.0010	0.3150±0.0227	0.0023±0.0010	0.0020±0.0008	0.0011±0.0007
300	0.0072±0.0023	0.8335±0.0501	0.0058±0.0020	0.0050±0.0020	0.0022±0.0013

परिणाम: mMMD मानक MMD से लगभग 100 गुना तेज है, अन्य कुशल विधियों के साथ तुलनीय है।

MNIST प्रयोग परिणाम

प्रवृत्ति: समूह बढ़ने के साथ (ओवरलैप बढ़ता है), सभी विधियों की शक्ति घटती है
प्रदर्शन क्रम: mMMD और xMMD > BMMD > LMMD
व्यावहारिक महत्व: वास्तविक डेटा पर सैद्धांतिक लाभ को सत्यापित करता है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

सैद्धांतिक योगदान: पहली बार मार्टिंगेल संरचना का उपयोग करके मानक गाऊसी शून्य वितरण के साथ MMD परीक्षण का निर्माण
व्यावहारिक मूल्य: कम्प्यूटेशनल लागत में महत्वपूर्ण कमी, अच्छे सांख्यिकीय प्रदर्शन को बनाए रखता है
विस्तारशीलता: ढांचा बहु-कर्नल सेटिंग और अधिक सामान्य सांख्यिकी परिवार तक विस्तारित हो सकता है

सीमाएं

सैद्धांतिक सीमाएं:
- माध्यिका अनुमानी बैंडविड्थ चयन में सैद्धांतिक समर्थन की कमी
- γ > 1/2 के लिए मिनिमैक्स इष्टतमता अनिर्धारित है
व्यावहारिक सीमाएं:
- अभी भी O(n²) कम्प्यूटेशनल जटिलता की आवश्यकता है
- कुछ सेटिंग में शक्ति मानक MMD से थोड़ी कम है

भविष्य की दिशाएं

सैद्धांतिक विस्तार:
- डेटा-निर्भर कर्नल के लिए सैद्धांतिक गारंटियां
- अधिक सामान्य कर्नल फलन की प्रयोज्यता
- मिनिमैक्स इष्टतमता का पूर्ण लक्षण वर्णन
विधि सुधार:
- कर्नल सन्निकटन तकनीकों के साथ जटिलता को कम करने के लिए संयोजन
- स्वतंत्रता परीक्षण तक विस्तार
- दूरी-आधारित परीक्षण के अनुप्रयोग

गहन मूल्यांकन

शक्तियां

नवाचार शक्तिशाली: मार्टिंगेल दृष्टिकोण MMD अनुसंधान में नया योगदान है
सैद्धांतिक कठोरता: पूर्ण स्पर्शोन्मुख सिद्धांत, Berry-Esseen प्रकार अभिसरण दर सहित
उच्च व्यावहारिक मूल्य: MMD परीक्षण की व्यावहारिक कम्प्यूटेशनल बाधा को हल करता है
पर्याप्त प्रयोग: सैद्धांतिक सत्यापन से वास्तविक अनुप्रयोग तक व्यापक मूल्यांकन
स्पष्ट लेखन: तकनीकी विवरण और सहज व्याख्या के बीच अच्छा संतुलन

कमियां

सैद्धांतिक अंतराल: डेटा-निर्भर बैंडविड्थ का सैद्धांतिक विश्लेषण अधूरा है
शक्ति हानि: कुछ परिस्थितियों में शक्ति वास्तव में मानक MMD से कम है
प्रयोज्यता सीमा: मुख्य रूप से यूक्लिडियन स्पेस के मामले को सत्यापित किया गया है
कम्प्यूटेशनल जटिलता: अभी भी O(n²) है, मौलिक सुधार नहीं हुआ है

प्रभाव

शैक्षणिक मूल्य: MMD सिद्धांत के लिए नया दृष्टिकोण प्रदान करता है, अधिक मार्टिंगेल-आधारित विधियों को प्रेरित कर सकता है
व्यावहारिक मूल्य: बड़े पैमाने पर दो-नमूना परीक्षण कार्यों के लिए सीधे लागू होता है
पुनरुत्पादनीयता: विधि सरल और स्पष्ट है, कार्यान्वयन और सत्यापन में आसान
विस्तारशीलता: ढांचे में अच्छी विस्तार क्षमता है

प्रयोज्य परिदृश्य

बड़े पैमाने पर डेटा: कम्प्यूटेशनल दक्षता लाभ स्पष्ट है
उच्च-आयामी डेटा: आयाम-स्वतंत्र शून्य वितरण विशेषता में लाभ है
वास्तविक समय अनुप्रयोग: क्रमपरिवर्तन परीक्षण की तत्काल आवश्यकता से बचा जाता है
बहु-कर्नल परिदृश्य: कर्नल चयन अनिश्चित होने पर mmMMD में लाभ है

संदर्भ

Gretton, A., et al. (2012a). A kernel two-sample test. JMLR, 13(1), 723-773.
Shekhar, S., Kim, I., & Ramdas, A. (2022). A permutation-free kernel two-sample test. NeurIPS, 35, 18168-18180.
Li, T. & Yuan, M. (2024). On the optimality of Gaussian kernel based nonparametric tests against smooth alternatives. JMLR, 25(334), 1-62.
Fan, X. & Shao, Q. M. (2018). Berry–Esseen bounds for self-normalized martingales. Communications in Mathematics and Statistics, 6(1), 13-27.

सारांश: यह एक उच्च गुणवत्ता वाला सांख्यिकीय सिद्धांत पेपर है जो चतुर मार्टिंगेल संरचना की पहचान के माध्यम से शास्त्रीय MMD परीक्षण समस्या के लिए एक नया समाधान प्रदान करता है। सैद्धांतिक योगदान दृढ़ है, प्रायोगिक सत्यापन व्यापक है, और इसमें महत्वपूर्ण शैक्षणिक और व्यावहारिक मूल्य है।