The Maximum Mean Discrepancy (MMD) is a widely used multivariate distance metric for two-sample testing. The standard MMD test statistic has an intractable null distribution typically requiring costly resampling or permutation approaches for calibration. In this work we leverage a martingale interpretation of the estimated squared MMD to propose martingale MMD (mMMD), a quadratic-time statistic which has a limiting standard Gaussian distribution under the null. Moreover we show that the test is consistent against any fixed alternative and for large sample sizes, mMMD offers substantial computational savings over the standard MMD test, with only a minor loss in power.
- ID de l'article: 2510.11853
- Titre: A Martingale Kernel Two-Sample Test
- Auteurs: Anirban Chatterjee (University of Chicago), Aaditya Ramdas (Carnegie Mellon University)
- Classification: stat.ME, math.ST, stat.TH
- Date de publication: 13 octobre 2025
- Lien de l'article: https://arxiv.org/abs/2510.11853
La divergence maximale moyenne (Maximum Mean Discrepancy, MMD) est une mesure de distance multivariée largement utilisée dans les tests à deux échantillons. La statistique de test MMD standard possède une distribution nulle difficile à traiter, nécessitant généralement des méthodes de rééchantillonnage ou de permutation coûteuses pour l'étalonnage. Cet article exploite l'interprétation martingale de l'estimateur MMD au carré pour proposer la MMD martingale (mMMD) — une statistique de temps quadratique qui suit une distribution gaussienne standard asymptotiquement sous l'hypothèse nulle. De plus, nous démontrons que le test est convergent pour toute hypothèse alternative fixe, et pour les grands effectifs d'échantillon, mMMD offre des économies de calcul significatives par rapport au test MMD standard, avec une perte de puissance mineure.
Le test à deux échantillons est un problème classique en statistique, dont l'objectif est de tester si deux distributions P et Q sont égales sur la base d'échantillons indépendants:
H0:P=QvsH1:P=Q
- Méthodes paramétriques: Échouent souvent en cas de mauvaise spécification du modèle ou sur des données non-euclidiennes
- Méthodes non paramétriques classiques: Principalement adaptées aux données univariées, extension multivariée difficile
- Test MMD standard: La distribution nulle est une somme infinie de variables χ² pondérées, dont les poids dépendent de distributions inconnues, nécessitant des méthodes de rééchantillonnage ou de permutation intensives en calcul
- La MMD en tant que méthode à noyau démontre une excellente performance dans la détection de différences de distribution dans des domaines généraux
- La détermination du seuil τα est un défi pratique clé pour le test MMD
- Les approximations paramétriques existantes basées sur les moments manquent de garanties de convergence ou de précision
- Nécessité d'une méthode alternative efficace avec une distribution nulle traitable
- Proposition du test mMMD: Une nouvelle variante MMD basée sur la structure martingale, avec une distribution nulle gaussienne standard
- Garanties théoriques:
- Preuve de la normalité asymptotique sous l'hypothèse nulle (Théorèmes 2, 3)
- Établissement de la convergence pour les hypothèses alternatives fixes (Théorèmes 6, 7)
- Convergence en distribution sous l'hypothèse alternative (Théorème 8)
- Efficacité computationnelle: Évite le rééchantillonnage, maintient la complexité O(n²) mais réduit significativement le temps d'exécution réel
- Applications étendues:
- Test multi-noyau (mmMMD)
- Famille généralisée de statistiques Tn,γ, incluant MMD standard et mMMD comme cas particuliers
Étant donné deux échantillons indépendants de distributions P et Q sur un espace métrique X:
- Xn = {X₁, ..., Xn} ~ P
- Yn = {Y₁, ..., Yn} ~ Q
Objectif: Tester H₀: P = Q vs H₁: P ≠ Q
Observation clé: La forme modifiée de l'estimateur MMD au carré possède une structure martingale.
Approche par fonction témoin:
- Fonction témoin théoriquement optimale: f₀ = (νP - νQ)/‖νP - νQ‖K
- Pour chaque 2 ≤ i ≤ n, estimation utilisant les données historiques:
f^i=i1∑j=1i−1[K(Xj,⋅)−K(Yj,⋅)]
Tn:=n1∑i=2n⟨f^i,K(Xi,⋅)−K(Yi,⋅)⟩K
En utilisant l'astuce du noyau, cela se simplifie en:
Tn=n1∑i=2ni1∑j=1i−1[K(Xi,Xj)−K(Xi,Yj)−K(Xj,Yi)+K(Yi,Yj)]
Pour réaliser la normalité asymptotique, définissez l'estimateur de variance:
σn2:=n21∑i=2n(i1∑j=1i−1K(Xi,Xj)−K(Xi,Yj)−K(Xj,Yi)+K(Yi,Yj))2
Statistique de test finale:
ηn=Tn/σn
Ψn:=1{ηn>z1−α}
où z₁₋α est le quantile (1-α) de la distribution normale standard.
- Identification de la structure martingale: Première identification de la séquence de différences martingales dans l'estimateur MMD
- Éviter le rééchantillonnage: Utilisation du théorème central limite martingale pour obtenir directement une distribution gaussienne standard
- Indépendance dimensionnelle: Sous des conditions appropriées, la distribution nulle ne dépend pas de la dimensionnalité des données
- Cadre unifié: La famille Tn,γ unifie plusieurs variantes MMD
Vérification de la distribution nulle:
- Dimensions: d ∈ {10, 100, 250, 500}
- Distributions de données: Nd(0d, Id) et td(10)
- Noyaux: Gaussien et Laplacien (heuristique de bande passante médiane)
- Effectif d'échantillon: n = 200, 2000 répétitions
Configuration:
- P = Nd(0d, Id), Q = Nd(μd,j,ε, Id)
- Configurations: (d,j,ε) = (10,5,0.3), (50,5,0.3), (100,5,0.5)
- Méthodes de comparaison: MMD standard, MMD temps linéaire (LMMD), MMD par blocs (BMMD), MMD croisé (xMMD), BetMMD
Ensemble de données MNIST:
- 5 paires de chiffres avec chevauchement croissant
- 100 échantillons par groupe, 100 répétitions
- Niveau de signification: α = 0,05
Configuration:
- mmMMD Gauss: 3 noyaux gaussiens, bandes passantes (1,2,4)λmed
- mmMMD Laplace: 3 noyaux laplaciens, mêmes bandes passantes
- mmMMD Mixte: Noyaux gaussiens et laplaciens mixtes
- Résultats principaux: La distribution empirique de ηn correspond étroitement à la distribution gaussienne standard dans tous les paramètres
- Robustesse: Les résultats démontrent une robustesse à la distribution des données, au choix du noyau et à la dimensionnalité
- Avantage comparatif: Contraste frappant avec la distribution nulle complexe du MMD standard
| Méthode | (10,5,0.3) | (50,5,0.3) | (100,5,0.5) |
|---|
| mMMD | 0,85 | 0,78 | 0,82 |
| MMD | 0,92 | 0,85 | 0,89 |
| xMMD | 0,83 | 0,76 | 0,80 |
| BMMD | 0,65 | 0,58 | 0,62 |
| LMMD | 0,45 | 0,38 | 0,42 |
Résultats clés:
- La puissance de mMMD est proche de celle du MMD standard, supérieure aux autres variantes efficaces en calcul
- Performance comparable à xMMD, mais évite la division d'échantillon
| Effectif d'échantillon | mMMD | MMD | LMMD | BMMD | xMMD |
|---|
| 100 | 0,0008±0,0007 | 0,0817±0,0078 | 0,0007±0,0003 | 0,0006±0,0003 | 0,0004±0,0001 |
| 200 | 0,0026±0,0010 | 0,3150±0,0227 | 0,0023±0,0010 | 0,0020±0,0008 | 0,0011±0,0007 |
| 300 | 0,0072±0,0023 | 0,8335±0,0501 | 0,0058±0,0020 | 0,0050±0,0020 | 0,0022±0,0013 |
Résultats: mMMD est environ 100 fois plus rapide que le MMD standard, comparable aux autres méthodes efficaces.
- Tendance: La puissance de toutes les méthodes diminue avec l'augmentation du chevauchement
- Classement de performance: mMMD et xMMD > BMMD > LMMD
- Signification pratique: Validation des avantages théoriques sur données réelles
- Méthodes précoces: Approches conservatrices basées sur les grandes déviations
- Méthodes spectrales: Approximation spectrale de Gretton et al. (2009), nécessitant des hypothèses fortes
- U-statistiques incomplètes: MMD temps linéaire, MMD par blocs, etc.
- Stratégies de division d'échantillon: Kübler et al. (2022), Shekhar et al. (2022)
- Complétude théorique: Établissement simultané de la théorie de distribution sous hypothèse nulle et alternative
- Efficacité computationnelle: Évite la charge computationnelle des tests de permutation
- Praticité: Pas besoin de division d'échantillon, préserve l'information d'échantillon complète
- Contribution théorique: Première utilisation de la structure martingale pour construire un test MMD avec distribution nulle gaussienne standard
- Valeur pratique: Réduction significative des coûts computationnels, maintien de bonnes performances statistiques
- Extensibilité: Le cadre s'étend aux paramètres multi-noyau et aux familles de statistiques plus générales
- Limitations théoriques:
- Manque de support théorique pour la sélection de bande passante par heuristique médiane
- Optimalité minimax non déterminée pour γ > 1/2
- Limitations pratiques:
- Complexité computationnelle toujours O(n²)
- Puissance légèrement inférieure au MMD standard dans certains paramètres
- Extensions théoriques:
- Garanties théoriques pour noyaux dépendant des données
- Applicabilité à des fonctions noyau plus générales
- Caractérisation complète de l'optimalité minimax
- Améliorations méthodologiques:
- Combinaison avec techniques d'approximation de noyau pour réduire la complexité
- Extension aux tests d'indépendance
- Applications aux tests basés sur la distance
- Innovation forte: La perspective martingale est une contribution nouvelle à la recherche MMD
- Rigueur théorique: Théorie asymptotique complète, incluant taux de convergence de type Berry-Esseen
- Valeur pratique élevée: Résout le goulot d'étranglement computationnel pratique du test MMD
- Expériences suffisantes: Évaluation complète de la vérification théorique aux applications réelles
- Clarté de rédaction: Équilibre bien les détails techniques et les explications intuitives
- Lacunes théoriques: Analyse théorique incomplète pour la bande passante dépendant des données
- Perte de puissance: La puissance est effectivement inférieure au MMD standard dans certains cas
- Portée d'application: Vérification principalement sur l'espace euclidien
- Complexité computationnelle: Toujours O(n²), pas d'amélioration fondamentale
- Valeur académique: Offre une nouvelle perspective à la théorie MMD, peut inspirer davantage de méthodes basées sur les martingales
- Valeur pratique: Directement applicable aux tâches de test à deux échantillons à grande échelle
- Reproductibilité: Méthode simple et claire, facile à implémenter et vérifier
- Extensibilité: Le cadre possède un bon potentiel d'extension
- Données à grande échelle: Avantages d'efficacité computationnelle évidents
- Données haute-dimensionnelles: Caractéristique de distribution nulle indépendante de la dimension avantageuse
- Applications en temps réel: Satisfait les besoins d'immédiateté en évitant les tests de permutation
- Scénarios multi-noyau: mmMMD présente des avantages quand le choix de noyau est incertain
- Gretton, A., et al. (2012a). A kernel two-sample test. JMLR, 13(1), 723-773.
- Shekhar, S., Kim, I., & Ramdas, A. (2022). A permutation-free kernel two-sample test. NeurIPS, 35, 18168-18180.
- Li, T. & Yuan, M. (2024). On the optimality of Gaussian kernel based nonparametric tests against smooth alternatives. JMLR, 25(334), 1-62.
- Fan, X. & Shao, Q. M. (2018). Berry–Esseen bounds for self-normalized martingales. Communications in Mathematics and Statistics, 6(1), 13-27.
Résumé: Cet article est un travail statistique théorique de haute qualité qui, grâce à l'identification ingénieuse d'une structure martingale, fournit une nouvelle solution au problème classique du test MMD. Les contributions théoriques sont solides, la vérification expérimentale est complète, et l'article possède une valeur académique et pratique importante.