2025-11-14T20:13:11.521057

Minimax Optimal Kernel Two-Sample Tests with Random Features

Mukherjee, Sriperumbudur

Reproducing Kernel Hilbert Space (RKHS) embedding of probability distributions has proved to be an effective approach, via MMD (maximum mean discrepancy), for nonparametric hypothesis testing problems involving distributions defined over general (non-Euclidean) domains. While a substantial amount of work has been done on this topic, only recently have minimax optimal two-sample tests been constructed that incorporate, unlike MMD, both the mean element and a regularized version of the covariance operator. However, as with most kernel algorithms, the optimal test scales cubically in the sample size, limiting its applicability. In this paper, we propose a spectral-regularized two-sample test based on random Fourier feature (RFF) approximation and investigate the trade-offs between statistical optimality and computational efficiency. We show the proposed test to be minimax optimal if the approximation order of RFF (which depends on the smoothness of the likelihood ratio and the decay rate of the eigenvalues of the integral operator) is sufficiently large. We develop a practically implementable permutation-based version of the proposed test with a data-adaptive strategy for selecting the regularization parameter. Finally, through numerical experiments on simulated and benchmark datasets, we demonstrate that the proposed RFF-based test is computationally efficient and performs almost similarly (with a small drop in power) to the exact test.

academic

Tests Minimax Optimaux à Deux Échantillons avec Noyaux et Caractéristiques Aléatoires

Informations Fondamentales

ID de l'article: 2502.20755
Titre: Minimax Optimal Kernel Two-Sample Tests with Random Features
Auteurs: Soumya Mukherjee, Bharath K. Sriperumbudur (Pennsylvania State University)
Classification: math.ST cs.LG stat.ML stat.TH
Date de publication: 17 octobre 2025 (prépublication arXiv)
Lien de l'article: https://arxiv.org/abs/2502.20755

Résumé

Cet article propose une méthode de test à deux échantillons régularisée spectralement basée sur l'approximation par caractéristiques de Fourier aléatoires (RFF) pour les problèmes de test à deux échantillons fondés sur les plongements dans l'espace de Hilbert à noyau reproduisant (RKHS). La méthode maintient l'optimalité statistique tout en réduisant considérablement la complexité de calcul, la ramenant d'un ordre cubique à quasi-linéaire, et fournit une version entièrement pilotée par les données et pratiquement réalisable.

Contexte et Motivation de la Recherche

Problème Central

Le test à deux échantillons est un problème fondamental en statistique, visant à déterminer si deux échantillons aléatoires proviennent de distributions de probabilité identiques. Les méthodes de test paramétriques et non paramétriques traditionnelles font face à des limitations significatives lors du traitement de données de haute dimension ou de distributions sur des domaines non euclidiens.

Limitations des Méthodes Existantes

Sous-optimalité du test MMD: Bien que le test de différence de moyenne maximale (MMD) soit largement appliqué, il manque d'optimalité minimax, ne considérant que les plongements de moyenne en ignorant les informations de l'opérateur de covariance
Goulot d'étranglement computationnel des méthodes régularisées spectralement: Les tests MMD régularisés spectralement récemment proposés, bien qu'atteignant l'optimalité minimax, ont une complexité de calcul O(n³), limitant leur application aux données à grande échelle
Difficulté de sélection des paramètres: Le choix du paramètre de régularisation dépend des caractéristiques de distribution inconnues, manquant de stratégies adaptatives pilotées par les données

Motivation de la Recherche

Cet article vise à améliorer significativement l'efficacité de calcul du test à deux échantillons régularisé spectralement grâce à la technique d'approximation par caractéristiques de Fourier aléatoires, tout en maintenant l'optimalité statistique, et à développer une version adaptative pratiquement utilisable.

Contributions Principales

Test efficace en calcul et statistiquement optimal: Propose un test à deux échantillons régularisé spectralement basé sur RFF, réduisant la complexité de calcul de O(n³) à O(nl²+nld), tout en maintenant l'optimalité minimax sous des conditions suffisantes
Garanties théoriques: Établit le lien théorique entre l'ordre d'approximation RFF et l'optimalité statistique, prouvant l'optimalité minimax du test lorsque le nombre de caractéristiques l satisfait des conditions spécifiques
Version adaptative pratique: Développe une version entièrement pilotée par les données basée sur le test de permutation, incluant des stratégies de sélection adaptative pour le paramètre de régularisation et la fonction noyau
Vérification expérimentale complète: Valide l'efficacité de la méthode sur des données synthétiques et des ensembles de données de référence, démontrant un bon compromis entre efficacité de calcul et performance statistique

Explication Détaillée de la Méthode

Définition de la Tâche

Étant donné des échantillons indépendants X₁:N et Y₁:M provenant des distributions P et Q, tester l'hypothèse H₀: P = Q vs H₁: P ≠ Q.

Architecture de la Méthode Principale

1. Cadre de Régularisation Spectrale

Pour une fonction noyau K, définir la divergence régularisée spectralement:

ηλ(P,Q) = 4⟨Tgλ(T)u, u⟩_{L²(R)}

où T est l'opérateur intégral, u = dP/dR - 1 est l'écart du rapport de vraisemblance, et gλ est la fonction de régularisation.

2. Approximation par Caractéristiques de Fourier Aléatoires

Pour les fonctions noyau de la forme K(x,y) = ∫φ(x,θ)φ(y,θ)dΞ(θ), construire le noyau approché:

Kₗ(x,y) = (1/l)∑ᵢ₌₁ˡ φ(x,θᵢ)φ(y,θᵢ)

3. Statistique de Test Approchée

Construire la statistique de test basée sur le noyau approché Kₗ:

η̂λ,l = (1/[n(n-1)m(m-1)]) ∑ᵢ≠ⱼ ∑ᵢ'≠ⱼ' t(Xᵢ,Xⱼ,Yᵢ',Yⱼ')

où la fonction t implique la racine carrée de l'opérateur de covariance régularisé.

Points d'Innovation Technique

1. Innovation Théorique

Conditions d'optimalité minimax: Établit la relation précise entre le nombre de caractéristiques RFF l et l'optimalité statistique
Cas de décroissance polynomiale et exponentielle: Analyse séparément les différents modèles de décroissance des valeurs propres de l'opérateur intégral
Analyse non-asymptotique: Fournit des garanties de performance en échantillon fini

2. Innovation Algorithmique

Régularisation adaptative: Réalise la sélection pilotée par les données du paramètre de régularisation par test conjoint
Adaptation de la fonction noyau: Extension à la sélection adaptative de plusieurs fonctions noyau
Implémentation du test de permutation: Fournit le calcul de valeur critique entièrement piloté par les données

3. Innovation Computationnelle

Algorithme efficace: Analyse détaillée de la complexité de calcul et implémentation optimisée
Parallélisation: Caractère naturellement parallélisable du test de permutation

Configuration Expérimentale

Ensembles de Données

Données synthétiques:
- Décalage de moyenne gaussienne: P = N(0,I), Q = N(μ,I)
- Décalage d'échelle gaussienne: P = N(0,I), Q = N(0,σ²I)
- Décalage de médiane de Cauchy: Distributions de Cauchy avec différentes médianes
Données réelles:
- Ensemble de données MNIST: Images de chiffres manuscrits 7×7 pixels, dimension d=49
- Détection de divergence de distribution entre différents sous-ensembles de chiffres

Indicateurs d'Évaluation

Puissance statistique: Probabilité de rejeter correctement l'hypothèse nulle sous l'hypothèse alternative
Temps de calcul: Comparaison du temps d'exécution de l'algorithme
Erreur de première espèce: Contrôlée au niveau α=0,05

Méthodes de Comparaison

Test adaptatif exact: Test de régularisation spectrale basé sur la matrice noyau complète
Différents nombres de caractéristiques RFF: Comparaison de performance pour l ∈ {1,3,5,7,9,15,20}

Détails d'Implémentation

Fonction de régularisation: Régularisateur de Showalter gλ(x) = (1-e^(-x/λ))/x
Fonction noyau: Noyau gaussien et noyau de Laplace, sélection adaptative de la bande passante
Nombre de permutations: Version RFF B=550-800, version exacte B'=250-450

Résultats Expérimentaux

Résultats Principaux

1. Performance Statistique

Décalage de moyenne gaussienne: La puissance approche la méthode exacte lorsque l≥7
Décalage d'échelle gaussienne: Bonne performance atteinte lorsque l≥5
Distribution de Cauchy: Nécessite plus de caractéristiques (l≥10-15) pour traiter les distributions à queue lourde
Données MNIST: Bonne performance sur données réelles complexes lorsque l≥15

2. Efficacité Computationnelle

Économies de temps de calcul significatives:

Expériences gaussiennes: La méthode RFF ne nécessite que 33-44% du temps de calcul
Décalage d'échelle: Consommation de temps de 30-40%
Expériences de Cauchy: Seulement 5-6% du temps de calcul
MNIST: Consommation de temps de 5-15%

3. Vérification Théorique

Les résultats expérimentaux valident les prédictions théoriques:

Les besoins en nombre de caractéristiques sont liés à la dimension des données et à la complexité de la distribution
Le compromis calcul-statistique correspond à l'analyse théorique

Expériences d'Ablation

Par la comparaison de différents nombres de caractéristiques RFF, validation de:

L'existence d'un seuil de nombre de caractéristiques
La perte de puissance due à trop peu de caractéristiques
L'obtention d'un compromis optimal avec un nombre approprié de caractéristiques

Découvertes Expérimentales

Effet de dimension: Les données de haute dimension nécessitent plus de caractéristiques RFF
Impact du type de distribution: Les distributions à queue lourde nécessitent plus de caractéristiques pour garantir la performance
Seuils pratiques: Le nombre de caractéristiques requis par la théorie peut être légèrement réduit en pratique

Travaux Connexes

Tests à Deux Échantillons avec Méthodes à Noyau

Test MMD: Travaux fondateurs de Gretton et al. (2006, 2012)
Optimalité minimax: Progrès récents de Li & Yuan (2024), Schrab et al. (2023)
Régularisation spectrale: Percée théorique de Hagrass et al. (2024)

Approximation par Caractéristiques Aléatoires

Théorie RFF: Cadre fondamental de Rahimi & Recht (2007)
Accélération MMD: Applications de Zhao & Meng (2015), Choi & Kim (2024)
Compromis calcul-statistique: Analyse théorique de Sriperumbudur & Sterge (2022)

Avantages de Cet Article

Avantages principaux par rapport aux travaux existants:

Fonctions noyau plus générales: Non limité aux noyaux invariants par translation
Applicabilité plus large: Support des domaines non euclidiens
Garanties théoriques plus fortes: Optimalité minimax non-asymptotique
Algorithme plus pratique: Implémentation entièrement pilotée par les données

Conclusion et Discussion

Conclusions Principales

Contribution théorique: Première établissement de la théorie d'optimalité minimax pour le test à deux échantillons régularisé spectralement sous approximation RFF
Contribution algorithmique: Fourniture d'un algorithme pratique efficace en calcul et statistiquement optimal
Vérification empirique: Validation de l'efficacité de la méthode sur plusieurs types de données

Limitations

Sélection du nombre de caractéristiques: Bien que des orientations théoriques soient fournies, le choix pratique nécessite toujours un ajustement empirique
Dépendance à la fonction noyau: La performance dépend toujours du choix de la fonction noyau
Distribution à queue lourde: Peut nécessiter un grand nombre de caractéristiques pour les distributions extrêmement à queue lourde

Directions Futures

Autres méthodes d'approximation: Exploration de techniques d'approximation alternatives comme Nyström
Test de permutation économique: Combinaison avec le cheap permutation testing pour réduire davantage les coûts de calcul
Ajustement automatique des paramètres: Développement de stratégies de sélection d'hyperparamètres plus intelligentes

Évaluation Approfondie

Points Forts

Rigueur théorique: Fournit une analyse théorique non-asymptotique complète, incluant les conditions suffisantes et la preuve d'optimalité minimax
Forte praticité: L'algorithme est entièrement piloté par les données, sans nécessiter de connaissances préalables
Expériences suffisantes: Couvre les données synthétiques et réelles, plusieurs types de distributions
Rédaction claire: Détails techniques détaillés, preuves complètes

Insuffisances

Analyse de complexité: Bien que la complexité asymptotique soit réduite, les facteurs constants peuvent être importants
Sensibilité aux paramètres: La sélection du paramètre de régularisation et du nombre de caractéristiques reste relativement sensible
Traitement des queues lourdes: L'efficacité du traitement des distributions à queue lourde peut être améliorée

Impact

Valeur théorique: Fournit un nouveau cadre théorique pour le compromis calcul-statistique des méthodes à noyau
Valeur pratique: Perspectives d'application importantes dans le test à deux échantillons sur données à grande échelle
Contribution méthodologique: L'application de l'approximation RFF aux tests statistiques fournit de nouvelles perspectives pour la recherche connexe

Scénarios d'Application

Données à grande échelle: Les avantages computationnels sont évidents lorsque la taille d'échantillon est importante
Données de haute dimension: Avantages significatifs par rapport aux méthodes traditionnelles dans les paramètres de haute dimension
Applications en temps réel: L'amélioration de l'efficacité computationnelle rend les tests en temps réel possibles
Paramètres non paramétriques: Applicable aux cas généraux où la forme de distribution est inconnue

Références

Gretton, A., et al. (2012). A kernel two-sample test. JMLR.
Hagrass, O., et al. (2024). Spectral regularized kernel two-sample tests. Annals of Statistics.
Rahimi, A., & Recht, B. (2007). Random features for large-scale kernel machines. NIPS.
Choi, I., & Kim, I. (2024). Computational-statistical trade-off in kernel two-sample testing with random Fourier features.
Sriperumbudur, B. K., & Sterge, N. (2022). Approximate kernel PCA: Computational versus statistical trade-off. Annals of Statistics.

Évaluation Globale: Ceci est un article de haute qualité en statistique théorique qui applique avec succès la technique d'approximation par caractéristiques aléatoires au test à deux échantillons régularisé spectralement, améliorant significativement l'efficacité computationnelle tout en maintenant l'optimalité statistique. L'analyse théorique de l'article est approfondie et détaillée, la vérification expérimentale est suffisante, et elle a une valeur importante tant pour la théorie de l'apprentissage statistique que pour les applications pratiques.