2025-11-14T20:13:11.521057

Minimax Optimal Kernel Two-Sample Tests with Random Features

Mukherjee, Sriperumbudur
Reproducing Kernel Hilbert Space (RKHS) embedding of probability distributions has proved to be an effective approach, via MMD (maximum mean discrepancy), for nonparametric hypothesis testing problems involving distributions defined over general (non-Euclidean) domains. While a substantial amount of work has been done on this topic, only recently have minimax optimal two-sample tests been constructed that incorporate, unlike MMD, both the mean element and a regularized version of the covariance operator. However, as with most kernel algorithms, the optimal test scales cubically in the sample size, limiting its applicability. In this paper, we propose a spectral-regularized two-sample test based on random Fourier feature (RFF) approximation and investigate the trade-offs between statistical optimality and computational efficiency. We show the proposed test to be minimax optimal if the approximation order of RFF (which depends on the smoothness of the likelihood ratio and the decay rate of the eigenvalues of the integral operator) is sufficiently large. We develop a practically implementable permutation-based version of the proposed test with a data-adaptive strategy for selecting the regularization parameter. Finally, through numerical experiments on simulated and benchmark datasets, we demonstrate that the proposed RFF-based test is computationally efficient and performs almost similarly (with a small drop in power) to the exact test.
academic

Tests Minimax Optimaux à Deux Échantillons avec Noyaux et Caractéristiques Aléatoires

Informations Fondamentales

  • ID de l'article: 2502.20755
  • Titre: Minimax Optimal Kernel Two-Sample Tests with Random Features
  • Auteurs: Soumya Mukherjee, Bharath K. Sriperumbudur (Pennsylvania State University)
  • Classification: math.ST cs.LG stat.ML stat.TH
  • Date de publication: 17 octobre 2025 (prépublication arXiv)
  • Lien de l'article: https://arxiv.org/abs/2502.20755

Résumé

Cet article propose une méthode de test à deux échantillons régularisée spectralement basée sur l'approximation par caractéristiques de Fourier aléatoires (RFF) pour les problèmes de test à deux échantillons fondés sur les plongements dans l'espace de Hilbert à noyau reproduisant (RKHS). La méthode maintient l'optimalité statistique tout en réduisant considérablement la complexité de calcul, la ramenant d'un ordre cubique à quasi-linéaire, et fournit une version entièrement pilotée par les données et pratiquement réalisable.

Contexte et Motivation de la Recherche

Problème Central

Le test à deux échantillons est un problème fondamental en statistique, visant à déterminer si deux échantillons aléatoires proviennent de distributions de probabilité identiques. Les méthodes de test paramétriques et non paramétriques traditionnelles font face à des limitations significatives lors du traitement de données de haute dimension ou de distributions sur des domaines non euclidiens.

Limitations des Méthodes Existantes

  1. Sous-optimalité du test MMD: Bien que le test de différence de moyenne maximale (MMD) soit largement appliqué, il manque d'optimalité minimax, ne considérant que les plongements de moyenne en ignorant les informations de l'opérateur de covariance
  2. Goulot d'étranglement computationnel des méthodes régularisées spectralement: Les tests MMD régularisés spectralement récemment proposés, bien qu'atteignant l'optimalité minimax, ont une complexité de calcul O(n³), limitant leur application aux données à grande échelle
  3. Difficulté de sélection des paramètres: Le choix du paramètre de régularisation dépend des caractéristiques de distribution inconnues, manquant de stratégies adaptatives pilotées par les données

Motivation de la Recherche

Cet article vise à améliorer significativement l'efficacité de calcul du test à deux échantillons régularisé spectralement grâce à la technique d'approximation par caractéristiques de Fourier aléatoires, tout en maintenant l'optimalité statistique, et à développer une version adaptative pratiquement utilisable.

Contributions Principales

  1. Test efficace en calcul et statistiquement optimal: Propose un test à deux échantillons régularisé spectralement basé sur RFF, réduisant la complexité de calcul de O(n³) à O(nl²+nld), tout en maintenant l'optimalité minimax sous des conditions suffisantes
  2. Garanties théoriques: Établit le lien théorique entre l'ordre d'approximation RFF et l'optimalité statistique, prouvant l'optimalité minimax du test lorsque le nombre de caractéristiques l satisfait des conditions spécifiques
  3. Version adaptative pratique: Développe une version entièrement pilotée par les données basée sur le test de permutation, incluant des stratégies de sélection adaptative pour le paramètre de régularisation et la fonction noyau
  4. Vérification expérimentale complète: Valide l'efficacité de la méthode sur des données synthétiques et des ensembles de données de référence, démontrant un bon compromis entre efficacité de calcul et performance statistique

Explication Détaillée de la Méthode

Définition de la Tâche

Étant donné des échantillons indépendants X₁:N et Y₁:M provenant des distributions P et Q, tester l'hypothèse H₀: P = Q vs H₁: P ≠ Q.

Architecture de la Méthode Principale

1. Cadre de Régularisation Spectrale

Pour une fonction noyau K, définir la divergence régularisée spectralement:

ηλ(P,Q) = 4⟨Tgλ(T)u, u⟩_{L²(R)}

où T est l'opérateur intégral, u = dP/dR - 1 est l'écart du rapport de vraisemblance, et gλ est la fonction de régularisation.

2. Approximation par Caractéristiques de Fourier Aléatoires

Pour les fonctions noyau de la forme K(x,y) = ∫φ(x,θ)φ(y,θ)dΞ(θ), construire le noyau approché:

Kₗ(x,y) = (1/l)∑ᵢ₌₁ˡ φ(x,θᵢ)φ(y,θᵢ)

3. Statistique de Test Approchée

Construire la statistique de test basée sur le noyau approché Kₗ:

η̂λ,l = (1/[n(n-1)m(m-1)]) ∑ᵢ≠ⱼ ∑ᵢ'≠ⱼ' t(Xᵢ,Xⱼ,Yᵢ',Yⱼ')

où la fonction t implique la racine carrée de l'opérateur de covariance régularisé.

Points d'Innovation Technique

1. Innovation Théorique

  • Conditions d'optimalité minimax: Établit la relation précise entre le nombre de caractéristiques RFF l et l'optimalité statistique
  • Cas de décroissance polynomiale et exponentielle: Analyse séparément les différents modèles de décroissance des valeurs propres de l'opérateur intégral
  • Analyse non-asymptotique: Fournit des garanties de performance en échantillon fini

2. Innovation Algorithmique

  • Régularisation adaptative: Réalise la sélection pilotée par les données du paramètre de régularisation par test conjoint
  • Adaptation de la fonction noyau: Extension à la sélection adaptative de plusieurs fonctions noyau
  • Implémentation du test de permutation: Fournit le calcul de valeur critique entièrement piloté par les données

3. Innovation Computationnelle

  • Algorithme efficace: Analyse détaillée de la complexité de calcul et implémentation optimisée
  • Parallélisation: Caractère naturellement parallélisable du test de permutation

Configuration Expérimentale

Ensembles de Données

  1. Données synthétiques:
    • Décalage de moyenne gaussienne: P = N(0,I), Q = N(μ,I)
    • Décalage d'échelle gaussienne: P = N(0,I), Q = N(0,σ²I)
    • Décalage de médiane de Cauchy: Distributions de Cauchy avec différentes médianes
  2. Données réelles:
    • Ensemble de données MNIST: Images de chiffres manuscrits 7×7 pixels, dimension d=49
    • Détection de divergence de distribution entre différents sous-ensembles de chiffres

Indicateurs d'Évaluation

  • Puissance statistique: Probabilité de rejeter correctement l'hypothèse nulle sous l'hypothèse alternative
  • Temps de calcul: Comparaison du temps d'exécution de l'algorithme
  • Erreur de première espèce: Contrôlée au niveau α=0,05

Méthodes de Comparaison

  • Test adaptatif exact: Test de régularisation spectrale basé sur la matrice noyau complète
  • Différents nombres de caractéristiques RFF: Comparaison de performance pour l ∈ {1,3,5,7,9,15,20}

Détails d'Implémentation

  • Fonction de régularisation: Régularisateur de Showalter gλ(x) = (1-e^(-x/λ))/x
  • Fonction noyau: Noyau gaussien et noyau de Laplace, sélection adaptative de la bande passante
  • Nombre de permutations: Version RFF B=550-800, version exacte B'=250-450

Résultats Expérimentaux

Résultats Principaux

1. Performance Statistique

  • Décalage de moyenne gaussienne: La puissance approche la méthode exacte lorsque l≥7
  • Décalage d'échelle gaussienne: Bonne performance atteinte lorsque l≥5
  • Distribution de Cauchy: Nécessite plus de caractéristiques (l≥10-15) pour traiter les distributions à queue lourde
  • Données MNIST: Bonne performance sur données réelles complexes lorsque l≥15

2. Efficacité Computationnelle

Économies de temps de calcul significatives:

  • Expériences gaussiennes: La méthode RFF ne nécessite que 33-44% du temps de calcul
  • Décalage d'échelle: Consommation de temps de 30-40%
  • Expériences de Cauchy: Seulement 5-6% du temps de calcul
  • MNIST: Consommation de temps de 5-15%

3. Vérification Théorique

Les résultats expérimentaux valident les prédictions théoriques:

  • Les besoins en nombre de caractéristiques sont liés à la dimension des données et à la complexité de la distribution
  • Le compromis calcul-statistique correspond à l'analyse théorique

Expériences d'Ablation

Par la comparaison de différents nombres de caractéristiques RFF, validation de:

  1. L'existence d'un seuil de nombre de caractéristiques
  2. La perte de puissance due à trop peu de caractéristiques
  3. L'obtention d'un compromis optimal avec un nombre approprié de caractéristiques

Découvertes Expérimentales

  1. Effet de dimension: Les données de haute dimension nécessitent plus de caractéristiques RFF
  2. Impact du type de distribution: Les distributions à queue lourde nécessitent plus de caractéristiques pour garantir la performance
  3. Seuils pratiques: Le nombre de caractéristiques requis par la théorie peut être légèrement réduit en pratique

Travaux Connexes

Tests à Deux Échantillons avec Méthodes à Noyau

  • Test MMD: Travaux fondateurs de Gretton et al. (2006, 2012)
  • Optimalité minimax: Progrès récents de Li & Yuan (2024), Schrab et al. (2023)
  • Régularisation spectrale: Percée théorique de Hagrass et al. (2024)

Approximation par Caractéristiques Aléatoires

  • Théorie RFF: Cadre fondamental de Rahimi & Recht (2007)
  • Accélération MMD: Applications de Zhao & Meng (2015), Choi & Kim (2024)
  • Compromis calcul-statistique: Analyse théorique de Sriperumbudur & Sterge (2022)

Avantages de Cet Article

Avantages principaux par rapport aux travaux existants:

  1. Fonctions noyau plus générales: Non limité aux noyaux invariants par translation
  2. Applicabilité plus large: Support des domaines non euclidiens
  3. Garanties théoriques plus fortes: Optimalité minimax non-asymptotique
  4. Algorithme plus pratique: Implémentation entièrement pilotée par les données

Conclusion et Discussion

Conclusions Principales

  1. Contribution théorique: Première établissement de la théorie d'optimalité minimax pour le test à deux échantillons régularisé spectralement sous approximation RFF
  2. Contribution algorithmique: Fourniture d'un algorithme pratique efficace en calcul et statistiquement optimal
  3. Vérification empirique: Validation de l'efficacité de la méthode sur plusieurs types de données

Limitations

  1. Sélection du nombre de caractéristiques: Bien que des orientations théoriques soient fournies, le choix pratique nécessite toujours un ajustement empirique
  2. Dépendance à la fonction noyau: La performance dépend toujours du choix de la fonction noyau
  3. Distribution à queue lourde: Peut nécessiter un grand nombre de caractéristiques pour les distributions extrêmement à queue lourde

Directions Futures

  1. Autres méthodes d'approximation: Exploration de techniques d'approximation alternatives comme Nyström
  2. Test de permutation économique: Combinaison avec le cheap permutation testing pour réduire davantage les coûts de calcul
  3. Ajustement automatique des paramètres: Développement de stratégies de sélection d'hyperparamètres plus intelligentes

Évaluation Approfondie

Points Forts

  1. Rigueur théorique: Fournit une analyse théorique non-asymptotique complète, incluant les conditions suffisantes et la preuve d'optimalité minimax
  2. Forte praticité: L'algorithme est entièrement piloté par les données, sans nécessiter de connaissances préalables
  3. Expériences suffisantes: Couvre les données synthétiques et réelles, plusieurs types de distributions
  4. Rédaction claire: Détails techniques détaillés, preuves complètes

Insuffisances

  1. Analyse de complexité: Bien que la complexité asymptotique soit réduite, les facteurs constants peuvent être importants
  2. Sensibilité aux paramètres: La sélection du paramètre de régularisation et du nombre de caractéristiques reste relativement sensible
  3. Traitement des queues lourdes: L'efficacité du traitement des distributions à queue lourde peut être améliorée

Impact

  1. Valeur théorique: Fournit un nouveau cadre théorique pour le compromis calcul-statistique des méthodes à noyau
  2. Valeur pratique: Perspectives d'application importantes dans le test à deux échantillons sur données à grande échelle
  3. Contribution méthodologique: L'application de l'approximation RFF aux tests statistiques fournit de nouvelles perspectives pour la recherche connexe

Scénarios d'Application

  1. Données à grande échelle: Les avantages computationnels sont évidents lorsque la taille d'échantillon est importante
  2. Données de haute dimension: Avantages significatifs par rapport aux méthodes traditionnelles dans les paramètres de haute dimension
  3. Applications en temps réel: L'amélioration de l'efficacité computationnelle rend les tests en temps réel possibles
  4. Paramètres non paramétriques: Applicable aux cas généraux où la forme de distribution est inconnue

Références

  1. Gretton, A., et al. (2012). A kernel two-sample test. JMLR.
  2. Hagrass, O., et al. (2024). Spectral regularized kernel two-sample tests. Annals of Statistics.
  3. Rahimi, A., & Recht, B. (2007). Random features for large-scale kernel machines. NIPS.
  4. Choi, I., & Kim, I. (2024). Computational-statistical trade-off in kernel two-sample testing with random Fourier features.
  5. Sriperumbudur, B. K., & Sterge, N. (2022). Approximate kernel PCA: Computational versus statistical trade-off. Annals of Statistics.

Évaluation Globale: Ceci est un article de haute qualité en statistique théorique qui applique avec succès la technique d'approximation par caractéristiques aléatoires au test à deux échantillons régularisé spectralement, améliorant significativement l'efficacité computationnelle tout en maintenant l'optimalité statistique. L'analyse théorique de l'article est approfondie et détaillée, la vérification expérimentale est suffisante, et elle a une valeur importante tant pour la théorie de l'apprentissage statistique que pour les applications pratiques.