Minimax Optimal Kernel Two-Sample Tests with Random Features
Mukherjee, Sriperumbudur
Reproducing Kernel Hilbert Space (RKHS) embedding of probability distributions has proved to be an effective approach, via MMD (maximum mean discrepancy), for nonparametric hypothesis testing problems involving distributions defined over general (non-Euclidean) domains. While a substantial amount of work has been done on this topic, only recently have minimax optimal two-sample tests been constructed that incorporate, unlike MMD, both the mean element and a regularized version of the covariance operator. However, as with most kernel algorithms, the optimal test scales cubically in the sample size, limiting its applicability. In this paper, we propose a spectral-regularized two-sample test based on random Fourier feature (RFF) approximation and investigate the trade-offs between statistical optimality and computational efficiency. We show the proposed test to be minimax optimal if the approximation order of RFF (which depends on the smoothness of the likelihood ratio and the decay rate of the eigenvalues of the integral operator) is sufficiently large. We develop a practically implementable permutation-based version of the proposed test with a data-adaptive strategy for selecting the regularization parameter. Finally, through numerical experiments on simulated and benchmark datasets, we demonstrate that the proposed RFF-based test is computationally efficient and performs almost similarly (with a small drop in power) to the exact test.
academic
Tests Minimax Optimaux à Deux Échantillons avec Noyaux et Caractéristiques Aléatoires
Cet article propose une méthode de test à deux échantillons régularisée spectralement basée sur l'approximation par caractéristiques de Fourier aléatoires (RFF) pour les problèmes de test à deux échantillons fondés sur les plongements dans l'espace de Hilbert à noyau reproduisant (RKHS). La méthode maintient l'optimalité statistique tout en réduisant considérablement la complexité de calcul, la ramenant d'un ordre cubique à quasi-linéaire, et fournit une version entièrement pilotée par les données et pratiquement réalisable.
Le test à deux échantillons est un problème fondamental en statistique, visant à déterminer si deux échantillons aléatoires proviennent de distributions de probabilité identiques. Les méthodes de test paramétriques et non paramétriques traditionnelles font face à des limitations significatives lors du traitement de données de haute dimension ou de distributions sur des domaines non euclidiens.
Sous-optimalité du test MMD: Bien que le test de différence de moyenne maximale (MMD) soit largement appliqué, il manque d'optimalité minimax, ne considérant que les plongements de moyenne en ignorant les informations de l'opérateur de covariance
Goulot d'étranglement computationnel des méthodes régularisées spectralement: Les tests MMD régularisés spectralement récemment proposés, bien qu'atteignant l'optimalité minimax, ont une complexité de calcul O(n³), limitant leur application aux données à grande échelle
Difficulté de sélection des paramètres: Le choix du paramètre de régularisation dépend des caractéristiques de distribution inconnues, manquant de stratégies adaptatives pilotées par les données
Cet article vise à améliorer significativement l'efficacité de calcul du test à deux échantillons régularisé spectralement grâce à la technique d'approximation par caractéristiques de Fourier aléatoires, tout en maintenant l'optimalité statistique, et à développer une version adaptative pratiquement utilisable.
Test efficace en calcul et statistiquement optimal: Propose un test à deux échantillons régularisé spectralement basé sur RFF, réduisant la complexité de calcul de O(n³) à O(nl²+nld), tout en maintenant l'optimalité minimax sous des conditions suffisantes
Garanties théoriques: Établit le lien théorique entre l'ordre d'approximation RFF et l'optimalité statistique, prouvant l'optimalité minimax du test lorsque le nombre de caractéristiques l satisfait des conditions spécifiques
Version adaptative pratique: Développe une version entièrement pilotée par les données basée sur le test de permutation, incluant des stratégies de sélection adaptative pour le paramètre de régularisation et la fonction noyau
Vérification expérimentale complète: Valide l'efficacité de la méthode sur des données synthétiques et des ensembles de données de référence, démontrant un bon compromis entre efficacité de calcul et performance statistique
Conditions d'optimalité minimax: Établit la relation précise entre le nombre de caractéristiques RFF l et l'optimalité statistique
Cas de décroissance polynomiale et exponentielle: Analyse séparément les différents modèles de décroissance des valeurs propres de l'opérateur intégral
Analyse non-asymptotique: Fournit des garanties de performance en échantillon fini
Contribution théorique: Première établissement de la théorie d'optimalité minimax pour le test à deux échantillons régularisé spectralement sous approximation RFF
Contribution algorithmique: Fourniture d'un algorithme pratique efficace en calcul et statistiquement optimal
Vérification empirique: Validation de l'efficacité de la méthode sur plusieurs types de données
Sélection du nombre de caractéristiques: Bien que des orientations théoriques soient fournies, le choix pratique nécessite toujours un ajustement empirique
Dépendance à la fonction noyau: La performance dépend toujours du choix de la fonction noyau
Distribution à queue lourde: Peut nécessiter un grand nombre de caractéristiques pour les distributions extrêmement à queue lourde
Gretton, A., et al. (2012). A kernel two-sample test. JMLR.
Hagrass, O., et al. (2024). Spectral regularized kernel two-sample tests. Annals of Statistics.
Rahimi, A., & Recht, B. (2007). Random features for large-scale kernel machines. NIPS.
Choi, I., & Kim, I. (2024). Computational-statistical trade-off in kernel two-sample testing with random Fourier features.
Sriperumbudur, B. K., & Sterge, N. (2022). Approximate kernel PCA: Computational versus statistical trade-off. Annals of Statistics.
Évaluation Globale: Ceci est un article de haute qualité en statistique théorique qui applique avec succès la technique d'approximation par caractéristiques aléatoires au test à deux échantillons régularisé spectralement, améliorant significativement l'efficacité computationnelle tout en maintenant l'optimalité statistique. L'analyse théorique de l'article est approfondie et détaillée, la vérification expérimentale est suffisante, et elle a une valeur importante tant pour la théorie de l'apprentissage statistique que pour les applications pratiques.