Minimax Optimal Kernel Two-Sample Tests with Random Features
Mukherjee, Sriperumbudur
Reproducing Kernel Hilbert Space (RKHS) embedding of probability distributions has proved to be an effective approach, via MMD (maximum mean discrepancy), for nonparametric hypothesis testing problems involving distributions defined over general (non-Euclidean) domains. While a substantial amount of work has been done on this topic, only recently have minimax optimal two-sample tests been constructed that incorporate, unlike MMD, both the mean element and a regularized version of the covariance operator. However, as with most kernel algorithms, the optimal test scales cubically in the sample size, limiting its applicability. In this paper, we propose a spectral-regularized two-sample test based on random Fourier feature (RFF) approximation and investigate the trade-offs between statistical optimality and computational efficiency. We show the proposed test to be minimax optimal if the approximation order of RFF (which depends on the smoothness of the likelihood ratio and the decay rate of the eigenvalues of the integral operator) is sufficiently large. We develop a practically implementable permutation-based version of the proposed test with a data-adaptive strategy for selecting the regularization parameter. Finally, through numerical experiments on simulated and benchmark datasets, we demonstrate that the proposed RFF-based test is computationally efficient and performs almost similarly (with a small drop in power) to the exact test.
academic
Test Minimax Ottimali per Due Campioni con Kernel e Caratteristiche Casuali
Questo articolo propone un metodo di test per due campioni con regolarizzazione spettrale basato su caratteristiche di Fourier casuali (RFF) per il problema del test a due campioni basato su embedding nello spazio di Hilbert a kernel riproducente (RKHS). Il metodo mantiene l'ottimalità statistica riducendo significativamente la complessità computazionale da cubica a quasi lineare, fornendo anche una versione completamente guidata dai dati e praticamente realizzabile.
Il test a due campioni è un problema fondamentale della statistica, mirato a determinare se due campioni casuali provengono da distribuzioni di probabilità uguali. I metodi parametrici e non parametrici tradizionali affrontano limitazioni significative nel trattare dati ad alta dimensionalità o distribuzioni su domini non euclidei.
Subottimalità del test MMD: Sebbene il test della massima differenza media (MMD) sia ampiamente applicato, manca di ottimalità minimax, considerando solo l'embedding della media e ignorando le informazioni dell'operatore di covarianza
Collo di bottiglia computazionale dei metodi con regolarizzazione spettrale: I recenti test MMD con regolarizzazione spettrale, sebbene raggiungano l'ottimalità minimax, hanno complessità computazionale O(n³), limitando l'applicazione su dati su larga scala
Difficoltà nella selezione dei parametri: La scelta del parametro di regolarizzazione dipende da caratteristiche distributive sconosciute, mancando di strategie adattive guidate dai dati
Questo articolo mira a migliorare significativamente l'efficienza computazionale del test a due campioni con regolarizzazione spettrale attraverso la tecnica di approssimazione con caratteristiche di Fourier casuali, mantenendo l'ottimalità statistica e sviluppando versioni adattive praticamente utilizzabili.
Test computazionalmente efficiente e statisticamente ottimale: Propone un test a due campioni con regolarizzazione spettrale basato su RFF, riducendo la complessità computazionale da O(n³) a O(nl²+nld), mantenendo al contempo l'ottimalità minimax sotto condizioni sufficienti
Garanzie Teoriche: Stabilisce il collegamento teorico tra l'ordine di approssimazione RFF e l'ottimalità statistica, provando l'ottimalità minimax del test quando il numero di caratteristiche l soddisfa condizioni specifiche
Versione Adattiva Pratica: Sviluppa una versione completamente guidata dai dati basata su test di permutazione, includendo strategie di selezione adattiva per il parametro di regolarizzazione e la funzione kernel
Verifica Sperimentale Completa: Valida l'efficacia del metodo attraverso dati sintetici e set di dati di riferimento, dimostrando un buon compromesso tra efficienza computazionale e prestazioni statistiche
Contributo Teorico: Stabilisce per la prima volta la teoria dell'ottimalità minimax per il test a due campioni con regolarizzazione spettrale sotto approssimazione RFF
Contributo Algoritmica: Fornisce un algoritmo pratico computazionalmente efficiente e statisticamente ottimale
Verifica Empirica: Valida l'efficacia del metodo su molteplici tipi di dati
Gretton, A., et al. (2012). A kernel two-sample test. JMLR.
Hagrass, O., et al. (2024). Spectral regularized kernel two-sample tests. Annals of Statistics.
Rahimi, A., & Recht, B. (2007). Random features for large-scale kernel machines. NIPS.
Choi, I., & Kim, I. (2024). Computational-statistical trade-off in kernel two-sample testing with random Fourier features.
Sriperumbudur, B. K., & Sterge, N. (2022). Approximate kernel PCA: Computational versus statistical trade-off. Annals of Statistics.
Valutazione Complessiva: Questo è un articolo di alta qualità nel campo della statistica teorica, che applica con successo la tecnica di approssimazione con caratteristiche casuali al test a due campioni con regolarizzazione spettrale, migliorando significativamente l'efficienza computazionale mantenendo l'ottimalità statistica. L'analisi teorica dell'articolo è profonda e meticolosa, la verifica sperimentale è completa, e presenta valore importante sia per la teoria dell'apprendimento statistico che per le applicazioni pratiche.