Minimax Optimal Kernel Two-Sample Tests with Random Features
Mukherjee, Sriperumbudur
Reproducing Kernel Hilbert Space (RKHS) embedding of probability distributions has proved to be an effective approach, via MMD (maximum mean discrepancy), for nonparametric hypothesis testing problems involving distributions defined over general (non-Euclidean) domains. While a substantial amount of work has been done on this topic, only recently have minimax optimal two-sample tests been constructed that incorporate, unlike MMD, both the mean element and a regularized version of the covariance operator. However, as with most kernel algorithms, the optimal test scales cubically in the sample size, limiting its applicability. In this paper, we propose a spectral-regularized two-sample test based on random Fourier feature (RFF) approximation and investigate the trade-offs between statistical optimality and computational efficiency. We show the proposed test to be minimax optimal if the approximation order of RFF (which depends on the smoothness of the likelihood ratio and the decay rate of the eigenvalues of the integral operator) is sufficiently large. We develop a practically implementable permutation-based version of the proposed test with a data-adaptive strategy for selecting the regularization parameter. Finally, through numerical experiments on simulated and benchmark datasets, we demonstrate that the proposed RFF-based test is computationally efficient and performs almost similarly (with a small drop in power) to the exact test.
academic
Минимаксные оптимальные ядерные двухвыборочные тесты со случайными признаками
В данной статье предлагается метод спектральной регуляризации для двухвыборочного тестирования на основе аппроксимации случайными признаками Фурье (RFF) для задач, основанных на вложениях в воспроизводящее ядерное гильбертово пространство (RKHS). Предложенный метод сохраняет статистическую оптимальность, одновременно значительно снижая вычислительную сложность с кубической до почти линейной, и предоставляет полностью управляемую данными практическую реализацию.
Двухвыборочное тестирование является фундаментальной задачей в статистике, целью которой является определение равенства вероятностных распределений двух случайных выборок путем анализа их источников. Традиционные параметрические и непараметрические методы тестирования сталкиваются со значительными ограничениями при работе с высокомерными данными или распределениями на неевклидовых областях.
Субоптимальность MMD-тестов: Хотя тесты максимальной средней разности (MMD) широко применяются, им не хватает минимаксной оптимальности, так как они учитывают только вложение среднего значения, игнорируя информацию оператора ковариации
Вычислительные узкие места спектральной регуляризации: Недавно предложенные спектрально регуляризованные MMD-тесты достигают минимаксной оптимальности, но имеют вычислительную сложность O(n³), что ограничивает их применение к крупномасштабным данным
Сложность выбора параметров: Выбор параметра регуляризации зависит от неизвестных характеристик распределения и не имеет адаптивной стратегии, управляемой данными
Целью данной работы является значительное повышение вычислительной эффективности спектрально регуляризованного двухвыборочного теста путем применения техники аппроксимации случайными признаками Фурье при сохранении статистической оптимальности, а также разработка практически применимой адаптивной версии.
Вычислительно эффективный и статистически оптимальный тест: Предложен спектрально регуляризованный двухвыборочный тест на основе RFF, который снижает вычислительную сложность с O(n³) до O(nl²+nld), сохраняя при этом минимаксную оптимальность при достаточных условиях
Теоретические гарантии: Установлена теоретическая связь между порядком аппроксимации RFF и статистической оптимальностью, доказана минимаксная оптимальность теста при выполнении определённых условий на количество признаков l
Практическая адаптивная версия: Разработана полностью управляемая данными версия на основе перестановочного теста, включающая адаптивные стратегии выбора параметра регуляризации и ядерной функции
Комплексная экспериментальная верификация: Эффективность метода проверена на синтетических и эталонных наборах данных, продемонстрирован хороший компромисс между вычислительной эффективностью и статистической производительностью
Теоретическая строгость: Предоставлен полный неасимптотический теоретический анализ, включая достаточные условия и доказательства минимаксной оптимальности
Практическая применимость: Алгоритм полностью управляется данными и не требует априорного знания
Достаточные эксперименты: Охватывают синтетические и реальные данные, различные типы распределений
Gretton, A., et al. (2012). A kernel two-sample test. JMLR.
Hagrass, O., et al. (2024). Spectral regularized kernel two-sample tests. Annals of Statistics.
Rahimi, A., & Recht, B. (2007). Random features for large-scale kernel machines. NIPS.
Choi, I., & Kim, I. (2024). Computational-statistical trade-off in kernel two-sample testing with random Fourier features.
Sriperumbudur, B. K., & Sterge, N. (2022). Approximate kernel PCA: Computational versus statistical trade-off. Annals of Statistics.
Общая оценка: Это высокачественная статья по теоретической статистике, которая успешно применяет технику аппроксимации случайными признаками к спектрально регуляризованному двухвыборочному тестированию, значительно повышая вычислительную эффективность при сохранении статистической оптимальности. Теоретический анализ статьи глубок и детален, экспериментальная верификация полна, работа имеет важное значение как для теории статистического обучения, так и для практических приложений.