The Maximum Mean Discrepancy (MMD) is a widely used multivariate distance metric for two-sample testing. The standard MMD test statistic has an intractable null distribution typically requiring costly resampling or permutation approaches for calibration. In this work we leverage a martingale interpretation of the estimated squared MMD to propose martingale MMD (mMMD), a quadratic-time statistic which has a limiting standard Gaussian distribution under the null. Moreover we show that the test is consistent against any fixed alternative and for large sample sizes, mMMD offers substantial computational savings over the standard MMD test, with only a minor loss in power.
- ID статьи: 2510.11853
- Название: A Martingale Kernel Two-Sample Test
- Авторы: Anirban Chatterjee (University of Chicago), Aaditya Ramdas (Carnegie Mellon University)
- Классификация: stat.ME, math.ST, stat.TH
- Дата публикации: 13 октября 2025 г.
- Ссылка на статью: https://arxiv.org/abs/2510.11853
Максимальное среднее расхождение (Maximum Mean Discrepancy, MMD) — широко используемая многомерная метрика расстояния в тестах двух выборок. Стандартная статистика теста MMD имеет сложное нулевое распределение, обычно требующее дорогостоящих методов переборки или перестановки для калибровки. В данной работе, используя мартингальную интерпретацию оценки квадрата MMD, предлагается мартингальный MMD (mMMD) — квадратичная по времени статистика с предельным стандартным гауссовым распределением при нулевой гипотезе. Кроме того, доказывается, что тест является состоятельным для любой фиксированной альтернативной гипотезы, а при больших объёмах выборок mMMD обеспечивает значительную вычислительную экономию по сравнению со стандартным тестом MMD с минимальной потерей мощности.
Тест двух выборок — классическая задача в статистике, целью которой является проверка равенства двух распределений P и Q на основе независимых выборок:
H0:P=QvsH1:P=Q
- Параметрические методы: часто дают сбой при неправильной спецификации модели или на неевклидовых данных
- Классические непараметрические методы: в основном применимы к одномерным данным, многомерные расширения затруднены
- Стандартный тест MMD: нулевое распределение представляет собой сумму бесконечно взвешенных переменных χ², веса зависят от неизвестного распределения, требует вычислительно интенсивных методов переборки или перестановки
- MMD как метод ядра показывает хорошие результаты при обнаружении различий в распределениях в общих областях
- Определение порога τα является ключевой практической проблемой для теста MMD
- Существующие параметрические приближения на основе моментов не имеют гарантий состоятельности или точности
- Необходим эффективный альтернативный метод с управляемым нулевым распределением
- Предложение теста mMMD: новый вариант MMD на основе мартингальной структуры с гауссовым нулевым распределением
- Теоретические гарантии:
- Доказана асимптотическая нормальность при нулевой гипотезе (теоремы 2, 3)
- Установлена состоятельность для фиксированных альтернативных гипотез (теоремы 6, 7)
- Получена сходимость распределения при альтернативной гипотезе (теорема 8)
- Вычислительная эффективность: избегает переборки, сохраняет сложность O(n²), но значительно снижает фактическое время выполнения
- Расширенные приложения:
- Многоядерный тест (mmMMD)
- Обобщённое семейство статистик Tn,γ, включающее стандартный MMD и mMMD как частные случаи
Даны независимые выборки из двух распределений P и Q в метрическом пространстве X:
- Xn = {X₁, ..., Xn} ~ P
- Yn = {Y₁, ..., Yn} ~ Q
Цель: проверить H₀: P = Q vs H₁: P ≠ Q
Ключевое наблюдение: модифицированная форма оценки квадрата MMD имеет мартингальную структуру.
Метод функции-свидетеля:
- Теоретически оптимальная функция-свидетель: f₀ = (νP - νQ)/‖νP - νQ‖K
- Для каждого 2 ≤ i ≤ n используется оценка на основе исторических данных:
f^i=i1∑j=1i−1[K(Xj,⋅)−K(Yj,⋅)]
Tn:=n1∑i=2n⟨f^i,K(Xi,⋅)−K(Yi,⋅)⟩K
Используя ядерный трюк, можно упростить до:
Tn=n1∑i=2ni1∑j=1i−1[K(Xi,Xj)−K(Xi,Yj)−K(Xj,Yi)+K(Yi,Yj)]
Для достижения асимптотической нормальности определяется оценка дисперсии:
σn2:=n21∑i=2n(i1∑j=1i−1K(Xi,Xj)−K(Xi,Yj)−K(Xj,Yi)+K(Yi,Yj))2
Итоговая тестовая статистика:
ηn=Tn/σn
Ψn:=1{ηn>z1−α}
где z₁₋α — квантиль уровня (1-α) стандартного нормального распределения.
- Идентификация мартингальной структуры: впервые выявлена мартингальная разностная последовательность в оценке MMD
- Избежание переборки: использование мартингальной центральной предельной теоремы для прямого получения гауссова распределения
- Независимость от размерности: при надлежащих условиях нулевое распределение не зависит от размерности данных
- Унифицированная структура: семейство Tn,γ объединяет различные варианты MMD
Проверка нулевого распределения:
- Размерность: d ∈ {10, 100, 250, 500}
- Распределения данных: Nd(0d, Id) и td(10)
- Ядерные функции: гауссово и лапласово ядра (пропускная способность по медианной эвристике)
- Объём выборки: n = 200, 2000 повторений
Установка:
- P = Nd(0d, Id), Q = Nd(μd,j,ε, Id)
- Конфигурации: (d,j,ε) = (10,5,0.3), (50,5,0.3), (100,5,0.5)
- Методы сравнения: стандартный MMD, линейный MMD (LMMD), блочный MMD (BMMD), кросс-MMD (xMMD), BetMMD
Набор данных MNIST:
- 5 групп сравнения цифр: постепенно возрастающее перекрытие
- 100 образцов на группу, 100 повторений
- Уровень значимости: α = 0,05
Конфигурация:
- mmMMD Gauss: 3 гауссовых ядра, пропускная способность (1,2,4)λmed
- mmMMD Laplace: 3 лапласовых ядра, одинаковая пропускная способность
- mmMMD Mixed: смешанные гауссовы и лапласовы ядра
- Основной результат: эмпирическое распределение ηn тесно совпадает со стандартным гауссовым распределением во всех установках
- Робастность: результаты демонстрируют устойчивость к распределению данных, выбору ядра и размерности
- Преимущество сравнения: резкий контраст со сложным нулевым распределением стандартного MMD
| Метод | (10,5,0.3) | (50,5,0.3) | (100,5,0.5) |
|---|
| mMMD | 0.85 | 0.78 | 0.82 |
| MMD | 0.92 | 0.85 | 0.89 |
| xMMD | 0.83 | 0.76 | 0.80 |
| BMMD | 0.65 | 0.58 | 0.62 |
| LMMD | 0.45 | 0.38 | 0.42 |
Ключевые результаты:
- Мощность mMMD близка к стандартному MMD, превосходит другие вычислительно эффективные варианты
- Производительность сравнима с xMMD, но избегает разделения выборки
| Объём выборки | mMMD | MMD | LMMD | BMMD | xMMD |
|---|
| 100 | 0.0008±0.0007 | 0.0817±0.0078 | 0.0007±0.0003 | 0.0006±0.0003 | 0.0004±0.0001 |
| 200 | 0.0026±0.0010 | 0.3150±0.0227 | 0.0023±0.0010 | 0.0020±0.0008 | 0.0011±0.0007 |
| 300 | 0.0072±0.0023 | 0.8335±0.0501 | 0.0058±0.0020 | 0.0050±0.0020 | 0.0022±0.0013 |
Результат: mMMD примерно в 100 раз быстрее стандартного MMD, сравним с другими эффективными методами.
- Тенденция: мощность всех методов снижается с увеличением номера группы (возрастающее перекрытие)
- Ранжирование производительности: mMMD и xMMD > BMMD > LMMD
- Практическое значение: подтверждает теоретические преимущества на реальных данных
- Ранние методы: консервативные методы на основе больших отклонений
- Спектральные методы: спектральное приближение Gretton et al. (2009), требующее сильных предположений
- Неполные U-статистики: линейный MMD, блочный MMD и т.д.
- Стратегии разделения выборки: Kübler et al. (2022), Shekhar et al. (2022)
- Теоретическая полнота: одновременное установление теории распределения при нулевой и альтернативной гипотезах
- Вычислительная эффективность: избегает вычислительной нагрузки тестов перестановки
- Практичность: не требует разделения выборки, сохраняет полную информацию выборки
- Теоретический вклад: впервые использована мартингальная структура для построения теста MMD со стандартным гауссовым нулевым распределением
- Практическая ценность: значительное снижение вычислительных затрат при сохранении хорошей статистической производительности
- Расширяемость: структура может быть расширена на многоядерные установки и более общие семейства статистик
- Теоретические ограничения:
- Выбор пропускной способности по медианной эвристике не имеет теоретической поддержки
- Минимаксная оптимальность при γ > 1/2 не определена
- Практические ограничения:
- По-прежнему требуется сложность O(n²)
- В некоторых установках мощность немного ниже стандартного MMD
- Теоретические расширения:
- Теоретические гарантии для зависящих от данных ядер
- Применимость к более общим ядерным функциям
- Полная характеристика минимаксной оптимальности
- Улучшения методов:
- Комбинация с техниками приближения ядер для снижения сложности
- Расширение на тесты независимости
- Приложения к тестам на основе расстояний
- Высокая инновативность: мартингальная перспектива — новый вклад в исследование MMD
- Теоретическая строгость: полная асимптотическая теория, включая сходимость типа Берри-Эссена
- Высокая практическая ценность: решает практическую вычислительную узкую точку тестов MMD
- Полные эксперименты: всестороннее оценивание от теоретической проверки до реальных приложений
- Ясное изложение: хороший баланс между техническими деталями и интуитивными объяснениями
- Теоретические пробелы: анализ зависящих от данных пропускных способностей неполный
- Потеря мощности: мощность действительно ниже стандартного MMD в некоторых случаях
- Область применения: в основном проверена на евклидовых пространствах
- Вычислительная сложность: остаётся O(n²), не достигнуто принципиального улучшения
- Академическая ценность: предоставляет новую перспективу для теории MMD, может вдохновить больше мартингальных методов
- Практическая ценность: непосредственно применима к крупномасштабным задачам тестирования двух выборок
- Воспроизводимость: метод прост и ясен, легко реализуется и проверяется
- Расширяемость: структура имеет хороший потенциал расширения
- Крупномасштабные данные: явные преимущества вычислительной эффективности
- Высокомерные данные: преимущества независимого от размерности нулевого распределения
- Приложения в реальном времени: требования к немедленности без тестов перестановки
- Многоядерные сценарии: mmMMD имеет преимущества при неопределённости выбора ядра
- Gretton, A., et al. (2012a). A kernel two-sample test. JMLR, 13(1), 723-773.
- Shekhar, S., Kim, I., & Ramdas, A. (2022). A permutation-free kernel two-sample test. NeurIPS, 35, 18168-18180.
- Li, T. & Yuan, M. (2024). On the optimality of Gaussian kernel based nonparametric tests against smooth alternatives. JMLR, 25(334), 1-62.
- Fan, X. & Shao, Q. M. (2018). Berry–Esseen bounds for self-normalized martingales. Communications in Mathematics and Statistics, 6(1), 13-27.
Резюме: Это высококачественная статья по статистической теории, которая через умелую идентификацию мартингальной структуры предоставляет новое решение классической проблемы тестирования MMD. Теоретические вклады основательны, экспериментальная проверка полна, работа имеет важную академическую и практическую ценность.