2025-11-22T21:43:16.336737

A Martingale Kernel Two-Sample Test

Chatterjee, Ramdas
The Maximum Mean Discrepancy (MMD) is a widely used multivariate distance metric for two-sample testing. The standard MMD test statistic has an intractable null distribution typically requiring costly resampling or permutation approaches for calibration. In this work we leverage a martingale interpretation of the estimated squared MMD to propose martingale MMD (mMMD), a quadratic-time statistic which has a limiting standard Gaussian distribution under the null. Moreover we show that the test is consistent against any fixed alternative and for large sample sizes, mMMD offers substantial computational savings over the standard MMD test, with only a minor loss in power.
academic

A Martingale Kernel Two-Sample Test

基本信息

  • 论文ID: 2510.11853
  • 标题: A Martingale Kernel Two-Sample Test
  • 作者: Anirban Chatterjee (University of Chicago), Aaditya Ramdas (Carnegie Mellon University)
  • 分类: stat.ME, math.ST, stat.TH
  • 发表时间: 2025年10月13日
  • 论文链接: https://arxiv.org/abs/2510.11853

摘要

最大均值差异(Maximum Mean Discrepancy, MMD)是双样本检验中广泛使用的多元距离度量。标准MMD检验统计量具有难以处理的零分布,通常需要昂贵的重采样或排列方法进行校准。本文利用估计平方MMD的鞅解释,提出了鞅MMD(mMMD)——一个二次时间统计量,在零假设下具有极限标准高斯分布。此外,我们证明该检验对任何固定备择假设都是一致的,对于大样本量,mMMD相比标准MMD检验提供了显著的计算节省,且功效损失很小。

研究背景与动机

问题描述

双样本检验是统计学中的经典问题,目标是基于独立样本检验两个分布P和Q是否相等: H0:P=QvsH1:PQH_0: P = Q \quad \text{vs} \quad H_1: P \neq Q

现有方法的局限性

  1. 参数方法:在模型错误指定或非欧几里得数据上经常失效
  2. 经典非参数方法:主要适用于一元数据,多元扩展困难
  3. 标准MMD检验:零分布为无穷加权χ²变量之和,权重依赖于未知分布,需要计算密集的重采样或排列方法

研究动机

  • MMD作为核方法在检测一般域中的分布差异方面表现出色
  • 确定阈值τα是MMD检验的关键实践挑战
  • 现有的矩基参数近似缺乏一致性或准确性保证
  • 需要一种具有易处理零分布的高效替代方法

核心贡献

  1. 提出mMMD检验:基于鞅结构的新型MMD变体,具有标准高斯零分布
  2. 理论保证
    • 证明了在零假设下的渐近正态性(定理2、3)
    • 建立了对固定备择假设的一致性(定理6、7)
    • 给出了备择假设下的分布收敛性(定理8)
  3. 计算效率:避免了重采样,保持O(n²)复杂度但实际运行时间显著减少
  4. 扩展应用
    • 多核检验(mmMMD)
    • 一般化统计量族Tn,γ,包含标准MMD和mMMD作为特例

方法详解

任务定义

给定两个分布P和Q在度量空间X上的独立样本:

  • Xn = {X₁, ..., Xn} ~ P
  • Yn = {Y₁, ..., Yn} ~ Q

目标:检验H₀: P = Q vs H₁: P ≠ Q

核心思想:鞅结构

关键观察:平方MMD估计量的修改形式具有鞅结构。

见证函数方法

  • 理论上最优见证函数:f₀ = (νP - νQ)/‖νP - νQ‖K
  • 对于每个2 ≤ i ≤ n,使用历史数据估计: f^i=1ij=1i1[K(Xj,)K(Yj,)]\hat{f}_i = \frac{1}{i}\sum_{j=1}^{i-1}[K(X_j, \cdot) - K(Y_j, \cdot)]

mMMD统计量

Tn:=1ni=2nf^i,K(Xi,)K(Yi,)KT_n := \frac{1}{n}\sum_{i=2}^n \langle \hat{f}_i, K(X_i, \cdot) - K(Y_i, \cdot) \rangle_K

使用核技巧,可简化为: Tn=1ni=2n1ij=1i1[K(Xi,Xj)K(Xi,Yj)K(Xj,Yi)+K(Yi,Yj)]T_n = \frac{1}{n}\sum_{i=2}^n \frac{1}{i}\sum_{j=1}^{i-1}[K(X_i, X_j) - K(X_i, Y_j) - K(X_j, Y_i) + K(Y_i, Y_j)]

标准化统计量

为实现渐近正态性,定义方差估计: σn2:=1n2i=2n(1ij=1i1K(Xi,Xj)K(Xi,Yj)K(Xj,Yi)+K(Yi,Yj))2\sigma_n^2 := \frac{1}{n^2}\sum_{i=2}^n \left(\frac{1}{i}\sum_{j=1}^{i-1}K(X_i, X_j) - K(X_i, Y_j) - K(X_j, Y_i) + K(Y_i, Y_j)\right)^2

最终检验统计量: ηn=Tn/σn\eta_n = T_n/\sigma_n

检验规则

Ψn:=1{ηn>z1α}\Psi_n := \mathbf{1}\{\eta_n > z_{1-\alpha}\} 其中z₁₋α是标准正态分布的(1-α)分位数。

技术创新点

  1. 鞅结构识别:首次识别出MMD估计量中的鞅差序列
  2. 避免重采样:利用鞅中心极限定理直接获得标准高斯分布
  3. 维度无关性:在适当条件下,零分布不依赖于数据维度
  4. 统一框架:Tn,γ族统一了多种MMD变体

实验设置

理论验证实验

零分布验证

  • 维度:d ∈ {10, 100, 250, 500}
  • 数据分布:Nd(0d, Id) 和 td(10)
  • 核函数:高斯核和拉普拉斯核(中位数启发式带宽)
  • 样本量:n = 200,重复2000次

功效比较实验

设置

  • P = Nd(0d, Id), Q = Nd(μd,j,ε, Id)
  • 配置:(d,j,ε) = (10,5,0.3), (50,5,0.3), (100,5,0.5)
  • 对比方法:标准MMD、线性时间MMD(LMMD)、块MMD(BMMD)、交叉MMD(xMMD)、BetMMD

真实数据实验

MNIST数据集

  • 5组数字对比较:逐渐增加重叠度
  • 每组抽取100个样本,重复100次
  • 显著性水平:α = 0.05

多核实验

配置

  • mmMMD Gauss:3个高斯核,带宽(1,2,4)λmed
  • mmMMD Laplace:3个拉普拉斯核,相同带宽
  • mmMMD Mixed:混合高斯和拉普拉斯核

实验结果

零分布验证

  • 主要发现:在所有设置下,ηn的经验分布都紧密匹配标准高斯分布
  • 鲁棒性:结果对数据分布、核选择和维度都表现出鲁棒性
  • 对比优势:与标准MMD的复杂零分布形成鲜明对比

功效比较

方法(10,5,0.3)(50,5,0.3)(100,5,0.5)
mMMD0.850.780.82
MMD0.920.850.89
xMMD0.830.760.80
BMMD0.650.580.62
LMMD0.450.380.42

关键发现

  • mMMD功效接近标准MMD,优于其他计算高效的变体
  • 与xMMD性能相当,但避免了样本分割

计算效率

样本量mMMDMMDLMMDBMMDxMMD
1000.0008±0.00070.0817±0.00780.0007±0.00030.0006±0.00030.0004±0.0001
2000.0026±0.00100.3150±0.02270.0023±0.00100.0020±0.00080.0011±0.0007
3000.0072±0.00230.8335±0.05010.0058±0.00200.0050±0.00200.0022±0.0013

结果:mMMD比标准MMD快约100倍,与其他高效方法相当。

MNIST实验结果

  • 趋势:随着组别增加(重叠度增加),所有方法功效下降
  • 性能排序:mMMD和xMMD > BMMD > LMMD
  • 实际意义:在真实数据上验证了理论优势

相关工作

核双样本检验发展

  1. 早期方法:基于大偏差界的保守方法
  2. 谱方法:Gretton et al. (2009)的谱近似,需要强假设
  3. 不完全U统计量:线性时间MMD、块MMD等
  4. 样本分割策略:Kübler et al. (2022), Shekhar et al. (2022)

本文相对优势

  • 理论完备性:同时建立零假设和备择假设下的分布理论
  • 计算效率:避免排列检验的计算负担
  • 实用性:不需要样本分割,保持完整样本信息

结论与讨论

主要结论

  1. 理论贡献:首次利用鞅结构构造具有标准高斯零分布的MMD检验
  2. 实践价值:显著减少计算成本,保持良好统计性能
  3. 扩展性:框架可扩展到多核设置和更一般的统计量族

局限性

  1. 理论限制
    • 中位数启发式带宽选择缺乏理论支持
    • γ > 1/2时的极小极大最优性未确定
  2. 实践限制
    • 仍需O(n²)计算复杂度
    • 在某些设置下功效略低于标准MMD

未来方向

  1. 理论扩展
    • 数据依赖核的理论保证
    • 更一般核函数的适用性
    • 极小极大最优性的完整刻画
  2. 方法改进
    • 与核近似技术结合降低复杂度
    • 扩展到独立性检验
    • 距离基检验的应用

深度评价

优点

  1. 创新性强:鞅视角是MMD研究的新颖贡献
  2. 理论严谨:完整的渐近理论,包括Berry-Esseen型收敛率
  3. 实用价值高:解决了MMD检验的实际计算瓶颈
  4. 实验充分:从理论验证到真实应用的全面评估
  5. 写作清晰:技术细节和直觉解释平衡良好

不足

  1. 理论缺口:数据依赖带宽的理论分析不完整
  2. 功效损失:在某些情况下功效确实低于标准MMD
  3. 适用范围:主要验证了欧几里得空间的情况
  4. 计算复杂度:仍然是O(n²),未实现根本性改进

影响力

  1. 学术价值:为MMD理论提供新视角,可能启发更多鞅基方法
  2. 实用价值:直接适用于大规模双样本检验任务
  3. 可复现性:方法简单明确,易于实现和验证
  4. 扩展性:框架具有良好的扩展潜力

适用场景

  1. 大规模数据:计算效率优势明显
  2. 高维数据:维度无关的零分布特性有优势
  3. 实时应用:避免排列检验的即时性需求
  4. 多核场景:mmMMD在核选择不确定时有优势

参考文献

  1. Gretton, A., et al. (2012a). A kernel two-sample test. JMLR, 13(1), 723-773.
  2. Shekhar, S., Kim, I., & Ramdas, A. (2022). A permutation-free kernel two-sample test. NeurIPS, 35, 18168-18180.
  3. Li, T. & Yuan, M. (2024). On the optimality of Gaussian kernel based nonparametric tests against smooth alternatives. JMLR, 25(334), 1-62.
  4. Fan, X. & Shao, Q. M. (2018). Berry–Esseen bounds for self-normalized martingales. Communications in Mathematics and Statistics, 6(1), 13-27.

总结:这是一篇高质量的统计学理论论文,通过巧妙的鞅结构识别,为经典的MMD检验问题提供了新的解决方案。理论贡献扎实,实验验证充分,具有重要的学术价值和实用价值。