2025-11-14T20:13:11.521057

Minimax Optimal Kernel Two-Sample Tests with Random Features

Mukherjee, Sriperumbudur
Reproducing Kernel Hilbert Space (RKHS) embedding of probability distributions has proved to be an effective approach, via MMD (maximum mean discrepancy), for nonparametric hypothesis testing problems involving distributions defined over general (non-Euclidean) domains. While a substantial amount of work has been done on this topic, only recently have minimax optimal two-sample tests been constructed that incorporate, unlike MMD, both the mean element and a regularized version of the covariance operator. However, as with most kernel algorithms, the optimal test scales cubically in the sample size, limiting its applicability. In this paper, we propose a spectral-regularized two-sample test based on random Fourier feature (RFF) approximation and investigate the trade-offs between statistical optimality and computational efficiency. We show the proposed test to be minimax optimal if the approximation order of RFF (which depends on the smoothness of the likelihood ratio and the decay rate of the eigenvalues of the integral operator) is sufficiently large. We develop a practically implementable permutation-based version of the proposed test with a data-adaptive strategy for selecting the regularization parameter. Finally, through numerical experiments on simulated and benchmark datasets, we demonstrate that the proposed RFF-based test is computationally efficient and performs almost similarly (with a small drop in power) to the exact test.
academic

Pruebas Óptimas Minimax de Dos Muestras con Núcleos y Características Aleatorias

Información Básica

  • ID del Artículo: 2502.20755
  • Título: Minimax Optimal Kernel Two-Sample Tests with Random Features
  • Autores: Soumya Mukherjee, Bharath K. Sriperumbudur (Pennsylvania State University)
  • Clasificación: math.ST cs.LG stat.ML stat.TH
  • Fecha de Publicación: 17 de octubre de 2025 (preimpresión en arXiv)
  • Enlace del Artículo: https://arxiv.org/abs/2502.20755

Resumen

Este artículo propone un método de prueba espectral regularizada de dos muestras basado en la aproximación de características aleatorias de Fourier (RFF) para el problema de pruebas de dos muestras basadas en incrustaciones del espacio de Hilbert de núcleo reproductor (RKHS). El método mantiene la optimalidad estadística mientras reduce significativamente la complejidad computacional de nivel cúbico a casi lineal, y proporciona una versión completamente impulsada por datos prácticamente realizable.

Antecedentes de Investigación y Motivación

Problema Central

La prueba de dos muestras es un problema fundamental en estadística que tiene como objetivo determinar si dos muestras aleatorias provienen de distribuciones de probabilidad iguales. Los métodos de prueba paramétricos y no paramétricos tradicionales enfrentan limitaciones significativas al tratar datos de alta dimensión o distribuciones en dominios no euclidianos.

Limitaciones de Métodos Existentes

  1. Suboptimalidad de las Pruebas MMD: Aunque la prueba de diferencia de media máxima (MMD) se aplica ampliamente, carece de optimalidad minimax, considerando solo incrustaciones de media e ignorando información del operador de covarianza
  2. Cuello de Botella Computacional de Métodos Espectrales Regularizados: Las pruebas MMD espectrales regularizadas recientemente propuestas logran optimalidad minimax, pero tienen complejidad computacional O(n³), limitando su aplicación en datos a gran escala
  3. Dificultad en la Selección de Parámetros: La selección del parámetro de regularización depende de características de distribución desconocidas, careciendo de estrategias adaptativas impulsadas por datos

Motivación de la Investigación

Este artículo tiene como objetivo mejorar significativamente la eficiencia computacional de las pruebas espectrales regularizadas de dos muestras mediante técnicas de aproximación de características aleatorias de Fourier, manteniendo la optimalidad estadística y desarrollando versiones adaptativas prácticas.

Contribuciones Principales

  1. Prueba Computacionalmente Eficiente y Estadísticamente Óptima: Propone una prueba espectral regularizada de dos muestras basada en RFF, reduciendo la complejidad computacional de O(n³) a O(nl²+nld), manteniendo optimalidad minimax bajo condiciones suficientes
  2. Garantías Teóricas: Establece la conexión teórica entre el orden de aproximación de RFF y la optimalidad estadística, demostrando optimalidad minimax cuando el número de características l satisface condiciones específicas
  3. Versión Adaptativa Práctica: Desarrolla una versión completamente impulsada por datos basada en pruebas de permutación, incluyendo estrategias de selección adaptativa para parámetros de regularización y funciones de núcleo
  4. Verificación Experimental Integral: Valida la efectividad del método mediante datos sintéticos y conjuntos de datos de referencia, demostrando un buen equilibrio entre eficiencia computacional y rendimiento estadístico

Explicación Detallada del Método

Definición de la Tarea

Dadas muestras independientes X₁:N e Y₁:M de distribuciones P y Q, probar la hipótesis H₀: P = Q vs H₁: P ≠ Q.

Arquitectura del Método Principal

1. Marco de Regularización Espectral

Para una función de núcleo K, se define la discrepancia regularizada espectralmente:

ηλ(P,Q) = 4⟨Tgλ(T)u, u⟩_{L²(R)}

donde T es el operador integral, u = dP/dR - 1 es la desviación de razón de verosimilitud, y gλ es la función de regularización.

2. Aproximación de Características Aleatorias de Fourier

Para funciones de núcleo de la forma K(x,y) = ∫φ(x,θ)φ(y,θ)dΞ(θ), se construye el núcleo aproximado:

Kₗ(x,y) = (1/l)∑ᵢ₌₁ˡ φ(x,θᵢ)φ(y,θᵢ)

3. Estadístico de Prueba Aproximado

Basado en el núcleo aproximado Kₗ, se construye el estadístico de prueba:

η̂λ,l = (1/[n(n-1)m(m-1)]) ∑ᵢ≠ⱼ ∑ᵢ'≠ⱼ' t(Xᵢ,Xⱼ,Yᵢ',Yⱼ')

donde la función t implica la raíz cuadrada del operador de covarianza regularizado.

Puntos de Innovación Técnica

1. Innovación Teórica

  • Condiciones de Optimalidad Minimax: Establece la relación precisa entre el número de características RFF l y la optimalidad estadística
  • Casos de Decaimiento Polinomial y Exponencial: Analiza por separado diferentes patrones de decaimiento de valores propios del operador integral
  • Análisis No Asintótico: Proporciona garantías de rendimiento en muestras finitas

2. Innovación Algorítmica

  • Regularización Adaptativa: Realiza selección de parámetro de regularización impulsada por datos mediante pruebas conjuntas
  • Adaptación de Función de Núcleo: Se extiende a selección adaptativa de múltiples funciones de núcleo
  • Implementación de Prueba de Permutación: Proporciona cálculo de valor crítico completamente impulsado por datos

3. Innovación Computacional

  • Algoritmo Eficiente: Análisis detallado de complejidad computacional e implementación optimizada
  • Paralelización: Características de paralelización natural de la prueba de permutación

Configuración Experimental

Conjuntos de Datos

  1. Datos Sintéticos:
    • Desplazamiento de media gaussiana: P = N(0,I), Q = N(μ,I)
    • Desplazamiento de escala gaussiana: P = N(0,I), Q = N(0,σ²I)
    • Desplazamiento de mediana de Cauchy: Distribuciones de Cauchy con diferentes medianas
  2. Datos Reales:
    • Conjunto de datos MNIST: Imágenes de dígitos manuscritos de 7×7 píxeles, dimensión d=49
    • Detección de diferencias de distribución en subconjuntos de diferentes dígitos

Métricas de Evaluación

  • Potencia Estadística: Probabilidad de rechazar correctamente la hipótesis nula bajo la hipótesis alternativa
  • Tiempo Computacional: Comparación del tiempo de ejecución del algoritmo
  • Error de Tipo I: Controlado en nivel α=0.05

Métodos de Comparación

  • Prueba Adaptativa Exacta: Prueba espectral regularizada basada en matriz de núcleo completa
  • Diferentes Números de Características RFF: Comparación de rendimiento para l ∈ {1,3,5,7,9,15,20}

Detalles de Implementación

  • Función de regularización: Regularizador de Showalter gλ(x) = (1-e^(-x/λ))/x
  • Funciones de núcleo: Núcleo gaussiano y laplaciano, con selección de ancho de banda adaptativa
  • Número de permutaciones: Versión RFF B=550-800, versión exacta B'=250-450

Resultados Experimentales

Resultados Principales

1. Rendimiento Estadístico

  • Desplazamiento de Media Gaussiana: Con l≥7 características, la potencia se aproxima al método exacto
  • Desplazamiento de Escala Gaussiana: Buen rendimiento con l≥5
  • Distribución de Cauchy: Requiere más características (l≥10-15) para manejar distribuciones de cola pesada
  • Datos MNIST: Buen desempeño en datos reales complejos con l≥15

2. Eficiencia Computacional

Ahorros de tiempo computacional significativos:

  • Experimentos gaussianos: El método RFF requiere solo 33-44% del tiempo computacional
  • Desplazamiento de escala: 30-40% de consumo de tiempo
  • Experimento de Cauchy: Solo 5-6% del tiempo computacional
  • MNIST: 5-15% de consumo de tiempo

3. Verificación Teórica

Los resultados experimentales verifican las predicciones teóricas:

  • La demanda de número de características está relacionada con la dimensión de datos y complejidad de distribución
  • El equilibrio computacional-estadístico se alinea con el análisis teórico

Experimentos de Ablación

Mediante comparación de diferentes números de características RFF, se verifica:

  1. La existencia de umbral de número de características
  2. Muy pocas características conducen a pérdida de potencia
  3. Número apropiado de características logra el mejor equilibrio

Hallazgos Experimentales

  1. Efecto de Dimensionalidad: Datos de alta dimensión requieren más características RFF
  2. Impacto del Tipo de Distribución: Distribuciones de cola pesada requieren más características para garantizar rendimiento
  3. Umbral Práctico: El número de características requerido por la teoría puede reducirse apropiadamente en la práctica

Trabajo Relacionado

Pruebas de Dos Muestras con Métodos de Núcleo

  • Prueba MMD: Trabajo pionero de Gretton et al. (2006, 2012)
  • Optimalidad Minimax: Avances recientes de Li & Yuan (2024), Schrab et al. (2023)
  • Regularización Espectral: Avance teórico de Hagrass et al. (2024)

Aproximación de Características Aleatorias

  • Teoría de RFF: Marco fundamental de Rahimi & Recht (2007)
  • Aceleración de MMD: Aplicaciones de Zhao & Meng (2015), Choi & Kim (2024)
  • Equilibrio Computacional-Estadístico: Análisis teórico de Sriperumbudur & Sterge (2022)

Ventajas de Este Artículo

Ventajas principales sobre trabajos existentes:

  1. Funciones de Núcleo Más Generales: No limitado a núcleos invariantes por traslación
  2. Aplicabilidad Más Amplia: Soporta dominios no euclidianos
  3. Garantías Teóricas Más Fuertes: Optimalidad minimax no asintótica
  4. Algoritmo Más Práctico: Implementación completamente impulsada por datos

Conclusiones y Discusión

Conclusiones Principales

  1. Contribución Teórica: Establece por primera vez la teoría de optimalidad minimax para pruebas espectrales regularizadas de dos muestras bajo aproximación RFF
  2. Contribución Algorítmica: Proporciona un algoritmo práctico computacionalmente eficiente y estadísticamente óptimo
  3. Verificación Empírica: Valida la efectividad del método en múltiples tipos de datos

Limitaciones

  1. Selección de Número de Características: Aunque proporciona orientación teórica, la selección práctica aún requiere ajuste empírico
  2. Dependencia de Función de Núcleo: El rendimiento aún depende de la selección de función de núcleo
  3. Distribuciones de Cola Pesada: Puede requerir gran cantidad de características para distribuciones extremadamente de cola pesada

Direcciones Futuras

  1. Otros Métodos de Aproximación: Explorar técnicas de aproximación alternativas como Nyström
  2. Prueba de Permutación Económica: Combinar con pruebas de permutación económicas para reducir aún más el costo computacional
  3. Ajuste Automático de Parámetros: Desarrollar estrategias de selección de hiperparámetros más inteligentes

Evaluación Profunda

Fortalezas

  1. Rigor Teórico: Proporciona análisis teórico no asintótico completo, incluyendo condiciones suficientes y pruebas de optimalidad minimax
  2. Practicidad Fuerte: El algoritmo es completamente impulsado por datos, sin requerir conocimiento previo
  3. Experimentación Suficiente: Cubre datos sintéticos y reales, múltiples tipos de distribución
  4. Escritura Clara: Detalles técnicos exhaustivos, pruebas completas

Insuficiencias

  1. Análisis de Complejidad: Aunque reduce la complejidad asintótica, los factores constantes pueden ser grandes
  2. Sensibilidad de Parámetros: La selección de parámetro de regularización y número de características sigue siendo sensible
  3. Manejo de Cola Pesada: El rendimiento en el manejo de distribuciones de cola pesada requiere mejora

Impacto

  1. Valor Teórico: Proporciona nuevo marco teórico para el equilibrio computacional-estadístico en métodos de núcleo
  2. Valor Práctico: Tiene perspectivas de aplicación importantes en pruebas de dos muestras en datos a gran escala
  3. Contribución Metodológica: La aplicación de aproximación RFF en pruebas estadísticas proporciona nuevas ideas para investigación relacionada

Escenarios de Aplicación

  1. Datos a Gran Escala: Las ventajas computacionales son evidentes cuando el tamaño de muestra es grande
  2. Datos de Alta Dimensión: Tiene ventajas significativas sobre métodos tradicionales en configuraciones de alta dimensión
  3. Aplicaciones en Tiempo Real: La mejora en eficiencia computacional hace posible la prueba en tiempo real
  4. Configuración No Paramétrica: Aplicable a casos generales donde la forma de distribución es desconocida

Referencias

  1. Gretton, A., et al. (2012). A kernel two-sample test. JMLR.
  2. Hagrass, O., et al. (2024). Spectral regularized kernel two-sample tests. Annals of Statistics.
  3. Rahimi, A., & Recht, B. (2007). Random features for large-scale kernel machines. NIPS.
  4. Choi, I., & Kim, I. (2024). Computational-statistical trade-off in kernel two-sample testing with random Fourier features.
  5. Sriperumbudur, B. K., & Sterge, N. (2022). Approximate kernel PCA: Computational versus statistical trade-off. Annals of Statistics.

Evaluación General: Este es un artículo de estadística teórica de alta calidad que aplica exitosamente técnicas de aproximación de características aleatorias a pruebas espectrales regularizadas de dos muestras, mejorando significativamente la eficiencia computacional mientras se mantiene la optimalidad estadística. El análisis teórico del artículo es profundo y detallado, la verificación experimental es suficiente, y tiene valor importante tanto para la teoría del aprendizaje estadístico como para aplicaciones prácticas.