2025-11-14T20:13:11.521057

Minimax Optimal Kernel Two-Sample Tests with Random Features

Mukherjee, Sriperumbudur

Reproducing Kernel Hilbert Space (RKHS) embedding of probability distributions has proved to be an effective approach, via MMD (maximum mean discrepancy), for nonparametric hypothesis testing problems involving distributions defined over general (non-Euclidean) domains. While a substantial amount of work has been done on this topic, only recently have minimax optimal two-sample tests been constructed that incorporate, unlike MMD, both the mean element and a regularized version of the covariance operator. However, as with most kernel algorithms, the optimal test scales cubically in the sample size, limiting its applicability. In this paper, we propose a spectral-regularized two-sample test based on random Fourier feature (RFF) approximation and investigate the trade-offs between statistical optimality and computational efficiency. We show the proposed test to be minimax optimal if the approximation order of RFF (which depends on the smoothness of the likelihood ratio and the decay rate of the eigenvalues of the integral operator) is sufficiently large. We develop a practically implementable permutation-based version of the proposed test with a data-adaptive strategy for selecting the regularization parameter. Finally, through numerical experiments on simulated and benchmark datasets, we demonstrate that the proposed RFF-based test is computationally efficient and performs almost similarly (with a small drop in power) to the exact test.

academic

Pruebas Óptimas Minimax de Dos Muestras con Núcleos y Características Aleatorias

Información Básica

ID del Artículo: 2502.20755
Título: Minimax Optimal Kernel Two-Sample Tests with Random Features
Autores: Soumya Mukherjee, Bharath K. Sriperumbudur (Pennsylvania State University)
Clasificación: math.ST cs.LG stat.ML stat.TH
Fecha de Publicación: 17 de octubre de 2025 (preimpresión en arXiv)
Enlace del Artículo: https://arxiv.org/abs/2502.20755

Resumen

Este artículo propone un método de prueba espectral regularizada de dos muestras basado en la aproximación de características aleatorias de Fourier (RFF) para el problema de pruebas de dos muestras basadas en incrustaciones del espacio de Hilbert de núcleo reproductor (RKHS). El método mantiene la optimalidad estadística mientras reduce significativamente la complejidad computacional de nivel cúbico a casi lineal, y proporciona una versión completamente impulsada por datos prácticamente realizable.

Antecedentes de Investigación y Motivación

Problema Central

La prueba de dos muestras es un problema fundamental en estadística que tiene como objetivo determinar si dos muestras aleatorias provienen de distribuciones de probabilidad iguales. Los métodos de prueba paramétricos y no paramétricos tradicionales enfrentan limitaciones significativas al tratar datos de alta dimensión o distribuciones en dominios no euclidianos.

Limitaciones de Métodos Existentes

Suboptimalidad de las Pruebas MMD: Aunque la prueba de diferencia de media máxima (MMD) se aplica ampliamente, carece de optimalidad minimax, considerando solo incrustaciones de media e ignorando información del operador de covarianza
Cuello de Botella Computacional de Métodos Espectrales Regularizados: Las pruebas MMD espectrales regularizadas recientemente propuestas logran optimalidad minimax, pero tienen complejidad computacional O(n³), limitando su aplicación en datos a gran escala
Dificultad en la Selección de Parámetros: La selección del parámetro de regularización depende de características de distribución desconocidas, careciendo de estrategias adaptativas impulsadas por datos

Motivación de la Investigación

Este artículo tiene como objetivo mejorar significativamente la eficiencia computacional de las pruebas espectrales regularizadas de dos muestras mediante técnicas de aproximación de características aleatorias de Fourier, manteniendo la optimalidad estadística y desarrollando versiones adaptativas prácticas.

Contribuciones Principales

Prueba Computacionalmente Eficiente y Estadísticamente Óptima: Propone una prueba espectral regularizada de dos muestras basada en RFF, reduciendo la complejidad computacional de O(n³) a O(nl²+nld), manteniendo optimalidad minimax bajo condiciones suficientes
Garantías Teóricas: Establece la conexión teórica entre el orden de aproximación de RFF y la optimalidad estadística, demostrando optimalidad minimax cuando el número de características l satisface condiciones específicas
Versión Adaptativa Práctica: Desarrolla una versión completamente impulsada por datos basada en pruebas de permutación, incluyendo estrategias de selección adaptativa para parámetros de regularización y funciones de núcleo
Verificación Experimental Integral: Valida la efectividad del método mediante datos sintéticos y conjuntos de datos de referencia, demostrando un buen equilibrio entre eficiencia computacional y rendimiento estadístico

Explicación Detallada del Método

Definición de la Tarea

Dadas muestras independientes X₁:N e Y₁:M de distribuciones P y Q, probar la hipótesis H₀: P = Q vs H₁: P ≠ Q.

Arquitectura del Método Principal

1. Marco de Regularización Espectral

Para una función de núcleo K, se define la discrepancia regularizada espectralmente:

ηλ(P,Q) = 4⟨Tgλ(T)u, u⟩_{L²(R)}

donde T es el operador integral, u = dP/dR - 1 es la desviación de razón de verosimilitud, y gλ es la función de regularización.

2. Aproximación de Características Aleatorias de Fourier

Para funciones de núcleo de la forma K(x,y) = ∫φ(x,θ)φ(y,θ)dΞ(θ), se construye el núcleo aproximado:

Kₗ(x,y) = (1/l)∑ᵢ₌₁ˡ φ(x,θᵢ)φ(y,θᵢ)

3. Estadístico de Prueba Aproximado

Basado en el núcleo aproximado Kₗ, se construye el estadístico de prueba:

η̂λ,l = (1/[n(n-1)m(m-1)]) ∑ᵢ≠ⱼ ∑ᵢ'≠ⱼ' t(Xᵢ,Xⱼ,Yᵢ',Yⱼ')

donde la función t implica la raíz cuadrada del operador de covarianza regularizado.

Puntos de Innovación Técnica

1. Innovación Teórica

Condiciones de Optimalidad Minimax: Establece la relación precisa entre el número de características RFF l y la optimalidad estadística
Casos de Decaimiento Polinomial y Exponencial: Analiza por separado diferentes patrones de decaimiento de valores propios del operador integral
Análisis No Asintótico: Proporciona garantías de rendimiento en muestras finitas

2. Innovación Algorítmica

Regularización Adaptativa: Realiza selección de parámetro de regularización impulsada por datos mediante pruebas conjuntas
Adaptación de Función de Núcleo: Se extiende a selección adaptativa de múltiples funciones de núcleo
Implementación de Prueba de Permutación: Proporciona cálculo de valor crítico completamente impulsado por datos

3. Innovación Computacional

Algoritmo Eficiente: Análisis detallado de complejidad computacional e implementación optimizada
Paralelización: Características de paralelización natural de la prueba de permutación

Configuración Experimental

Conjuntos de Datos

Datos Sintéticos:
- Desplazamiento de media gaussiana: P = N(0,I), Q = N(μ,I)
- Desplazamiento de escala gaussiana: P = N(0,I), Q = N(0,σ²I)
- Desplazamiento de mediana de Cauchy: Distribuciones de Cauchy con diferentes medianas
Datos Reales:
- Conjunto de datos MNIST: Imágenes de dígitos manuscritos de 7×7 píxeles, dimensión d=49
- Detección de diferencias de distribución en subconjuntos de diferentes dígitos

Métricas de Evaluación

Potencia Estadística: Probabilidad de rechazar correctamente la hipótesis nula bajo la hipótesis alternativa
Tiempo Computacional: Comparación del tiempo de ejecución del algoritmo
Error de Tipo I: Controlado en nivel α=0.05

Métodos de Comparación

Prueba Adaptativa Exacta: Prueba espectral regularizada basada en matriz de núcleo completa
Diferentes Números de Características RFF: Comparación de rendimiento para l ∈ {1,3,5,7,9,15,20}

Detalles de Implementación

Función de regularización: Regularizador de Showalter gλ(x) = (1-e^(-x/λ))/x
Funciones de núcleo: Núcleo gaussiano y laplaciano, con selección de ancho de banda adaptativa
Número de permutaciones: Versión RFF B=550-800, versión exacta B'=250-450

Resultados Experimentales

Resultados Principales

1. Rendimiento Estadístico

Desplazamiento de Media Gaussiana: Con l≥7 características, la potencia se aproxima al método exacto
Desplazamiento de Escala Gaussiana: Buen rendimiento con l≥5
Distribución de Cauchy: Requiere más características (l≥10-15) para manejar distribuciones de cola pesada
Datos MNIST: Buen desempeño en datos reales complejos con l≥15

2. Eficiencia Computacional

Ahorros de tiempo computacional significativos:

Experimentos gaussianos: El método RFF requiere solo 33-44% del tiempo computacional
Desplazamiento de escala: 30-40% de consumo de tiempo
Experimento de Cauchy: Solo 5-6% del tiempo computacional
MNIST: 5-15% de consumo de tiempo

3. Verificación Teórica

Los resultados experimentales verifican las predicciones teóricas:

La demanda de número de características está relacionada con la dimensión de datos y complejidad de distribución
El equilibrio computacional-estadístico se alinea con el análisis teórico

Experimentos de Ablación

Mediante comparación de diferentes números de características RFF, se verifica:

La existencia de umbral de número de características
Muy pocas características conducen a pérdida de potencia
Número apropiado de características logra el mejor equilibrio

Hallazgos Experimentales

Efecto de Dimensionalidad: Datos de alta dimensión requieren más características RFF
Impacto del Tipo de Distribución: Distribuciones de cola pesada requieren más características para garantizar rendimiento
Umbral Práctico: El número de características requerido por la teoría puede reducirse apropiadamente en la práctica

Trabajo Relacionado

Pruebas de Dos Muestras con Métodos de Núcleo

Prueba MMD: Trabajo pionero de Gretton et al. (2006, 2012)
Optimalidad Minimax: Avances recientes de Li & Yuan (2024), Schrab et al. (2023)
Regularización Espectral: Avance teórico de Hagrass et al. (2024)

Aproximación de Características Aleatorias

Teoría de RFF: Marco fundamental de Rahimi & Recht (2007)
Aceleración de MMD: Aplicaciones de Zhao & Meng (2015), Choi & Kim (2024)
Equilibrio Computacional-Estadístico: Análisis teórico de Sriperumbudur & Sterge (2022)

Ventajas de Este Artículo

Ventajas principales sobre trabajos existentes:

Funciones de Núcleo Más Generales: No limitado a núcleos invariantes por traslación
Aplicabilidad Más Amplia: Soporta dominios no euclidianos
Garantías Teóricas Más Fuertes: Optimalidad minimax no asintótica
Algoritmo Más Práctico: Implementación completamente impulsada por datos

Conclusiones y Discusión

Conclusiones Principales

Contribución Teórica: Establece por primera vez la teoría de optimalidad minimax para pruebas espectrales regularizadas de dos muestras bajo aproximación RFF
Contribución Algorítmica: Proporciona un algoritmo práctico computacionalmente eficiente y estadísticamente óptimo
Verificación Empírica: Valida la efectividad del método en múltiples tipos de datos

Limitaciones

Selección de Número de Características: Aunque proporciona orientación teórica, la selección práctica aún requiere ajuste empírico
Dependencia de Función de Núcleo: El rendimiento aún depende de la selección de función de núcleo
Distribuciones de Cola Pesada: Puede requerir gran cantidad de características para distribuciones extremadamente de cola pesada

Direcciones Futuras

Otros Métodos de Aproximación: Explorar técnicas de aproximación alternativas como Nyström
Prueba de Permutación Económica: Combinar con pruebas de permutación económicas para reducir aún más el costo computacional
Ajuste Automático de Parámetros: Desarrollar estrategias de selección de hiperparámetros más inteligentes

Evaluación Profunda

Fortalezas

Rigor Teórico: Proporciona análisis teórico no asintótico completo, incluyendo condiciones suficientes y pruebas de optimalidad minimax
Practicidad Fuerte: El algoritmo es completamente impulsado por datos, sin requerir conocimiento previo
Experimentación Suficiente: Cubre datos sintéticos y reales, múltiples tipos de distribución
Escritura Clara: Detalles técnicos exhaustivos, pruebas completas

Insuficiencias

Análisis de Complejidad: Aunque reduce la complejidad asintótica, los factores constantes pueden ser grandes
Sensibilidad de Parámetros: La selección de parámetro de regularización y número de características sigue siendo sensible
Manejo de Cola Pesada: El rendimiento en el manejo de distribuciones de cola pesada requiere mejora

Impacto

Valor Teórico: Proporciona nuevo marco teórico para el equilibrio computacional-estadístico en métodos de núcleo
Valor Práctico: Tiene perspectivas de aplicación importantes en pruebas de dos muestras en datos a gran escala
Contribución Metodológica: La aplicación de aproximación RFF en pruebas estadísticas proporciona nuevas ideas para investigación relacionada

Escenarios de Aplicación

Datos a Gran Escala: Las ventajas computacionales son evidentes cuando el tamaño de muestra es grande
Datos de Alta Dimensión: Tiene ventajas significativas sobre métodos tradicionales en configuraciones de alta dimensión
Aplicaciones en Tiempo Real: La mejora en eficiencia computacional hace posible la prueba en tiempo real
Configuración No Paramétrica: Aplicable a casos generales donde la forma de distribución es desconocida

Referencias

Gretton, A., et al. (2012). A kernel two-sample test. JMLR.
Hagrass, O., et al. (2024). Spectral regularized kernel two-sample tests. Annals of Statistics.
Rahimi, A., & Recht, B. (2007). Random features for large-scale kernel machines. NIPS.
Choi, I., & Kim, I. (2024). Computational-statistical trade-off in kernel two-sample testing with random Fourier features.
Sriperumbudur, B. K., & Sterge, N. (2022). Approximate kernel PCA: Computational versus statistical trade-off. Annals of Statistics.

Evaluación General: Este es un artículo de estadística teórica de alta calidad que aplica exitosamente técnicas de aproximación de características aleatorias a pruebas espectrales regularizadas de dos muestras, mejorando significativamente la eficiencia computacional mientras se mantiene la optimalidad estadística. El análisis teórico del artículo es profundo y detallado, la verificación experimental es suficiente, y tiene valor importante tanto para la teoría del aprendizaje estadístico como para aplicaciones prácticas.