2025-11-24T22:28:17.253920

Exploration-free Algorithms for Multi-group Mean Estimation

Wei, Zhong, Li

We address the problem of multi-group mean estimation, which seeks to allocate a finite sampling budget across multiple groups to obtain uniformly accurate estimates of their means. Unlike classical multi-armed bandits, whose objective is to minimize regret by identifying and exploiting the best arm, the optimal allocation in this setting requires sampling every group on the order of $Î(T)$ times. This fundamental distinction makes exploration-free algorithms both natural and effective. Our work makes three contributions. First, we strengthen the existing results on subgaussian variance concentration using the Hanson-Wright inequality and identify a class of strictly subgaussian distributions that yield sharper guarantees. Second, we design exploration-free non-adaptive and adaptive algorithms, and we establish tighter regret bounds than the existing results. Third, we extend the framework to contextual bandit settings, an underexplored direction, and propose algorithms that leverage side information with provable guarantees. Overall, these results position exploration-free allocation as a principled and efficient approach to multi-group mean estimation, with potential applications in experimental design, personalization, and other domains requiring accurate multi-group inference.

academic

Algoritmos sin Exploración para Estimación de Medias Multigrupo

Información Básica

ID del Artículo: 2510.10374
Título: Algoritmos sin Exploración para Estimación de Medias Multigrupo
Autores: Ziyi Wei (Virginia Tech), Huaiyang Zhong (Virginia Tech), Xiaocheng Li (Imperial College London)
Clasificación: cs.LG, stat.ML
Fecha de Publicación: 12 de octubre de 2025
Enlace del Artículo: https://arxiv.org/abs/2510.10374

Resumen

Este artículo estudia el problema de estimación de medias multigrupo, cuyo objetivo es asignar un presupuesto de muestreo limitado a múltiples grupos para obtener estimaciones consistentemente precisas de sus medias. A diferencia de los bandidos multiarmados tradicionales (cuyo objetivo es minimizar el arrepentimiento identificando y explotando el brazo óptimo), la asignación óptima en este contexto requiere muestrear cada grupo Θ(T) veces. Esta diferencia fundamental hace que los algoritmos sin exploración sean tanto naturales como efectivos. El artículo realiza tres contribuciones principales: primero, fortalece los resultados existentes de concentración de varianza subgaussiana utilizando la desigualdad de Hanson-Wright e identifica una clase de distribuciones estrictamente subgaussianas que producen garantías más precisas; segundo, diseña algoritmos sin exploración no adaptativos y adaptativos, estableciendo límites de arrepentimiento más ajustados que los resultados existentes; tercero, extiende el marco a la configuración de bandidos contextuales, una dirección poco explorada, proponiendo algoritmos que aprovechan información auxiliar con garantías comprobables.

Antecedentes y Motivación de la Investigación

Definición del Problema

El problema de estimación de medias multigrupo requiere asignar un presupuesto de muestreo a K grupos dentro de un horizonte de tiempo finito T, de modo que las estimaciones de las medias de todos los grupos logren una precisión consistentemente uniforme. Específicamente, para el grupo k-ésimo con distribución de recompensas Pk, media μk y varianza σk², el objetivo es minimizar el objetivo de norma p:

$R_p(n) = \left\|\left\{\frac{\sigma_k^2}{n_k}\right\}_{k=1}^K\right\|_p$

donde nk es el número de muestras tomadas del grupo k-ésimo.

Motivación de la Investigación

Necesidades de Aplicaciones Prácticas: En encuestas de opinión, diseño experimental, recomendaciones personalizadas y otros campos, se requieren estimaciones precisas y equitativas de múltiples grupos, no solo del grupo óptimo.
Desafíos Teóricos: A diferencia de los bandidos multiarmados tradicionales, el esquema de asignación óptima requiere que cada brazo sea muestreado Θ(T) veces, lo que hace innecesario el equilibrio tradicional entre exploración y explotación.
Limitaciones de Métodos Existentes: Los algoritmos tipo UCB existentes introducen gastos de exploración innecesarios sin aprovechar plenamente las características estructurales del problema.

Contribuciones Principales

Mejora Teórica: Basándose en la desigualdad de Hanson-Wright, se mejoran las desigualdades de concentración de varianza subgaussiana, identificando la clase de distribuciones estrictamente subgaussianas para obtener garantías teóricas más precisas.
Diseño de Algoritmos: Se proponen dos algoritmos sin exploración:
- Algoritmo no adaptativo (requiere conocimiento previo de cotas inferiores de varianza)
- Algoritmo adaptativo (sin conocimiento previo, utilizando intervalos de confianza)
Extensión del Marco: Se extiende por primera vez la estimación de medias multigrupo a la configuración de bandidos contextuales, proponiendo algoritmos correspondientes con análisis teórico.
Mejora de Rendimiento: En comparación con los mejores resultados existentes, se elimina un factor log T en el límite de arrepentimiento, logrando límites teóricos más ajustados.

Explicación Detallada de Métodos

Definición de la Tarea

Dados K grupos, donde cada grupo k tiene una distribución de recompensas Pk con media desconocida μk y varianza σk². Dentro del horizonte temporal T, en cada momento se selecciona un grupo para muestrear, con el objetivo de minimizar la norma p del error de estimación de todos los grupos.

Esquema de Asignación Óptima

La Proposición 2.1 proporciona la asignación teóricamente óptima: $n_k^* = \frac{\sigma_k^q}{\sum_{j=1}^K \sigma_j^q} \cdot T$

donde q = 2p/(p+1) (cuando p es finito) o q = 2 (cuando p = ∞).

Algoritmo 1: Asignación No Adaptativa

Idea Central: Procede en dos fases

Primera Fase: Muestreo uniforme de τ rondas para cada grupo, estimando la varianza
Segunda Fase: Asignación de presupuesto restante según la proporción óptima basada en varianzas estimadas

Parámetros Clave:

Longitud inicial: $\tau = \frac{\sigma^q}{\sigma^q + (K-1)\underline{\sigma}^q} \cdot T$
Pesos de asignación: $\lambda_{k,\tau} = \frac{\hat{\sigma}_{k,\tau}^q}{\sum_{j=1}^K \hat{\sigma}_{j,\tau}^q}$

Algoritmo 2: Algoritmo Adaptativo

Mejoras: Sin necesidad de conocimiento previo de cotas inferiores de varianza, ajustándose adaptativamente mediante intervalos de confianza.

Mecanismo Central:

Construcción de Intervalos de Confianza: Basada en desigualdades mejoradas de concentración de varianza, construyendo LCB y UCB
Parada Adaptativa: Cálculo dinámico del tiempo de parada para cada grupo
Estrategia de Eliminación de Brazos: Similar a técnicas de eliminación en identificación de brazos óptimos

Intervalos de Confianza:

$LCB_{k,n} = \max\{\hat{\sigma}_{k,n}^2 - \varepsilon_{k,n}^+, 0\}$
$UCB_{k,n} = \hat{\sigma}_{k,n}^2 + \varepsilon_{k,n}^-$

Algoritmo 3: Extensión Contextual

Configuración del Problema: Cada grupo k está asociado con un vector de parámetros βk, y cuando se observa el contexto ct, la recompensa es: $X_{k,n} = \beta_k^T c_n + \eta_{k,n}$

Función Objetivo: $\min \mathbb{E}\left[\sum_{k=1}^K \|\hat{\beta}_{k,n_k} - \beta_k\|^2\right]$

Innovaciones Clave:

Uso de estimadores de regresión ridge
Estrategia de muestreo de "decidir primero, observar después"
Mantenimiento de la independencia de vectores contextuales

Configuración Experimental

Conjuntos de Datos

Distribución Gaussiana: K=4 grupos, medias muestreadas de U(-1,1), varianzas {1, 1.5, 2, 2.5}
Rademacher + Gaussiana: Replicación de la configuración experimental de Carpentier et al.
Distribución Beta Simétrica: Verificación de ventajas de propiedad estrictamente subgaussiana
Configuración Contextual: K∈{5,10,20}, dimensión d=4, contextos muestreados uniformemente del hipercubo

Métricas de Evaluación

Arrepentimiento empírico: $R_p(n^{\pi}) - R_p(n^*)$
Ajuste de límites teóricos
Velocidad de convergencia del algoritmo

Métodos de Comparación

Configuración subgaussiana general (GSG) vs configuración estrictamente subgaussiana (SSG)
Cota inferior de varianza conocida vs desconocida
Comparación de rendimiento para diferentes valores de p

Resultados Experimentales

Resultados Principales

Ajuste de Límites Teóricos: Los límites teóricos en la configuración estrictamente subgaussiana están más cerca de los resultados empíricos, particularmente cuando p=∞.
Impacto de la Cota Inferior de Varianza: Cuando la cota inferior de varianza es desconocida, el rendimiento del algoritmo muestra una caída significativa, ocurriendo en diferentes puntos temporales en configuraciones GSG y SSG.
Complejidad Temporal: La longitud de la primera fase en configuración SSG se reduce significativamente, de estar relacionada con σ² a depender solo de una constante relacionada con log T.

Resultados Numéricos Específicos

En experimentos gaussianos, cuando T > 2×10⁴, el algoritmo comienza a mostrar el rendimiento esperado teóricamente
El límite teórico en configuración SSG es aproximadamente un orden de magnitud más ajustado que en GSG
En experimentos contextuales, la pendiente del arrepentimiento empírico se aproxima a -2, consistente con predicciones teóricas

Experimentos de Ablación

Estrictamente Subgaussiana vs Subgaussiana General: Las distribuciones estrictamente subgaussianas proporcionan mejores factores constantes e implementación de algoritmos más simple
Comparación de Diferentes Valores de p: p=∞ proporciona el límite teórico más ajustado
Impacto de la Dimensión Contextual: El rendimiento mantiene relaciones de escalado estables con el aumento del número de brazos

Trabajo Relacionado

Estimación de Medias Multigrupo

Antos et al. (2008, 2010): Primeros estudios de aprendizaje activo bajo ruido heteroscedástico
Carpentier et al. (2011): Propuesta de algoritmos tipo UCB para casos no acotados
Aznag et al. (2023): Introducción de objetivos de norma p y establecimiento de límites inferiores

Teoría de Concentración de Varianza

Desarrollos modernos de la desigualdad de Hanson-Wright
Identificación y propiedades de distribuciones estrictamente subgaussianas
Mejoras en límites empíricos de Bernstein

Bandidos Contextuales

Estimación de parámetros en bandidos lineales
Aplicaciones de teoría de diseño experimental
Limitaciones de algoritmos tipo UCB en configuraciones contextuales

Análisis Teórico

Resultados Teóricos Principales

Teorema 3.1 (Algoritmo No Adaptativo, p=∞): $\mathbb{E}[R_p(n^{\pi_1}) - R_p(n^*)] \leq 4\sqrt{2}\sigma^2 F_{Alg1,\infty}(\lambda, \sigma^2) T^{-3/2}\sqrt{\log T} + o(T^{-3/2})$

Teorema 3.2 (Algoritmo No Adaptativo, p<∞): $\mathbb{E}[R_p(n^{\pi_1}) - R_p(n^*)] \leq 24\sigma^4 F_{Alg1,p}(\lambda, \sigma^2) T^{-2}\log T + o(T^{-2})$

Teorema 4.1 (Algoritmo Adaptativo): Proporciona límites del mismo orden, con factores constantes ligeramente diferentes.

Mejoras Clave

Concentración de Varianza: Utilización de la desigualdad de Hanson-Wright para mejorar desigualdades de concentración en estimación de varianza, eliminando un factor $\sqrt{\log(1/\delta)}$ .
Estrictamente Subgaussiana: Identificación de la clase de distribuciones estrictamente subgaussianas donde el parámetro de varianza es igual a la varianza verdadera, proporcionando límites más precisos.
Diseño sin Exploración: Demostración de que la exploración tipo UCB es redundante en este problema, ya que la solución óptima en sí misma requiere muestrear cada brazo Θ(T) veces.

Conclusiones y Discusión

Conclusiones Principales

Principio sin Exploración: La estructura del problema de estimación de medias multigrupo hace que la exploración explícita sea innecesaria, formando un contraste marcado con los bandidos multiarmados tradicionales.
Mejora Teórica: Mediante desigualdades mejoradas de concentración de varianza e identificación de distribuciones estrictamente subgaussianas, se logran límites teóricos más ajustados.
Diseño de Algoritmos: Los algoritmos propuestos logran rendimiento asintóticamente óptimo manteniendo simplicidad.
Extensibilidad: Extensión exitosa del marco a configuraciones contextuales, abriendo nuevas direcciones de investigación.

Limitaciones

Supuestos de Distribución: Los algoritmos dependen de supuestos subgaussianos, que pueden no ser aplicables a distribuciones de colas pesadas.
Factores Constantes: Aunque asintóticamente óptimos, los factores constantes pueden ser grandes en casos de muestras pequeñas.
Restricciones Contextuales: La extensión contextual requiere estrategia de "decidir primero, observar después", limitando la flexibilidad de aplicaciones prácticas.

Direcciones Futuras

Distribuciones Estructuradas: Investigación de cómo aprovechar más información de estructura distributiva para mejorar algoritmos.
Extensiones No Paramétricas: Extensión de métodos a configuraciones no paramétricas.
Aplicaciones Prácticas: Verificación de efectividad de algoritmos en dominios de aplicación específicos (como pruebas A/B, ensayos clínicos).

Evaluación Profunda

Fortalezas

Contribuciones Teóricas Significativas: Mejoras sustanciales tanto en teoría de concentración de varianza como en diseño de algoritmos.
Perspectivas Profundas del Problema: Identificación de diferencias fundamentales entre estimación de medias multigrupo y problemas tradicionales de bandidos.
Diseño de Métodos Elegante: Algoritmos simples e intuitivos, fáciles de entender e implementar.
Verificación Experimental Suficiente: Validación de resultados teóricos mediante múltiples distribuciones y configuraciones.

Insuficiencias

Verificación de Aplicaciones Prácticas Limitada: Falta de validación a gran escala en conjuntos de datos reales.
Análisis de Complejidad Computacional: Sin análisis detallado de complejidad computacional de algoritmos.
Discusión Insuficiente de Robustez: Falta de análisis de rendimiento cuando se violan supuestos de distribución.

Impacto

Valor Teórico: Proporciona nuevo marco teórico para problemas de inferencia multigrupo.
Valor Práctico: Aplicación directa en diseño experimental, recomendaciones personalizadas y otros campos.
Reproducibilidad: Descripción clara de algoritmos, análisis teórico completo, con buena reproducibilidad.

Escenarios Aplicables

Pruebas A/B: Escenarios que requieren comparación justa de múltiples grupos de usuarios.
Ensayos Clínicos: Evaluación de eficacia de múltiples grupos de tratamiento.
Investigación de Mercado: Estimación precisa de preferencias de diferentes poblaciones.
Sistemas de Recomendación: Garantía de equidad multigrupo en recomendaciones personalizadas.

Referencias

Este artículo cita múltiples trabajos relacionados importantes, incluyendo:

Aznag et al. (2023): Marco de aprendizaje activo para estimación de medias multigrupo
Carpentier et al. (2011): Algoritmos de límite superior de confianza para aprendizaje activo en bandidos multiarmados
Trabajos teóricos relacionados con la desigualdad de Hanson-Wright
Resultados clásicos sobre distribuciones subgaussianas y concentración de varianza

Este artículo realiza contribuciones importantes tanto en teoría como en métodos, proporcionando nuevas perspectivas y soluciones efectivas para el problema de estimación de medias multigrupo. La propuesta de algoritmos sin exploración desafía el paradigma clásico de equilibrio exploración-explotación en bandidos multiarmados tradicionales, con importante significado teórico y valor práctico.