Exploration-free Algorithms for Multi-group Mean Estimation
Wei, Zhong, Li
We address the problem of multi-group mean estimation, which seeks to allocate a finite sampling budget across multiple groups to obtain uniformly accurate estimates of their means. Unlike classical multi-armed bandits, whose objective is to minimize regret by identifying and exploiting the best arm, the optimal allocation in this setting requires sampling every group on the order of $Î(T)$ times. This fundamental distinction makes exploration-free algorithms both natural and effective. Our work makes three contributions. First, we strengthen the existing results on subgaussian variance concentration using the Hanson-Wright inequality and identify a class of strictly subgaussian distributions that yield sharper guarantees. Second, we design exploration-free non-adaptive and adaptive algorithms, and we establish tighter regret bounds than the existing results. Third, we extend the framework to contextual bandit settings, an underexplored direction, and propose algorithms that leverage side information with provable guarantees. Overall, these results position exploration-free allocation as a principled and efficient approach to multi-group mean estimation, with potential applications in experimental design, personalization, and other domains requiring accurate multi-group inference.
academic
Algoritmos sin Exploración para Estimación de Medias Multigrupo
Este artículo estudia el problema de estimación de medias multigrupo, cuyo objetivo es asignar un presupuesto de muestreo limitado a múltiples grupos para obtener estimaciones consistentemente precisas de sus medias. A diferencia de los bandidos multiarmados tradicionales (cuyo objetivo es minimizar el arrepentimiento identificando y explotando el brazo óptimo), la asignación óptima en este contexto requiere muestrear cada grupo Θ(T) veces. Esta diferencia fundamental hace que los algoritmos sin exploración sean tanto naturales como efectivos. El artículo realiza tres contribuciones principales: primero, fortalece los resultados existentes de concentración de varianza subgaussiana utilizando la desigualdad de Hanson-Wright e identifica una clase de distribuciones estrictamente subgaussianas que producen garantías más precisas; segundo, diseña algoritmos sin exploración no adaptativos y adaptativos, estableciendo límites de arrepentimiento más ajustados que los resultados existentes; tercero, extiende el marco a la configuración de bandidos contextuales, una dirección poco explorada, proponiendo algoritmos que aprovechan información auxiliar con garantías comprobables.
El problema de estimación de medias multigrupo requiere asignar un presupuesto de muestreo a K grupos dentro de un horizonte de tiempo finito T, de modo que las estimaciones de las medias de todos los grupos logren una precisión consistentemente uniforme. Específicamente, para el grupo k-ésimo con distribución de recompensas Pk, media μk y varianza σk², el objetivo es minimizar el objetivo de norma p:
Rp(n)={nkσk2}k=1Kp
donde nk es el número de muestras tomadas del grupo k-ésimo.
Necesidades de Aplicaciones Prácticas: En encuestas de opinión, diseño experimental, recomendaciones personalizadas y otros campos, se requieren estimaciones precisas y equitativas de múltiples grupos, no solo del grupo óptimo.
Desafíos Teóricos: A diferencia de los bandidos multiarmados tradicionales, el esquema de asignación óptima requiere que cada brazo sea muestreado Θ(T) veces, lo que hace innecesario el equilibrio tradicional entre exploración y explotación.
Limitaciones de Métodos Existentes: Los algoritmos tipo UCB existentes introducen gastos de exploración innecesarios sin aprovechar plenamente las características estructurales del problema.
Mejora Teórica: Basándose en la desigualdad de Hanson-Wright, se mejoran las desigualdades de concentración de varianza subgaussiana, identificando la clase de distribuciones estrictamente subgaussianas para obtener garantías teóricas más precisas.
Diseño de Algoritmos: Se proponen dos algoritmos sin exploración:
Algoritmo no adaptativo (requiere conocimiento previo de cotas inferiores de varianza)
Algoritmo adaptativo (sin conocimiento previo, utilizando intervalos de confianza)
Extensión del Marco: Se extiende por primera vez la estimación de medias multigrupo a la configuración de bandidos contextuales, proponiendo algoritmos correspondientes con análisis teórico.
Mejora de Rendimiento: En comparación con los mejores resultados existentes, se elimina un factor log T en el límite de arrepentimiento, logrando límites teóricos más ajustados.
Dados K grupos, donde cada grupo k tiene una distribución de recompensas Pk con media desconocida μk y varianza σk². Dentro del horizonte temporal T, en cada momento se selecciona un grupo para muestrear, con el objetivo de minimizar la norma p del error de estimación de todos los grupos.
Configuración del Problema: Cada grupo k está asociado con un vector de parámetros βk, y cuando se observa el contexto ct, la recompensa es:
Xk,n=βkTcn+ηk,n
Función Objetivo:
minE[∑k=1K∥β^k,nk−βk∥2]
Innovaciones Clave:
Uso de estimadores de regresión ridge
Estrategia de muestreo de "decidir primero, observar después"
Mantenimiento de la independencia de vectores contextuales
Ajuste de Límites Teóricos: Los límites teóricos en la configuración estrictamente subgaussiana están más cerca de los resultados empíricos, particularmente cuando p=∞.
Impacto de la Cota Inferior de Varianza: Cuando la cota inferior de varianza es desconocida, el rendimiento del algoritmo muestra una caída significativa, ocurriendo en diferentes puntos temporales en configuraciones GSG y SSG.
Complejidad Temporal: La longitud de la primera fase en configuración SSG se reduce significativamente, de estar relacionada con σ² a depender solo de una constante relacionada con log T.
Estrictamente Subgaussiana vs Subgaussiana General: Las distribuciones estrictamente subgaussianas proporcionan mejores factores constantes e implementación de algoritmos más simple
Comparación de Diferentes Valores de p: p=∞ proporciona el límite teórico más ajustado
Impacto de la Dimensión Contextual: El rendimiento mantiene relaciones de escalado estables con el aumento del número de brazos
Concentración de Varianza: Utilización de la desigualdad de Hanson-Wright para mejorar desigualdades de concentración en estimación de varianza, eliminando un factor log(1/δ).
Estrictamente Subgaussiana: Identificación de la clase de distribuciones estrictamente subgaussianas donde el parámetro de varianza es igual a la varianza verdadera, proporcionando límites más precisos.
Diseño sin Exploración: Demostración de que la exploración tipo UCB es redundante en este problema, ya que la solución óptima en sí misma requiere muestrear cada brazo Θ(T) veces.
Principio sin Exploración: La estructura del problema de estimación de medias multigrupo hace que la exploración explícita sea innecesaria, formando un contraste marcado con los bandidos multiarmados tradicionales.
Mejora Teórica: Mediante desigualdades mejoradas de concentración de varianza e identificación de distribuciones estrictamente subgaussianas, se logran límites teóricos más ajustados.
Diseño de Algoritmos: Los algoritmos propuestos logran rendimiento asintóticamente óptimo manteniendo simplicidad.
Extensibilidad: Extensión exitosa del marco a configuraciones contextuales, abriendo nuevas direcciones de investigación.
Supuestos de Distribución: Los algoritmos dependen de supuestos subgaussianos, que pueden no ser aplicables a distribuciones de colas pesadas.
Factores Constantes: Aunque asintóticamente óptimos, los factores constantes pueden ser grandes en casos de muestras pequeñas.
Restricciones Contextuales: La extensión contextual requiere estrategia de "decidir primero, observar después", limitando la flexibilidad de aplicaciones prácticas.
Contribuciones Teóricas Significativas: Mejoras sustanciales tanto en teoría de concentración de varianza como en diseño de algoritmos.
Perspectivas Profundas del Problema: Identificación de diferencias fundamentales entre estimación de medias multigrupo y problemas tradicionales de bandidos.
Diseño de Métodos Elegante: Algoritmos simples e intuitivos, fáciles de entender e implementar.
Verificación Experimental Suficiente: Validación de resultados teóricos mediante múltiples distribuciones y configuraciones.
Este artículo cita múltiples trabajos relacionados importantes, incluyendo:
Aznag et al. (2023): Marco de aprendizaje activo para estimación de medias multigrupo
Carpentier et al. (2011): Algoritmos de límite superior de confianza para aprendizaje activo en bandidos multiarmados
Trabajos teóricos relacionados con la desigualdad de Hanson-Wright
Resultados clásicos sobre distribuciones subgaussianas y concentración de varianza
Este artículo realiza contribuciones importantes tanto en teoría como en métodos, proporcionando nuevas perspectivas y soluciones efectivas para el problema de estimación de medias multigrupo. La propuesta de algoritmos sin exploración desafía el paradigma clásico de equilibrio exploración-explotación en bandidos multiarmados tradicionales, con importante significado teórico y valor práctico.