Exploration-free Algorithms for Multi-group Mean Estimation
Wei, Zhong, Li
We address the problem of multi-group mean estimation, which seeks to allocate a finite sampling budget across multiple groups to obtain uniformly accurate estimates of their means. Unlike classical multi-armed bandits, whose objective is to minimize regret by identifying and exploiting the best arm, the optimal allocation in this setting requires sampling every group on the order of $Î(T)$ times. This fundamental distinction makes exploration-free algorithms both natural and effective. Our work makes three contributions. First, we strengthen the existing results on subgaussian variance concentration using the Hanson-Wright inequality and identify a class of strictly subgaussian distributions that yield sharper guarantees. Second, we design exploration-free non-adaptive and adaptive algorithms, and we establish tighter regret bounds than the existing results. Third, we extend the framework to contextual bandit settings, an underexplored direction, and propose algorithms that leverage side information with provable guarantees. Overall, these results position exploration-free allocation as a principled and efficient approach to multi-group mean estimation, with potential applications in experimental design, personalization, and other domains requiring accurate multi-group inference.
academic
Algorithmes sans Exploration pour l'Estimation de Moyennes Multi-groupes
Cet article étudie le problème de l'estimation de moyennes multi-groupes, visant à allouer un budget d'échantillonnage limité à plusieurs groupes afin d'obtenir des estimations précises et cohérentes de leurs moyennes. Contrairement aux bandits multi-bras traditionnels (dont l'objectif est de minimiser le regret en identifiant et exploitant le bras optimal), l'allocation optimale dans ce contexte nécessite d'échantillonner chaque groupe Θ(T) fois. Cette différence fondamentale rend les algorithmes sans exploration à la fois naturels et efficaces. L'article apporte trois contributions majeures : premièrement, il renforce les résultats existants de concentration de variance sous-gaussienne en utilisant l'inégalité de Hanson-Wright et identifie une classe de distributions strictement sous-gaussiennes produisant des garanties plus précises ; deuxièmement, il conçoit des algorithmes sans exploration non-adaptatifs et adaptatifs, établissant des bornes de regret plus serrées que les résultats existants ; troisièmement, il étend le cadre au contexte des bandits contextuels, une direction peu explorée, en proposant des algorithmes exploitant l'information auxiliaire avec des garanties prouvables.
Le problème de l'estimation de moyennes multi-groupes exige d'allouer un budget d'échantillonnage à K groupes dans un intervalle de temps fini T, de sorte que les estimations des moyennes de tous les groupes atteignent une précision cohérente. Concrètement, pour le k-ième groupe, dont la distribution de récompense est Pk, la moyenne est μk et la variance est σk², l'objectif est de minimiser la norme-p :
Rp(n)={nkσk2}k=1Kp
où nk est le nombre d'échantillons prélevés du k-ième groupe.
Besoins pratiques: Dans les sondages d'opinion, la conception expérimentale, les recommandations personnalisées et autres domaines, il est nécessaire d'effectuer des estimations précises et équitables pour plusieurs groupes, plutôt que de se concentrer uniquement sur le groupe optimal.
Défis théoriques: Contrairement aux bandits multi-bras traditionnels, le schéma d'allocation optimal exige que chaque bras soit échantillonné Θ(T) fois, rendant inutile le compromis exploration-exploitation traditionnel.
Limitations des méthodes existantes: Les algorithmes de type UCB existants introduisent des surcoûts d'exploration inutiles et n'exploitent pas pleinement les caractéristiques structurelles du problème.
Améliorations théoriques: Basées sur l'inégalité de Hanson-Wright, amélioration des inégalités de concentration de variance sous-gaussienne, identification de la classe de distributions strictement sous-gaussiennes, obtention de garanties théoriques plus précises.
Conception d'algorithmes: Proposition de deux algorithmes sans exploration :
Algorithme non-adaptatif (nécessitant une connaissance préalable d'une borne inférieure de variance)
Algorithme adaptatif (sans connaissance préalable, utilisant des intervalles de confiance)
Extension du cadre: Extension pour la première fois de l'estimation de moyennes multi-groupes au contexte des bandits contextuels, proposition d'algorithmes correspondants et analyse théorique.
Amélioration des performances: Suppression d'un facteur log T dans la borne de regret par rapport aux meilleurs résultats existants, réalisation de bornes théoriques plus serrées.
Étant donné K groupes, chaque groupe k ayant une distribution de récompense Pk avec une moyenne inconnue μk et une variance σk². Dans l'intervalle de temps T, à chaque instant, un groupe est sélectionné pour échantillonnage, l'objectif étant de minimiser la norme-p de l'erreur d'estimation pour tous les groupes.
Configuration du problème: Chaque groupe k est associé à un vecteur de paramètres βk, lorsqu'un contexte ct est observé, la récompense est :
Xk,n=βkTcn+ηk,n
Fonction objectif:
minE[∑k=1K∥β^k,nk−βk∥2]
Innovations clés:
Utilisation d'estimateurs de régression ridge
Stratégie d'échantillonnage décider-puis-observer
Préservation de l'indépendance des vecteurs de contexte
Précision des bornes théoriques: Les bornes théoriques dans le contexte strictement sous-gaussien sont plus proches des résultats empiriques, particulièrement lorsque p=∞.
Impact de la borne inférieure de variance: Lorsque la borne inférieure de variance est inconnue, les performances de l'algorithme diminuent significativement, cette diminution se produisant à des moments différents dans les configurations GSG et SSG.
Complexité temporelle: La longueur de la première phase dans la configuration SSG diminue significativement, passant d'une dépendance en σ² à une simple constante dépendant de log T.
Strictement sous-gaussienne vs généralement sous-gaussienne: Les distributions strictement sous-gaussiennes fournissent de meilleurs facteurs constants et une implémentation d'algorithme plus simple
Comparaison pour différentes valeurs de p: p=∞ fournit la borne théorique la plus serrée
Impact de la dimension contextuelle: Avec l'augmentation du nombre de bras, les performances maintiennent une relation d'échelle stable
Concentration de variance: Utilisation de l'inégalité de Hanson-Wright pour améliorer les inégalités de concentration d'estimation de variance, suppression d'un facteur log(1/δ).
Strictement sous-gaussienne: Identification de la classe de distributions strictement sous-gaussiennes, où le paramètre de variance égale la variance réelle, fournissant des bornes plus précises.
Conception sans exploration: Preuve que l'exploration de type UCB est redondante dans ce problème, car la solution optimale elle-même exige que chaque bras soit échantillonné Θ(T) fois.
Principe sans exploration: La structure du problème d'estimation de moyennes multi-groupes rend l'exploration explicite inutile, contrastant fortement avec les bandits multi-bras traditionnels.
Améliorations théoriques: Par l'amélioration des inégalités de concentration de variance et l'identification de distributions strictement sous-gaussiennes, réalisation de bornes théoriques plus serrées.
Conception d'algorithmes: Les algorithmes proposés réalisent des performances asymptotiquement optimales tout en maintenant la simplicité.
Extensibilité: Extension réussie du cadre au contexte contextuel, ouvrant de nouvelles directions de recherche.
Distributions structurées: Étude de l'exploitation d'informations de structure de distribution supplémentaires pour améliorer davantage les algorithmes.
Extensions non-paramétriques: Extension des méthodes aux contextes non-paramétriques.
Applications pratiques: Vérification de l'efficacité des algorithmes dans des domaines d'application spécifiques (tests A/B, essais cliniques).
Contributions théoriques significatives: Améliorations substantielles en théorie de concentration de variance et conception d'algorithmes.
Intuitions profondes sur le problème: Identification des différences fondamentales entre l'estimation de moyennes multi-groupes et les problèmes de bandits traditionnels.
Conception de méthodes élégante: Algorithmes simples et intuitifs, faciles à comprendre et à implémenter.
Vérification expérimentale complète: Vérification des résultats théoriques via plusieurs distributions et configurations.
Cet article cite plusieurs travaux connexes importants, notamment :
Aznag et al. (2023): A framework for active learning in multi-group mean estimation
Carpentier et al. (2011): Upper-confidence-bound algorithms for active learning in multi-armed bandits
Travaux théoriques connexes sur l'inégalité de Hanson-Wright
Résultats classiques sur les distributions sous-gaussiennes et la concentration de variance
Cet article apporte des contributions importantes tant sur le plan théorique que méthodologique, fournissant une nouvelle perspective et des solutions efficaces au problème d'estimation de moyennes multi-groupes. La proposition d'algorithmes sans exploration remet en question le paradigme classique exploration-exploitation des bandits multi-bras traditionnels, possédant une importance théorique et une valeur pratique significatives.