2025-11-24T22:28:17.253920

Exploration-free Algorithms for Multi-group Mean Estimation

Wei, Zhong, Li

We address the problem of multi-group mean estimation, which seeks to allocate a finite sampling budget across multiple groups to obtain uniformly accurate estimates of their means. Unlike classical multi-armed bandits, whose objective is to minimize regret by identifying and exploiting the best arm, the optimal allocation in this setting requires sampling every group on the order of $Î(T)$ times. This fundamental distinction makes exploration-free algorithms both natural and effective. Our work makes three contributions. First, we strengthen the existing results on subgaussian variance concentration using the Hanson-Wright inequality and identify a class of strictly subgaussian distributions that yield sharper guarantees. Second, we design exploration-free non-adaptive and adaptive algorithms, and we establish tighter regret bounds than the existing results. Third, we extend the framework to contextual bandit settings, an underexplored direction, and propose algorithms that leverage side information with provable guarantees. Overall, these results position exploration-free allocation as a principled and efficient approach to multi-group mean estimation, with potential applications in experimental design, personalization, and other domains requiring accurate multi-group inference.

academic

Algorithmes sans Exploration pour l'Estimation de Moyennes Multi-groupes

Informations Fondamentales

ID de l'article: 2510.10374
Titre: Exploration-free Algorithms for Multi-group Mean Estimation
Auteurs: Ziyi Wei (Virginia Tech), Huaiyang Zhong (Virginia Tech), Xiaocheng Li (Imperial College London)
Classification: cs.LG, stat.ML
Date de publication: 12 octobre 2025
Lien de l'article: https://arxiv.org/abs/2510.10374

Résumé

Cet article étudie le problème de l'estimation de moyennes multi-groupes, visant à allouer un budget d'échantillonnage limité à plusieurs groupes afin d'obtenir des estimations précises et cohérentes de leurs moyennes. Contrairement aux bandits multi-bras traditionnels (dont l'objectif est de minimiser le regret en identifiant et exploitant le bras optimal), l'allocation optimale dans ce contexte nécessite d'échantillonner chaque groupe Θ(T) fois. Cette différence fondamentale rend les algorithmes sans exploration à la fois naturels et efficaces. L'article apporte trois contributions majeures : premièrement, il renforce les résultats existants de concentration de variance sous-gaussienne en utilisant l'inégalité de Hanson-Wright et identifie une classe de distributions strictement sous-gaussiennes produisant des garanties plus précises ; deuxièmement, il conçoit des algorithmes sans exploration non-adaptatifs et adaptatifs, établissant des bornes de regret plus serrées que les résultats existants ; troisièmement, il étend le cadre au contexte des bandits contextuels, une direction peu explorée, en proposant des algorithmes exploitant l'information auxiliaire avec des garanties prouvables.

Contexte et Motivation de la Recherche

Définition du Problème

Le problème de l'estimation de moyennes multi-groupes exige d'allouer un budget d'échantillonnage à K groupes dans un intervalle de temps fini T, de sorte que les estimations des moyennes de tous les groupes atteignent une précision cohérente. Concrètement, pour le k-ième groupe, dont la distribution de récompense est Pk, la moyenne est μk et la variance est σk², l'objectif est de minimiser la norme-p :

$R_p(n) = \left\|\left\{\frac{\sigma_k^2}{n_k}\right\}_{k=1}^K\right\|_p$

où nk est le nombre d'échantillons prélevés du k-ième groupe.

Motivation de la Recherche

Besoins pratiques: Dans les sondages d'opinion, la conception expérimentale, les recommandations personnalisées et autres domaines, il est nécessaire d'effectuer des estimations précises et équitables pour plusieurs groupes, plutôt que de se concentrer uniquement sur le groupe optimal.
Défis théoriques: Contrairement aux bandits multi-bras traditionnels, le schéma d'allocation optimal exige que chaque bras soit échantillonné Θ(T) fois, rendant inutile le compromis exploration-exploitation traditionnel.
Limitations des méthodes existantes: Les algorithmes de type UCB existants introduisent des surcoûts d'exploration inutiles et n'exploitent pas pleinement les caractéristiques structurelles du problème.

Contributions Principales

Améliorations théoriques: Basées sur l'inégalité de Hanson-Wright, amélioration des inégalités de concentration de variance sous-gaussienne, identification de la classe de distributions strictement sous-gaussiennes, obtention de garanties théoriques plus précises.
Conception d'algorithmes: Proposition de deux algorithmes sans exploration :
- Algorithme non-adaptatif (nécessitant une connaissance préalable d'une borne inférieure de variance)
- Algorithme adaptatif (sans connaissance préalable, utilisant des intervalles de confiance)
Extension du cadre: Extension pour la première fois de l'estimation de moyennes multi-groupes au contexte des bandits contextuels, proposition d'algorithmes correspondants et analyse théorique.
Amélioration des performances: Suppression d'un facteur log T dans la borne de regret par rapport aux meilleurs résultats existants, réalisation de bornes théoriques plus serrées.

Explication Détaillée des Méthodes

Définition de la Tâche

Étant donné K groupes, chaque groupe k ayant une distribution de récompense Pk avec une moyenne inconnue μk et une variance σk². Dans l'intervalle de temps T, à chaque instant, un groupe est sélectionné pour échantillonnage, l'objectif étant de minimiser la norme-p de l'erreur d'estimation pour tous les groupes.

Schéma d'Allocation Optimal

La Proposition 2.1 donne l'allocation théoriquement optimale : $n_k^* = \frac{\sigma_k^q}{\sum_{j=1}^K \sigma_j^q} \cdot T$

où q = 2p/(p+1) (lorsque p est fini) ou q = 2 (lorsque p = ∞).

Algorithme 1 : Allocation Non-Adaptative

Idée centrale: Procédure en deux phases

Phase 1: Échantillonnage uniforme de chaque groupe pendant τ tours, estimation de la variance
Phase 2: Allocation du budget restant selon le ratio optimal basé sur la variance estimée

Paramètres clés:

Longueur initiale: $\tau = \frac{\sigma^q}{\sigma^q + (K-1)\underline{\sigma}^q} \cdot T$
Poids d'allocation: $\lambda_{k,\tau} = \frac{\hat{\sigma}_{k,\tau}^q}{\sum_{j=1}^K \hat{\sigma}_{j,\tau}^q}$

Algorithme 2 : Algorithme Adaptatif

Points d'amélioration: Pas besoin de connaissance préalable d'une borne inférieure de variance, ajustement adaptatif via des intervalles de confiance.

Mécanisme central:

Construction d'intervalles de confiance: Basée sur l'inégalité de concentration de variance améliorée, construction de LCB et UCB
Arrêt adaptatif: Calcul dynamique du temps d'arrêt pour chaque groupe
Stratégie d'élimination de bras: Technique similaire à celle utilisée dans l'identification du bras optimal

Intervalles de confiance:

$LCB_{k,n} = \max\{\hat{\sigma}_{k,n}^2 - \varepsilon_{k,n}^+, 0\}$
$UCB_{k,n} = \hat{\sigma}_{k,n}^2 + \varepsilon_{k,n}^-$

Algorithme 3 : Extension Contextuelle

Configuration du problème: Chaque groupe k est associé à un vecteur de paramètres βk, lorsqu'un contexte ct est observé, la récompense est : $X_{k,n} = \beta_k^T c_n + \eta_{k,n}$

Fonction objectif: $\min \mathbb{E}\left[\sum_{k=1}^K \|\hat{\beta}_{k,n_k} - \beta_k\|^2\right]$

Innovations clés:

Utilisation d'estimateurs de régression ridge
Stratégie d'échantillonnage décider-puis-observer
Préservation de l'indépendance des vecteurs de contexte

Configuration Expérimentale

Ensembles de Données

Distribution gaussienne: K=4 groupes, moyennes échantillonnées de U(-1,1), variances {1, 1.5, 2, 2.5}
Rademacher + Gaussienne: Reproduction de la configuration expérimentale de Carpentier et al.
Distribution Bêta symétrique: Vérification des avantages de la propriété strictement sous-gaussienne
Configuration contextuelle: K∈{5,10,20}, dimension d=4, contextes échantillonnés uniformément de l'hypercube

Métriques d'Évaluation

Regret empirique: $R_p(n^{\pi}) - R_p(n^*)$
Précision des bornes théoriques
Vitesse de convergence de l'algorithme

Méthodes de Comparaison

Configuration sous-gaussienne générale (GSG) vs strictement sous-gaussienne (SSG)
Borne inférieure de variance connue vs inconnue
Performance pour différentes valeurs de p

Résultats Expérimentaux

Résultats Principaux

Précision des bornes théoriques: Les bornes théoriques dans le contexte strictement sous-gaussien sont plus proches des résultats empiriques, particulièrement lorsque p=∞.
Impact de la borne inférieure de variance: Lorsque la borne inférieure de variance est inconnue, les performances de l'algorithme diminuent significativement, cette diminution se produisant à des moments différents dans les configurations GSG et SSG.
Complexité temporelle: La longueur de la première phase dans la configuration SSG diminue significativement, passant d'une dépendance en σ² à une simple constante dépendant de log T.

Résultats Numériques Spécifiques

Dans les expériences gaussiennes, lorsque T > 2×10⁴, l'algorithme commence à afficher les performances théoriquement attendues
La borne théorique dans la configuration SSG est environ un ordre de grandeur plus serrée que celle de la configuration GSG
Dans les expériences contextuelles, la pente du regret empirique est proche de -2, cohérente avec les prédictions théoriques

Études d'Ablation

Strictement sous-gaussienne vs généralement sous-gaussienne: Les distributions strictement sous-gaussiennes fournissent de meilleurs facteurs constants et une implémentation d'algorithme plus simple
Comparaison pour différentes valeurs de p: p=∞ fournit la borne théorique la plus serrée
Impact de la dimension contextuelle: Avec l'augmentation du nombre de bras, les performances maintiennent une relation d'échelle stable

Travaux Connexes

Estimation de Moyennes Multi-groupes

Antos et al. (2008, 2010): Premiers travaux sur l'apprentissage actif sous bruit hétéroscédastique
Carpentier et al. (2011): Proposition d'algorithmes de type UCB pour les bandits multi-bras avec apprentissage actif
Aznag et al. (2023): Introduction de la fonction objectif norme-p et établissement de bornes inférieures

Théorie de Concentration de Variance

Développements modernes de l'inégalité de Hanson-Wright
Identification et propriétés des distributions strictement sous-gaussiennes
Améliorations des bornes de Bernstein empiriques

Bandits Contextuels

Estimation de paramètres dans les bandits linéaires
Applications de la théorie de la conception expérimentale
Limitations des algorithmes de type UCB dans les contextes contextuels

Analyse Théorique

Résultats Théoriques Principaux

Théorème 3.1 (Algorithme non-adaptatif, p=∞): $\mathbb{E}[R_p(n^{\pi_1}) - R_p(n^*)] \leq 4\sqrt{2}\sigma^2 F_{Alg1,\infty}(\lambda, \sigma^2) T^{-3/2}\sqrt{\log T} + o(T^{-3/2})$

Théorème 3.2 (Algorithme non-adaptatif, p<∞): $\mathbb{E}[R_p(n^{\pi_1}) - R_p(n^*)] \leq 24\sigma^4 F_{Alg1,p}(\lambda, \sigma^2) T^{-2}\log T + o(T^{-2})$

Théorème 4.1 (Algorithme adaptatif): Fournit des bornes du même ordre, avec des facteurs constants légèrement différents.

Améliorations Clés

Concentration de variance: Utilisation de l'inégalité de Hanson-Wright pour améliorer les inégalités de concentration d'estimation de variance, suppression d'un facteur $\sqrt{\log(1/\delta)}$ .
Strictement sous-gaussienne: Identification de la classe de distributions strictement sous-gaussiennes, où le paramètre de variance égale la variance réelle, fournissant des bornes plus précises.
Conception sans exploration: Preuve que l'exploration de type UCB est redondante dans ce problème, car la solution optimale elle-même exige que chaque bras soit échantillonné Θ(T) fois.

Conclusions et Discussion

Conclusions Principales

Principe sans exploration: La structure du problème d'estimation de moyennes multi-groupes rend l'exploration explicite inutile, contrastant fortement avec les bandits multi-bras traditionnels.
Améliorations théoriques: Par l'amélioration des inégalités de concentration de variance et l'identification de distributions strictement sous-gaussiennes, réalisation de bornes théoriques plus serrées.
Conception d'algorithmes: Les algorithmes proposés réalisent des performances asymptotiquement optimales tout en maintenant la simplicité.
Extensibilité: Extension réussie du cadre au contexte contextuel, ouvrant de nouvelles directions de recherche.

Limitations

Hypothèses de distribution: Les algorithmes dépendent de l'hypothèse sous-gaussienne, pouvant ne pas s'appliquer aux distributions à queues lourdes.
Facteurs constants: Bien qu'asymptotiquement optimaux, les facteurs constants peuvent être importants dans les cas de petits échantillons.
Restrictions contextuelles: L'extension contextuelle exige une stratégie décider-puis-observer, limitant la flexibilité des applications pratiques.

Directions Futures

Distributions structurées: Étude de l'exploitation d'informations de structure de distribution supplémentaires pour améliorer davantage les algorithmes.
Extensions non-paramétriques: Extension des méthodes aux contextes non-paramétriques.
Applications pratiques: Vérification de l'efficacité des algorithmes dans des domaines d'application spécifiques (tests A/B, essais cliniques).

Évaluation Approfondie

Points Forts

Contributions théoriques significatives: Améliorations substantielles en théorie de concentration de variance et conception d'algorithmes.
Intuitions profondes sur le problème: Identification des différences fondamentales entre l'estimation de moyennes multi-groupes et les problèmes de bandits traditionnels.
Conception de méthodes élégante: Algorithmes simples et intuitifs, faciles à comprendre et à implémenter.
Vérification expérimentale complète: Vérification des résultats théoriques via plusieurs distributions et configurations.

Insuffisances

Vérification d'application pratique limitée: Manque de validation à grande échelle sur des ensembles de données réelles.
Analyse de complexité computationnelle: Pas d'analyse détaillée de la complexité computationnelle des algorithmes.
Discussion insuffisante de robustesse: Manque d'analyse des performances lorsque les hypothèses de distribution sont violées.

Impact

Valeur théorique: Fournit un nouveau cadre théorique pour les problèmes d'inférence multi-groupes.
Valeur pratique: Valeur d'application directe dans la conception expérimentale, les recommandations personnalisées et autres domaines.
Reproductibilité: Description claire des algorithmes, analyse théorique complète, bonne reproductibilité.

Scénarios d'Application

Tests A/B: Scénarios nécessitant des comparaisons équitables entre plusieurs groupes d'utilisateurs.
Essais cliniques: Évaluation de l'efficacité thérapeutique de plusieurs groupes de traitement.
Études de marché: Estimation précise des préférences de différentes populations.
Systèmes de recommandation: Garantie d'équité multi-groupes dans les recommandations personnalisées.

Références

Cet article cite plusieurs travaux connexes importants, notamment :

Aznag et al. (2023): A framework for active learning in multi-group mean estimation
Carpentier et al. (2011): Upper-confidence-bound algorithms for active learning in multi-armed bandits
Travaux théoriques connexes sur l'inégalité de Hanson-Wright
Résultats classiques sur les distributions sous-gaussiennes et la concentration de variance

Cet article apporte des contributions importantes tant sur le plan théorique que méthodologique, fournissant une nouvelle perspective et des solutions efficaces au problème d'estimation de moyennes multi-groupes. La proposition d'algorithmes sans exploration remet en question le paradigme classique exploration-exploitation des bandits multi-bras traditionnels, possédant une importance théorique et une valeur pratique significatives.