2025-11-24T22:28:17.253920

Exploration-free Algorithms for Multi-group Mean Estimation

Wei, Zhong, Li

We address the problem of multi-group mean estimation, which seeks to allocate a finite sampling budget across multiple groups to obtain uniformly accurate estimates of their means. Unlike classical multi-armed bandits, whose objective is to minimize regret by identifying and exploiting the best arm, the optimal allocation in this setting requires sampling every group on the order of $Î(T)$ times. This fundamental distinction makes exploration-free algorithms both natural and effective. Our work makes three contributions. First, we strengthen the existing results on subgaussian variance concentration using the Hanson-Wright inequality and identify a class of strictly subgaussian distributions that yield sharper guarantees. Second, we design exploration-free non-adaptive and adaptive algorithms, and we establish tighter regret bounds than the existing results. Third, we extend the framework to contextual bandit settings, an underexplored direction, and propose algorithms that leverage side information with provable guarantees. Overall, these results position exploration-free allocation as a principled and efficient approach to multi-group mean estimation, with potential applications in experimental design, personalization, and other domains requiring accurate multi-group inference.

academic

探索フリーアルゴリズムを用いた多群体平均値推定

基本情報

論文ID: 2510.10374
タイトル: Exploration-free Algorithms for Multi-group Mean Estimation
著者: Ziyi Wei (Virginia Tech)、Huaiyang Zhong (Virginia Tech)、Xiaocheng Li (Imperial College London)
分類: cs.LG、stat.ML
発表日: 2025年10月12日
論文リンク: https://arxiv.org/abs/2510.10374

要約

本論文は多群体平均値推定問題を研究しており、限定的なサンプリング予算を複数の群体に配分し、それらの平均値に対する一貫性のある正確な推定を得ることを目的としている。従来の多腕バンディット問題と異なり（その目的は最適腕を識別・利用することで遺憾を最小化すること）、本設定における最適配分では各群体をΘ(T)回サンプリングする必要がある。この根本的な違いにより、探索フリーアルゴリズムは自然かつ有効となる。本論文は3つの主要な貢献を行う：第一に、Hanson-Wright不等式を用いて亜ガウス分散集中の既存結果を強化し、より鋭い保証を生成できる厳密亜ガウス分布のクラスを特定する；第二に、探索フリーの非適応的および適応的アルゴリズムを設計し、既存結果より緊密な遺憾界を確立する；第三に、フレームワークを文脈バンディット設定に拡張し、これは探索不足の方向であり、補助情報を利用するアルゴリズムを提案し、証明可能な保証を与える。

研究背景と動機

問題定義

多群体平均値推定問題は、有限時間範囲T内で、K個の群体へのサンプリング予算を配分し、すべての群体の平均値推定が一貫した精度に達することを要求する。具体的には、第k群体について、その報酬分布をPk、平均値をμk、分散をσk²とするとき、目標はp-ノルム目標を最小化することである：

$R_p(n) = \left\|\left\{\frac{\sigma_k^2}{n_k}\right\}_{k=1}^K\right\|_p$

ここでnkは第k群体に対するサンプリング回数である。

研究動機

実践的応用の必要性：世論調査、実験設計、個性化推奨などの分野では、最適群体のみに関心を持つのではなく、複数の群体に対する正確かつ公平な推定が必要である。
理論的課題：従来の多腕バンディット問題と異なり、最適配分方案では各腕がΘ(T)回サンプリングされることが要求され、これにより従来の探索-利用トレードオフが不要になる。
既存方法の限界：既存のUCB類アルゴリズムは不要な探索コストを導入し、問題の構造特性を十分に活用していない。

核心的貢献

理論的改善：Hanson-Wright不等式に基づいて亜ガウス分散集中不等式を改善し、厳密亜ガウス分布のカテゴリを特定し、より鋭い理論的保証を得る。
アルゴリズム設計：2つの探索フリーアルゴリズムを提案する：
- 非適応的アルゴリズム（分散下界の事前知識が必要）
- 適応的アルゴリズム（事前知識不要、信頼区間を使用）
フレームワークの拡張：多群体平均値推定を文脈バンディット設定に初めて拡張し、対応するアルゴリズムを提案し理論分析を与える。
性能向上：既存の最良結果と比較して、遺憾界からlog T因子を除去し、より緊密な理論界を実現する。

方法の詳細

タスク定義

K個の群体が与えられ、各群体kの報酬分布Pkは未知の平均値μkと分散σk²を有する。時間範囲T内で、各時刻に1つの群体を選択してサンプリングし、目標はすべての群体の推定誤差のp-ノルムを最小化することである。

最適配分方案

命題2.1は理論的最適配分を与える： $n_k^* = \frac{\sigma_k^q}{\sum_{j=1}^K \sigma_j^q} \cdot T$

ここでq = 2p/(p+1)（pが有限のとき）またはq = 2（p = ∞のとき）である。

アルゴリズム1：非適応的配分

核心的考え方：2段階で実行する

第1段階：各群体を均一にτ回サンプリングし、分散を推定する
第2段階：推定された分散に基づいて最適比率で残りの予算を配分する

主要パラメータ：

初期長： $\tau = \frac{\sigma^q}{\sigma^q + (K-1)\underline{\sigma}^q} \cdot T$
配分重み： $\lambda_{k,\tau} = \frac{\hat{\sigma}_{k,\tau}^q}{\sum_{j=1}^K \hat{\sigma}_{j,\tau}^q}$

アルゴリズム2：適応的アルゴリズム

改善点：分散下界の事前知識を必要とせず、信頼区間を通じて適応的に調整する。

核心的メカニズム：

信頼区間の構築：改善された分散集中不等式に基づいてLCBとUCBを構築する
適応的停止：各群体の停止時間を動的に計算する
腕消除戦略：最適腕識別における消除技術に類似

信頼区間：

$LCB_{k,n} = \max\{\hat{\sigma}_{k,n}^2 - \varepsilon_{k,n}^+, 0\}$
$UCB_{k,n} = \hat{\sigma}_{k,n}^2 + \varepsilon_{k,n}^-$

アルゴリズム3：文脈への拡張

問題設定：各群体kはパラメータベクトルβkに関連付けられ、文脈ctを観察したとき、報酬は以下の通りである： $X_{k,n} = \beta_k^T c_n + \eta_{k,n}$

目的関数： $\min \mathbb{E}\left[\sum_{k=1}^K \|\hat{\beta}_{k,n_k} - \beta_k\|^2\right]$

主要な革新：

リッジ回帰推定量の使用
先決定後観察のサンプリング戦略
文脈ベクトルの独立性の維持

実験設定

データセット

ガウス分布：K=4群体、平均値はU(-1,1)からサンプリング、分散は{1、1.5、2、2.5}
Rademacher + ガウス：Carpentierら(2011)の実験設定を再現
対称ベータ分布：厳密亜ガウス性質の優位性を検証
文脈設定：K∈{5,10,20}、次元d=4、文脈は超立方体から均一にサンプリング

評価指標

経験的遺憾： $R_p(n^{\pi}) - R_p(n^*)$
理論上界の緊密性
アルゴリズムの収束速度

比較方法

一般亜ガウス（GSG）設定 vs 厳密亜ガウス（SSG）設定
既知分散下界 vs 未知分散下界
異なるp値の性能比較

実験結果

主要結果

理論界の緊密性：厳密亜ガウス設定下の理論上界は経験的結果とより接近しており、特にp=∞のときに顕著である。
分散下界の影響：分散下界が未知のとき、アルゴリズムの性能は著しく低下し、この低下はGSGおよびSSG設定で異なる時点で発生する。
時間複雑度：SSG設定下の第1段階の長さは著しく減少し、σ²に関連するものからlog Tのみに依存する定数へと変わる。

具体的数値結果

ガウス実験では、T > 2×10⁴のとき、アルゴリズムは理論的に予想される性能を示し始める
SSG設定下の理論界はGSG設定より約1桁緊密である
文脈実験では、経験的遺憾の傾きは-2に近く、理論的予測と一致している

アブレーション実験

厳密亜ガウス vs 一般亜ガウス：厳密亜ガウス分布はより良い定数因子とより単純なアルゴリズム実装を提供する
異なるp値の比較：p=∞のとき最も緊密な理論界を提供する
文脈次元の影響：腕数の増加に伴い、性能は安定したスケーリング関係を保つ

理論分析

主要な理論結果

定理3.1（非適応的アルゴリズム、p=∞）： $\mathbb{E}[R_p(n^{\pi_1}) - R_p(n^*)] \leq 4\sqrt{2}\sigma^2 F_{Alg1,\infty}(\lambda, \sigma^2) T^{-3/2}\sqrt{\log T} + o(T^{-3/2})$