Exploration-free Algorithms for Multi-group Mean Estimation
Wei, Zhong, Li
We address the problem of multi-group mean estimation, which seeks to allocate a finite sampling budget across multiple groups to obtain uniformly accurate estimates of their means. Unlike classical multi-armed bandits, whose objective is to minimize regret by identifying and exploiting the best arm, the optimal allocation in this setting requires sampling every group on the order of $Î(T)$ times. This fundamental distinction makes exploration-free algorithms both natural and effective. Our work makes three contributions. First, we strengthen the existing results on subgaussian variance concentration using the Hanson-Wright inequality and identify a class of strictly subgaussian distributions that yield sharper guarantees. Second, we design exploration-free non-adaptive and adaptive algorithms, and we establish tighter regret bounds than the existing results. Third, we extend the framework to contextual bandit settings, an underexplored direction, and propose algorithms that leverage side information with provable guarantees. Overall, these results position exploration-free allocation as a principled and efficient approach to multi-group mean estimation, with potential applications in experimental design, personalization, and other domains requiring accurate multi-group inference.
본 논문은 다중군집 평균 추정 문제를 연구하며, 제한된 표본 예산을 여러 군집에 배분하여 각 군집의 평균에 대한 일관되게 정확한 추정을 얻는 것을 목표로 한다. 전통적인 다중팔 밴딧과 달리(최적 팔을 식별하고 활용하여 후회를 최소화하는 것이 목표), 이 설정에서의 최적 배분은 각 군집을 Θ(T)번 표본화해야 한다. 이러한 근본적인 차이로 인해 탐색-자유 알고리즘이 자연스럽고 효과적이다. 본 논문은 세 가지 주요 기여를 한다: 첫째, Hanson-Wright 부등식을 사용하여 준가우시안 분산 집중의 기존 결과를 강화하고, 더 날카로운 보장을 생성할 수 있는 엄격한 준가우시안 분포 클래스를 식별한다. 둘째, 탐색-자유의 비적응형 및 적응형 알고리즘을 설계하여 기존 결과보다 더 타이트한 후회 경계를 확립한다. 셋째, 프레임워크를 문맥적 밴딧 설정으로 확장하며, 이는 탐색이 부족한 방향이고, 보조 정보를 활용하는 알고리즘을 제안하고 증명 가능한 보장을 제공한다.
다중군집 평균 추정 문제는 제한된 시간 범위 T 내에서 K개 군집에 표본 예산을 배분하여 모든 군집의 평균 추정이 일관된 정확도에 도달하도록 요구한다. 구체적으로, 제k 군집에 대해 보상 분포가 Pk이고 평균이 μk, 분산이 σk²일 때, 목표는 p-노름 목적함수를 최소화하는 것이다: