Exploration-free Algorithms for Multi-group Mean Estimation
Wei, Zhong, Li
We address the problem of multi-group mean estimation, which seeks to allocate a finite sampling budget across multiple groups to obtain uniformly accurate estimates of their means. Unlike classical multi-armed bandits, whose objective is to minimize regret by identifying and exploiting the best arm, the optimal allocation in this setting requires sampling every group on the order of $Î(T)$ times. This fundamental distinction makes exploration-free algorithms both natural and effective. Our work makes three contributions. First, we strengthen the existing results on subgaussian variance concentration using the Hanson-Wright inequality and identify a class of strictly subgaussian distributions that yield sharper guarantees. Second, we design exploration-free non-adaptive and adaptive algorithms, and we establish tighter regret bounds than the existing results. Third, we extend the framework to contextual bandit settings, an underexplored direction, and propose algorithms that leverage side information with provable guarantees. Overall, these results position exploration-free allocation as a principled and efficient approach to multi-group mean estimation, with potential applications in experimental design, personalization, and other domains requiring accurate multi-group inference.
academic
Алгоритмы без исследования для оценки среднего значения в многогрупповых выборках
В данной работе исследуется задача оценки среднего значения в многогрупповых выборках, целью которой является распределение ограниченного бюджета выборки между несколькими группами для получения согласованных точных оценок их средних значений. В отличие от традиционных многорукавных бандитов (целью которых является минимизация сожаления путём выявления и использования оптимального рукава), оптимальное распределение в данной постановке требует выборки Θ(T) раз из каждой группы. Это фундаментальное различие делает алгоритмы без исследования как естественными, так и эффективными. Статья содержит три основных вклада: во-первых, усиливаются существующие результаты концентрации дисперсии для субгауссовых распределений с использованием неравенства Хансона-Райта и выявляется класс строго субгауссовых распределений, обеспечивающих более точные гарантии; во-вторых, разработаны неадаптивные и адаптивные алгоритмы без исследования с более точными границами сожаления, чем существующие результаты; в-третьих, структура расширена на контекстные бандиты, что является недостаточно изученным направлением, предложены алгоритмы, использующие вспомогательную информацию, и даны доказуемые гарантии.
Задача оценки среднего значения в многогрупповых выборках требует распределения бюджета выборки между K группами в течение конечного временного периода T таким образом, чтобы оценки средних значений всех групп достигали согласованной точности. Конкретно, для k-й группы с распределением вознаграждения Pₖ, средним значением μₖ и дисперсией σₖ², целью является минимизация p-норм целевой функции:
Практические потребности: В опросах общественного мнения, планировании экспериментов, персонализированных рекомендациях и других областях требуется точная и справедливая оценка нескольких групп, а не только оптимальной группы.
Теоретические вызовы: В отличие от традиционных многорукавных бандитов, оптимальная схема распределения требует выборки каждого рукава Θ(T) раз, что делает традиционный компромисс между исследованием и использованием ненужным.
Ограничения существующих методов: Существующие алгоритмы типа UCB вводят ненужные затраты на исследование и не полностью используют структурные особенности задачи.
Теоретические улучшения: На основе неравенства Хансона-Райта улучшены неравенства концентрации дисперсии для субгауссовых распределений, выявлены классы строго субгауссовых распределений, обеспечивающие более точные теоретические гарантии.
Разработка алгоритмов: Предложены два алгоритма без исследования:
Неадаптивный алгоритм (требует априорного знания нижней границы дисперсии)
Адаптивный алгоритм (не требует априорного знания, использует доверительные интервалы)
Расширение структуры: Впервые расширена задача оценки среднего значения в многогрупповых выборках на контекстные бандиты, предложены соответствующие алгоритмы и дан теоретический анализ.
Улучшение производительности: По сравнению с существующими лучшими результатами удалён множитель log T в границе сожаления, достигнута более точная теоретическая граница.
Дано K групп, где каждая группа k имеет распределение вознаграждения Pₖ с неизвестным средним значением μₖ и дисперсией σₖ². В течение временного периода T на каждом шаге выбирается одна группа для выборки, целью является минимизация p-норм ошибок оценки всех групп.
Точность теоретических границ: Теоретические границы в условиях строго субгауссова распределения более близки к эмпирическим результатам, особенно при p=∞.
Влияние нижней границы дисперсии: Когда нижняя граница дисперсии неизвестна, производительность алгоритма значительно снижается, причём это снижение происходит в разные моменты времени в условиях GSG и SSG.
Временная сложность: Длина первого этапа в условиях SSG значительно сокращается, переходя от зависимости σ² к константе, зависящей только от log T.
Строго субгауссово против общего субгауссова: Строго субгауссовы распределения обеспечивают лучшие постоянные множители и более простую реализацию алгоритма
Сравнение различных значений p: При p=∞ достигается наиболее точная теоретическая граница
Влияние размерности контекста: При увеличении количества рукавов производительность сохраняет стабильное масштабирование
Концентрация дисперсии: Использование неравенства Хансона-Райта улучшает неравенство концентрации для оценки дисперсии, удаляя множитель log(1/δ).
Строго субгауссово: Выявлены классы строго субгауссовых распределений, в которых параметр дисперсии равен истинной дисперсии, обеспечивая более точные границы.
Конструкция без исследования: Доказано, что явное исследование типа UCB является избыточным в данной задаче, поскольку оптимальное решение само по себе требует выборки каждого рукава Θ(T) раз.
Принцип без исследования: Структура задачи оценки среднего значения в многогрупповых выборках делает явное исследование ненужным, что резко контрастирует с традиционными многорукавными бандитами.
Теоретические улучшения: Благодаря улучшенным неравенствам концентрации дисперсии и выявлению строго субгауссовых распределений достигнуты более точные теоретические границы.
Разработка алгоритмов: Предложенные алгоритмы достигают оптимальной асимптотической производительности при сохранении простоты.
Расширяемость: Успешно расширена структура на контекстные условия, открывая новые направления исследований.
Предположения о распределении: Алгоритмы зависят от субгауссовых предположений и могут быть неприменимы к распределениям с тяжёлыми хвостами.
Постоянные множители: Хотя асимптотически оптимальны, постоянные множители могут быть значительными в случаях малых выборок.
Контекстные ограничения: Контекстное расширение требует стратегии «сначала решить, потом наблюдать», что ограничивает гибкость практического применения.
Структурированные распределения: Исследование способов использования дополнительной информации о структуре распределения для дальнейшего улучшения алгоритмов.
Непараметрические расширения: Расширение методов на непараметрические условия.
Практическое применение: Проверка эффективности алгоритмов в конкретных областях применения (например, A/B-тестирование, клинические испытания).
Значительный теоретический вклад: Существенные улучшения как в теории концентрации дисперсии, так и в разработке алгоритмов.
Глубокие проблемные инсайты: Выявлены фундаментальные различия между оценкой среднего значения в многогрупповых выборках и традиционными задачами многорукавных бандитов.
Элегантная разработка методов: Алгоритмы просты, интуитивны и легко понимаются и реализуются.
Полная экспериментальная проверка: Теоретические результаты проверены на различных распределениях и условиях.
Статья ссылается на множество важных связанных работ, включая:
Aznag et al. (2023): Структура активного обучения для оценки среднего значения в многогрупповых выборках
Carpentier et al. (2011): Алгоритмы верхней доверительной границы для активного обучения в многорукавных бандитах
Теоретические работы, связанные с неравенством Хансона-Райта
Классические результаты по субгауссовым распределениям и концентрации дисперсии
Данная статья содержит важные вклады как в теорию, так и в методологию, предоставляя новую перспективу и эффективные решения для задачи оценки среднего значения в многогрупповых выборках. Предложение алгоритмов без исследования опровергает классическую парадигму компромисса между исследованием и использованием в традиционных многорукавных бандитах, имея важное теоретическое значение и практическую ценность.