2025-11-24T22:28:17.253920

Exploration-free Algorithms for Multi-group Mean Estimation

Wei, Zhong, Li

We address the problem of multi-group mean estimation, which seeks to allocate a finite sampling budget across multiple groups to obtain uniformly accurate estimates of their means. Unlike classical multi-armed bandits, whose objective is to minimize regret by identifying and exploiting the best arm, the optimal allocation in this setting requires sampling every group on the order of $Î(T)$ times. This fundamental distinction makes exploration-free algorithms both natural and effective. Our work makes three contributions. First, we strengthen the existing results on subgaussian variance concentration using the Hanson-Wright inequality and identify a class of strictly subgaussian distributions that yield sharper guarantees. Second, we design exploration-free non-adaptive and adaptive algorithms, and we establish tighter regret bounds than the existing results. Third, we extend the framework to contextual bandit settings, an underexplored direction, and propose algorithms that leverage side information with provable guarantees. Overall, these results position exploration-free allocation as a principled and efficient approach to multi-group mean estimation, with potential applications in experimental design, personalization, and other domains requiring accurate multi-group inference.

academic

Алгоритмы без исследования для оценки среднего значения в многогрупповых выборках

Основная информация

ID статьи: 2510.10374
Название: Exploration-free Algorithms for Multi-group Mean Estimation
Авторы: Ziyi Wei (Virginia Tech), Huaiyang Zhong (Virginia Tech), Xiaocheng Li (Imperial College London)
Классификация: cs.LG, stat.ML
Дата публикации: 12 октября 2025 г.
Ссылка на статью: https://arxiv.org/abs/2510.10374

Аннотация

В данной работе исследуется задача оценки среднего значения в многогрупповых выборках, целью которой является распределение ограниченного бюджета выборки между несколькими группами для получения согласованных точных оценок их средних значений. В отличие от традиционных многорукавных бандитов (целью которых является минимизация сожаления путём выявления и использования оптимального рукава), оптимальное распределение в данной постановке требует выборки Θ(T) раз из каждой группы. Это фундаментальное различие делает алгоритмы без исследования как естественными, так и эффективными. Статья содержит три основных вклада: во-первых, усиливаются существующие результаты концентрации дисперсии для субгауссовых распределений с использованием неравенства Хансона-Райта и выявляется класс строго субгауссовых распределений, обеспечивающих более точные гарантии; во-вторых, разработаны неадаптивные и адаптивные алгоритмы без исследования с более точными границами сожаления, чем существующие результаты; в-третьих, структура расширена на контекстные бандиты, что является недостаточно изученным направлением, предложены алгоритмы, использующие вспомогательную информацию, и даны доказуемые гарантии.

Исследовательский контекст и мотивация

Определение задачи

Задача оценки среднего значения в многогрупповых выборках требует распределения бюджета выборки между K группами в течение конечного временного периода T таким образом, чтобы оценки средних значений всех групп достигали согласованной точности. Конкретно, для k-й группы с распределением вознаграждения Pₖ, средним значением μₖ и дисперсией σₖ², целью является минимизация p-норм целевой функции:

$R_p(n) = \left\|\left\{\frac{\sigma_k^2}{n_k}\right\}_{k=1}^K\right\|_p$

где nₖ — количество выборок из k-й группы.

Исследовательская мотивация

Практические потребности: В опросах общественного мнения, планировании экспериментов, персонализированных рекомендациях и других областях требуется точная и справедливая оценка нескольких групп, а не только оптимальной группы.
Теоретические вызовы: В отличие от традиционных многорукавных бандитов, оптимальная схема распределения требует выборки каждого рукава Θ(T) раз, что делает традиционный компромисс между исследованием и использованием ненужным.
Ограничения существующих методов: Существующие алгоритмы типа UCB вводят ненужные затраты на исследование и не полностью используют структурные особенности задачи.

Основные вклады

Теоретические улучшения: На основе неравенства Хансона-Райта улучшены неравенства концентрации дисперсии для субгауссовых распределений, выявлены классы строго субгауссовых распределений, обеспечивающие более точные теоретические гарантии.
Разработка алгоритмов: Предложены два алгоритма без исследования:
- Неадаптивный алгоритм (требует априорного знания нижней границы дисперсии)
- Адаптивный алгоритм (не требует априорного знания, использует доверительные интервалы)
Расширение структуры: Впервые расширена задача оценки среднего значения в многогрупповых выборках на контекстные бандиты, предложены соответствующие алгоритмы и дан теоретический анализ.
Улучшение производительности: По сравнению с существующими лучшими результатами удалён множитель log T в границе сожаления, достигнута более точная теоретическая граница.

Подробное описание методов

Определение задачи

Дано K групп, где каждая группа k имеет распределение вознаграждения Pₖ с неизвестным средним значением μₖ и дисперсией σₖ². В течение временного периода T на каждом шаге выбирается одна группа для выборки, целью является минимизация p-норм ошибок оценки всех групп.

Оптимальная схема распределения

Предложение 2.1 даёт теоретически оптимальное распределение: $n_k^* = \frac{\sigma_k^q}{\sum_{j=1}^K \sigma_j^q} \cdot T$

где q = 2p/(p+1) (когда p конечно) или q = 2 (когда p = ∞).

Алгоритм 1: Неадаптивное распределение

Основная идея: Двухэтапный процесс

Первый этап: Равномерная выборка из каждой группы τ раз для оценки дисперсии
Второй этап: Распределение оставшегося бюджета в соответствии с оптимальным соотношением на основе оценённой дисперсии

Ключевые параметры:

Начальная длина: $\tau = \frac{\sigma^q}{\sigma^q + (K-1)\underline{\sigma}^q} \cdot T$
Вес распределения: $\lambda_{k,\tau} = \frac{\hat{\sigma}_{k,\tau}^q}{\sum_{j=1}^K \hat{\sigma}_{j,\tau}^q}$

Алгоритм 2: Адаптивный алгоритм

Улучшения: Не требует априорного знания нижней границы дисперсии, адаптивно корректирует через доверительные интервалы.

Основной механизм:

Построение доверительного интервала: На основе улучшенного неравенства концентрации дисперсии строятся нижняя и верхняя границы доверия
Адаптивная остановка: Динамическое вычисление времени остановки для каждой группы
Стратегия исключения рукавов: Аналогично технике исключения в оптимальной идентификации рукава

Доверительные интервалы:

$LCB_{k,n} = \max\{\hat{\sigma}_{k,n}^2 - \varepsilon_{k,n}^+, 0\}$
$UCB_{k,n} = \hat{\sigma}_{k,n}^2 + \varepsilon_{k,n}^-$

Алгоритм 3: Контекстное расширение

Постановка задачи: Каждая группа k связана с вектором параметров βₖ, при наблюдении контекста cₜ вознаграждение равно: $X_{k,n} = \beta_k^T c_n + \eta_{k,n}$

Целевая функция: $\min \mathbb{E}\left[\sum_{k=1}^K \|\hat{\beta}_{k,n_k} - \beta_k\|^2\right]$

Ключевые инновации:

Использование оценщика гребневой регрессии
Стратегия выборки «сначала решить, потом наблюдать»
Сохранение независимости векторов контекста

Экспериментальная установка

Наборы данных

Гауссово распределение: K=4 группы, средние значения выбраны из U(-1,1), дисперсии {1, 1.5, 2, 2.5}
Радемахер + гауссово: Воспроизведение экспериментальной установки Карпентье и др.
Симметричное бета-распределение: Проверка преимуществ строго субгауссовых свойств
Контекстная установка: K∈{5,10,20}, размерность d=4, контексты равномерно выбраны из гиперкуба

Метрики оценки

Эмпирическое сожаление: $R_p(n^{\pi}) - R_p(n^*)$
Точность теоретических границ
Скорость сходимости алгоритма

Методы сравнения

Общее субгауссово (GSG) против строго субгауссова (SSG) распределения
Известная нижняя граница дисперсии против неизвестной
Сравнение производительности при различных значениях p

Результаты экспериментов

Основные результаты

Точность теоретических границ: Теоретические границы в условиях строго субгауссова распределения более близки к эмпирическим результатам, особенно при p=∞.
Влияние нижней границы дисперсии: Когда нижняя граница дисперсии неизвестна, производительность алгоритма значительно снижается, причём это снижение происходит в разные моменты времени в условиях GSG и SSG.
Временная сложность: Длина первого этапа в условиях SSG значительно сокращается, переходя от зависимости σ² к константе, зависящей только от log T.

Конкретные числовые результаты

В гауссовых экспериментах при T > 2×10⁴ алгоритм начинает демонстрировать ожидаемую теоретическую производительность
Теоретическая граница в условиях SSG примерно на порядок точнее, чем в условиях GSG
В контекстных экспериментах наклон эмпирического сожаления близок к -2, что согласуется с теоретическим прогнозом

Абляционные исследования

Строго субгауссово против общего субгауссова: Строго субгауссовы распределения обеспечивают лучшие постоянные множители и более простую реализацию алгоритма
Сравнение различных значений p: При p=∞ достигается наиболее точная теоретическая граница
Влияние размерности контекста: При увеличении количества рукавов производительность сохраняет стабильное масштабирование

Связанные работы

Оценка среднего значения в многогрупповых выборках

Antos et al. (2008, 2010): Первые исследования активного обучения при гетероскедастичном шуме
Carpentier et al. (2011): Предложены алгоритмы типа UCB для обработки неограниченных случаев
Aznag et al. (2023): Введена p-норм целевая функция и установлены нижние границы

Теория концентрации дисперсии

Современное развитие неравенства Хансона-Райта
Выявление и свойства строго субгауссовых распределений
Улучшения эмпирических границ Бернштейна

Контекстные бандиты

Оценка параметров в линейных бандитах
Применение теории планирования экспериментов
Ограничения алгоритмов типа UCB в контекстных условиях

Теоретический анализ

Основные теоретические результаты

Теорема 3.1 (Неадаптивный алгоритм, p=∞): $\mathbb{E}[R_p(n^{\pi_1}) - R_p(n^*)] \leq 4\sqrt{2}\sigma^2 F_{Alg1,\infty}(\lambda, \sigma^2) T^{-3/2}\sqrt{\log T} + o(T^{-3/2})$

Теорема 3.2 (Неадаптивный алгоритм, p<∞): $\mathbb{E}[R_p(n^{\pi_1}) - R_p(n^*)] \leq 24\sigma^4 F_{Alg1,p}(\lambda, \sigma^2) T^{-2}\log T + o(T^{-2})$

Теорема 4.1 (Адаптивный алгоритм): Обеспечивает границы того же порядка, но с несколько отличающимися постоянными множителями.

Ключевые улучшения

Концентрация дисперсии: Использование неравенства Хансона-Райта улучшает неравенство концентрации для оценки дисперсии, удаляя множитель $\sqrt{\log(1/\delta)}$ .
Строго субгауссово: Выявлены классы строго субгауссовых распределений, в которых параметр дисперсии равен истинной дисперсии, обеспечивая более точные границы.
Конструкция без исследования: Доказано, что явное исследование типа UCB является избыточным в данной задаче, поскольку оптимальное решение само по себе требует выборки каждого рукава Θ(T) раз.

Заключение и обсуждение

Основные выводы

Принцип без исследования: Структура задачи оценки среднего значения в многогрупповых выборках делает явное исследование ненужным, что резко контрастирует с традиционными многорукавными бандитами.
Теоретические улучшения: Благодаря улучшенным неравенствам концентрации дисперсии и выявлению строго субгауссовых распределений достигнуты более точные теоретические границы.
Разработка алгоритмов: Предложенные алгоритмы достигают оптимальной асимптотической производительности при сохранении простоты.
Расширяемость: Успешно расширена структура на контекстные условия, открывая новые направления исследований.

Ограничения

Предположения о распределении: Алгоритмы зависят от субгауссовых предположений и могут быть неприменимы к распределениям с тяжёлыми хвостами.
Постоянные множители: Хотя асимптотически оптимальны, постоянные множители могут быть значительными в случаях малых выборок.
Контекстные ограничения: Контекстное расширение требует стратегии «сначала решить, потом наблюдать», что ограничивает гибкость практического применения.

Будущие направления

Структурированные распределения: Исследование способов использования дополнительной информации о структуре распределения для дальнейшего улучшения алгоритмов.
Непараметрические расширения: Расширение методов на непараметрические условия.
Практическое применение: Проверка эффективности алгоритмов в конкретных областях применения (например, A/B-тестирование, клинические испытания).

Глубокая оценка

Преимущества

Значительный теоретический вклад: Существенные улучшения как в теории концентрации дисперсии, так и в разработке алгоритмов.
Глубокие проблемные инсайты: Выявлены фундаментальные различия между оценкой среднего значения в многогрупповых выборках и традиционными задачами многорукавных бандитов.
Элегантная разработка методов: Алгоритмы просты, интуитивны и легко понимаются и реализуются.
Полная экспериментальная проверка: Теоретические результаты проверены на различных распределениях и условиях.

Недостатки

Ограниченная проверка практического применения: Отсутствует масштабная проверка на реальных наборах данных.
Анализ вычислительной сложности: Отсутствует подробный анализ вычислительной сложности алгоритмов.
Недостаточное обсуждение робастности: Недостаточный анализ производительности при нарушении предположений о распределении.

Влияние

Теоретическая ценность: Предоставляет новую теоретическую структуру для задач многогруппового вывода.
Практическая ценность: Имеет прямое применение в планировании экспериментов, персонализированных рекомендациях и других областях.
Воспроизводимость: Алгоритмы описаны ясно, теоретический анализ полон, обеспечивая хорошую воспроизводимость.

Применимые сценарии

A/B-тестирование: Сценарии, требующие справедливого сравнения нескольких групп пользователей.
Клинические испытания: Оценка эффективности лечения для нескольких групп лечения.
Маркетинговые исследования: Точная оценка предпочтений различных групп населения.
Системы рекомендаций: Обеспечение справедливости в отношении нескольких групп при персонализированных рекомендациях.

Библиография

Статья ссылается на множество важных связанных работ, включая:

Aznag et al. (2023): Структура активного обучения для оценки среднего значения в многогрупповых выборках
Carpentier et al. (2011): Алгоритмы верхней доверительной границы для активного обучения в многорукавных бандитах
Теоретические работы, связанные с неравенством Хансона-Райта
Классические результаты по субгауссовым распределениям и концентрации дисперсии

Данная статья содержит важные вклады как в теорию, так и в методологию, предоставляя новую перспективу и эффективные решения для задачи оценки среднего значения в многогрупповых выборках. Предложение алгоритмов без исследования опровергает классическую парадигму компромисса между исследованием и использованием в традиционных многорукавных бандитах, имея важное теоретическое значение и практическую ценность.