Revisiting Social Welfare in Bandits: UCB is (Nearly) All You Need
Sarkar, Pandey, Chowdhury
Regret in stochastic multi-armed bandits traditionally measures the difference between the highest reward and either the arithmetic mean of accumulated rewards or the final reward. These conventional metrics often fail to address fairness among agents receiving rewards, particularly in settings where rewards are distributed across a population, such as patients in clinical trials. To address this, a recent body of work has introduced Nash regret, which evaluates performance via the geometric mean of accumulated rewards, aligning with the Nash social welfare function known for satisfying fairness axioms.
To minimize Nash regret, existing approaches require specialized algorithm designs and strong assumptions, such as multiplicative concentration inequalities and bounded, non-negative rewards, making them unsuitable for even Gaussian reward distributions. We demonstrate that an initial uniform exploration phase followed by a standard Upper Confidence Bound (UCB) algorithm achieves near-optimal Nash regret, while relying only on additive Hoeffding bounds, and naturally extending to sub-Gaussian rewards. Furthermore, we generalize the algorithm to a broad class of fairness metrics called the $p$-mean regret, proving (nearly) optimal regret bounds uniformly across all $p$ values. This is in contrast to prior work, which made extremely restrictive assumptions on the bandit instances and even then achieved suboptimal regret bounds.
academic
Переосмотр социального благосостояния в многоруких бандитах: UCB — это (почти) всё, что вам нужно
В данной работе исследуется проблема справедливости в задаче многоруких бандитов (Multi-Armed Bandits, MAB). Традиционная метрика сожаления (regret), основанная на арифметическом среднем, не гарантирует справедливость между пользователями. Для решения этой проблемы в литературе введена метрика сожаления Нэша (Nash regret), основанная на геометрическом среднем. Однако существующие методы минимизации сожаления Нэша требуют специализированного проектирования алгоритмов и строгих предположений (таких как мультипликативные неравенства концентрации, ограниченные неотрицательные награды) и даже не применимы к гауссовым распределениям. В данной работе показано, что посредством адаптивной к данным начальной фазы равномерного исследования в сочетании со стандартным алгоритмом UCB можно достичь почти оптимального сожаления Нэша, опираясь только на аддитивное неравенство Хёффдинга, которое естественным образом распространяется на субгауссовы награды. Кроме того, авторы обобщают алгоритм на широкий класс мер справедливости — сожаление p-среднего, доказывая (почти) оптимальные границы сожаления для всех значений p без строгих предположений предыдущих работ.
Основная проблема: В задаче многоруких бандитов, как максимизировать кумулятивное вознаграждение, одновременно обеспечивая справедливость между временными шагами (соответствующими различным пользователям/пациентам)? Традиционное среднее сожаление (Average Regret) фокусируется только на общей полезности, что может привести к получению экстремально низких вознаграждений на некоторых временных шагах, что не обеспечивает справедливости.
Важность: В клинических испытаниях, распределении ресурсов и других приложениях каждый временной шаг соответствует отдельному индивиду (например, пациенту). Оптимизация только средней полезности может привести к несправедливому обращению с некоторыми индивидами, что неприемлемо с этической и социальной точек зрения.
Ограничения существующих методов:
Barman et al. (2023) предложили алгоритм Nash Confidence Bound (NCB), но он зависит от мультипликативных неравенств Хёффдинга/Чернова, требует ограниченных неотрицательных вознаграждений, не применим к гауссовым и другим общим распределениям, и неявно требует знания верхней границы μ*
Krishna et al. (2025) исследовали сожаление p-среднего, но требуют, чтобы ожидаемое вознаграждение каждого рычага было не менее Ω̃(√k/T^(1/4)), это предположение чрезвычайно строгое, исключает многие практические сценарии, и при некоторых значениях p граница сожаления субоптимальна
Исследовательская мотивация: Разработать универсальную схему, использующую классический алгоритм UCB для достижения целей справедливости, без необходимости в специально разработанных доверительных интервалах, применимую к общим субгауссовым распределениям, без нереалистичных предположений о неизвестных средних.
Схема редукции: Предложена схема редукции минимизации сожаления Нэша/p-среднего к кратковременному адаптивному к данным равномерному исследованию + стандартному алгоритму бандита (например, UCB), ключевое нововведение — адаптивное правило остановки
Проектирование алгоритма: Разработан алгоритм Welfarist-UCB с двухэтапной стратегией:
Этап I: Равномерное исследование до выполнения адаптивного условия завершения
Этап II: Исследование-использование с использованием стандартного индекса UCB
Теоретические гарантии:
Для сожаления Нэша (p=0): достигается граница Õ(σ√(k/T)) порядка-оптимальная, применима к σ-субгауссовым вознаграждениям
Для p∈0,1: достигается граница Õ(σ√(k/T)) порядка-оптимальная
Для p∈[-1,0): достигается граница Õ(k/√T), превосходит Õ(k^(3/4)T^(-1/4)) из Krishna et al.
Для p<-1: достигается граница Õ(|p|k^((|p|+1)/2)/√T), строго превосходит предыдущие работы в практически релевантном диапазоне T
Техническое нововведение: Использование аддитивного неравенства Хёффдинга вместо мультипликативного, избегает строгих ограничений на распределение вознаграждений и не требует верхней границы μ*
Экспериментальная проверка: Численное моделирование проверяет эффективность алгоритма при различных значениях p, демонстрирует принцип "отсутствия бесплатного обеда": более строгие требования справедливости приводят к более высокому сожалению
k рычагов, каждый рычаг i с распределением вознаграждения ρᵢ, являющимся σ-субгауссовым, с неизвестным средним μᵢ≥0
Временной диапазон T
Параметр справедливости p∈(-∞,1]
Выходные данные: Рычаг Iₜ, выбираемый на каждом раунде t∈T
Цель: Минимизировать сожаление p-среднего
RTp:=μ∗−(T1∑t=1T(E[μIt])p)1/p
где μ*=maxᵢμᵢ. В частности, p=0 соответствует сожалению Нэша (геометрическое среднее).
Нововведение: Знаменатель в условии завершения (μ^i−2ni2σ2logT)2 гарантирует, что Этап I завершается после Θ(1/(μ*)²) раундов, а не фиксированных Θ(√T) или Θ(1/μ*) раундов.
Обоснованность:
Когда μ* велико, требуется меньше исследования для идентификации хорошего рычага
Когда μ* мало, требуется больше исследования для различения рычагов
Эта адаптивность гарантирует, что для любого вытянутого рычага i, ξi:=μ∗ni22σ2logT≤1/2, что является ключевым для контроля сожаления Нэша
Ключевое наблюдение: Стратегия выборки перестановок на Этапе I эквивалентна независимому равномерному выбору на каждом раунде в маргинальном распределении, т.е. PrIₜ=i=1/k, следовательно 𝔼μ_{Iₜ}≥μ*/k.
Техническое значение: Эта статическая связь (static coupling) упрощает анализ Этапа I, позволяя напрямую использовать свойства равномерной выборки.
С уменьшением p (усиление требований справедливости) сожаление p-среднего постоянно растёт
Подтверждает гипотезу "отсутствия бесплатного обеда": более строгая справедливость требует более высокого сожаления
Когда p→-∞ (справедливость Роулса), граница сожаления становится пустой, указывая на недостижимость экстремальной справедливости в краткосрочном периоде
Практическая эффективность: Welfarist-UCB демонстрирует превосходную практическую производительность во всех протестированных сценариях
Робастность распределения: Алгоритм эффективен для различных распределений вознаграждений (Бернулли, гауссовы), подтверждает широкую применимость теории
Компромисс справедливость-полезность: Эксперименты ясно демонстрируют компромисс между параметром справедливости p и сожалением, предоставляя руководство для выбора подходящего p в практических приложениях
Скорость сходимости: При всех интервалах p скорость снижения сожаления Welfarist-UCB соответствует теоретическим предсказаниям и превосходит существующие методы
Справедливость рычагов (Joseph et al. 2016; Patil et al. 2021): Гарантирует справедливое обращение с различными рычагами
Справедливость многоагентов (Hossain et al. 2021; Jones et al. 2023): Справедливое распределение вознаграждений между несколькими агентами на каждом вытягивании
Фокус данной работы: Справедливость между временными шагами, каждый временной шаг соответствует отдельному индивиду
Теоретический вклад: Доказано, что классический алгоритм UCB в сочетании с адаптивным исследованием может достичь почти оптимальных гарантий справедливости без специализированного проектирования доверительных интервалов
Практическое значение: Делает последовательное принятие решений с учётом справедливости более практичным и широко применимым, особенно в сценариях, требующих обработки общих распределений (например, гауссовых)
Принцип "отсутствия бесплатного обеда": Более строгие требования справедливости по сути увеличивают сложность задачи обучения, требуя больше образцов для достижения низкого сожаления
Клинические испытания: Требуют исследования эффективных методов лечения при одновременном справедливом обращении с каждым пациентом
Распределение ресурсов: Онлайн-распределение ограниченных ресурсов (например, вычислительные ресурсы, рекламные места) различным пользователям, требует баланса эффективности и справедливости
Системы рекомендаций: Рекомендация контента пользователям в разные временные периоды, требует избежать экстремально плохого опыта пользователей в некоторые периоды
A/B тестирование: При тестировании продукта требуется учитывать благосостояние участников, а не только средние показатели
Распределение образовательных ресурсов: Распределение образовательных ресурсов студентам, поступившим в разные периоды, требует справедливости между когортами
Неприменимые сценарии:
Приложения, требующие экстремальной справедливости Роулса (p→-∞) в краткосрочном периоде (теоретическая граница становится пустой)
Сценарии с распределениями вознаграждений с тяжёлыми хвостами или не-субгауссовы
Приложения, где μᵢ может быть значительно отрицательным
Barman et al. (2023): "Fairness and welfare quantification for regret in multi-armed bandits" — впервые предложили концепцию сожаления Нэша
Krishna et al. (2025): "p-mean regret for stochastic bandits" — исследуют общее сожаление p-среднего
Bubeck et al. (2012): "Regret analysis of stochastic and nonstochastic multi-armed bandit problems" — классический учебник по MAB
Moulin (2004): "Fair division and collective welfare" — аксиоматическая основа благосостояния p-среднего
Sawarni et al. (2024): "Nash regret guarantees for linear bandits" — сожаление Нэша в линейных бандитах
Общая оценка: Это высококачественная статья по теоретическому машинному обучению, вносящая значительный вклад в область алгоритмов бандитов с учётом справедливости. Посредством изящного проектирования алгоритма и строгого теоретического анализа доказано, что простые методы (UCB) эффективны для сложных целей (справедливость). Теоретические результаты мощны, экспериментальная проверка достаточна, область значительно продвинута. Основные недостатки — отсутствие проверки на реальных данных и некоторые теоретические пробелы (например, нижние границы при p<-1). Рекомендуется, чтобы последующие работы сосредоточились на проверке практического применения и теоретическом совершенствовании.