Revisiting Social Welfare in Bandits: UCB is (Nearly) All You Need
Sarkar, Pandey, Chowdhury
Regret in stochastic multi-armed bandits traditionally measures the difference between the highest reward and either the arithmetic mean of accumulated rewards or the final reward. These conventional metrics often fail to address fairness among agents receiving rewards, particularly in settings where rewards are distributed across a population, such as patients in clinical trials. To address this, a recent body of work has introduced Nash regret, which evaluates performance via the geometric mean of accumulated rewards, aligning with the Nash social welfare function known for satisfying fairness axioms.
To minimize Nash regret, existing approaches require specialized algorithm designs and strong assumptions, such as multiplicative concentration inequalities and bounded, non-negative rewards, making them unsuitable for even Gaussian reward distributions. We demonstrate that an initial uniform exploration phase followed by a standard Upper Confidence Bound (UCB) algorithm achieves near-optimal Nash regret, while relying only on additive Hoeffding bounds, and naturally extending to sub-Gaussian rewards. Furthermore, we generalize the algorithm to a broad class of fairness metrics called the $p$-mean regret, proving (nearly) optimal regret bounds uniformly across all $p$ values. This is in contrast to prior work, which made extremely restrictive assumptions on the bandit instances and even then achieved suboptimal regret bounds.
본 논문은 다중팔 밴딧(Multi-Armed Bandits, MAB) 문제에서의 공정성 문제를 연구합니다. 전통적인 후회(regret) 지표는 산술평균을 기반으로 하므로 사용자 간 공정성을 보장할 수 없습니다. 이를 해결하기 위해 학계에서는 기하평균 기반의 내시 후회(Nash regret) 지표를 도입했습니다. 그러나 내시 후회를 최소화하는 기존 방법들은 특별한 알고리즘 설계와 강한 가정(예: 곱셈적 농도 부등식, 유계 비음수 보상)을 필요로 하며, 가우스 분포에도 적용되지 않습니다. 본 논문은 데이터 적응형 초기 균등 탐색 단계와 표준 UCB 알고리즘을 결합하면 거의 최적의 내시 후회를 달성할 수 있음을 증명합니다. 이는 가법적 Hoeffding 부등식에만 의존하며 부분-가우스 보상으로 자연스럽게 확장됩니다. 더 나아가, 본 논문은 알고리즘을 p-평균 후회라는 광범위한 공정성 측도 범주로 확장하여, 모든 p 값에 대해 (거의) 최적의 후회 한계를 증명하며, 이전 연구의 엄격한 가정이 필요하지 않습니다.
핵심 문제: 다중팔 밴딧 문제에서 누적 보상을 최대화하면서 동시에 시간 단계(서로 다른 사용자/환자에 해당)에 걸친 공정성을 보장하려면 어떻게 해야 할까요? 전통적인 평균 후회(Average Regret)는 전체 효용만 고려하므로 특정 시간 단계에서 극히 낮은 보상을 받을 수 있으며, 공정성 보장이 부족합니다.
중요성: 임상시험, 자원 할당 등의 응용 분야에서 각 시간 단계는 독립적인 개인(예: 환자)에 해당합니다. 평균 효용만 최적화하면 일부 개인이 불공정한 대우를 받을 수 있으며, 이는 윤리적, 사회적 복지 측면에서 받아들일 수 없습니다.
기존 방법의 한계:
Barman et al. (2023): 내시 신뢰도 한계(NCB) 알고리즘을 제안했지만 곱셈적 Hoeffding/Chernoff 부등식에 의존하며, 보상이 유계이고 비음수여야 하고, 가우스 등 일반 분포에 적용되지 않으며, μ*의 상한을 알아야 함
Krishna et al. (2025): p-평균 후회를 연구했지만 각 팔의 기댓값 보상이 최소 Ω̃(√k/T^(1/4))이어야 한다는 극히 엄격한 가정을 요구하며, 많은 실제 시나리오를 배제하고, 특정 p 값에서 후회 한계가 차선적임
연구 동기: 고전적 UCB 알고리즘만으로 공정성 목표를 달성할 수 있는 범용 프레임워크를 개발하되, 특별히 설계된 신뢰도 한계가 필요 없고, 일반적인 부분-가우스 분포에 적용 가능하며, 미지의 평균에 대해 비현실적인 가정을 할 필요가 없어야 합니다.
Barman et al. (2023): "Fairness and welfare quantification for regret in multi-armed bandits" - 내시 후회 개념 최초 제안
Krishna et al. (2025): "p-mean regret for stochastic bandits" - 일반 p-평균 후회 연구
Bubeck et al. (2012): "Regret analysis of stochastic and nonstochastic multi-armed bandit problems" - 고전 MAB 교과서
Moulin (2004): "Fair division and collective welfare" - p-평균 복지의 공리적 기초
Sawarni et al. (2024): "Nash regret guarantees for linear bandits" - 선형 밴딧의 내시 후회
종합 평가: 이는 공정성 인식 밴딧 알고리즘 분야에서 중요한 기여를 한 고품질 이론 기계학습 논문입니다. 정교한 알고리즘 설계와 엄격한 이론 분석을 통해 단순 방법(UCB)이 복잡한 목표(공정성)에서 효과적임을 증명했습니다. 이론 결과는 강력하고 실험 검증은 충분하며 분야에 현저한 추진력을 제공합니다. 주요 부족점은 실제 데이터 검증 부재와 특정 이론적 공백(p<-1의 하한)입니다. 후속 연구는 실제 응용 검증과 이론 완성에 중점을 두기를 권장합니다.