Revisiting Social Welfare in Bandits: UCB is (Nearly) All You Need
Sarkar, Pandey, Chowdhury
Regret in stochastic multi-armed bandits traditionally measures the difference between the highest reward and either the arithmetic mean of accumulated rewards or the final reward. These conventional metrics often fail to address fairness among agents receiving rewards, particularly in settings where rewards are distributed across a population, such as patients in clinical trials. To address this, a recent body of work has introduced Nash regret, which evaluates performance via the geometric mean of accumulated rewards, aligning with the Nash social welfare function known for satisfying fairness axioms.
To minimize Nash regret, existing approaches require specialized algorithm designs and strong assumptions, such as multiplicative concentration inequalities and bounded, non-negative rewards, making them unsuitable for even Gaussian reward distributions. We demonstrate that an initial uniform exploration phase followed by a standard Upper Confidence Bound (UCB) algorithm achieves near-optimal Nash regret, while relying only on additive Hoeffding bounds, and naturally extending to sub-Gaussian rewards. Furthermore, we generalize the algorithm to a broad class of fairness metrics called the $p$-mean regret, proving (nearly) optimal regret bounds uniformly across all $p$ values. This is in contrast to prior work, which made extremely restrictive assumptions on the bandit instances and even then achieved suboptimal regret bounds.
academic
إعادة النظر في الرفاهية الاجتماعية في خوارزميات القطاع: UCB هو (تقريباً) كل ما تحتاجه
تدرس هذه الورقة مسألة العدالة في مشاكل خوارزميات القطاع متعددة الأذرع (Multi-Armed Bandits, MAB). المقاييس التقليدية للندم (regret) تعتمد على المتوسط الحسابي، وبالتالي لا تضمن العدالة عبر المستخدمين المختلفين. لحل هذه المشكلة، قدمت الأدبيات مقياس ندم ناش (Nash regret) المبني على المتوسط الهندسي. ومع ذلك، فإن الطرق الحالية لتقليل ندم ناش تتطلب تصميم خوارزميات متخصصة وافتراضات قوية (مثل عدم المساواة التركيز الضربية، المكافآت غير السالبة والمحدودة)، وحتى أنها لا تنطبق على التوزيعات الغاوسية. تثبت هذه الورقة أنه من خلال مرحلة استكشاف موحدة أولية قابلة للتكيف مع البيانات، مقترنة بخوارزمية UCB القياسية، يمكن تحقيق ندم ناش شبه الأمثل، معتمداً فقط على حد Hoeffding الإضافي، والذي يمتد بشكل طبيعي إلى المكافآت شبه الغاوسية. علاوة على ذلك، تعمم الورقة الخوارزمية على فئة مقاييس الرفاهية العامة p-mean، مما يثبت حدود الندم (شبه) الأمثلة لجميع قيم p، دون الحاجة إلى الافتراضات الصارمة للأعمال السابقة.
المشكلة الأساسية: في مشاكل خوارزميات القطاع متعددة الأذرع، كيفية تعظيم المكافآت المتراكمة مع ضمان العدالة عبر خطوات زمنية مختلفة (تقابل مستخدمين/مرضى مختلفين)؟ ندم المتوسط التقليدي (Average Regret) يركز فقط على الفائدة الإجمالية، مما قد يؤدي إلى حصول بعض خطوات زمنية على مكافآت منخفضة جداً، مما يفتقد ضمانات العدالة.
الأهمية: في التجارب السريرية وسيناريوهات تخصيص الموارد، تقابل كل خطوة زمنية فرداً مستقلاً (مثل المريض). تحسين الفائدة المتوسطة فقط قد يؤدي إلى معاملة غير عادلة لبعض الأفراد، وهذا غير مقبول من الناحية الأخلاقية والرفاهية الاجتماعية.
قيود الطرق الموجودة:
Barman et al. (2023) قدموا خوارزمية Nash Confidence Bound (NCB)، لكنها تعتمد على عدم المساواة Hoeffding/Chernoff الضربية، وتتطلب مكافآت محدودة وغير سالبة، وغير قابلة للتطبيق على التوزيعات العامة مثل الغاوسية، وتتطلب ضمنياً معرفة حد أعلى لـ μ*
Krishna et al. (2025) درسوا ندم p-mean، لكنهم يتطلبون أن يكون متوسط المكافأة المتوقعة لكل ذراع Ω̃(√k/T^(1/4)) على الأقل، وهذا افتراض صارم جداً، مما يستبعد العديد من السيناريوهات العملية، وحدود الندم دون الأمثل في بعض قيم p
دافع البحث: تطوير إطار عام يستخدم خوارزمية UCB الكلاسيكية لتحقيق أهداف العدالة، دون الحاجة إلى تصميم حدود ثقة متخصصة، وينطبق على التوزيعات شبه الغاوسية العامة، دون الحاجة إلى افتراضات غير واقعية حول المتوسطات غير المعروفة.
إطار الاختزال: اقتراح اختزال تقليل ندم ناش/p-mean إلى استكشاف موحد أولي قصير قابل للتكيف مع البيانات + خوارزمية bandit قياسية (مثل UCB)، مع الابتكار الرئيسي وهو قاعدة التوقف القابلة للتكيف مع البيانات
تصميم الخوارزمية: تصميم خوارزمية Welfarist-UCB، من خلال استراتيجية ثنائية المرحلة:
المرحلة الأولى: استكشاف موحد حتى تحقيق شرط التوقف التكيفي
المرحلة الثانية: استخدام فهرس UCB القياسي للاستكشاف والاستغلال
الضمانات النظرية:
لندم ناش (p=0): تحقيق حد Õ(σ√(k/T)) الأمثل، ينطبق على المكافآت σ-شبه الغاوسية
لـ p∈0,1: تحقيق حد Õ(σ√(k/T)) الأمثل
لـ p∈[-1,0): تحقيق Õ(k/√T)، أفضل من Õ(k^(3/4)T^(-1/4)) لـ Krishna et al.
لـ p<-1: تحقيق Õ(|p|k^((|p|+1)/2)/√T)، أفضل بشكل صارم من الأعمال السابقة في نطاق T العملي
الابتكار التقني: استخدام حد Hoeffding الإضافي بدلاً من الحد الضربي، مما يتجنب القيود الصارمة على توزيع المكافآت، وعدم الحاجة إلى حد أعلى لـ μ*
التحقق التجريبي: التحقق من خلال محاكاة رقمية من فعالية الخوارزمية عند قيم p مختلفة، مما يوضح مبدأ "عدم وجود غداء مجاني": متطلبات عدالة أقوى تؤدي إلى ندم أعلى
الملاحظة الرئيسية: استراتيجية أخذ العينات بالترتيب في المرحلة الأولى تكافئ من حيث التوزيع الهامشي أخذ عينات موحد مستقل في كل جولة، أي PrIₜ=i=1/k، وبالتالي 𝔼μ_{Iₜ}≥μ*/k.
الأهمية التقنية: هذا الاقتران الثابت (static coupling) يبسط تحليل المرحلة الأولى، مما يسمح باستخدام خصائص أخذ العينات الموحدة مباشرة.
المساهمة النظرية: إثبات أن خوارزمية UCB الكلاسيكية مقترنة باستكشاف قابل للتكيف مع البيانات يمكنها تحقيق ضمانات عدالة شبه أمثلة، دون الحاجة إلى تصميم حدود ثقة متخصصة
القيمة العملية: جعل القرارات المتسلسلة الحساسة للعدالة أكثر عملية وقابلية للتطبيق على نطاق واسع، خاصة في السيناريوهات التي تتطلب التعامل مع توزيعات عامة (مثل الغاوسية)
مبدأ "عدم وجود غداء مجاني": متطلبات عدالة أقوى تزيد بشكل أساسي من صعوبة مشكلة التعلم، وتتطلب عينات أكثر لتحقيق ندم منخفض
Barman et al. (2023): "Fairness and welfare quantification for regret in multi-armed bandits" - قدموا مفهوم ندم ناش لأول مرة
Krishna et al. (2025): "p-mean regret for stochastic bandits" - دراسة ندم p-mean العام
Bubeck et al. (2012): "Regret analysis of stochastic and nonstochastic multi-armed bandit problems" - كتاب مرجعي كلاسيكي في MAB
Moulin (2004): "Fair division and collective welfare" - الأساس البديهي لرفاهية p-mean
Sawarni et al. (2024): "Nash regret guarantees for linear bandits" - ندم ناش في bandit خطي
التقييم الإجمالي: هذه ورقة عالية الجودة في التعلم الآلي النظري، تقدم مساهمات مهمة في مجال خوارزميات bandit الحساسة للعدالة. من خلال تصميم خوارزمية ذكي وتحليل نظري صارم، تثبت أن الطرق البسيطة (UCB) فعالة في تحقيق أهداف معقدة (العدالة). النتائج النظرية قوية، التحقق التجريبي شامل، والتأثير على المجال كبير. أوجه القصور الرئيسية هي نقص التحقق على بيانات حقيقية وبعض الفجوات النظرية (مثل الحدود الدنيا عند p<-1). يُنصح بأن تركز الأعمال المستقبلية على التحقق العملي والكمال النظري.