Revisiting Social Welfare in Bandits: UCB is (Nearly) All You Need
Sarkar, Pandey, Chowdhury
Regret in stochastic multi-armed bandits traditionally measures the difference between the highest reward and either the arithmetic mean of accumulated rewards or the final reward. These conventional metrics often fail to address fairness among agents receiving rewards, particularly in settings where rewards are distributed across a population, such as patients in clinical trials. To address this, a recent body of work has introduced Nash regret, which evaluates performance via the geometric mean of accumulated rewards, aligning with the Nash social welfare function known for satisfying fairness axioms.
To minimize Nash regret, existing approaches require specialized algorithm designs and strong assumptions, such as multiplicative concentration inequalities and bounded, non-negative rewards, making them unsuitable for even Gaussian reward distributions. We demonstrate that an initial uniform exploration phase followed by a standard Upper Confidence Bound (UCB) algorithm achieves near-optimal Nash regret, while relying only on additive Hoeffding bounds, and naturally extending to sub-Gaussian rewards. Furthermore, we generalize the algorithm to a broad class of fairness metrics called the $p$-mean regret, proving (nearly) optimal regret bounds uniformly across all $p$ values. This is in contrast to prior work, which made extremely restrictive assumptions on the bandit instances and even then achieved suboptimal regret bounds.
academic
बैंडिट्स में सामाजिक कल्याण पर पुनर्विचार: UCB लगभग सब कुछ है जो आपको चाहिए
यह पेपर बहु-भुजा दस्यु (Multi-Armed Bandits, MAB) समस्या में न्यायसंगतता के मुद्दे का अध्ययन करता है। पारंपरिक पश्चाताप (regret) मेट्रिक अंकगणितीय माध्य पर आधारित है, जो उपयोगकर्ताओं के बीच न्यायसंगतता सुनिश्चित नहीं कर सकता। इस समस्या को हल करने के लिए, शोध समुदाय ने ज्यामितीय माध्य पर आधारित नैश पश्चाताप (Nash regret) मेट्रिक पेश किया है। हालांकि, नैश पश्चाताप को कम करने के मौजूदा तरीकों को विशेष एल्गोरिदम डिजाइन और मजबूत धारणाओं (जैसे गुणक सांद्रता असमानताएं, सीमित गैर-नकारात्मक पुरस्कार) की आवश्यकता है, यहां तक कि गाऊसी वितरण पर भी लागू नहीं होते हैं। यह पेपर साबित करता है कि डेटा-अनुकूलित प्रारंभिक समान अन्वेषण चरण के माध्यम से, मानक UCB एल्गोरिदम के साथ मिलकर, लगभग इष्टतम नैश पश्चाताप प्राप्त किया जा सकता है, और केवल योगात्मक Hoeffding सीमा पर निर्भर है, जो स्वाभाविक रूप से उप-गाऊसी पुरस्कारों तक विस्तारित होता है। आगे, यह पेपर एल्गोरिदम को p-माध्य पश्चाताप के व्यापक न्यायसंगतता माप वर्ग तक सामान्यीकृत करता है, सभी p मानों पर (लगभग) इष्टतम पश्चाताप सीमाएं साबित करता है, और पूर्व कार्य की कठोर धारणाओं की आवश्यकता नहीं है।
मूल समस्या: बहु-भुजा दस्यु समस्या में, संचयी पुरस्कार को अधिकतम करते हुए समय चरणों (विभिन्न उपयोगकर्ताओं/रोगियों के अनुरूप) में न्यायसंगतता कैसे सुनिश्चित करें? पारंपरिक औसत पश्चाताप (Average Regret) केवल कुल उपयोगिता पर ध्यान केंद्रित करता है, जिससे कुछ समय चरणों को बहुत कम पुरस्कार मिल सकता है, न्यायसंगतता सुरक्षा की कमी है।
महत्व: नैदानिक परीक्षणों, संसाधन आवंटन आदि अनुप्रयोग परिदृश्यों में, प्रत्येक समय चरण एक स्वतंत्र व्यक्ति (जैसे रोगी) के अनुरूप है। केवल औसत उपयोगिता को अनुकूलित करना कुछ व्यक्तियों के साथ अन्यायपूर्ण व्यवहार का कारण बन सकता है, जो नैतिक और सामाजिक कल्याण स्तर पर स्वीकार्य नहीं है।
मौजूदा तरीकों की सीमाएं:
Barman et al. (2023) ने नैश कॉन्फिडेंस बाउंड (NCB) एल्गोरिदम प्रस्तावित किया, लेकिन गुणक Hoeffding/Chernoff सीमा पर निर्भर है, पुरस्कार सीमित और गैर-नकारात्मक होने की आवश्यकता है, गाऊसी जैसे सामान्य वितरण पर लागू नहीं होता है, और μ* की ऊपरी सीमा जानने की निहित आवश्यकता है
Krishna et al. (2025) p-माध्य पश्चाताप का अध्ययन करते हैं, लेकिन प्रत्येक भुजा की अपेक्षित पुरस्कार कम से कम Ω̃(√k/T^(1/4)) होने की आवश्यकता है, यह धारणा अत्यंत कठोर है, कई व्यावहारिक परिदृश्यों को बाहर करता है, और कुछ p मानों पर पश्चाताप सीमा उप-इष्टतम है
अनुसंधान प्रेरणा: एक सामान्य ढांचा विकसित करना, जो शास्त्रीय UCB एल्गोरिदम का उपयोग करके न्यायसंगतता लक्ष्य प्राप्त कर सके, विशेष डिजाइन किए गए आत्मविश्वास सीमा की आवश्यकता नहीं है, और सामान्य उप-गाऊसी वितरण पर लागू होता है, अज्ञात माध्य पर अवास्तविक धारणाओं की आवश्यकता नहीं है।
कमी ढांचा: नैश/p-माध्य पश्चाताप न्यूनीकरण को संक्षिप्त डेटा-अनुकूलित समान अन्वेषण + मानक bandit एल्गोरिदम (जैसे UCB) के ढांचे में कम करने का प्रस्ताव, मुख्य नवाचार डेटा-अनुकूलित स्टॉपिंग नियम है
एल्गोरिदम डिजाइन: Welfarist-UCB एल्गोरिदम डिजाइन करें, दो-चरणीय रणनीति के माध्यम से:
चरण I: स्व-अनुकूलित समाप्ति शर्त को पूरा करने तक समान अन्वेषण
चरण II: मानक UCB सूचकांक का उपयोग करके अन्वेषण-शोषण
सैद्धांतिक गारंटियां:
नैश पश्चाताप के लिए (p=0): Õ(σ√(k/T)) की क्रम-इष्टतम सीमा प्राप्त करें, σ-उप-गाऊसी पुरस्कारों पर लागू
p∈0,1 के लिए: Õ(σ√(k/T)) की क्रम-इष्टतम सीमा प्राप्त करें
p∈[-1,0) के लिए: Õ(k/√T) प्राप्त करें, Krishna et al. के Õ(k^(3/4)T^(-1/4)) से बेहतर
p<-1 के लिए: Õ(|p|k^((|p|+1)/2)/√T) प्राप्त करें, व्यावहारिक प्रासंगिक T श्रेणी में पूर्व कार्य से सख्ती से बेहतर
तकनीकी नवाचार: गुणक सीमा के बजाय योगात्मक Hoeffding सीमा का उपयोग करें, पुरस्कार वितरण पर कठोर प्रतिबंध से बचें, और μ* की ऊपरी सीमा की आवश्यकता नहीं है
प्रायोगिक सत्यापन: विभिन्न p मानों पर एल्गोरिदम की प्रभावशीलता सत्यापित करने के लिए संख्यात्मक सिमुलेशन के माध्यम से, "कोई मुफ्त दोपहर नहीं" सिद्धांत प्रदर्शित करता है: मजबूत न्यायसंगतता आवश्यकताएं उच्च पश्चाताप की ओर ले जाती हैं
k भुजाएं, प्रत्येक भुजा i का पुरस्कार वितरण ρᵢ σ-उप-गाऊसी है, माध्य μᵢ≥0 (अज्ञात)
समय श्रेणी T
न्यायसंगतता पैरामीटर p∈(-∞,1]
आउटपुट: प्रत्येक दौर t∈T में चुनी गई भुजा Iₜ
उद्देश्य: p-माध्य पश्चाताप को कम करें
RTp:=μ∗−(T1∑t=1T(E[μIt])p)1/p
जहां μ*=maxᵢμᵢ। विशेष रूप से, p=0 नैश पश्चाताप (ज्यामितीय माध्य) के अनुरूप है।
नवाचार: समाप्ति शर्त में हर Θ(1/(μ*)²) दौर के बाद चरण I समाप्त होने को सुनिश्चित करता है, न कि निश्चित Θ(√T) या Θ(1/μ*) दौर।
तर्कसंगतता:
जब μ* बड़ा हो तो अच्छी भुजा की पहचान के लिए कम अन्वेषण की आवश्यकता है
जब μ* छोटा हो तो भुजाओं के अंतर को अलग करने के लिए अधिक अन्वेषण की आवश्यकता है
यह स्व-अनुकूलन चरण II में सुनिश्चित करता है कि किसी भी खींची गई भुजा i के लिए, ξi:=μ∗ni22σ2logT≤1/2, यह नैश पश्चाताप को नियंत्रित करने की कुंजी है
मुख्य अवलोकन: चरण I की क्रमचय नमूनाकरण रणनीति सीमांत वितरण पर प्रत्येक दौर के स्वतंत्र समान नमूनाकरण के बराबर है, अर्थात् PrIₜ=i=1/k, इसलिए 𝔼μ_{Iₜ}≥μ*/k।
तकनीकी महत्व: यह स्थिर युग्मन (static coupling) चरण I के विश्लेषण को सरल करता है, समान नमूनाकरण के गुणों का सीधे उपयोग करने की अनुमति देता है।
व्यावहारिक प्रभावशीलता: Welfarist-UCB सभी परीक्षण परिदृश्यों में उत्कृष्ट व्यावहारिक प्रदर्शन प्रदर्शित करता है
वितरण मजबूती: एल्गोरिदम विभिन्न पुरस्कार वितरणों (Bernoulli, गाऊसी) पर प्रभावी है, सिद्धांत की व्यापक लागू होने की क्षमता को सत्यापित करता है
न्यायसंगतता-उपयोगिता व्यापार: प्रयोग स्पष्ट रूप से न्यायसंगतता पैरामीटर p और पश्चाताप के बीच व्यापार संबंध प्रदर्शित करता है, व्यावहारिक अनुप्रयोगों में उपयुक्त p मान चुनने के लिए मार्गदर्शन प्रदान करता है
अभिसरण गति: सभी p मान अंतरालों पर, Welfarist-UCB की पश्चाताप में गिरावट की गति सैद्धांतिक पूर्वानुमान के अनुरूप है, और मौजूदा विधियों से बेहतर है
सैद्धांतिक योगदान: साबित करता है कि शास्त्रीय UCB एल्गोरिदम डेटा-अनुकूलित अन्वेषण के साथ मिलकर लगभग इष्टतम न्यायसंगतता गारंटी प्राप्त कर सकता है, विशेष आत्मविश्वास सीमा डिजाइन की आवश्यकता नहीं है
व्यावहारिक महत्व: न्यायसंगतता-जागरूक अनुक्रमिक निर्णय को अधिक व्यावहारिक और व्यापक रूप से लागू करने योग्य बनाता है, विशेष रूप से सामान्य वितरण (जैसे गाऊसी) को संभालने की आवश्यकता वाले परिदृश्यों में
"कोई मुफ्त दोपहर नहीं" सिद्धांत: अधिक कठोर न्यायसंगतता आवश्यकताएं अनिवार्य रूप से सीखने की समस्या की कठिनाई को बढ़ाती हैं, कम पश्चाताप प्राप्त करने के लिए अधिक नमूनों की आवश्यकता होती है
नैदानिक परीक्षण: प्रभावी उपचार विधि खोजने का अन्वेषण करते समय प्रत्येक रोगी को न्यायसंगत व्यवहार सुनिश्चित करने की आवश्यकता है
संसाधन आवंटन: सीमित संसाधनों (जैसे कम्प्यूटेशनल संसाधन, विज्ञापन स्थान) को विभिन्न उपयोगकर्ताओं को ऑनलाइन वितरित करें, दक्षता और न्यायसंगतता को संतुलित करने की आवश्यकता है
सिफारिश प्रणाली: विभिन्न समय अवधि के उपयोगकर्ताओं को सामग्री की सिफारिश करें, कुछ समय अवधि के उपयोगकर्ता अनुभव को बहुत खराब होने से बचाने की आवश्यकता है
A/B परीक्षण: उत्पाद परीक्षण में प्रतिभागियों के कल्याण पर विचार करने की आवश्यकता है, केवल औसत मेट्रिक्स पर नहीं
शिक्षा संसाधन आवंटन: विभिन्न समय में नामांकित छात्रों को शिक्षा संसाधन वितरित करें, बैच के पार न्यायसंगतता की आवश्यकता है
अनुपयुक्त परिदृश्य:
अत्यधिक Rawlsian न्यायसंगतता (p→-∞) की अल्पकालीन अनुप्रयोग आवश्यकता (सैद्धांतिक सीमा खाली हो जाती है)
Barman et al. (2023): "Fairness and welfare quantification for regret in multi-armed bandits" - नैश पश्चाताप अवधारणा पहली बार प्रस्तावित करता है
Krishna et al. (2025): "p-mean regret for stochastic bandits" - सामान्य p-माध्य पश्चाताप का अध्ययन करता है
Bubeck et al. (2012): "Regret analysis of stochastic and nonstochastic multi-armed bandit problems" - शास्त्रीय MAB पाठ्यपुस्तक
Moulin (2004): "Fair division and collective welfare" - p-माध्य कल्याण का स्वयंसिद्ध आधार
Sawarni et al. (2024): "Nash regret guarantees for linear bandits" - रैखिक bandit में नैश पश्चाताप
समग्र मूल्यांकन: यह न्यायसंगतता-जागरूक bandit एल्गोरिदम क्षेत्र में एक उच्च-गुणवत्ता वाला सैद्धांतिक मशीन लर्निंग पेपर है जो महत्वपूर्ण योगदान करता है। चतुर एल्गोरिदम डिजाइन और कठोर सैद्धांतिक विश्लेषण के माध्यम से, यह साबित करता है कि सरल विधियां (UCB) जटिल उद्देश्यों (न्यायसंगतता) पर प्रभावी हो सकती हैं। सैद्धांतिक परिणाम शक्तिशाली हैं, प्रायोगिक सत्यापन पर्याप्त है, और क्षेत्र पर महत्वपूर्ण प्रभाव है। मुख्य कमियां वास्तविक डेटा सत्यापन की कमी और कुछ सैद्धांतिक अंतराल (जैसे p<-1 की निचली सीमा) हैं। अनुशंसा है कि भविष्य के कार्य व्यावहारिक अनुप्रयोग सत्यापन और सैद्धांतिक पूर्णता पर ध्यान केंद्रित करें।