Fair Algorithms with Probing for Multi-Agent Multi-Armed Bandits
Xu, Liu, Mattei et al.
We propose a multi-agent multi-armed bandit (MA-MAB) framework aimed at ensuring fair outcomes across agents while maximizing overall system performance. A key challenge in this setting is decision-making under limited information about arm rewards. To address this, we introduce a novel probing framework that strategically gathers information about selected arms before allocation. In the offline setting, where reward distributions are known, we leverage submodular properties to design a greedy probing algorithm with a provable performance bound. For the more complex online setting, we develop an algorithm that achieves sublinear regret while maintaining fairness. Extensive experiments on synthetic and real-world datasets show that our approach outperforms baseline methods, achieving better fairness and efficiency.
academic
निष्पक्ष एल्गोरिदम जांच के साथबहु-एजेंट बहु-सशस्त्र डाकू समस्या के लिए
यह पेपर एक बहु-एजेंट बहु-सशस्त्र डाकू (MA-MAB) ढांचा प्रस्तावित करता है जो एजेंटों के बीच निष्पक्षता सुनिश्चित करते हुए सिस्टम के समग्र प्रदर्शन को अधिकतम करने का लक्ष्य रखता है। भुजा पुरस्कार जानकारी की सीमितता की चुनौती का समाधान करने के लिए, एक नवीन जांच (probing) तंत्र पेश किया गया है जो आवंटन से पहले रणनीतिक रूप से चयनित भुजाओं की जानकारी एकत्र करता है। ऑफलाइन सेटिंग (ज्ञात पुरस्कार वितरण) में, उप-मॉड्यूलर गुणों का उपयोग करके स्थिर कारक सन्निकटन गारंटी के साथ एक लालची जांच एल्गोरिदम डिजाइन किया गया है। ऑनलाइन सेटिंग में, एक ऐसा एल्गोरिदम विकसित किया गया है जो उप-रैखिक खेद (sublinear regret) प्राप्त करते हुए निष्पक्षता बनाए रखता है। कृत्रिम और वास्तविक दुनिया के डेटासेट पर व्यापक प्रयोग दर्शाते हैं कि यह विधि निष्पक्षता और दक्षता दोनों में आधारभूत विधियों से बेहतर है।
पारंपरिक बहु-सशस्त्र डाकू समस्याएं आमतौर पर उपयोगितावादी कल्याण (utilitarian welfare, अर्थात् कुल पुरस्कारों का योग) को अनुकूलित करती हैं, लेकिन इससे गंभीर असमानता की समस्या उत्पन्न होती है। उदाहरण के लिए, नेटवर्क टैक्सी परिदृश्य में, केंद्रीय डिस्पैचिंग सिस्टम ड्राइवरों को विभिन्न भौगोलिक क्षेत्रों में आवंटित करते समय, कुल राजस्व को अनुकूलित करना कुछ ड्राइवरों को पूरी तरह से ऑर्डर से वंचित कर सकता है, जिससे "भुखमरी" (starvation) की घटना होती है।
यह पेपर जांच तंत्र और नैश सामाजिक कल्याण (Nash Social Welfare, NSW) उद्देश्य को पेश करके, निष्पक्ष बहु-एजेंट विधियों और सक्रिय अन्वेषण रणनीतियों के बीच की खाई को पाटता है, जिससे सक्रिय अन्वेषण के माध्यम से प्राप्त जानकारी सभी एजेंटों के लिए निष्पक्ष परिणामों में सीधे परिवर्तित हो जाती है।
नया ढांचा: MA-MAB ढांचे को विस्तारित करता है, आवंटन से पहले चयनित भुजाओं का परीक्षण करने के लिए जांच तंत्र पेश करता है, NSW अनुकूलन के माध्यम से निष्पक्षता सुनिश्चित करता है
ऑफलाइन एल्गोरिदम: ज्ञात पुरस्कार पैटर्न के लिए, सिद्ध प्रदर्शन गारंटी के साथ एक सरल प्रभावी लालची जांच रणनीति विकसित की गई है
ऑनलाइन एल्गोरिदम: अन्वेषण और निष्पक्षता को संतुलित करने वाला एक एल्गोरिदम प्रस्तावित करता है, यह साबित करता है कि जांच और निष्पक्ष आवंटन स्पर्शोन्मुख प्रदर्शन को नुकसान नहीं पहुंचाते (उप-रैखिक खेद)
प्रायोगिक सत्यापन: कृत्रिम और वास्तविक डेटा पर निष्पक्षता और दक्षता दोनों में विधि को आधारभूत विधियों से बेहतर साबित करता है
इनपुट: वितरण {F_{m,a}}, लागत फ़ंक्शन α(·), बजट I, पैरामीटर ζ≥1
आउटपुट: जांच सेट S_pr
1. S_0 = ∅ को आरंभ करें
2. i = 1 से I तक के लिए:
- सबसे बड़ी सीमांत वृद्धि वाली भुजा चुनें:
a = argmax_{a∉S_{i-1}} [f_upper(S_{i-1}∪{a}) - f_upper(S_{i-1})]
- S_i = S_{i-1} ∪ {a}
3. (1-α(|S_j|))f_upper(S_j) के अनुसार उतरते क्रम में उम्मीदवार सेट को क्रमबद्ध करें
4. क्रमबद्ध सेट के माध्यम से पुनरावृत्ति करें:
- यदि (1-α(|S_j|))f_upper(S_j) < h(∅), ∅ लौटाएं
- यदि (1-α(|S_j|))f_upper(S_j) > ζR(S_j), जारी रखें
- अन्यथा S_j लौटाएं
प्रमेय 1 (सन्निकटन गारंटी): किसी भी ζ≥1 के लिए, एल्गोरिदम द्वारा लौटाया गया S_pr संतुष्ट करता है
R(Spr)≥2e−1e−1⋅ζ1⋅R(S∗)
यह उप-मॉड्यूलर अधिकतमकरण के (1-1/e) सन्निकटन कारक से प्राप्त है।
प्रत्येक एजेंट-भुजा जोड़ी को कम से कम एक बार अन्वेषण करें
अनुभवजन्य CDF F̂_{j,a,t} और माध्य अनुमान μ̂_{j,a,t} का निर्माण करें
मुख्य लूप चरण (t > MA):
जांच सेट चयन: वर्तमान अनुमान F̂_{j,a,t} के आधार पर S_t चुनने के लिए एल्गोरिदम 1 को कॉल करें
जांच अपडेट: S_t में भुजाओं का नमूना लें, सांख्यिकीय मात्रा और आत्मविश्वास ऊपरी सीमा को अपडेट करें
Uj,a,t=min(μ^j,a,t+wj,a,t,1)
जहां w_{j,a,t} Freedman असमानता पर आधारित आत्मविश्वास चौड़ाई है
नीति अनुकूलन:
πt=argmaxπt∈ΔA(1−α(∣St∣))ERt[NSW(St,Rt,Ut,πt)]
भुजा खींचना: प्रत्येक एजेंट j π_t के अनुसार भुजा खींचता है, पुरस्कार देखता है और अपडेट करता है
लेम्मा 7 (एकाग्रता सीमा): कम से कम 1-δ/2 की संभावना के साथ, सभी t>A, a∈A, j∈M के लिए:
∣μj,a−μ^j,a,t∣≤Nj,a,t2(μ^j,a,t−μ^j,a,t2)ln(δ2MAT)+3Nj,a,tln(δ2MAT)=wj,a,t
जांच और निष्पक्षता का संयोजन: पहली बार सक्रिय जांच तंत्र को NSW निष्पक्षता उद्देश्य के साथ जोड़ा गया, केवल कुल पुरस्कार अनुकूलन करने वाले पूर्व कार्य से भिन्न
उप-मॉड्यूलर सन्निकटन तकनीक: खंडशः रैखिक ऊपरी सीमा के माध्यम से गैर-उप-मॉड्यूलर समस्या को उप-मॉड्यूलर अनुकूलन में परिवर्तित करता है, ट्रैक्टेबिलिटी बनाए रखता है
UCB-NSW संलयन: ऑनलाइन एल्गोरिदम UCB आत्मविश्वास सीमा को NSW अनुकूलन के साथ चतुराई से जोड़ता है, अन्वेषण-शोषण और निष्पक्षता को संतुलित करता है
स्तरीय खेद विश्लेषण: दौरों को "बड़े γ" और "छोटे γ" दो वर्गों में विभाजित करता है, क्रमशः उच्च अनिश्चितता और निम्न अनिश्चितता स्थितियों को संभालता है
मौजूदा कार्य या तो निष्पक्ष MAB पर ध्यान केंद्रित करते हैं लेकिन निष्क्रिय प्रतिक्रिया पर निर्भर करते हैं, या जांच का अध्ययन करते हैं लेकिन निष्पक्षता को नजरअंदाज करते हैं। यह पेपर इस अंतराल को भरता है।
Jones, Nguyen & Nguyen (2023): "An efficient algorithm for fair multi-agent multi-armed bandit with low regret" - इस पेपर द्वारा सीधे विस्तारित आधार कार्य
Cole & Gkatzelis (2015): "Approximating the Nash social welfare with indivisible items" - NSW अनुकूलन सिद्धांतात्मक आधार
Zuo, Zhang & Joe-Wong (2020): "Observe Before Play: Multi-Armed Bandit with Pre-Observations" - जांच तंत्र अग्रदूत कार्य
Bhaskara et al. (2020): "Adaptive probing policies for shortest path routing" - उप-मॉड्यूलर जांच अनुप्रयोग
Caragiannis et al. (2019): "The unreasonable fairness of maximum Nash welfare" - NSW निष्पक्षता सिद्धांत
यह पेपर बहु-एजेंट बहु-सशस्त्र डाकू क्षेत्र में महत्वपूर्ण योगदान देता है, पहली बार सक्रिय जांच तंत्र को निष्पक्षता उद्देश्य के साथ व्यवस्थित रूप से जोड़ता है। सिद्धांतात्मक रूप से कठोर (स्थिर कारक सन्निकटन और उप-रैखिक खेद), प्रायोगिक रूप से व्यापक (कृत्रिम + वास्तविक डेटा), विधि में नवीन (उप-मॉड्यूलर सन्निकटन + UCB-NSW संलयन)। मुख्य सीमाएं गणना जटिलता और प्रायोगिक पैमाने में हैं, लेकिन इसका शैक्षणिक मूल्य और व्यावहारिक क्षमता को प्रभावित नहीं करते हैं। यह कार्य निष्पक्ष मशीन लर्निंग और ऑनलाइन निर्णय क्षेत्र में नई अनुसंधान दिशा खोलता है, आगे की खोज और अनुप्रयोग के योग्य है।