Exploration-free Algorithms for Multi-group Mean Estimation
Wei, Zhong, Li
We address the problem of multi-group mean estimation, which seeks to allocate a finite sampling budget across multiple groups to obtain uniformly accurate estimates of their means. Unlike classical multi-armed bandits, whose objective is to minimize regret by identifying and exploiting the best arm, the optimal allocation in this setting requires sampling every group on the order of $Î(T)$ times. This fundamental distinction makes exploration-free algorithms both natural and effective. Our work makes three contributions. First, we strengthen the existing results on subgaussian variance concentration using the Hanson-Wright inequality and identify a class of strictly subgaussian distributions that yield sharper guarantees. Second, we design exploration-free non-adaptive and adaptive algorithms, and we establish tighter regret bounds than the existing results. Third, we extend the framework to contextual bandit settings, an underexplored direction, and propose algorithms that leverage side information with provable guarantees. Overall, these results position exploration-free allocation as a principled and efficient approach to multi-group mean estimation, with potential applications in experimental design, personalization, and other domains requiring accurate multi-group inference.
academic
बहु-समूह माध्य अनुमान के लिए अन्वेषण-मुक्त एल्गोरिदम
यह पेपर बहु-समूह माध्य अनुमान समस्या का अध्ययन करता है, जिसका लक्ष्य सीमित नमूनाकरण बजट को कई समूहों में वितरित करना है ताकि उनके माध्य का सुसंगत सटीक अनुमान प्राप्त हो सके। पारंपरिक बहु-भुजा दस्यु समस्या के विपरीत (जिसका लक्ष्य सर्वोत्तम भुजा की पहचान और उपयोग करके खेद को कम करना है), इस सेटिंग में इष्टतम वितरण को प्रत्येक समूह से Θ(T) बार नमूना लेने की आवश्यकता होती है। यह मौलिक अंतर अन्वेषण-मुक्त एल्गोरिदम को स्वाभाविक और प्रभावी दोनों बनाता है। यह पेपर तीन मुख्य योगदान देता है: पहला, Hanson-Wright असमानता का उपयोग करके उप-गॉसियन विचरण एकाग्रता के मौजूदा परिणामों को मजबूत किया गया है और कड़ी उप-गॉसियन वितरण का एक वर्ग पहचाना गया है जो तीव्र गारंटी देता है; दूसरा, अन्वेषण-मुक्त गैर-अनुकूली और अनुकूली एल्गोरिदम डिज़ाइन किए गए हैं जो मौजूदा परिणामों की तुलना में अधिक कड़ी खेद सीमाएं स्थापित करते हैं; तीसरा, ढांचे को संदर्भ दस्यु सेटिंग तक विस्तारित किया गया है, जो एक कम-अन्वेषित दिशा है, सहायक जानकारी का उपयोग करने वाले एल्गोरिदम प्रस्तावित किए गए हैं और सिद्ध गारंटी दी गई हैं।
बहु-समूह माध्य अनुमान समस्या के लिए सीमित समय सीमा T के भीतर नमूनाकरण बजट को K समूहों में वितरित करने की आवश्यकता होती है ताकि सभी समूहों के माध्य का अनुमान सुसंगत सटीकता तक पहुंचे। विशेष रूप से, kवें समूह के लिए, जिसका पुरस्कार वितरण Pk है, माध्य μk है, विचरण σk² है, लक्ष्य p-मानदंड उद्देश्य को कम करना है:
व्यावहारिक अनुप्रयोग की आवश्यकता: जनमत सर्वेक्षण, प्रायोगिक डिजाइन, व्यक्तिगत सिफारिशों आदि के क्षेत्रों में, कई समूहों के लिए सटीक और न्यायसंगत अनुमान की आवश्यकता होती है, न कि केवल इष्टतम समूह पर ध्यान केंद्रित करना।
सैद्धांतिक चुनौती: पारंपरिक बहु-भुजा दस्यु समस्या के विपरीत, इष्टतम वितरण योजना के लिए प्रत्येक भुजा को Θ(T) बार नमूना लेने की आवश्यकता होती है, जो पारंपरिक अन्वेषण-शोषण व्यापार को अनावश्यक बनाता है।
मौजूदा विधियों की सीमाएं: मौजूदा UCB-प्रकार एल्गोरिदम अनावश्यक अन्वेषण ओवरहेड पेश करते हैं और समस्या की संरचनात्मक विशेषताओं का पूर्ण लाभ नहीं उठाते हैं।
सैद्धांतिक सुधार: Hanson-Wright असमानता के आधार पर उप-गॉसियन विचरण एकाग्रता असमानता में सुधार किया गया है, कड़ी उप-गॉसियन वितरण की श्रेणी की पहचान की गई है, अधिक तीव्र सैद्धांतिक गारंटी प्राप्त की गई हैं।
एल्गोरिदम डिजाइन: दो अन्वेषण-मुक्त एल्गोरिदम प्रस्तावित किए गए हैं:
गैर-अनुकूली एल्गोरिदम (विचरण निचली सीमा के पूर्व ज्ञान की आवश्यकता)
अनुकूली एल्गोरिदम (पूर्व ज्ञान की आवश्यकता नहीं, आत्मविश्वास अंतराल का उपयोग)
ढांचे का विस्तार: पहली बार बहु-समूह माध्य अनुमान को संदर्भ दस्यु सेटिंग तक विस्तारित किया गया है, संबंधित एल्गोरिदम प्रस्तावित किए गए हैं और सैद्धांतिक विश्लेषण दिया गया है।
प्रदर्शन सुधार: मौजूदा सर्वोत्तम परिणामों की तुलना में, खेद सीमा में एक log T कारक को हटाया गया है, अधिक कड़ी सैद्धांतिक सीमा प्राप्त की गई है।
K समूहों को देखते हुए, प्रत्येक समूह k का पुरस्कार वितरण Pk में अज्ञात माध्य μk और विचरण σk² है। समय सीमा T के भीतर, प्रत्येक समय चरण में एक समूह को नमूनाकरण के लिए चुना जाता है, लक्ष्य सभी समूहों के अनुमान त्रुटि के p-मानदंड को कम करना है।
सैद्धांतिक सीमा की कड़ाई: कड़ी उप-गॉसियन सेटिंग में सैद्धांतिक ऊपरी सीमा अनुभवजन्य परिणामों के अधिक करीब है, विशेष रूप से p=∞ पर।
विचरण निचली सीमा का प्रभाव: जब विचरण निचली सीमा अज्ञात हो, तो एल्गोरिदम प्रदर्शन में महत्वपूर्ण गिरावट होती है, यह गिरावट GSG और SSG सेटिंग में अलग-अलग समय पर होती है।
समय जटिलता: SSG सेटिंग में पहले चरण की लंबाई में महत्वपूर्ण कमी आई है, σ² से संबंधित से केवल log T पर निर्भर स्थिरांक तक।
विचरण एकाग्रता: Hanson-Wright असमानता का उपयोग करके विचरण अनुमान की एकाग्रता असमानता में सुधार किया गया है, एक log(1/δ) कारक को हटाया गया है।
कड़ी उप-गॉसियन: कड़ी उप-गॉसियन वितरण की श्रेणी की पहचान की गई है, जहां विचरण पैरामीटर वास्तविक विचरण के बराबर है, अधिक तीव्र सीमा प्रदान करता है।
अन्वेषण-मुक्त डिजाइन: सिद्ध किया गया है कि UCB-प्रकार अन्वेषण इस समस्या में अनावश्यक है, क्योंकि इष्टतम समाधान स्वयं प्रत्येक भुजा को Θ(T) बार नमूना लेने की आवश्यकता है।
अन्वेषण-मुक्त सिद्धांत: बहु-समूह माध्य अनुमान समस्या की संरचना स्पष्ट अन्वेषण को अनावश्यक बनाती है, जो पारंपरिक बहु-भुजा दस्यु समस्या के साथ तीव्र विपरीतता बनाती है।
सैद्धांतिक सुधार: सुधारी गई विचरण एकाग्रता असमानता और कड़ी उप-गॉसियन वितरण की पहचान के माध्यम से, अधिक कड़ी सैद्धांतिक सीमा प्राप्त की गई है।
एल्गोरिदम डिजाइन: प्रस्तावित एल्गोरिदम सरलता को बनाए रखते हुए इष्टतम स्पर्शोन्मुख प्रदर्शन प्राप्त करते हैं।
विस्तारशीलता: ढांचे को संदर्भ सेटिंग तक सफलतापूर्वक विस्तारित किया गया है, नई अनुसंधान दिशा खोली गई है।
यह पेपर कई महत्वपूर्ण संबंधित कार्यों का उद्धरण देता है, जिनमें शामिल हैं:
Aznag et al. (2023): बहु-समूह माध्य अनुमान के लिए सक्रिय शिक्षा ढांचा
Carpentier et al. (2011): बहु-भुजा दस्यु में सक्रिय शिक्षा के लिए ऊपरी-आत्मविश्वास-सीमा एल्गोरिदम
Hanson-Wright असमानता के संबंधित सैद्धांतिक कार्य
उप-गॉसियन वितरण और विचरण एकाग्रता के शास्त्रीय परिणाम
यह पेपर सैद्धांतिक और विधि दोनों पहलुओं में महत्वपूर्ण योगदान देता है, बहु-समूह माध्य अनुमान समस्या के लिए नया दृष्टिकोण और प्रभावी समाधान प्रदान करता है। अन्वेषण-मुक्त एल्गोरिदम का प्रस्ताव पारंपरिक बहु-भुजा दस्यु में अन्वेषण-शोषण के शास्त्रीय प्रतिमान को उलट देता है, जिसका महत्वपूर्ण सैद्धांतिक अर्थ और व्यावहारिक मूल्य है।