2025-11-24T22:28:17.253920

Exploration-free Algorithms for Multi-group Mean Estimation

Wei, Zhong, Li

We address the problem of multi-group mean estimation, which seeks to allocate a finite sampling budget across multiple groups to obtain uniformly accurate estimates of their means. Unlike classical multi-armed bandits, whose objective is to minimize regret by identifying and exploiting the best arm, the optimal allocation in this setting requires sampling every group on the order of $Î(T)$ times. This fundamental distinction makes exploration-free algorithms both natural and effective. Our work makes three contributions. First, we strengthen the existing results on subgaussian variance concentration using the Hanson-Wright inequality and identify a class of strictly subgaussian distributions that yield sharper guarantees. Second, we design exploration-free non-adaptive and adaptive algorithms, and we establish tighter regret bounds than the existing results. Third, we extend the framework to contextual bandit settings, an underexplored direction, and propose algorithms that leverage side information with provable guarantees. Overall, these results position exploration-free allocation as a principled and efficient approach to multi-group mean estimation, with potential applications in experimental design, personalization, and other domains requiring accurate multi-group inference.

academic

बहु-समूह माध्य अनुमान के लिए अन्वेषण-मुक्त एल्गोरिदम

मूल जानकारी

पेपर ID: 2510.10374
शीर्षक: Exploration-free Algorithms for Multi-group Mean Estimation
लेखक: Ziyi Wei (Virginia Tech), Huaiyang Zhong (Virginia Tech), Xiaocheng Li (Imperial College London)
वर्गीकरण: cs.LG, stat.ML
प्रकाशन तिथि: 12 अक्टूबर 2025
पेपर लिंक: https://arxiv.org/abs/2510.10374

सारांश

यह पेपर बहु-समूह माध्य अनुमान समस्या का अध्ययन करता है, जिसका लक्ष्य सीमित नमूनाकरण बजट को कई समूहों में वितरित करना है ताकि उनके माध्य का सुसंगत सटीक अनुमान प्राप्त हो सके। पारंपरिक बहु-भुजा दस्यु समस्या के विपरीत (जिसका लक्ष्य सर्वोत्तम भुजा की पहचान और उपयोग करके खेद को कम करना है), इस सेटिंग में इष्टतम वितरण को प्रत्येक समूह से Θ(T) बार नमूना लेने की आवश्यकता होती है। यह मौलिक अंतर अन्वेषण-मुक्त एल्गोरिदम को स्वाभाविक और प्रभावी दोनों बनाता है। यह पेपर तीन मुख्य योगदान देता है: पहला, Hanson-Wright असमानता का उपयोग करके उप-गॉसियन विचरण एकाग्रता के मौजूदा परिणामों को मजबूत किया गया है और कड़ी उप-गॉसियन वितरण का एक वर्ग पहचाना गया है जो तीव्र गारंटी देता है; दूसरा, अन्वेषण-मुक्त गैर-अनुकूली और अनुकूली एल्गोरिदम डिज़ाइन किए गए हैं जो मौजूदा परिणामों की तुलना में अधिक कड़ी खेद सीमाएं स्थापित करते हैं; तीसरा, ढांचे को संदर्भ दस्यु सेटिंग तक विस्तारित किया गया है, जो एक कम-अन्वेषित दिशा है, सहायक जानकारी का उपयोग करने वाले एल्गोरिदम प्रस्तावित किए गए हैं और सिद्ध गारंटी दी गई हैं।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

बहु-समूह माध्य अनुमान समस्या के लिए सीमित समय सीमा T के भीतर नमूनाकरण बजट को K समूहों में वितरित करने की आवश्यकता होती है ताकि सभी समूहों के माध्य का अनुमान सुसंगत सटीकता तक पहुंचे। विशेष रूप से, kवें समूह के लिए, जिसका पुरस्कार वितरण Pk है, माध्य μk है, विचरण σk² है, लक्ष्य p-मानदंड उद्देश्य को कम करना है:

$R_p(n) = \left\|\left\{\frac{\sigma_k^2}{n_k}\right\}_{k=1}^K\right\|_p$

जहां nk kवें समूह से नमूनाकरण की संख्या है।

अनुसंधान प्रेरणा

व्यावहारिक अनुप्रयोग की आवश्यकता: जनमत सर्वेक्षण, प्रायोगिक डिजाइन, व्यक्तिगत सिफारिशों आदि के क्षेत्रों में, कई समूहों के लिए सटीक और न्यायसंगत अनुमान की आवश्यकता होती है, न कि केवल इष्टतम समूह पर ध्यान केंद्रित करना।
सैद्धांतिक चुनौती: पारंपरिक बहु-भुजा दस्यु समस्या के विपरीत, इष्टतम वितरण योजना के लिए प्रत्येक भुजा को Θ(T) बार नमूना लेने की आवश्यकता होती है, जो पारंपरिक अन्वेषण-शोषण व्यापार को अनावश्यक बनाता है।
मौजूदा विधियों की सीमाएं: मौजूदा UCB-प्रकार एल्गोरिदम अनावश्यक अन्वेषण ओवरहेड पेश करते हैं और समस्या की संरचनात्मक विशेषताओं का पूर्ण लाभ नहीं उठाते हैं।

मुख्य योगदान

सैद्धांतिक सुधार: Hanson-Wright असमानता के आधार पर उप-गॉसियन विचरण एकाग्रता असमानता में सुधार किया गया है, कड़ी उप-गॉसियन वितरण की श्रेणी की पहचान की गई है, अधिक तीव्र सैद्धांतिक गारंटी प्राप्त की गई हैं।
एल्गोरिदम डिजाइन: दो अन्वेषण-मुक्त एल्गोरिदम प्रस्तावित किए गए हैं:
- गैर-अनुकूली एल्गोरिदम (विचरण निचली सीमा के पूर्व ज्ञान की आवश्यकता)
- अनुकूली एल्गोरिदम (पूर्व ज्ञान की आवश्यकता नहीं, आत्मविश्वास अंतराल का उपयोग)
ढांचे का विस्तार: पहली बार बहु-समूह माध्य अनुमान को संदर्भ दस्यु सेटिंग तक विस्तारित किया गया है, संबंधित एल्गोरिदम प्रस्तावित किए गए हैं और सैद्धांतिक विश्लेषण दिया गया है।
प्रदर्शन सुधार: मौजूदा सर्वोत्तम परिणामों की तुलना में, खेद सीमा में एक log T कारक को हटाया गया है, अधिक कड़ी सैद्धांतिक सीमा प्राप्त की गई है।

विधि विवरण

कार्य परिभाषा

K समूहों को देखते हुए, प्रत्येक समूह k का पुरस्कार वितरण Pk में अज्ञात माध्य μk और विचरण σk² है। समय सीमा T के भीतर, प्रत्येक समय चरण में एक समूह को नमूनाकरण के लिए चुना जाता है, लक्ष्य सभी समूहों के अनुमान त्रुटि के p-मानदंड को कम करना है।

इष्टतम वितरण योजना

प्रस्ताव 2.1 सैद्धांतिक इष्टतम वितरण देता है: $n_k^* = \frac{\sigma_k^q}{\sum_{j=1}^K \sigma_j^q} \cdot T$

जहां q = 2p/(p+1) (जब p परिमित हो) या q = 2 (जब p = ∞ हो)।

एल्गोरिदम 1: गैर-अनुकूली वितरण

मुख्य विचार: दो चरणों में संचालित

पहला चरण: प्रत्येक समूह से समान रूप से τ राउंड नमूना लें, विचरण का अनुमान लगाएं
दूसरा चरण: अनुमानित विचरण के अनुसार शेष बजट को इष्टतम अनुपात में वितरित करें

मुख्य पैरामीटर:

प्रारंभिक लंबाई: $\tau = \frac{\sigma^q}{\sigma^q + (K-1)\underline{\sigma}^q} \cdot T$
वितरण भार: $\lambda_{k,\tau} = \frac{\hat{\sigma}_{k,\tau}^q}{\sum_{j=1}^K \hat{\sigma}_{j,\tau}^q}$

एल्गोरिदम 2: अनुकूली एल्गोरिदम

सुधार बिंदु: विचरण निचली सीमा के पूर्व ज्ञान की आवश्यकता नहीं है, आत्मविश्वास अंतराल के माध्यम से अनुकूली रूप से समायोजित करता है।

मुख्य तंत्र:

आत्मविश्वास अंतराल निर्माण: सुधारी गई विचरण एकाग्रता असमानता के आधार पर LCB और UCB का निर्माण
अनुकूली रोक: प्रत्येक समूह के लिए गतिशील रूप से रोक समय की गणना करें
भुजा उन्मूलन रणनीति: इष्टतम भुजा पहचान में उन्मूलन तकनीक के समान

आत्मविश्वास अंतराल:

$LCB_{k,n} = \max\{\hat{\sigma}_{k,n}^2 - \varepsilon_{k,n}^+, 0\}$
$UCB_{k,n} = \hat{\sigma}_{k,n}^2 + \varepsilon_{k,n}^-$

एल्गोरिदम 3: संदर्भ विस्तार

समस्या सेटिंग: प्रत्येक समूह k को पैरामीटर वेक्टर βk से जोड़ा जाता है, संदर्भ ct को देखते हुए, पुरस्कार है: $X_{k,n} = \beta_k^T c_n + \eta_{k,n}$

उद्देश्य फलन: $\min \mathbb{E}\left[\sum_{k=1}^K \|\hat{\beta}_{k,n_k} - \beta_k\|^2\right]$

मुख्य नवाचार:

रिज प्रतिगमन अनुमानक का उपयोग
पहले निर्णय फिर अवलोकन नमूनाकरण रणनीति
संदर्भ वेक्टर की स्वतंत्रता को बनाए रखना

प्रायोगिक सेटअप

डेटासेट

गॉसियन वितरण: K=4 समूह, माध्य U(-1,1) से नमूना लिया गया, विचरण {1, 1.5, 2, 2.5}
Rademacher + गॉसियन: Carpentier आदि के प्रायोगिक सेटअप को दोहराया गया
सममित बीटा वितरण: कड़ी उप-गॉसियन संपत्ति के लाभ को सत्यापित करें
संदर्भ सेटअप: K∈{5,10,20}, आयाम d=4, संदर्भ हाइपरक्यूब से समान रूप से नमूना लिया गया

मूल्यांकन मेट्रिक्स

अनुभवजन्य खेद: $R_p(n^{\pi}) - R_p(n^*)$
सैद्धांतिक ऊपरी सीमा की कड़ाई
एल्गोरिदम का अभिसरण गति

तुलना विधियां

सामान्य उप-गॉसियन (GSG) सेटिंग बनाम कड़ी उप-गॉसियन (SSG) सेटिंग
ज्ञात विचरण निचली सीमा बनाम अज्ञात विचरण निचली सीमा
विभिन्न p मानों का प्रदर्शन तुलना

प्रायोगिक परिणाम

मुख्य परिणाम

सैद्धांतिक सीमा की कड़ाई: कड़ी उप-गॉसियन सेटिंग में सैद्धांतिक ऊपरी सीमा अनुभवजन्य परिणामों के अधिक करीब है, विशेष रूप से p=∞ पर।
विचरण निचली सीमा का प्रभाव: जब विचरण निचली सीमा अज्ञात हो, तो एल्गोरिदम प्रदर्शन में महत्वपूर्ण गिरावट होती है, यह गिरावट GSG और SSG सेटिंग में अलग-अलग समय पर होती है।
समय जटिलता: SSG सेटिंग में पहले चरण की लंबाई में महत्वपूर्ण कमी आई है, σ² से संबंधित से केवल log T पर निर्भर स्थिरांक तक।

विशिष्ट संख्यात्मक परिणाम

गॉसियन प्रयोग में, जब T > 2×10⁴ हो, तो एल्गोरिदम सैद्धांतिक अपेक्षित प्रदर्शन दिखाना शुरू करता है
SSG सेटिंग में सैद्धांतिक सीमा GSG सेटिंग की तुलना में लगभग एक परिमाण क्रम तीव्र है
संदर्भ प्रयोग में, अनुभवजन्य खेद की ढलान -2 के करीब है, जो सैद्धांतिक भविष्यवाणी के अनुरूप है

विलोपन प्रयोग

कड़ी उप-गॉसियन बनाम सामान्य उप-गॉसियन: कड़ी उप-गॉसियन वितरण बेहतर स्थिरांक कारक और सरल एल्गोरिदम कार्यान्वयन प्रदान करता है
विभिन्न p मानों की तुलना: p=∞ पर सबसे कड़ी सैद्धांतिक सीमा प्रदान करता है
संदर्भ आयाम का प्रभाव: भुजाओं की संख्या बढ़ने के साथ, प्रदर्शन स्थिर स्केलिंग संबंध बनाए रखता है

सैद्धांतिक विश्लेषण

मुख्य सैद्धांतिक परिणाम

प्रमेय 3.1 (गैर-अनुकूली एल्गोरिदम, p=∞): $\mathbb{E}[R_p(n^{\pi_1}) - R_p(n^*)] \leq 4\sqrt{2}\sigma^2 F_{Alg1,\infty}(\lambda, \sigma^2) T^{-3/2}\sqrt{\log T} + o(T^{-3/2})$

प्रमेय 3.2 (गैर-अनुकूली एल्गोरिदम, p<∞): $\mathbb{E}[R_p(n^{\pi_1}) - R_p(n^*)] \leq 24\sigma^4 F_{Alg1,p}(\lambda, \sigma^2) T^{-2}\log T + o(T^{-2})$

प्रमेय 4.1 (अनुकूली एल्गोरिदम): समान क्रम की सीमा प्रदान करता है, लेकिन स्थिरांक कारक में मामूली अंतर है।

मुख्य सुधार

विचरण एकाग्रता: Hanson-Wright असमानता का उपयोग करके विचरण अनुमान की एकाग्रता असमानता में सुधार किया गया है, एक $\sqrt{\log(1/\delta)}$ कारक को हटाया गया है।
कड़ी उप-गॉसियन: कड़ी उप-गॉसियन वितरण की श्रेणी की पहचान की गई है, जहां विचरण पैरामीटर वास्तविक विचरण के बराबर है, अधिक तीव्र सीमा प्रदान करता है।
अन्वेषण-मुक्त डिजाइन: सिद्ध किया गया है कि UCB-प्रकार अन्वेषण इस समस्या में अनावश्यक है, क्योंकि इष्टतम समाधान स्वयं प्रत्येक भुजा को Θ(T) बार नमूना लेने की आवश्यकता है।

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

अन्वेषण-मुक्त सिद्धांत: बहु-समूह माध्य अनुमान समस्या की संरचना स्पष्ट अन्वेषण को अनावश्यक बनाती है, जो पारंपरिक बहु-भुजा दस्यु समस्या के साथ तीव्र विपरीतता बनाती है।
सैद्धांतिक सुधार: सुधारी गई विचरण एकाग्रता असमानता और कड़ी उप-गॉसियन वितरण की पहचान के माध्यम से, अधिक कड़ी सैद्धांतिक सीमा प्राप्त की गई है।
एल्गोरिदम डिजाइन: प्रस्तावित एल्गोरिदम सरलता को बनाए रखते हुए इष्टतम स्पर्शोन्मुख प्रदर्शन प्राप्त करते हैं।
विस्तारशीलता: ढांचे को संदर्भ सेटिंग तक सफलतापूर्वक विस्तारित किया गया है, नई अनुसंधान दिशा खोली गई है।

सीमाएं

वितरण धारणा: एल्गोरिदम उप-गॉसियन धारणा पर निर्भर करता है, भारी-पूंछ वाले वितरण के लिए उपयुक्त नहीं हो सकता है।
स्थिरांक कारक: यद्यपि स्पर्शोन्मुख रूप से इष्टतम है, स्थिरांक कारक छोटे नमूने के मामले में बड़ा हो सकता है।
संदर्भ सीमा: संदर्भ विस्तार के लिए पहले निर्णय फिर अवलोकन रणनीति की आवश्यकता होती है, जो व्यावहारिक अनुप्रयोग की लचीलापन को सीमित करता है।

भविष्य की दिशाएं

संरचित वितरण: अधिक वितरण संरचना जानकारी का उपयोग करके एल्गोरिदम को और सुधारने का अध्ययन करें।
गैर-पैरामीट्रिक विस्तार: विधि को गैर-पैरामीट्रिक सेटिंग तक विस्तारित करें।
व्यावहारिक अनुप्रयोग: विशिष्ट अनुप्रयोग क्षेत्रों (जैसे A/B परीक्षण, नैदानिक परीक्षण) में एल्गोरिदम प्रभावशीलता को सत्यापित करें।

गहन मूल्यांकन

शक्तियां

महत्वपूर्ण सैद्धांतिक योगदान: विचरण एकाग्रता सिद्धांत और एल्गोरिदम डिजाइन दोनों में वास्तविक सुधार।
गहन समस्या अंतर्दृष्टि: बहु-समूह माध्य अनुमान और पारंपरिक दस्यु समस्या के बीच मौलिक अंतर की पहचान।
सुरुचिपूर्ण विधि डिजाइन: एल्गोरिदम सरल और सहज है, समझने और कार्यान्वयन में आसान है।
पर्याप्त प्रायोगिक सत्यापन: विभिन्न वितरण और सेटिंग के माध्यम से सैद्धांतिक परिणामों को सत्यापित किया गया है।

कमियां

सीमित व्यावहारिक अनुप्रयोग सत्यापन: वास्तविक डेटासेट पर बड़े पैमाने पर सत्यापन की कमी।
कम्प्यूटेशनल जटिलता विश्लेषण: एल्गोरिदम की कम्प्यूटेशनल जटिलता का विस्तृत विश्लेषण नहीं।
अपर्याप्त मजबूतता चर्चा: वितरण धारणा के उल्लंघन के समय प्रदर्शन विश्लेषण की कमी।

प्रभाव

सैद्धांतिक मूल्य: बहु-समूह अनुमान समस्या के लिए नया सैद्धांतिक ढांचा प्रदान करता है।
व्यावहारिक मूल्य: प्रायोगिक डिजाइन, व्यक्तिगत सिफारिशों आदि क्षेत्रों में प्रत्यक्ष अनुप्रयोग मूल्य है।
पुनरुत्पादनीयता: एल्गोरिदम विवरण स्पष्ट है, सैद्धांतिक विश्लेषण पूर्ण है, अच्छी पुनरुत्पादनीयता है।

लागू परिदृश्य

A/B परीक्षण: कई उपयोगकर्ता समूहों के बीच न्यायसंगत तुलना की आवश्यकता वाले परिदृश्य।
नैदानिक परीक्षण: कई उपचार समूहों की चिकित्सीय प्रभावकारिता मूल्यांकन।
बाजार अनुसंधान: विभिन्न जनसंख्या की प्राथमिकताओं का सटीक अनुमान।
अनुशंसा प्रणाली: व्यक्तिगत अनुशंसा में बहु-समूह न्यायसंगतता गारंटी।

संदर्भ

यह पेपर कई महत्वपूर्ण संबंधित कार्यों का उद्धरण देता है, जिनमें शामिल हैं:

Aznag et al. (2023): बहु-समूह माध्य अनुमान के लिए सक्रिय शिक्षा ढांचा
Carpentier et al. (2011): बहु-भुजा दस्यु में सक्रिय शिक्षा के लिए ऊपरी-आत्मविश्वास-सीमा एल्गोरिदम
Hanson-Wright असमानता के संबंधित सैद्धांतिक कार्य
उप-गॉसियन वितरण और विचरण एकाग्रता के शास्त्रीय परिणाम

यह पेपर सैद्धांतिक और विधि दोनों पहलुओं में महत्वपूर्ण योगदान देता है, बहु-समूह माध्य अनुमान समस्या के लिए नया दृष्टिकोण और प्रभावी समाधान प्रदान करता है। अन्वेषण-मुक्त एल्गोरिदम का प्रस्ताव पारंपरिक बहु-भुजा दस्यु में अन्वेषण-शोषण के शास्त्रीय प्रतिमान को उलट देता है, जिसका महत्वपूर्ण सैद्धांतिक अर्थ और व्यावहारिक मूल्य है।