Exploration-free Algorithms for Multi-group Mean Estimation
Wei, Zhong, Li
We address the problem of multi-group mean estimation, which seeks to allocate a finite sampling budget across multiple groups to obtain uniformly accurate estimates of their means. Unlike classical multi-armed bandits, whose objective is to minimize regret by identifying and exploiting the best arm, the optimal allocation in this setting requires sampling every group on the order of $Î(T)$ times. This fundamental distinction makes exploration-free algorithms both natural and effective. Our work makes three contributions. First, we strengthen the existing results on subgaussian variance concentration using the Hanson-Wright inequality and identify a class of strictly subgaussian distributions that yield sharper guarantees. Second, we design exploration-free non-adaptive and adaptive algorithms, and we establish tighter regret bounds than the existing results. Third, we extend the framework to contextual bandit settings, an underexplored direction, and propose algorithms that leverage side information with provable guarantees. Overall, these results position exploration-free allocation as a principled and efficient approach to multi-group mean estimation, with potential applications in experimental design, personalization, and other domains requiring accurate multi-group inference.
academic
خوارزميات خالية من الاستكشاف لتقدير متوسط المجموعات المتعددة
تدرس هذه الورقة مشكلة تقدير متوسط المجموعات المتعددة، بهدف توزيع ميزانية أخذ العينات المحدودة على عدة مجموعات للحصول على تقديرات دقيقة ومتسقة لمتوسطاتها. بخلاف آلات الجشع متعددة الأذرع التقليدية (التي تهدف إلى تقليل الندم من خلال تحديد واستغلال الذراع الأمثل)، يتطلب التوزيع الأمثل في هذا الإعداد أخذ عينات من كل مجموعة Θ(T) مرة. يجعل هذا الاختلاف الأساسي الخوارزميات الخالية من الاستكشاف طبيعية وفعالة. تقدم هذه الورقة ثلاث مساهمات رئيسية: أولاً، تعزيز النتائج الموجودة لتركيز التباين شبه الغاوسي باستخدام عدم المساواة هانسون-رايت، وتحديد فئة من التوزيعات شبه الغاوسية الصارمة التي تنتج ضمانات أكثر حدة؛ ثانياً، تصميم خوارزميات غير تكيفية وتكيفية خالية من الاستكشاف، مع إنشاء حدود ندم أكثر إحكاماً من النتائج الموجودة؛ ثالثاً، توسيع الإطار إلى إعداد آلات الجشع السياقية، وهي اتجاه غير مستكشف بشكل كافٍ، مع اقتراح خوارزميات تستفيد من المعلومات الإضافية وتقديم ضمانات قابلة للإثبات.
تتطلب مشكلة تقدير متوسط المجموعات المتعددة توزيع ميزانية أخذ العينات على K مجموعة خلال فترة زمنية محدودة T، بحيث تحقق التقديرات لجميع متوسطات المجموعات دقة متسقة. بشكل محدد، بالنسبة للمجموعة k، توزيع المكافآت هو Pk، والمتوسط هو μk، والتباين هو σk²، والهدف هو تقليل هدف p-norm:
احتياجات التطبيق العملي: في استطلاعات الرأي وتصميم التجارب والتوصيات الشخصية وغيرها، هناك حاجة لإجراء تقديرات دقيقة وعادلة لمجموعات متعددة، وليس فقط التركيز على المجموعة المثلى.
التحديات النظرية: بخلاف آلات الجشع متعددة الأذرع التقليدية، يتطلب مخطط التوزيع الأمثل أخذ عينات من كل ذراع Θ(T) مرة، مما يجعل المقايضة التقليدية بين الاستكشاف والاستغلال غير ضرورية.
قيود الطرق الموجودة: تقدم خوارزميات من نوع UCB تكاليف استكشاف غير ضرورية ولا تستفيد بشكل كامل من خصائص هيكل المشكلة.
التحسينات النظرية: تحسين عدم المساواة في تركيز التباين شبه الغاوسي بناءً على عدم المساواة هانسون-رايت، وتحديد فئة التوزيعات شبه الغاوسية الصارمة، والحصول على ضمانات نظرية أكثر حدة.
تصميم الخوارزمية: اقتراح خوارزميتين خاليتين من الاستكشاف:
خوارزمية غير تكيفية (تتطلب معرفة مسبقة بحد أدنى للتباين)
خوارزمية تكيفية (بدون معرفة مسبقة، باستخدام فترات الثقة)
توسيع الإطار: توسيع تقدير متوسط المجموعات المتعددة لأول مرة إلى إعداد آلات الجشع السياقية، مع اقتراح الخوارزميات المقابلة والتحليل النظري.
تحسن الأداء: مقارنة بأفضل النتائج الموجودة، إزالة عامل log T من حد الندم، وتحقيق حد نظري أكثر إحكاماً.
بالنظر إلى K مجموعة، كل مجموعة k لها توزيع مكافآت Pk بمتوسط غير معروف μk وتباين σk². خلال فترة زمنية T، اختر مجموعة واحدة في كل لحظة لأخذ عينات، والهدف هو تقليل p-norm لخطأ التقدير لجميع المجموعات.
إحكام الحد النظري: الحد النظري في إعداد شبه الغاوسي الصارم أقرب إلى النتائج التجريبية، خاصة عندما يكون p=∞.
تأثير حد التباين الأدنى: عندما يكون حد التباين الأدنى غير معروف، تنخفض أداء الخوارزمية بشكل ملحوظ، وهذا الانخفاض يحدث في نقاط زمنية مختلفة في إعدادات GSG و SSG.
التعقيد الزمني: يتناقص طول المرحلة الأولى بشكل كبير في إعداد SSG، من الارتباط بـ σ² إلى ثابت يعتمد فقط على log T.
مبدأ خالي من الاستكشاف: هيكل مشكلة تقدير متوسط المجموعات المتعددة يجعل الاستكشاف الصريح غير ضروري، مما يشكل تناقضاً حاداً مع آلات الجشع متعددة الأذرع التقليدية.
التحسينات النظرية: من خلال تحسين عدم المساواة في تركيز التباين وتحديد التوزيعات شبه الغاوسية الصارمة، تحقيق حدود نظرية أكثر إحكاماً.
تصميم الخوارزمية: الخوارزميات المقترحة تحقق الأداء الأمثل المقاربة مع الحفاظ على البساطة.
القابلية للتوسع: توسيع ناجح للإطار إلى الإعداد السياقي، فتح اتجاهات بحثية جديدة.
تستشهد هذه الورقة بعدة أعمال ذات صلة مهمة، بما في ذلك:
Aznag وآخرون (2023): إطار التعلم النشط لتقدير متوسط المجموعات المتعددة
Carpentier وآخرون (2011): خوارزميات الحد الأعلى للثقة للتعلم النشط في آلات الجشع متعددة الأذرع
الأعمال النظرية ذات الصلة بعدم المساواة هانسون-رايت
النتائج الكلاسيكية للتوزيعات شبه الغاوسية وتركيز التباين
تقدم هذه الورقة مساهمات مهمة في النظرية والطريقة، وتوفر منظوراً جديداً وحلاً فعالاً لمشكلة تقدير متوسط المجموعات المتعددة. يشكل اقتراح الخوارزميات الخالية من الاستكشاف تحولاً عن النموذج الكلاسيكي للمقايضة بين الاستكشاف والاستغلال في آلات الجشع متعددة الأذرع التقليدية، مما يحمل أهمية نظرية وقيمة عملية كبيرة.