Exploration-free Algorithms for Multi-group Mean Estimation
Wei, Zhong, Li
We address the problem of multi-group mean estimation, which seeks to allocate a finite sampling budget across multiple groups to obtain uniformly accurate estimates of their means. Unlike classical multi-armed bandits, whose objective is to minimize regret by identifying and exploiting the best arm, the optimal allocation in this setting requires sampling every group on the order of $Î(T)$ times. This fundamental distinction makes exploration-free algorithms both natural and effective. Our work makes three contributions. First, we strengthen the existing results on subgaussian variance concentration using the Hanson-Wright inequality and identify a class of strictly subgaussian distributions that yield sharper guarantees. Second, we design exploration-free non-adaptive and adaptive algorithms, and we establish tighter regret bounds than the existing results. Third, we extend the framework to contextual bandit settings, an underexplored direction, and propose algorithms that leverage side information with provable guarantees. Overall, these results position exploration-free allocation as a principled and efficient approach to multi-group mean estimation, with potential applications in experimental design, personalization, and other domains requiring accurate multi-group inference.
academic
বহু-গোষ্ঠী গড় অনুমান এর জন্য অন্বেষণ-মুক্ত অ্যালগরিদম
এই পেপারটি বহু-গোষ্ঠী গড় অনুমান সমস্যা অধ্যয়ন করে, যার লক্ষ্য সীমিত নমুনা বাজেটকে একাধিক গোষ্ঠীর মধ্যে বিতরণ করা যাতে তাদের গড়ের জন্য সামঞ্জস্যপূর্ণ নির্ভুল অনুমান পাওয়া যায়। ঐতিহ্যবাহী বহু-বাহু ডাকাতি সমস্যার বিপরীতে (যার লক্ষ্য সর্বোত্তম বাহু চিহ্নিত এবং ব্যবহার করে অনুশোচনা কমানো), এই সেটিংয়ে সর্বোত্তম বিতরণের জন্য প্রতিটি গোষ্ঠীকে Θ(T) বার নমুনা করার প্রয়োজন। এই মৌলিক পার্থক্য অন্বেষণ-মুক্ত অ্যালগরিদমকে স্বাভাবিক এবং কার্যকর উভয়ই করে তোলে। এই পেপারটি তিনটি প্রধান অবদান করে: প্রথমত, Hanson-Wright অসমতা ব্যবহার করে সাব-গাউসিয়ান বৈচিত্র্য ঘনীকরণের বিদ্যমান ফলাফলগুলি শক্তিশালী করে এবং কঠোর সাব-গাউসিয়ান বিতরণের একটি শ্রেণী চিহ্নিত করে যা আরও তীক্ষ্ণ গ্যারান্টি প্রদান করে; দ্বিতীয়ত, অন্বেষণ-মুক্ত অ-অভিযোজিত এবং অভিযোজিত অ্যালগরিদম ডিজাইন করে যা বিদ্যমান ফলাফলের চেয়ে আরও কঠোর অনুশোচনা সীমানা প্রতিষ্ঠা করে; তৃতীয়ত, কাঠামোটি প্রসঙ্গ ডাকাতি সেটিংয়ে প্রসারিত করে, যা একটি অনুসন্ধান-অপ্রতুল দিক, সহায়ক তথ্য ব্যবহার করে এমন অ্যালগরিদম প্রস্তাব করে এবং প্রমাণযোগ্য গ্যারান্টি প্রদান করে।
বহু-গোষ্ঠী গড় অনুমান সমস্যা সীমিত সময়সীমা T এর মধ্যে K টি গোষ্ঠীর মধ্যে নমুনা বাজেট বিতরণ করার দাবি করে যাতে সমস্ত গোষ্ঠীর গড়ের অনুমান সামঞ্জস্যপূর্ণ নির্ভুলতা অর্জন করে। নির্দিষ্টভাবে, k-তম গোষ্ঠীর জন্য, এর পুরস্কার বিতরণ Pk, গড় μk এবং বৈচিত্র্য σk², লক্ষ্য হল p-নর্ম উদ্দেশ্য কমানো:
ব্যবহারিক প্রয়োগের প্রয়োজন: জনমত সমীক্ষা, পরীক্ষামূলক ডিজাইন, ব্যক্তিগতকৃত সুপারিশ এবং অন্যান্য ক্ষেত্রে, একাধিক গোষ্ঠীর জন্য নির্ভুল এবং ন্যায্য অনুমানের প্রয়োজন, শুধুমাত্র সর্বোত্তম গোষ্ঠীতে নয়।
তাত্ত্বিক চ্যালেঞ্জ: ঐতিহ্যবাহী বহু-বাহু ডাকাতি সমস্যার বিপরীতে, সর্বোত্তম বিতরণ পরিকল্পনার জন্য প্রতিটি বাহুকে Θ(T) বার নমুনা করার প্রয়োজন, যা ঐতিহ্যবাহী অন্বেষণ-ব্যবহার ট্রেড-অফকে অপ্রয়োজনীয় করে তোলে।
বিদ্যমান পদ্ধতির সীমাবদ্ধতা: বিদ্যমান UCB-শ্রেণীর অ্যালগরিদম অপ্রয়োজনীয় অন্বেষণ ওভারহেড প্রবর্তন করে এবং সমস্যার কাঠামোগত বৈশিষ্ট্যগুলি সম্পূর্ণভাবে ব্যবহার করে না।
তাত্ত্বিক উন্নতি: Hanson-Wright অসমতার উপর ভিত্তি করে সাব-গাউসিয়ান বৈচিত্র্য ঘনীকরণ অসমতা উন্নত করে, কঠোর সাব-গাউসিয়ান বিতরণ শ্রেণী চিহ্নিত করে, আরও তীক্ষ্ণ তাত্ত্বিক গ্যারান্টি প্রাপ্ত করে।
অ্যালগরিদম ডিজাইন: দুটি অন্বেষণ-মুক্ত অ্যালগরিদম প্রস্তাব করে:
অ-অভিযোজিত অ্যালগরিদম (বৈচিত্র্য নিম্ন সীমার পূর্ব জ্ঞানের প্রয়োজন)
অভিযোজিত অ্যালগরিদম (পূর্ব জ্ঞানের প্রয়োজন নেই, আত্মবিশ্বাস ব্যবধান ব্যবহার করে)
কাঠামো সম্প্রসারণ: প্রথমবারের মতো বহু-গোষ্ঠী গড় অনুমান প্রসঙ্গ ডাকাতি সেটিংয়ে প্রসারিত করে, সংশ্লিষ্ট অ্যালগরিদম প্রস্তাব করে এবং তাত্ত্বিক বিশ্লেষণ প্রদান করে।
কর্মক্ষমতা উন্নতি: বিদ্যমান সেরা ফলাফলের তুলনায়, অনুশোচনা সীমানায় একটি log T ফ্যাক্টর অপসারণ করে, আরও কঠোর তাত্ত্বিক সীমানা অর্জন করে।
K টি গোষ্ঠী দেওয়া হয়েছে, প্রতিটি গোষ্ঠী k এর পুরস্কার বিতরণ Pk অজানা গড় μk এবং বৈচিত্র্য σk² সহ। সময়সীমা T এর মধ্যে, প্রতিটি সময়ে একটি গোষ্ঠী নমুনা করার জন্য নির্বাচন করুন, লক্ষ্য হল সমস্ত গোষ্ঠীর অনুমান ত্রুটির p-নর্ম কমানো।
তাত্ত্বিক সীমার কঠোরতা: কঠোর সাব-গাউসিয়ান সেটিংয়ে তাত্ত্বিক উপরের সীমা অভিজ্ঞতামূলক ফলাফলের সাথে আরও কাছাকাছি, বিশেষত p=∞ এ।
বৈচিত্র্য নিম্ন সীমার প্রভাব: যখন বৈচিত্র্য নিম্ন সীমা অজানা থাকে, অ্যালগরিদম কর্মক্ষমতা উল্লেখযোগ্য হ্রাস প্রদর্শন করে, এই হ্রাস GSG এবং SSG সেটিংয়ে বিভিন্ন সময়ে ঘটে।
সময় জটিলতা: SSG সেটিংয়ে প্রথম পর্যায়ের দৈর্ঘ্য উল্লেখযোগ্যভাবে হ্রাস পায়, σ² এর সাথে সম্পর্কিত থেকে শুধুমাত্র log T এর উপর নির্ভরশীল ধ্রুবকে।
বৈচিত্র্য ঘনীকরণ: Hanson-Wright অসমতা ব্যবহার করে বৈচিত্র্য অনুমানের ঘনীকরণ অসমতা উন্নত করেছে, একটি log(1/δ) ফ্যাক্টর অপসারণ করেছে।
কঠোর সাব-গাউসিয়ান: কঠোর সাব-গাউসিয়ান বিতরণ শ্রেণী চিহ্নিত করেছে, যেখানে বৈচিত্র্য পরামিতি প্রকৃত বৈচিত্র্যের সমান, আরও তীক্ষ্ণ সীমানা প্রদান করে।
অন্বেষণ-মুক্ত ডিজাইন: প্রমাণ করেছে যে UCB-শ্রেণীর অন্বেষণ এই সমস্যায় অপ্রয়োজনীয়, কারণ সর্বোত্তম সমাধান নিজেই প্রতিটি বাহুকে Θ(T) বার নমুনা করার দাবি করে।
অন্বেষণ-মুক্ত নীতি: বহু-গোষ্ঠী গড় অনুমান সমস্যার কাঠামো স্পষ্ট অন্বেষণকে অপ্রয়োজনীয় করে তোলে, যা ঐতিহ্যবাহী বহু-বাহু ডাকাতি সমস্যার সাথে তীব্র বৈপরীত্য তৈরি করে।
তাত্ত্বিক উন্নতি: উন্নত বৈচিত্র্য ঘনীকরণ অসমতা এবং কঠোর সাব-গাউসিয়ান বিতরণের চিহ্নিতকরণের মাধ্যমে, আরও কঠোর তাত্ত্বিক সীমানা অর্জন করেছে।
অ্যালগরিদম ডিজাইন: প্রস্তাবিত অ্যালগরিদম সরলতা বজায় রেখে সর্বোত্তম অ্যাসিম্পটোটিক কর্মক্ষমতা অর্জন করে।
সম্প্রসারণযোগ্যতা: প্রসঙ্গ সেটিংয়ে কাঠামো সফলভাবে প্রসারিত করেছে, নতুন গবেষণা দিকনির্দেশনা খুলে দিয়েছে।
এই পেপারটি একাধিক গুরুত্বপূর্ণ সম্পর্কিত কাজ উদ্ধৃত করেছে, যার মধ্যে রয়েছে:
Aznag et al. (2023): বহু-গোষ্ঠী গড় অনুমানের জন্য একটি সক্রিয় শিক্ষা কাঠামো
Carpentier et al. (2011): বহু-বাহু ডাকাতিতে সক্রিয় শিক্ষার জন্য উপরের আত্মবিশ্বাস-সীমা অ্যালগরিদম
Hanson-Wright অসমতার সম্পর্কিত তাত্ত্বিক কাজ
সাব-গাউসিয়ান বিতরণ এবং বৈচিত্র্য ঘনীকরণের ক্লাসিক ফলাফল
এই পেপারটি তত্ত্ব এবং পদ্ধতি উভয় ক্ষেত্রেই গুরুত্বপূর্ণ অবদান রাখে, বহু-গোষ্ঠী গড় অনুমান সমস্যার জন্য নতুন দৃষ্টিভঙ্গি এবং কার্যকর সমাধান প্রদান করে। অন্বেষণ-মুক্ত অ্যালগরিদমের প্রস্তাব ঐতিহ্যবাহী বহু-বাহু ডাকাতিতে অন্বেষণ-ব্যবহার ক্লাসিক প্যারাডাইম উল্টে দেয়, উল্লেখযোগ্য তাত্ত্বিক অর্থ এবং ব্যবহারিক মূল্য রয়েছে।