2025-11-24T22:28:17.253920

Exploration-free Algorithms for Multi-group Mean Estimation

Wei, Zhong, Li

We address the problem of multi-group mean estimation, which seeks to allocate a finite sampling budget across multiple groups to obtain uniformly accurate estimates of their means. Unlike classical multi-armed bandits, whose objective is to minimize regret by identifying and exploiting the best arm, the optimal allocation in this setting requires sampling every group on the order of $Î(T)$ times. This fundamental distinction makes exploration-free algorithms both natural and effective. Our work makes three contributions. First, we strengthen the existing results on subgaussian variance concentration using the Hanson-Wright inequality and identify a class of strictly subgaussian distributions that yield sharper guarantees. Second, we design exploration-free non-adaptive and adaptive algorithms, and we establish tighter regret bounds than the existing results. Third, we extend the framework to contextual bandit settings, an underexplored direction, and propose algorithms that leverage side information with provable guarantees. Overall, these results position exploration-free allocation as a principled and efficient approach to multi-group mean estimation, with potential applications in experimental design, personalization, and other domains requiring accurate multi-group inference.

academic

বহু-গোষ্ঠী গড় অনুমান এর জন্য অন্বেষণ-মুক্ত অ্যালগরিদম

মৌলিক তথ্য

পেপার আইডি: 2510.10374
শিরোনাম: Exploration-free Algorithms for Multi-group Mean Estimation
লেখক: Ziyi Wei (Virginia Tech), Huaiyang Zhong (Virginia Tech), Xiaocheng Li (Imperial College London)
শ্রেণীবিভাগ: cs.LG, stat.ML
প্রকাশনার সময়: ২০২৫ সালের ১২ অক্টোবর
পেপার লিঙ্ক: https://arxiv.org/abs/2510.10374

সারসংক্ষেপ

এই পেপারটি বহু-গোষ্ঠী গড় অনুমান সমস্যা অধ্যয়ন করে, যার লক্ষ্য সীমিত নমুনা বাজেটকে একাধিক গোষ্ঠীর মধ্যে বিতরণ করা যাতে তাদের গড়ের জন্য সামঞ্জস্যপূর্ণ নির্ভুল অনুমান পাওয়া যায়। ঐতিহ্যবাহী বহু-বাহু ডাকাতি সমস্যার বিপরীতে (যার লক্ষ্য সর্বোত্তম বাহু চিহ্নিত এবং ব্যবহার করে অনুশোচনা কমানো), এই সেটিংয়ে সর্বোত্তম বিতরণের জন্য প্রতিটি গোষ্ঠীকে Θ(T) বার নমুনা করার প্রয়োজন। এই মৌলিক পার্থক্য অন্বেষণ-মুক্ত অ্যালগরিদমকে স্বাভাবিক এবং কার্যকর উভয়ই করে তোলে। এই পেপারটি তিনটি প্রধান অবদান করে: প্রথমত, Hanson-Wright অসমতা ব্যবহার করে সাব-গাউসিয়ান বৈচিত্র্য ঘনীকরণের বিদ্যমান ফলাফলগুলি শক্তিশালী করে এবং কঠোর সাব-গাউসিয়ান বিতরণের একটি শ্রেণী চিহ্নিত করে যা আরও তীক্ষ্ণ গ্যারান্টি প্রদান করে; দ্বিতীয়ত, অন্বেষণ-মুক্ত অ-অভিযোজিত এবং অভিযোজিত অ্যালগরিদম ডিজাইন করে যা বিদ্যমান ফলাফলের চেয়ে আরও কঠোর অনুশোচনা সীমানা প্রতিষ্ঠা করে; তৃতীয়ত, কাঠামোটি প্রসঙ্গ ডাকাতি সেটিংয়ে প্রসারিত করে, যা একটি অনুসন্ধান-অপ্রতুল দিক, সহায়ক তথ্য ব্যবহার করে এমন অ্যালগরিদম প্রস্তাব করে এবং প্রমাণযোগ্য গ্যারান্টি প্রদান করে।

গবেষণা পটভূমি এবং প্রেরণা

সমস্যা সংজ্ঞা

বহু-গোষ্ঠী গড় অনুমান সমস্যা সীমিত সময়সীমা T এর মধ্যে K টি গোষ্ঠীর মধ্যে নমুনা বাজেট বিতরণ করার দাবি করে যাতে সমস্ত গোষ্ঠীর গড়ের অনুমান সামঞ্জস্যপূর্ণ নির্ভুলতা অর্জন করে। নির্দিষ্টভাবে, k-তম গোষ্ঠীর জন্য, এর পুরস্কার বিতরণ Pk, গড় μk এবং বৈচিত্র্য σk², লক্ষ্য হল p-নর্ম উদ্দেশ্য কমানো:

$R_p(n) = \left\|\left\{\frac{\sigma_k^2}{n_k}\right\}_{k=1}^K\right\|_p$

যেখানে nk হল k-তম গোষ্ঠীর নমুনা সংখ্যা।

গবেষণা প্রেরণা

ব্যবহারিক প্রয়োগের প্রয়োজন: জনমত সমীক্ষা, পরীক্ষামূলক ডিজাইন, ব্যক্তিগতকৃত সুপারিশ এবং অন্যান্য ক্ষেত্রে, একাধিক গোষ্ঠীর জন্য নির্ভুল এবং ন্যায্য অনুমানের প্রয়োজন, শুধুমাত্র সর্বোত্তম গোষ্ঠীতে নয়।
তাত্ত্বিক চ্যালেঞ্জ: ঐতিহ্যবাহী বহু-বাহু ডাকাতি সমস্যার বিপরীতে, সর্বোত্তম বিতরণ পরিকল্পনার জন্য প্রতিটি বাহুকে Θ(T) বার নমুনা করার প্রয়োজন, যা ঐতিহ্যবাহী অন্বেষণ-ব্যবহার ট্রেড-অফকে অপ্রয়োজনীয় করে তোলে।
বিদ্যমান পদ্ধতির সীমাবদ্ধতা: বিদ্যমান UCB-শ্রেণীর অ্যালগরিদম অপ্রয়োজনীয় অন্বেষণ ওভারহেড প্রবর্তন করে এবং সমস্যার কাঠামোগত বৈশিষ্ট্যগুলি সম্পূর্ণভাবে ব্যবহার করে না।

মূল অবদান

তাত্ত্বিক উন্নতি: Hanson-Wright অসমতার উপর ভিত্তি করে সাব-গাউসিয়ান বৈচিত্র্য ঘনীকরণ অসমতা উন্নত করে, কঠোর সাব-গাউসিয়ান বিতরণ শ্রেণী চিহ্নিত করে, আরও তীক্ষ্ণ তাত্ত্বিক গ্যারান্টি প্রাপ্ত করে।
অ্যালগরিদম ডিজাইন: দুটি অন্বেষণ-মুক্ত অ্যালগরিদম প্রস্তাব করে:
- অ-অভিযোজিত অ্যালগরিদম (বৈচিত্র্য নিম্ন সীমার পূর্ব জ্ঞানের প্রয়োজন)
- অভিযোজিত অ্যালগরিদম (পূর্ব জ্ঞানের প্রয়োজন নেই, আত্মবিশ্বাস ব্যবধান ব্যবহার করে)
কাঠামো সম্প্রসারণ: প্রথমবারের মতো বহু-গোষ্ঠী গড় অনুমান প্রসঙ্গ ডাকাতি সেটিংয়ে প্রসারিত করে, সংশ্লিষ্ট অ্যালগরিদম প্রস্তাব করে এবং তাত্ত্বিক বিশ্লেষণ প্রদান করে।
কর্মক্ষমতা উন্নতি: বিদ্যমান সেরা ফলাফলের তুলনায়, অনুশোচনা সীমানায় একটি log T ফ্যাক্টর অপসারণ করে, আরও কঠোর তাত্ত্বিক সীমানা অর্জন করে।

পদ্ধতি বিস্তারিত

কাজের সংজ্ঞা

K টি গোষ্ঠী দেওয়া হয়েছে, প্রতিটি গোষ্ঠী k এর পুরস্কার বিতরণ Pk অজানা গড় μk এবং বৈচিত্র্য σk² সহ। সময়সীমা T এর মধ্যে, প্রতিটি সময়ে একটি গোষ্ঠী নমুনা করার জন্য নির্বাচন করুন, লক্ষ্য হল সমস্ত গোষ্ঠীর অনুমান ত্রুটির p-নর্ম কমানো।

সর্বোত্তম বিতরণ পরিকল্পনা

প্রস্তাব 2.1 তাত্ত্বিক সর্বোত্তম বিতরণ প্রদান করে: $n_k^* = \frac{\sigma_k^q}{\sum_{j=1}^K \sigma_j^q} \cdot T$

যেখানে q = 2p/(p+1) (যখন p সীমিত) বা q = 2 (যখন p = ∞)।

অ্যালগরিদম 1: অ-অভিযোজিত বিতরণ

মূল ধারণা: দুটি পর্যায়ে সম্পাদিত

প্রথম পর্যায়: প্রতিটি গোষ্ঠীকে τ রাউন্ড সমানভাবে নমুনা করুন, বৈচিত্র্য অনুমান করুন
দ্বিতীয় পর্যায়: অনুমানিত বৈচিত্র্যের উপর ভিত্তি করে সর্বোত্তম অনুপাত অনুযায়ী অবশিষ্ট বাজেট বিতরণ করুন

মূল পরামিতি:

প্রাথমিক দৈর্ঘ্য: $\tau = \frac{\sigma^q}{\sigma^q + (K-1)\underline{\sigma}^q} \cdot T$
বিতরণ ওজন: $\lambda_{k,\tau} = \frac{\hat{\sigma}_{k,\tau}^q}{\sum_{j=1}^K \hat{\sigma}_{j,\tau}^q}$

অ্যালগরিদম 2: অভিযোজিত অ্যালগরিদম

উন্নতি বিন্দু: বৈচিত্র্য নিম্ন সীমার পূর্ব জ্ঞানের প্রয়োজন নেই, আত্মবিশ্বাস ব্যবধানের মাধ্যমে অভিযোজিতভাবে সামঞ্জস্য করুন।

মূল প্রক্রিয়া:

আত্মবিশ্বাস ব্যবধান নির্মাণ: উন্নত বৈচিত্র্য ঘনীকরণ অসমতার উপর ভিত্তি করে LCB এবং UCB নির্মাণ করুন
অভিযোজিত থামা: প্রতিটি গোষ্ঠীর থামার সময় গতিশীলভাবে গণনা করুন
বাহু নির্মূলন কৌশল: সর্বোত্তম বাহু চিহ্নিতকরণে নির্মূলন কৌশলের অনুরূপ

আত্মবিশ্বাস ব্যবধান:

$LCB_{k,n} = \max\{\hat{\sigma}_{k,n}^2 - \varepsilon_{k,n}^+, 0\}$
$UCB_{k,n} = \hat{\sigma}_{k,n}^2 + \varepsilon_{k,n}^-$

অ্যালগরিদম 3: প্রসঙ্গ সম্প্রসারণ

সমস্যা সেটিং: প্রতিটি গোষ্ঠী k পরামিতি ভেক্টর βk এর সাথে যুক্ত, প্রসঙ্গ ct পর্যবেক্ষণ করা হলে, পুরস্কার হল: $X_{k,n} = \beta_k^T c_n + \eta_{k,n}$

উদ্দেশ্য ফাংশন: $\min \mathbb{E}\left[\sum_{k=1}^K \|\hat{\beta}_{k,n_k} - \beta_k\|^2\right]$

মূল উদ্ভাবন:

রিজ রিগ্রেশন অনুমানকারী ব্যবহার করুন
সিদ্ধান্ত-পরে-পর্যবেক্ষণ নমুনা কৌশল
প্রসঙ্গ ভেক্টরের স্বাধীনতা বজায় রাখুন

পরীক্ষামূলক সেটআপ

ডেটাসেট

গাউসিয়ান বিতরণ: K=4 গোষ্ঠী, গড় U(-1,1) থেকে নমুনা করা, বৈচিত্র্য {1, 1.5, 2, 2.5}
Rademacher + গাউসিয়ান: Carpentier এবং অন্যদের পরীক্ষামূলক সেটআপ পুনরুৎপাদন করুন
সমরূপ বিটা বিতরণ: কঠোর সাব-গাউসিয়ান সম্পত্তির সুবিধা যাচাই করুন
প্রসঙ্গ সেটিং: K∈{5,10,20}, মাত্রা d=4, প্রসঙ্গ হাইপারকিউব থেকে সমানভাবে নমুনা করা

মূল্যায়ন মেট্রিক্স

অভিজ্ঞতামূলক অনুশোচনা: $R_p(n^{\pi}) - R_p(n^*)$
তাত্ত্বিক উপরের সীমার কঠোরতা
অ্যালগরিদমের সংমিশ্রণ গতি

তুলনা পদ্ধতি

সাধারণ সাব-গাউসিয়ান (GSG) সেটিং বনাম কঠোর সাব-গাউসিয়ান (SSG) সেটিং
পরিচিত বৈচিত্র্য নিম্ন সীমা বনাম অজানা বৈচিত্র্য নিম্ন সীমা
বিভিন্ন p মানের কর্মক্ষমতা তুলনা

পরীক্ষামূলক ফলাফল

প্রধান ফলাফল

তাত্ত্বিক সীমার কঠোরতা: কঠোর সাব-গাউসিয়ান সেটিংয়ে তাত্ত্বিক উপরের সীমা অভিজ্ঞতামূলক ফলাফলের সাথে আরও কাছাকাছি, বিশেষত p=∞ এ।
বৈচিত্র্য নিম্ন সীমার প্রভাব: যখন বৈচিত্র্য নিম্ন সীমা অজানা থাকে, অ্যালগরিদম কর্মক্ষমতা উল্লেখযোগ্য হ্রাস প্রদর্শন করে, এই হ্রাস GSG এবং SSG সেটিংয়ে বিভিন্ন সময়ে ঘটে।
সময় জটিলতা: SSG সেটিংয়ে প্রথম পর্যায়ের দৈর্ঘ্য উল্লেখযোগ্যভাবে হ্রাস পায়, σ² এর সাথে সম্পর্কিত থেকে শুধুমাত্র log T এর উপর নির্ভরশীল ধ্রুবকে।

নির্দিষ্ট সংখ্যাগত ফলাফল

গাউসিয়ান পরীক্ষায়, যখন T > 2×10⁴, অ্যালগরিদম তাত্ত্বিক প্রত্যাশিত কর্মক্ষমতা প্রদর্শন করতে শুরু করে
SSG সেটিংয়ে তাত্ত্বিক সীমা GSG সেটিংয়ের চেয়ে প্রায় একটি পরিমাণ ক্রম কঠোর
প্রসঙ্গ পরীক্ষায়, অভিজ্ঞতামূলক অনুশোচনার ঢাল -2 এর কাছাকাছি, তাত্ত্বিক পূর্বাভাসের সাথে সামঞ্জস্যপূর্ণ

অপসারণ পরীক্ষা

কঠোর সাব-গাউসিয়ান বনাম সাধারণ সাব-গাউসিয়ান: কঠোর সাব-গাউসিয়ান বিতরণ আরও ভাল ধ্রুবক ফ্যাক্টর এবং সহজ অ্যালগরিদম বাস্তবায়ন প্রদান করে
বিভিন্ন p মানের তুলনা: p=∞ সবচেয়ে কঠোর তাত্ত্বিক সীমানা প্রদান করে
প্রসঙ্গ মাত্রার প্রভাব: বাহু সংখ্যা বৃদ্ধির সাথে সাথে, কর্মক্ষমতা স্থিতিশীল স্কেলিং সম্পর্ক বজায় রাখে

তাত্ত্বিক বিশ্লেষণ

প্রধান তাত্ত্বিক ফলাফল

উপপাদ্য 3.1 (অ-অভিযোজিত অ্যালগরিদম, p=∞): $\mathbb{E}[R_p(n^{\pi_1}) - R_p(n^*)] \leq 4\sqrt{2}\sigma^2 F_{Alg1,\infty}(\lambda, \sigma^2) T^{-3/2}\sqrt{\log T} + o(T^{-3/2})$

উপপাদ্য 3.2 (অ-অভিযোজিত অ্যালগরিদম, p<∞): $\mathbb{E}[R_p(n^{\pi_1}) - R_p(n^*)] \leq 24\sigma^4 F_{Alg1,p}(\lambda, \sigma^2) T^{-2}\log T + o(T^{-2})$

উপপাদ্য 4.1 (অভিযোজিত অ্যালগরিদম): একই ক্রমের সীমানা প্রদান করে, কিন্তু ধ্রুবক ফ্যাক্টর সামান্য ভিন্ন।

মূল উন্নতি

বৈচিত্র্য ঘনীকরণ: Hanson-Wright অসমতা ব্যবহার করে বৈচিত্র্য অনুমানের ঘনীকরণ অসমতা উন্নত করেছে, একটি $\sqrt{\log(1/\delta)}$ ফ্যাক্টর অপসারণ করেছে।
কঠোর সাব-গাউসিয়ান: কঠোর সাব-গাউসিয়ান বিতরণ শ্রেণী চিহ্নিত করেছে, যেখানে বৈচিত্র্য পরামিতি প্রকৃত বৈচিত্র্যের সমান, আরও তীক্ষ্ণ সীমানা প্রদান করে।
অন্বেষণ-মুক্ত ডিজাইন: প্রমাণ করেছে যে UCB-শ্রেণীর অন্বেষণ এই সমস্যায় অপ্রয়োজনীয়, কারণ সর্বোত্তম সমাধান নিজেই প্রতিটি বাহুকে Θ(T) বার নমুনা করার দাবি করে।

উপসংহার এবং আলোচনা

প্রধান উপসংহার

অন্বেষণ-মুক্ত নীতি: বহু-গোষ্ঠী গড় অনুমান সমস্যার কাঠামো স্পষ্ট অন্বেষণকে অপ্রয়োজনীয় করে তোলে, যা ঐতিহ্যবাহী বহু-বাহু ডাকাতি সমস্যার সাথে তীব্র বৈপরীত্য তৈরি করে।
তাত্ত্বিক উন্নতি: উন্নত বৈচিত্র্য ঘনীকরণ অসমতা এবং কঠোর সাব-গাউসিয়ান বিতরণের চিহ্নিতকরণের মাধ্যমে, আরও কঠোর তাত্ত্বিক সীমানা অর্জন করেছে।
অ্যালগরিদম ডিজাইন: প্রস্তাবিত অ্যালগরিদম সরলতা বজায় রেখে সর্বোত্তম অ্যাসিম্পটোটিক কর্মক্ষমতা অর্জন করে।
সম্প্রসারণযোগ্যতা: প্রসঙ্গ সেটিংয়ে কাঠামো সফলভাবে প্রসারিত করেছে, নতুন গবেষণা দিকনির্দেশনা খুলে দিয়েছে।

সীমাবদ্ধতা

বিতরণ অনুমান: অ্যালগরিদম সাব-গাউসিয়ান অনুমানের উপর নির্ভর করে, ভারী-লেজ বিতরণের জন্য প্রযোজ্য নাও হতে পারে।
ধ্রুবক ফ্যাক্টর: যদিও অ্যাসিম্পটোটিকভাবে সর্বোত্তম, ধ্রুবক ফ্যাক্টর ছোট নমুনা ক্ষেত্রে বড় হতে পারে।
প্রসঙ্গ সীমাবদ্ধতা: প্রসঙ্গ সম্প্রসারণ সিদ্ধান্ত-পরে-পর্যবেক্ষণ কৌশল প্রয়োজন, ব্যবহারিক প্রয়োগের নমনীয়তা সীমিত করে।

ভবিষ্যত দিকনির্দেশনা

কাঠামোগত বিতরণ: আরও বিতরণ কাঠামো তথ্য ব্যবহার করে অ্যালগরিদম আরও উন্নত করার উপায় অধ্যয়ন করুন।
অ-প্যারামেট্রিক সম্প্রসারণ: পদ্ধতি অ-প্যারামেট্রিক সেটিংয়ে প্রসারিত করুন।
ব্যবহারিক প্রয়োগ: নির্দিষ্ট প্রয়োগ ক্ষেত্রে (যেমন A/B পরীক্ষা, ক্লিনিকাল ট্রায়াল) অ্যালগরিদম কার্যকারিতা যাচাই করুন।

গভীর মূল্যায়ন

সুবিধা

উল্লেখযোগ্য তাত্ত্বিক অবদান: বৈচিত্র্য ঘনীকরণ তত্ত্ব এবং অ্যালগরিদম ডিজাইন উভয় ক্ষেত্রেই বাস্তব উন্নতি।
গভীর সমস্যা অন্তর্দৃষ্টি: বহু-গোষ্ঠী গড় অনুমান এবং ঐতিহ্যবাহী ডাকাতি সমস্যার মধ্যে মৌলিক পার্থক্য চিহ্নিত করেছে।
মার্জিত পদ্ধতি ডিজাইন: অ্যালগরিদম সহজ এবং স্বজ্ঞাত, বোঝা এবং বাস্তবায়ন সহজ।
পর্যাপ্ত পরীক্ষামূলক যাচাইকরণ: একাধিক বিতরণ এবং সেটিংয়ের মাধ্যমে তাত্ত্বিক ফলাফল যাচাই করেছে।

অপূর্ণতা

সীমিত ব্যবহারিক প্রয়োগ যাচাইকরণ: প্রকৃত ডেটাসেটে বড় আকারের যাচাইকরণের অভাব।
গণনা জটিলতা বিশ্লেষণ: অ্যালগরিদমের গণনা জটিলতার বিস্তারিত বিশ্লেষণ নেই।
অপর্যাপ্ত শক্তিশালীতা আলোচনা: বিতরণ অনুমান লঙ্ঘন করা হলে কর্মক্ষমতার জন্য বিশ্লেষণের অভাব।

প্রভাব

তাত্ত্বিক মূল্য: বহু-গোষ্ঠী অনুমান সমস্যার জন্য নতুন তাত্ত্বিক কাঠামো প্রদান করেছে।
ব্যবহারিক মূল্য: পরীক্ষামূলক ডিজাইন, ব্যক্তিগতকৃত সুপারিশ এবং অন্যান্য ক্ষেত্রে সরাসরি প্রয়োগ মূল্য।
পুনরুৎপাদনযোগ্যতা: অ্যালগরিদম বর্ণনা স্পষ্ট, তাত্ত্বিক বিশ্লেষণ সম্পূর্ণ, ভাল পুনরুৎপাদনযোগ্যতা।

প্রযোজ্য দৃশ্যকল্প

A/B পরীক্ষা: একাধিক ব্যবহারকারী গোষ্ঠীর ন্যায্য তুলনার প্রয়োজন এমন দৃশ্যকল্প।
ক্লিনিকাল ট্রায়াল: একাধিক চিকিৎসা গোষ্ঠীর কার্যকারিতা মূল্যায়ন।
বাজার গবেষণা: বিভিন্ন জনগোষ্ঠীর পছন্দের নির্ভুল অনুমান।
সুপারিশ সিস্টেম: ব্যক্তিগতকৃত সুপারিশে বহু-গোষ্ঠী ন্যায্যতা নিশ্চিতকরণ।

রেফারেন্স

এই পেপারটি একাধিক গুরুত্বপূর্ণ সম্পর্কিত কাজ উদ্ধৃত করেছে, যার মধ্যে রয়েছে:

Aznag et al. (2023): বহু-গোষ্ঠী গড় অনুমানের জন্য একটি সক্রিয় শিক্ষা কাঠামো
Carpentier et al. (2011): বহু-বাহু ডাকাতিতে সক্রিয় শিক্ষার জন্য উপরের আত্মবিশ্বাস-সীমা অ্যালগরিদম
Hanson-Wright অসমতার সম্পর্কিত তাত্ত্বিক কাজ
সাব-গাউসিয়ান বিতরণ এবং বৈচিত্র্য ঘনীকরণের ক্লাসিক ফলাফল

এই পেপারটি তত্ত্ব এবং পদ্ধতি উভয় ক্ষেত্রেই গুরুত্বপূর্ণ অবদান রাখে, বহু-গোষ্ঠী গড় অনুমান সমস্যার জন্য নতুন দৃষ্টিভঙ্গি এবং কার্যকর সমাধান প্রদান করে। অন্বেষণ-মুক্ত অ্যালগরিদমের প্রস্তাব ঐতিহ্যবাহী বহু-বাহু ডাকাতিতে অন্বেষণ-ব্যবহার ক্লাসিক প্যারাডাইম উল্টে দেয়, উল্লেখযোগ্য তাত্ত্বিক অর্থ এবং ব্যবহারিক মূল্য রয়েছে।