We address the classical problem of constructing confidence intervals (CIs) for the mean of a distribution, given \(N\) i.i.d. samples, such that the CI contains the true mean with probability at least \(1 - δ\), where \(δ\in (0,1)\). We characterize three distinct learning regimes based on the minimum achievable limiting width of any CI as the sample size \(N_δ \to \infty\) and \(δ\to 0\). In the first regime, where \(N_δ\) grows slower than \(\log(1/δ)\), the limiting width of any CI equals the width of the distribution's support, precluding meaningful inference. In the second regime, where \(N_δ\) scales as \(\log(1/δ)\), we precisely characterize the minimum limiting width, which depends on the scaling constant. In the third regime, where \(N_δ\) grows faster than \(\log(1/δ)\), complete learning is achievable, and the limiting width of the CI collapses to zero, converging to the true mean. We demonstrate that CIs derived from concentration inequalities based on Kullback--Leibler (KL) divergences achieve asymptotically optimal performance, attaining the minimum limiting width in both sufficient and complete learning regimes for distributions in two families: single-parameter exponential and bounded support. Additionally, these results extend to one-sided CIs, with the width notion adjusted appropriately. Finally, we generalize our findings to settings with random per-sample costs, motivated by practical applications such as stochastic simulators and cloud service selection. Instead of a fixed sample size, we consider a cost budget \(C_δ\), identifying analogous learning regimes and characterizing the optimal CI construction policy.
- معرّف الورقة: 2501.19126
- العنوان: نظرية الأمثلية المقاربة لفترات الثقة للمتوسط
- المؤلفون: فيكاس ديب (جامعة سنغافورة الوطنية)، أتشال باسامبو (كيلوج، جامعة نورثويسترن)، سانديب جونيجا (جامعة أشوكا، الهند)
- التصنيف: math.ST stat.TH
- وقت النشر: يناير 2025 (نسخة arXiv التمهيدية)
- رابط الورقة: https://arxiv.org/abs/2501.19126
تدرس هذه الورقة المسألة الكلاسيكية لبناء فترات ثقة (CI) لمتوسط التوزيع بناءً على N عينة مستقلة وموزعة بشكل متطابق، حيث تتطلب أن تحتوي فترة الثقة على المتوسط الحقيقي باحتمالية لا تقل عن 1-δ. يميز المؤلفون ثلاث أنظمة تعليم مختلفة بناءً على الحد الأدنى للعرض المقارب الذي يمكن لأي فترة ثقة تحقيقه عندما N_δ→∞ و δ→0: (1) نظام عدم التعليم: عندما ينمو N_δ أبطأ من log(1/δ)، يساوي العرض المقارب لفترة الثقة عرض دعم التوزيع؛ (2) نظام التعليم الكافي: عندما ينمو N_δ بنسبة log(1/δ)، يمكن توصيف الحد الأدنى للعرض المقارب بدقة اعتماداً على ثوابت التحجيم؛ (3) نظام التعليم الكامل: عندما ينمو N_δ أسرع من log(1/δ)، يتقارب العرض المقارب لفترة الثقة إلى الصفر. يثبت المؤلفون أن فترات الثقة المبنية على عدم المساواة التركيز المستندة إلى تباعد كولباك-لايبلر (KL) تحقق الأمثلية المقاربة في كل من نظام التعليم الكافي والكامل.
يعتبر بناء فترات الثقة مسألة أساسية في الإحصاء، مع تطبيقات مهمة في اختبارات A/B والتصميم التجريبي وتحليل البيانات والمحاكاة. على الرغم من وجود عدة طرق لبناء فترات الثقة، إلا أن هناك نقصاً في التوصيف النظري لفترات الثقة المثلى ذات العرض الأدنى.
- غياب نظرية الأمثلية: على الرغم من أن الأدبيات الموجودة توفر طرقاً مختلفة لبناء فترات الثقة، إلا أنه لا توجد نتائج توصف فترات الثقة المثلى ذات العرض الأدنى
- الحدود السفلى غير المقاربة فضفاضة: الحدود السفلى الموجودة (مثل Shekhar و Ramdas 2023) فضفاضة في الحالة المقاربة
- افتراضات قوية: تعتمد الحدود الموجودة على افتراضات قوية بأن عرض فترة الثقة يحد بشكل حتمي بواسطة دوال معينة
تهدف هذه الورقة إلى سد هذه الفجوة النظرية من خلال إدخال افتراض الاستقرار، وتوصيف الحدود الأساسية لعرض فترة الثقة في الإطار المقارب، وإثبات أمثلية الطرق المستندة إلى تباعد KL.
- توصيف ثلاث أنظمة تعليم: بناءً على التحجيم النسبي لحجم العينة N_δ بالنسبة للدقة 1-δ، يتم توصيف ثلاث أنظمة مختلفة: عدم التعليم والتعليم الكافي والتعليم الكامل
- حدود سفلى حادة: اشتقاق حدود سفلى حادة للعرض المقارب لفترة الثقة في نظام التعليم الكافي، وإثبات أن طريقة بناء فترة الثقة المستندة إلى تباعد KL تحقق هذه الحدود
- إثبات الأمثلية المقاربة: إثبات أن طريقة بناء فترة الثقة المستندة إلى حدود التركيز لتباعد KL مثلى في الإطار المقارب المدروس
- نتائج موسعة: توسيع النتائج إلى تكاليف العينات العشوائية وفترات الثقة أحادية الجانب والتوزيعات غير البارامترية والإعدادات الأكثر عمومية
بالنظر إلى N عينة مستقلة وموزعة بشكل متطابق من التوزيع ν (بمتوسط μ)، بناء فترة ثقة μ̂_L^π(N,δ), μ̂_R^π(N,δ)، بحيث P_ν(μ ∈ μ̂_L^π(N,δ), μ̂_R^π(N,δ)) ≥ 1-δ.
التعريف 1 (الاستقرار): بالنسبة لتوزيع معين ν، تُسمى الاستراتيجية π مستقرة إذا عندما N_δ→∞ و δ→0:
- lim_{δ→0} μ̂_L^π(N_δ,δ) →^p μ_L^π(ν)
- lim_{δ→0} μ̂_R^π(N_δ,δ) →^p μ_R^π(ν)
حيث μ_L^π(ν) ≤ μ و μ_R^π(ν) ≥ μ ثوابت.
بناءً على قيمة lim_{δ→0} N_δ/log(1/δ) وهي k:
نظام عدم التعليم (k→0):
- العرض المقارب لفترة الثقة = عرض دعم التوزيع
- μ_L^π(μ) = μ̲, μ_R^π(μ) = μ̄
نظام التعليم الكافي (k ∈ (0,∞)):
- الحد السفلى: μ_R^π(μ) - μ_L^π(μ) ≥ μ_R*(μ,k) - μ_L*(μ,k)
- حيث μ_L*(μ,k) < μ و μ_R*(μ,k) > μ يحققان بشكل فريد:
d(μ, μ_R*(μ,k)) = d(μ, μ_L*(μ,k)) = 1/k
نظام التعليم الكامل (k→∞):
- العرض المقارب لفترة الثقة→0
بالنسبة للتوزيعات في العائلة الأسية ذات المعامل الواحد S، يتم التعريف:
d(μ, μ̃) = KL(p_{θ(μ)}, p_{θ(μ̃)}) = b(θ(μ̃)) - b(θ(μ)) - b'(θ(μ))(θ(μ̃) - θ(μ))
تتمتع هذه الدالة بخصائص مهمة مثل التحدب الشبه الصارم والاستمرارية.
بناءً على عدم المساواة التركيز:
P_ν(nd(μ̂_n, μ) ≥ β(δ)) ≤ δ
حيث β(δ) = log(2/δ)، يتم بناء فترة الثقة:
- μ_R^{π₁}(n,δ) = max{q > μ̂_n : nd(μ̂_n, q) ≤ β(δ)}
- μ_L^{π₁}(n,δ) = min{q < μ̂_n : nd(μ̂_n, q) ≤ β(δ)}
- إدخال مفهوم الاستقرار: هذا هو الابتكار الرئيسي لتحليل السلوك المقارب لعرض فترة الثقة، مما يجعل العرض المقارب ثابتاً حتمياً
- التطبيق الماهر لعدم المساواة معالجة البيانات: مع افتراض الاستقرار، يمكن النظر في حذف الفرضيات على كلا الجانبين الأيسر والأيمن
- إثبات الإحكام: إثبات أن الحدود المقترحة محكمة، أي أن هناك طرقاً تحقق الحدود
- توزيع برنولي: بمتوسطات 0.6 و 0.9
- توزيع غاوسي: N(0,1) مع تباين معروف
- توزيع باريتو: معامل المقياس x_m=1، معامل الشكل α=3
- متوسط عرض فترة الثقة: متوسط عرض فترة الثقة على 1000 مجموعة بيانات مستقلة
- احتمالية التغطية: تكرار احتواء فترة الثقة على المتوسط الحقيقي
- فترة ثقة مستندة إلى Hoeffding: بناءً على عدم مساواة Hoeffding
- فترة ثقة برنشتاين التجريبية (EB): بناءً على عدم مساواة برنشتاين التجريبية
- فترة ثقة محمية مستندة إلى الرهان: بناءً على طريقة الرهان
- الحد السفلى لـ Shekhar-Ramdas: الحد النظري الموجود
- δ = 0.01 (تجارب برنولي)، δ = 0.05 (تجارب باريتو)
- أحجام العينات: N ∈ {2000, 3000}
- معامل التقسيم: m ∈ {1000, 3000, 5000} (طريقة الرهان)
بالنسبة لحالة غاوسي، الحد السفلى المقارب في هذه الورقة هو 2σ√(2/k)، بينما حد Shekhar-Ramdas هو σ√(2/k)، بعامل تحسين قدره 2.
| N | π₁ | Betting(m=1000) | Betting(m=3000) | Betting(m=5000) | Hoeffding | EB |
|---|
| المتوسط=0.6 | | | | | | |
| 2000 | 0.0712 | 0.0603 | 0.0596 | 0.0595 | 0.0728 | 0.0898 |
| 3000 | 0.0582 | 0.0592 | 0.0585 | 0.0584 | 0.0594 | 0.0712 |
| المتوسط=0.9 | | | | | | |
| 2000 | 0.0436 | 0.0378 | 0.0371 | 0.0369 | 0.0728 | 0.0606 |
| 3000 | 0.0356 | 0.0370 | 0.0363 | 0.0361 | 0.0594 | 0.0473 |
| حجم العينة | متوسط عرض فترة الثقة |
|---|
| 500 | 0.492 |
| 1000 | 0.355 |
| 2000 | 0.255 |
| 3000 | 0.199 |
- الميزة المقاربة: تُظهر طريقة π₁ أداءً ممتازاً في حالات العينات الكبيرة، خاصة عند N=3000 حيث تكون الأداء مماثلة لطريقة الرهان
- الكفاءة الحسابية: طريقة π₁ أكثر كفاءة حسابياً من طريقة الرهان
- التحقق من النظرية: تتحقق النتائج التجريبية من عامل التحسين المتنبأ به نظرياً
- ثنائية اختبار الفرضيات وفترات الثقة: تبني النظرية الكلاسيكية فترات الثقة من خلال عكس اختبارات الفرضيات
- الاختبارات الأقوى بشكل موحد (UMP): توجد اختبارات أقوى بشكل موحد في الإعدادات البارامترية، لكنها عادة ما تقتصر على عائلات معينة (مثل الاختبارات غير المنحازة في العائلات الأسية)
- عدم مساواة Hoeffding و Bernstein: تنطبق على التوزيعات ذات الدعم المحدود
- حدود Chernoff: تنطبق عندما تكون الحدود العليا للدالة المولدة للعزوم معروفة
- طرق التوزيعات الثقيلة الذيل: استخدام عدم مساواة Markov و Chebyshev
- Waudby-Smith و Ramdas (2024): تحويل بناء فترات الثقة إلى مسائل الرهان
- Shekhar و Ramdas (2023): توفير حدود سفلى صريحة مع حدود التعقيد المعتمدة على التوزيع، لكنها فضفاضة نسبياً
- توصيف نظري كامل: أول توصيف كامل للحدود الأساسية لعرض فترة الثقة، مع تحديد ثلاث أنظمة تعليم مختلفة
- الطريقة المثلى: إثبات أن طريقة بناء فترة الثقة المستندة إلى تباعد KL مثلى بالمعنى المقارب
- القابلية للتطبيق الواسعة: تنطبق النتائج على عائلات التوزيعات البارامترية وغير البارامترية، وكذلك على الإعدادات ذات التكاليف العشوائية
- الخصائص المقاربة: النتائج أساساً مقاربة، مع إرشادات محدودة للعينات المحدودة
- افتراض الاستقرار: على الرغم من أنه معتدل، إلا أنه لا يزال افتراضاً إضافياً
- قيود عائلة التوزيع: تركز النتائج الرئيسية على العائلات الأسية والتوزيعات ذات الدعم المحدود
- النتائج غير المقاربة: تطوير نظرية غير مقاربة أكثر دقة
- الإحصائيات الأخرى: التوسع إلى تقدير التباين والكميات
- التعميم متعدد الأبعاد: النظر في مناطق الثقة للمعاملات متعددة الأبعاد
- مساهمة نظرية كبيرة: أول نظرية شاملة لأمثلية عرض فترة الثقة، تملأ فجوة نظرية مهمة
- ابتكار تقني واضح: إدخال مفهوم الاستقرار والتطبيق الماهر لعدم مساواة معالجة البيانات له قيمة منهجية
- النتائج محكمة: لا توفر فقط حدود سفلى، بل تثبت أيضاً قابلية تحقيق هذه الحدود
- التطبيق الواسع: التوسع إلى التكاليف العشوائية وفترات الثقة أحادية الجانب وغيرها من الإعدادات ذات الصلة العملية
- التجارب محدودة: التجارب الرقمية نسبياً بسيطة، يمكن أن تتضمن مجموعات بيانات حقيقية أكثر تعقيداً
- التعقيد الحسابي: بالنسبة للحالة غير البارامترية، قد يكون حساب KL_inf معقداً نسبياً
- ضمانات الأداء للعينات المحدودة: النظرية مقاربة، والضمانات للأداء في العينات المحدودة ليست قوية بما يكفي
- التأثير النظري: توفير إطار تحليل جديد لنظرية فترات الثقة، من المتوقع أن يتم الاستشهاد به على نطاق واسع
- القيمة العملية: توفير إرشادات نظرية لاختيار طرق فترات الثقة في التطبيقات العملية
- المساهمة المنهجية: قد تكون طريقة تحليل الاستقرار قابلة للتطبيق على مسائل استدلالية إحصائية أخرى
- الاستدلال الإحصائي للعينات الكبيرة: مناسب بشكل خاص للتطبيقات ذات أحجام العينات الكبيرة
- التجارب عبر الإنترنت: سيناريوهات مثل اختبارات A/B التي تتطلب فترات ثقة موثوقة
- دراسات المحاكاة: الإعداد ذو التكاليف العشوائية مناسب بشكل خاص لتطبيقات المحاكاة
- التعلم الآلي: بناء فترات الثقة في تقييم أداء النموذج
تستشهد الورقة بالأدبيات المهمة في مجالات الإحصاء والتعلم الآلي، بما في ذلك:
- Hoeffding (1994): العمل الكلاسيكي في عدم المساواة الاحتمالية
- Waudby-Smith و Ramdas (2024): التطورات الحديثة في طريقة الرهان
- Shekhar و Ramdas (2023): العمل ذو الصلة بالحدود السفلى
- Kaufmann و Koolen (2021): عدم المساواة التركيز الصالحة في أي وقت
تقدم هذه الورقة مساهمات مهمة في نظرية فترات الثقة، وتوصيف الحدود الأساسية لعرض فترة الثقة من خلال إدخال إطار تحليل جديد، وإثبات أمثلية طريقة تباعد KL. على الرغم من أنها عمل نظري بشكل أساسي، إلا أنها توفر إرشادات قيمة للتطبيقات العملية.