2025-11-13T23:52:10.651598

Asymptotic optimality theory of confidence intervals of the mean

Deep, Bassamboo, Juneja

We address the classical problem of constructing confidence intervals (CIs) for the mean of a distribution, given \(N\) i.i.d. samples, such that the CI contains the true mean with probability at least \(1 - Î´\), where \(Î´\in (0,1)\). We characterize three distinct learning regimes based on the minimum achievable limiting width of any CI as the sample size \(N_Î´ \to \infty\) and \(Î´\to 0\). In the first regime, where \(N_Î´\) grows slower than \(\log(1/Î´)\), the limiting width of any CI equals the width of the distribution's support, precluding meaningful inference. In the second regime, where \(N_Î´\) scales as \(\log(1/Î´)\), we precisely characterize the minimum limiting width, which depends on the scaling constant. In the third regime, where \(N_Î´\) grows faster than \(\log(1/Î´)\), complete learning is achievable, and the limiting width of the CI collapses to zero, converging to the true mean. We demonstrate that CIs derived from concentration inequalities based on Kullback--Leibler (KL) divergences achieve asymptotically optimal performance, attaining the minimum limiting width in both sufficient and complete learning regimes for distributions in two families: single-parameter exponential and bounded support. Additionally, these results extend to one-sided CIs, with the width notion adjusted appropriately. Finally, we generalize our findings to settings with random per-sample costs, motivated by practical applications such as stochastic simulators and cloud service selection. Instead of a fixed sample size, we consider a cost budget \(C_Î´\), identifying analogous learning regimes and characterizing the optimal CI construction policy.

academic

نظرية الأمثلية المقاربة لفترات الثقة للمتوسط

المعلومات الأساسية

معرّف الورقة: 2501.19126
العنوان: نظرية الأمثلية المقاربة لفترات الثقة للمتوسط
المؤلفون: فيكاس ديب (جامعة سنغافورة الوطنية)، أتشال باسامبو (كيلوج، جامعة نورثويسترن)، سانديب جونيجا (جامعة أشوكا، الهند)
التصنيف: math.ST stat.TH
وقت النشر: يناير 2025 (نسخة arXiv التمهيدية)
رابط الورقة: https://arxiv.org/abs/2501.19126

الملخص

تدرس هذه الورقة المسألة الكلاسيكية لبناء فترات ثقة (CI) لمتوسط التوزيع بناءً على N عينة مستقلة وموزعة بشكل متطابق، حيث تتطلب أن تحتوي فترة الثقة على المتوسط الحقيقي باحتمالية لا تقل عن 1-δ. يميز المؤلفون ثلاث أنظمة تعليم مختلفة بناءً على الحد الأدنى للعرض المقارب الذي يمكن لأي فترة ثقة تحقيقه عندما N_δ→∞ و δ→0: (1) نظام عدم التعليم: عندما ينمو N_δ أبطأ من log(1/δ)، يساوي العرض المقارب لفترة الثقة عرض دعم التوزيع؛ (2) نظام التعليم الكافي: عندما ينمو N_δ بنسبة log(1/δ)، يمكن توصيف الحد الأدنى للعرض المقارب بدقة اعتماداً على ثوابت التحجيم؛ (3) نظام التعليم الكامل: عندما ينمو N_δ أسرع من log(1/δ)، يتقارب العرض المقارب لفترة الثقة إلى الصفر. يثبت المؤلفون أن فترات الثقة المبنية على عدم المساواة التركيز المستندة إلى تباعد كولباك-لايبلر (KL) تحقق الأمثلية المقاربة في كل من نظام التعليم الكافي والكامل.

خلفية البحث والدافع

أهمية المسألة

يعتبر بناء فترات الثقة مسألة أساسية في الإحصاء، مع تطبيقات مهمة في اختبارات A/B والتصميم التجريبي وتحليل البيانات والمحاكاة. على الرغم من وجود عدة طرق لبناء فترات الثقة، إلا أن هناك نقصاً في التوصيف النظري لفترات الثقة المثلى ذات العرض الأدنى.

قيود الطرق الموجودة

غياب نظرية الأمثلية: على الرغم من أن الأدبيات الموجودة توفر طرقاً مختلفة لبناء فترات الثقة، إلا أنه لا توجد نتائج توصف فترات الثقة المثلى ذات العرض الأدنى
الحدود السفلى غير المقاربة فضفاضة: الحدود السفلى الموجودة (مثل Shekhar و Ramdas 2023) فضفاضة في الحالة المقاربة
افتراضات قوية: تعتمد الحدود الموجودة على افتراضات قوية بأن عرض فترة الثقة يحد بشكل حتمي بواسطة دوال معينة

دافع البحث

تهدف هذه الورقة إلى سد هذه الفجوة النظرية من خلال إدخال افتراض الاستقرار، وتوصيف الحدود الأساسية لعرض فترة الثقة في الإطار المقارب، وإثبات أمثلية الطرق المستندة إلى تباعد KL.

المساهمات الأساسية

توصيف ثلاث أنظمة تعليم: بناءً على التحجيم النسبي لحجم العينة N_δ بالنسبة للدقة 1-δ، يتم توصيف ثلاث أنظمة مختلفة: عدم التعليم والتعليم الكافي والتعليم الكامل
حدود سفلى حادة: اشتقاق حدود سفلى حادة للعرض المقارب لفترة الثقة في نظام التعليم الكافي، وإثبات أن طريقة بناء فترة الثقة المستندة إلى تباعد KL تحقق هذه الحدود
إثبات الأمثلية المقاربة: إثبات أن طريقة بناء فترة الثقة المستندة إلى حدود التركيز لتباعد KL مثلى في الإطار المقارب المدروس
نتائج موسعة: توسيع النتائج إلى تكاليف العينات العشوائية وفترات الثقة أحادية الجانب والتوزيعات غير البارامترية والإعدادات الأكثر عمومية

شرح الطريقة

تعريف المهمة

بالنظر إلى N عينة مستقلة وموزعة بشكل متطابق من التوزيع ν (بمتوسط μ)، بناء فترة ثقة μ̂_L^π(N,δ), μ̂_R^π(N,δ)، بحيث P_ν(μ ∈ μ̂_L^π(N,δ), μ̂_R^π(N,δ)) ≥ 1-δ.

الإطار النظري الأساسي

1. افتراض الاستقرار

التعريف 1 (الاستقرار): بالنسبة لتوزيع معين ν، تُسمى الاستراتيجية π مستقرة إذا عندما N_δ→∞ و δ→0:

lim_{δ→0} μ̂_L^π(N_δ,δ) →^p μ_L^π(ν)
lim_{δ→0} μ̂_R^π(N_δ,δ) →^p μ_R^π(ν)

حيث μ_L^π(ν) ≤ μ و μ_R^π(ν) ≥ μ ثوابت.

2. ثلاث أنظمة تعليم

بناءً على قيمة lim_{δ→0} N_δ/log(1/δ) وهي k:

نظام عدم التعليم (k→0):

العرض المقارب لفترة الثقة = عرض دعم التوزيع
μ_L^π(μ) = μ̲, μ_R^π(μ) = μ̄

نظام التعليم الكافي (k ∈ (0,∞)):

الحد السفلى: μ_R^π(μ) - μ_L^π(μ) ≥ μ_R*(μ,k) - μ_L*(μ,k)
حيث μ_L*(μ,k) < μ و μ_R*(μ,k) > μ يحققان بشكل فريد: d(μ, μ_R*(μ,k)) = d(μ, μ_L*(μ,k)) = 1/k

نظام التعليم الكامل (k→∞):

العرض المقارب لفترة الثقة→0

3. دالة تباعد كولباك-لايبلر

بالنسبة للتوزيعات في العائلة الأسية ذات المعامل الواحد S، يتم التعريف: d(μ, μ̃) = KL(p_{θ(μ)}, p_{θ(μ̃)}) = b(θ(μ̃)) - b(θ(μ)) - b'(θ(μ))(θ(μ̃) - θ(μ))

تتمتع هذه الدالة بخصائص مهمة مثل التحدب الشبه الصارم والاستمرارية.

طريقة بناء فترة الثقة المثلى π₁

بناءً على عدم المساواة التركيز: P_ν(nd(μ̂_n, μ) ≥ β(δ)) ≤ δ

حيث β(δ) = log(2/δ)، يتم بناء فترة الثقة:

μ_R^{π₁}(n,δ) = max{q > μ̂_n : nd(μ̂_n, q) ≤ β(δ)}
μ_L^{π₁}(n,δ) = min{q < μ̂_n : nd(μ̂_n, q) ≤ β(δ)}

نقاط الابتكار التقني

إدخال مفهوم الاستقرار: هذا هو الابتكار الرئيسي لتحليل السلوك المقارب لعرض فترة الثقة، مما يجعل العرض المقارب ثابتاً حتمياً
التطبيق الماهر لعدم المساواة معالجة البيانات: مع افتراض الاستقرار، يمكن النظر في حذف الفرضيات على كلا الجانبين الأيسر والأيمن
إثبات الإحكام: إثبات أن الحدود المقترحة محكمة، أي أن هناك طرقاً تحقق الحدود

الإعداد التجريبي

مجموعات البيانات

توزيع برنولي: بمتوسطات 0.6 و 0.9
توزيع غاوسي: N(0,1) مع تباين معروف
توزيع باريتو: معامل المقياس x_m=1، معامل الشكل α=3

مؤشرات التقييم

متوسط عرض فترة الثقة: متوسط عرض فترة الثقة على 1000 مجموعة بيانات مستقلة
احتمالية التغطية: تكرار احتواء فترة الثقة على المتوسط الحقيقي

الطرق المقارنة

فترة ثقة مستندة إلى Hoeffding: بناءً على عدم مساواة Hoeffding
فترة ثقة برنشتاين التجريبية (EB): بناءً على عدم مساواة برنشتاين التجريبية
فترة ثقة محمية مستندة إلى الرهان: بناءً على طريقة الرهان
الحد السفلى لـ Shekhar-Ramdas: الحد النظري الموجود

تفاصيل التنفيذ

δ = 0.01 (تجارب برنولي)، δ = 0.05 (تجارب باريتو)
أحجام العينات: N ∈ {2000, 3000}
معامل التقسيم: m ∈ {1000, 3000, 5000} (طريقة الرهان)

نتائج التجارب

النتائج الرئيسية

1. مقارنة الحدود النظرية السفلى

بالنسبة لحالة غاوسي، الحد السفلى المقارب في هذه الورقة هو 2σ√(2/k)، بينما حد Shekhar-Ramdas هو σ√(2/k)، بعامل تحسين قدره 2.

2. مقارنة عرض فترة الثقة (توزيع برنولي)

N	π₁	Betting(m=1000)	Betting(m=3000)	Betting(m=5000)	Hoeffding	EB
المتوسط=0.6
2000	0.0712	0.0603	0.0596	0.0595	0.0728	0.0898
3000	0.0582	0.0592	0.0585	0.0584	0.0594	0.0712
المتوسط=0.9
2000	0.0436	0.0378	0.0371	0.0369	0.0728	0.0606
3000	0.0356	0.0370	0.0363	0.0361	0.0594	0.0473

3. نتائج التوزيع الثقيل الذيل (باريتو)

حجم العينة	متوسط عرض فترة الثقة
500	0.492
1000	0.355
2000	0.255
3000	0.199

الاكتشافات التجريبية

الميزة المقاربة: تُظهر طريقة π₁ أداءً ممتازاً في حالات العينات الكبيرة، خاصة عند N=3000 حيث تكون الأداء مماثلة لطريقة الرهان
الكفاءة الحسابية: طريقة π₁ أكثر كفاءة حسابياً من طريقة الرهان
التحقق من النظرية: تتحقق النتائج التجريبية من عامل التحسين المتنبأ به نظرياً

الأعمال ذات الصلة

النظرية الكلاسيكية

ثنائية اختبار الفرضيات وفترات الثقة: تبني النظرية الكلاسيكية فترات الثقة من خلال عكس اختبارات الفرضيات
الاختبارات الأقوى بشكل موحد (UMP): توجد اختبارات أقوى بشكل موحد في الإعدادات البارامترية، لكنها عادة ما تقتصر على عائلات معينة (مثل الاختبارات غير المنحازة في العائلات الأسية)

طرق عدم المساواة التركيز

عدم مساواة Hoeffding و Bernstein: تنطبق على التوزيعات ذات الدعم المحدود
حدود Chernoff: تنطبق عندما تكون الحدود العليا للدالة المولدة للعزوم معروفة
طرق التوزيعات الثقيلة الذيل: استخدام عدم مساواة Markov و Chebyshev

التطورات الحديثة

Waudby-Smith و Ramdas (2024): تحويل بناء فترات الثقة إلى مسائل الرهان
Shekhar و Ramdas (2023): توفير حدود سفلى صريحة مع حدود التعقيد المعتمدة على التوزيع، لكنها فضفاضة نسبياً

الخلاصة والنقاش

الاستنتاجات الرئيسية

توصيف نظري كامل: أول توصيف كامل للحدود الأساسية لعرض فترة الثقة، مع تحديد ثلاث أنظمة تعليم مختلفة
الطريقة المثلى: إثبات أن طريقة بناء فترة الثقة المستندة إلى تباعد KL مثلى بالمعنى المقارب
القابلية للتطبيق الواسعة: تنطبق النتائج على عائلات التوزيعات البارامترية وغير البارامترية، وكذلك على الإعدادات ذات التكاليف العشوائية

القيود

الخصائص المقاربة: النتائج أساساً مقاربة، مع إرشادات محدودة للعينات المحدودة
افتراض الاستقرار: على الرغم من أنه معتدل، إلا أنه لا يزال افتراضاً إضافياً
قيود عائلة التوزيع: تركز النتائج الرئيسية على العائلات الأسية والتوزيعات ذات الدعم المحدود

الاتجاهات المستقبلية

النتائج غير المقاربة: تطوير نظرية غير مقاربة أكثر دقة
الإحصائيات الأخرى: التوسع إلى تقدير التباين والكميات
التعميم متعدد الأبعاد: النظر في مناطق الثقة للمعاملات متعددة الأبعاد

التقييم المتعمق

المميزات

مساهمة نظرية كبيرة: أول نظرية شاملة لأمثلية عرض فترة الثقة، تملأ فجوة نظرية مهمة
ابتكار تقني واضح: إدخال مفهوم الاستقرار والتطبيق الماهر لعدم مساواة معالجة البيانات له قيمة منهجية
النتائج محكمة: لا توفر فقط حدود سفلى، بل تثبت أيضاً قابلية تحقيق هذه الحدود
التطبيق الواسع: التوسع إلى التكاليف العشوائية وفترات الثقة أحادية الجانب وغيرها من الإعدادات ذات الصلة العملية

أوجه القصور

التجارب محدودة: التجارب الرقمية نسبياً بسيطة، يمكن أن تتضمن مجموعات بيانات حقيقية أكثر تعقيداً
التعقيد الحسابي: بالنسبة للحالة غير البارامترية، قد يكون حساب KL_inf معقداً نسبياً
ضمانات الأداء للعينات المحدودة: النظرية مقاربة، والضمانات للأداء في العينات المحدودة ليست قوية بما يكفي

التأثير

التأثير النظري: توفير إطار تحليل جديد لنظرية فترات الثقة، من المتوقع أن يتم الاستشهاد به على نطاق واسع
القيمة العملية: توفير إرشادات نظرية لاختيار طرق فترات الثقة في التطبيقات العملية
المساهمة المنهجية: قد تكون طريقة تحليل الاستقرار قابلة للتطبيق على مسائل استدلالية إحصائية أخرى

السيناريوهات المناسبة

الاستدلال الإحصائي للعينات الكبيرة: مناسب بشكل خاص للتطبيقات ذات أحجام العينات الكبيرة
التجارب عبر الإنترنت: سيناريوهات مثل اختبارات A/B التي تتطلب فترات ثقة موثوقة
دراسات المحاكاة: الإعداد ذو التكاليف العشوائية مناسب بشكل خاص لتطبيقات المحاكاة
التعلم الآلي: بناء فترات الثقة في تقييم أداء النموذج

المراجع

تستشهد الورقة بالأدبيات المهمة في مجالات الإحصاء والتعلم الآلي، بما في ذلك:

Hoeffding (1994): العمل الكلاسيكي في عدم المساواة الاحتمالية
Waudby-Smith و Ramdas (2024): التطورات الحديثة في طريقة الرهان
Shekhar و Ramdas (2023): العمل ذو الصلة بالحدود السفلى
Kaufmann و Koolen (2021): عدم المساواة التركيز الصالحة في أي وقت

تقدم هذه الورقة مساهمات مهمة في نظرية فترات الثقة، وتوصيف الحدود الأساسية لعرض فترة الثقة من خلال إدخال إطار تحليل جديد، وإثبات أمثلية طريقة تباعد KL. على الرغم من أنها عمل نظري بشكل أساسي، إلا أنها توفر إرشادات قيمة للتطبيقات العملية.