2025-11-25T22:55:18.828107

Inference on effect size after multiple hypothesis testing

Dzemski, Okui, Wang
Significant treatment effects are often emphasized when interpreting and summarizing empirical findings in studies that estimate multiple, possibly many, treatment effects. Under this kind of selective reporting, conventional treatment effect estimates may be biased and their corresponding confidence intervals may undercover the true effect sizes. We propose new estimators and confidence intervals that provide valid inferences on the effect sizes of the significant effects after multiple hypothesis testing. Our methods are based on the principle of selective conditional inference and complement a wide range of tests, including step-up tests and bootstrap-based step-down tests. Our approach is scalable, allowing us to study an application with over 370 estimated effects. We justify our procedure for asymptotically normal treatment effect estimators. We provide two empirical examples that demonstrate bias correction and confidence interval adjustments for significant effects. The magnitude and direction of the bias correction depend on the correlation structure of the estimated effects and whether the interpretation of the significant effects depends on the (in)significance of other effects.
academic

الاستدلال على حجم التأثير بعد اختبار الفرضيات المتعددة

المعلومات الأساسية

  • معرّف الورقة: 2503.22369
  • العنوان: الاستدلال على حجم التأثير بعد اختبار الفرضيات المتعددة
  • المؤلفون: أندرياس دزيمسكي (جامعة غوتنبرغ)، ريو أوكوي (جامعة طوكيو)، وينجي وانج (جامعة نانيانغ التكنولوجية)
  • التصنيف: econ.EM math.ST stat.TH
  • تاريخ النشر: 14 أكتوبر 2025
  • رابط الورقة: https://arxiv.org/abs/2503.22369

الملخص

في الدراسات التي تقدّر تأثيرات معالجات متعددة، غالباً ما يتم التركيز على التأثيرات المعالجة ذات الدلالة الإحصائية عند تفسير وتلخيص النتائج التجريبية. تحت هذا الإبلاغ الانتقائي، قد تعاني تقديرات التأثير التقليدية من الانحياز، وقد تفشل فترات الثقة المقابلة في توفير تغطية كافية لحجم التأثير الحقيقي. تقترح هذه الورقة مقدّرات وفترات ثقة جديدة توفر استدلالاً فعّالاً على حجم التأثير للتأثيرات المهمة بعد اختبار الفرضيات المتعددة. تستند الطريقة إلى مبادئ الاستدلال الشرطي الانتقائي وتنطبق على مجموعة واسعة من طرق الاختبار، بما في ذلك اختبارات الخطوة الصاعدة واختبارات الخطوة الهابطة القائمة على bootstrap. تتمتع الطريقة بقابلية التوسع، مما يسمح بدراسة التطبيقات التي تتضمن أكثر من 370 تأثيراً مقدّراً. يثبت المؤلفون صحة الإجراء لمقدّرات التأثير المقاربة الطبيعية، ويقدمون مثالين تجريبيين يوضحان تصحيح الانحياز وتعديل فترات الثقة للتأثيرات المهمة.

خلفية البحث والدافع

أهمية المشكلة

في الدراسات التجريبية في الاقتصاد والطب وعلم النفس وغيرها، يحتاج الباحثون بشكل متكرر إلى تقدير تأثيرات معالجات متعددة. قد تنشأ هذه التأثيرات من متغيرات نتائج مختلفة أو أنواع تدخلات أو مجموعات فرعية من السكان. من خلال إجراءات اختبار الفرضيات المتعددة، يصنف الباحثون هذه التأثيرات إلى ذات دلالة إحصائية أو غير ذات دلالة، ثم يركزون على الأهمية العملية للتأثيرات المهمة.

حدود الطرق الموجودة

عندما يقصر الباحثون انتباههم على التأثيرات المهمة، تتأثر تقديرات حجم هذه التأثيرات بانحياز الاختيار، مما يجعل طرق الاستدلال الإحصائي التقليدية غير فعّالة. يتجلى هذا بشكل محدد في:

  1. انحياز الاختيار: غالباً ما يتم اختيار التأثيرات المهمة بشكل إيجابي ("لعنة الفائز")، مما يؤدي إلى المبالغة في تقدير حجمها
  2. عدم كفاية تغطية فترات الثقة: لا توفر فترات الثقة التقليدية تغطية إحصائية فعّالة
  3. غياب تصحيح الانحياز: تفتقر الطرق الموجودة إلى تقديرات غير متحيزة للتأثيرات بعد الاختيار

دافع البحث

تؤمن الورقة بأن تجنب التلخيص والتفسير الانتقائي لا يحل المشكلة، بل ينقل فقط عبء تجميع النتائج إلى القارئ، الذي يواجه بدوره مشاكل الاستدلال الانتقائي. لذلك، يتطلب الأمر تطوير طرق إحصائية متخصصة للتعامل مع مشاكل الاستدلال بعد اختبار الفرضيات المتعددة.

المساهمات الأساسية

  1. اقتراح طريقة جديدة قائمة على الاستدلال الشرطي الانتقائي: توفر تقديرات نقطية وفترات ثقة فعّالة لحجم التأثير للتأثيرات المهمة بعد اختبار الفرضيات المتعددة
  2. تطوير خوارزميات حسابية فعّالة: اقتراح خوارزمية بتعقيد زمني O(m³logm)، مما يسمح بتوسيع الطريقة إلى تطبيقات تتضمن مئات التأثيرات
  3. إنشاء نظرية مقاربة: إثبات الاتساق المقارب الفعّال للإجراء تحت مقدّرات التأثير المقاربة الطبيعية
  4. توفير قابلية تطبيق واسعة: تنطبق الطريقة على إجراءات اختبار متعددة مختلفة، بما في ذلك اختبارات الخطوة الهابطة والصاعدة
  5. عرض القيمة التطبيقية: التحقق من فعالية الطريقة وعمليتها من خلال تطبيقين تجريبيين

شرح الطريقة

تعريف المهمة

بالنظر إلى m من معاملات التأثير θ = (θ₁, ..., θₘ)' وتقديراتها θ̂، بعد تحديد مجموعة التأثيرات المهمة Ŝ من خلال اختبار الفرضيات المتعددة، يتم إجراء استدلال غير متحيز على حجم التأثير الحقيقي للتأثيرات المهمة.

إطار الطريقة الأساسي

1. الإعداد الأساسي

  • افترض أن θ̂ ~ N(θ, V)، حيث V هي مصفوفة التباين المشترك المعروفة
  • إحصائية t: X = diag⁻¹/²(v)θ̂، حيث v هي العناصر القطرية لـ V
  • يتم تحديد التأثيرات المهمة من خلال إجراء الخطوة الهابطة أو الصاعدة: التأثير h مهم عندما |Xₕ| ≥ x̄ₕ

2. طريقة الاستدلال الشرطي

بالنسبة للتأثير المهم s ∈ S، يتم تحليل X إلى:

X = Ω•,sXs + Z⁽ˢ⁾

حيث Z⁽ˢ⁾ = X - Ω•,sXs مستقل عن Xs.

يكمن الابتكار الرئيسي في دالة التوزيع الشرطي:

Fs(xs | z, θs, S) = ∫{ξ∈ℝ:ξ+V⁻¹/²s,sθs∈Xs(z,S)} 1{ξ + V⁻¹/²s,sθs ≤ xs} dΦ(ξ) / ∫{ξ∈ℝ:ξ+V⁻¹/²s,sθs∈Xs(z,S)} dΦ(ξ)

3. المقدّرات وفترات الثقة

  • مقدّر الوسيط غير المتحيز الشرطي: θ̃ᵘᵇₛ = θ̃ₛ⁽⁰·⁵⁾، حيث θ̃ₛ⁽ᵖ⁾ يرضي Fs(Xs | Z⁽ˢ⁾, θ̃ₛ⁽ᵖ⁾, S) = p
  • فترة الثقة الشرطية: θ̃ₛ⁽¹⁻α/²⁾, θ̃ₛ⁽α/²⁾

نقاط الابتكار التقني

1. تصميم الخوارزمية الفعّالة

تتجنب الطريقة الحساب المباشر للحدث الاختياري المعقد X(S) من خلال الابتكارات التالية:

الخوارزمية 2: حساب الدعم الشرطي

(أ) ابحث عن جميع نقاط التقاطع للدالة الخطية xz,h(xs) لإيجاد الفترات I
(ب) لكل فترة I:
    i. ابحث عن التبديل المرتب σ*I
    ii. احسب حدود الفترة ℓ(I) و u(I)
(ج) أرجع ∪I I ∩ [ℓ(I), u(I)]

2. المعالجة الموحدة لإجراءات الاختبار المتعددة

تدعم الطريقة إجراءات اختبار متنوعة:

  • إجراءات الخطوة الهابطة: Bonferroni, Holm, Romano-Wolf وغيرها
  • إجراءات الخطوة الصاعدة: Benjamini-Hochberg, Benjamini-Yekutieli وغيرها

3. التعريف المرن للحدث الاختياري

يوفر تعريفين رئيسيين للحدث الاختياري:

  • Ŝ = S: شرط كامل على نمط الأهمية المرصود
  • Ŝ ⊇ S: شرط فقط على اكتشاف التأثير المحدد كمهم

الإعداد التجريبي

محاكاة مونت كارلو

إعداد البيانات

  • عدد التأثيرات: m = 5
  • المعاملات الحقيقية: θ = (0.05, 0.03, 0.01, 0, 0)'
  • حجم العينة: n ∈ {100, 300, 500, 700, 900}
  • الارتباط: ρ = 0.5
  • إجراء الاختبار: Holm الخطوة الهابطة، FWER = 10%

تصميمان

  1. التصميم الطبيعي: Yᵢ ~ توزيع طبيعي متعدد المتغيرات
  2. تصميم كاي تربيع: Yᵢₖ = (U²ᵢₖ-1)/√2 + θₖ، حيث Uᵢ ~ طبيعي متعدد المتغيرات

التطبيقات التجريبية

التطبيق 1: دراسة التبرعات الخيرية

  • مصدر البيانات: تجربة المطابقة الخيرية من Karlan and List (2007)
  • عدد التأثيرات: تأثيرات المعالجة لـ 4 متغيرات نتائج
  • إجراء الاختبار: Bonferroni, Holm, Romano-Wolf (RW2005)

التطبيق 2: أداء الصناديق المشتركة

  • مصدر البيانات: قاعدة بيانات CRSP للصناديق المشتركة، يناير 2000 - أبريل 2024
  • عدد التأثيرات: تقديرات ألفا لـ 371 صندوق
  • النموذج: نموذج Fama-French الخماسي العوامل
  • إجراء الاختبار: Holm (التحكم في FWER) و Benjamini-Yekutieli (التحكم في FDR)

نتائج التجارب

نتائج محاكاة مونت كارلو

أداء التغطية

  • فترات الثقة الشرطية: قريبة من معدل التغطية الاسمي 90% في جميع التصاميم وأحجام العينات
  • فترات الثقة التقليدية: تغطية غير كافية بشكل خطير، خاصة عندما تكون تكرارات الاختيار منخفضة
  • فترات Bonferroni: تحقق معدل التغطية الاسمي في العينات الكبيرة لكنها متحفظة جداً

مقارنة طول الفترة

فترات الشروط أوسع من الفترات التقليدية، لكنها أقصر بشكل ملحوظ من فترات Bonferroni، مما يظهر مكاسب الكفاءة.

تأثير تصحيح الانحياز

يقلل مقدّر الوسيط غير المتحيز الشرطي الانحياز الشرطي لمقدّر تقليدي (مثل 0.084 في التصميم الطبيعي عند n=100) إلى -0.015.

نتائج التطبيقات التجريبية

تطبيق التبرعات الخيرية

النتائج الرئيسية:

  • معدل الاستجابة ومبلغ التبرع المشمول بالمطابقة مهمة في جميع الإجراءات الثلاثة
  • يعتمد اتجاه وحجم تصحيح الانحياز على البنية الارتباطية
  • بالنسبة لـ "مبلغ التبرع المشمول بالمطابقة"، يحدث تصحيح صاعد تحت اختبارات Holm و Bonferroni، وهذا يرتبط بـ "مبلغ التبرع غير المشمول بالمطابقة" غير المهم والمرتبط بشدة

تطبيق الصناديق المشتركة

النتائج الرئيسية:

  • تم تحديد 5 صناديق بقيمة ألفا موجبة مهمة من بين 371 صندوق
  • مقدّر الوسيط غير المتحيز الشرطي أقل قليلاً من المقدّر غير الشرطي
  • فترات الثقة الشرطية أقصر بـ 12-36% من الفترات غير الشرطية
  • يتجاوز الحد الأدنى لفترة الثقة الشرطية المشتركة 0.135 لـ 4 من الصناديق الخمسة، مما يشير إلى أداء فائقة ذات معنى اقتصادي

الأعمال ذات الصلة

أدبيات الاستدلال الانتقائي

تنتمي الورقة إلى جزء من أدبيات الاستدلال الانتقائي سريعة النمو، والبحوث ذات الصلة تشمل:

  • طرق الاستدلال الشرطي: Lee et al. (2016), Fithian et al. (2017)
  • طرق الاستدلال غير الشرطي: Benjamini and Yekutieli (2005), Berk et al. (2013)

الفروقات مع الطرق الموجودة

  1. مقابل الطرق غير الشرطية:
    • تتحكم طرق الاستدلال الشرطي في الخطأ الإحصائي بالنظر إلى الأهمية المرصودة
    • تتوسط الطرق غير الشرطية الخطأ الإحصائي عبر سياقات مختلفة
    • توفر طرق الاستدلال الشرطي تقديرات نقطية مع تصحيح الانحياز
  2. مقابل الاستدلال المتزامن:
    • قد ينتج عن الاستدلال الشرطي فترات ثقة أضيق
    • لا تكون مزايا الكفاءة للطرق غير الشرطية متسقة

النتائج النظرية

النظريات الرئيسية

النظرية 1 (عدم التحيز الوسيط)

P(θ̃ᵘᵇₛ ≥ θₓ | Ŝ = S) = P(θ̃ᵘᵇₛ ≤ θₛ | Ŝ = S) = 0.5

النظرية 2 (فعالية مجموعة الثقة)

P(θₛ ∈ CCIα(θₛ | S) | Ŝ = S) = 1 - α

النظريات 5-6 (الخصائص المقاربة)

تحت الافتراض 1، يتم إنشاء عدم التحيز الوسيط المقارب للمقدّر وفعالية فترات الثقة المقاربة.

نتائج التقارب

توفر النظرية 4 شروطاً كافية لتقارب فترات الثقة الشرطية إلى فترات الثقة غير الشرطية، عندما تكون التأثيرات "مهمة بشدة" تميل الطريقتان إلى التطابق.

الخلاصة والمناقشة

الاستنتاجات الرئيسية

  1. فعالية الطريقة: تظهر طريقة الاستدلال الشرطي المقترحة أداء جيدة في العينات المحدودة، وتلتقط انحياز الاختيار حتى في الإعدادات غير الغاوسية
  2. الجدوى الحسابية: يسمح التعقيد الزمني متعدد الحدود للخوارزمية بمعالجة مئات التأثيرات
  3. القيمة العملية: يوضح التطبيقان التجريبيان أن اتجاه وحجم تصحيح الانحياز يصعب توقعهما، مما يبرز أهمية الطرق الإحصائية الرسمية

القيود

  1. افتراض التحديد المسبق: تفترض الطريقة أن مجموعة الفرضيات الكاملة المراد اختبارها معروفة، ولا يمكنها التعامل مع إخفاء النتائج غير المهمة
  2. التعقيد الحسابي: على الرغم من أنه وقت متعدد الحدود، قد تواجه الطريقة تحديات حسابية للقيم الكبيرة جداً لـ m
  3. افتراضات النموذج: تتطلب الطبيعية المقاربة ومصفوفة تباين مشترك قابلة للتقدير بشكل متسق

الاتجاهات المستقبلية

  1. إجراءات الاستدلال الشرطي البديلة: استكشاف طرق مثل data carving والاستجابة العشوائية
  2. دراسات خصائص الكفاءة: التحقيق في خصائص الكفاءة للإجراء
  3. التوسعات اللامعاملية: تخفيف افتراض الطبيعية

التقييم المتعمق

المزايا

  1. المساهمة النظرية: توفر إطار نظري صارم للاستدلال بعد اختبار الفرضيات المتعددة
  2. ابتكار الطريقة: تجعل الخوارزمية الفعّالة الطريقة قابلة للتطبيق عملياً
  3. قابلية التطبيق الواسعة: تدعم إجراءات اختبار متعددة وأحداث اختيار مختلفة
  4. التحقق التجريبي: التحقق الشامل من فعالية الطريقة من خلال المحاكاة والتطبيقات الفعلية
  5. الكتابة الواضحة: هيكل الورقة واضح والتفاصيل التقنية شاملة

أوجه القصور

  1. التعقيد الحسابي: على الرغم من أنه وقت متعدد الحدود، فإن O(m³logm) قد يكون اختناقاً للمشاكل الكبيرة جداً
  2. قيود الافتراضات: قد لا تكون افتراضات الطبيعية وبنية التباين المشترك المعروفة مرضية في التطبيقات العملية
  3. تعريف الحدث الاختياري: يتطلب معايير اختيار تعريف الحدث الاختياري المختلف مزيداً من التوجيه

التأثير

  1. القيمة الأكاديمية: توفر مساهمة مهمة لأدبيات الاستدلال الانتقائي، خاصة في سياق اختبار الفرضيات المتعددة
  2. القيمة العملية: تنطبق الطريقة مباشرة على البحث التجريبي في الاقتصاد والطب وغيرها
  3. قابلية التكرار: وصف الخوارزمية مفصل والنتائج النظرية كاملة، مع قابلية جيدة للتكرار

السيناريوهات المناسبة

تناسب هذه الطريقة بشكل خاص السيناريوهات التالية:

  1. دراسات تأثيرات المعالجات المتعددة: التجارب العشوائية المضبوطة التي تحتاج إلى تقدير تأثيرات تدخلات متعددة في نفس الوقت
  2. تحليل المجموعات الفرعية: تقييم تأثيرات المعالجة في مجموعات فرعية متعددة من السكان
  3. متغيرات النتائج المتعددة: تقييم تأثير تدخل واحد على متغيرات نتائج متعددة
  4. التطبيقات المالية: تقييم أداء المحفظة وتحليل عوامل المخاطر وغيرها

المراجع

تستشهد الورقة بالأدبيات الرئيسية في مجال الاستدلال الانتقائي، بما في ذلك طريقة متعددة الأوجه من Lee et al. (2016)، ومبادئ الاستدلال الشرطي الانتقائي من Fithian et al. (2017)، وإجراءات الاختبار المتعددة من Romano and Wolf (2005) وغيرها. تعكس هذه الاستشهادات عمق وسعة الورقة في هذا المجال.