Inference on effect size after multiple hypothesis testing
Dzemski, Okui, Wang
Significant treatment effects are often emphasized when interpreting and summarizing empirical findings in studies that estimate multiple, possibly many, treatment effects. Under this kind of selective reporting, conventional treatment effect estimates may be biased and their corresponding confidence intervals may undercover the true effect sizes. We propose new estimators and confidence intervals that provide valid inferences on the effect sizes of the significant effects after multiple hypothesis testing. Our methods are based on the principle of selective conditional inference and complement a wide range of tests, including step-up tests and bootstrap-based step-down tests. Our approach is scalable, allowing us to study an application with over 370 estimated effects. We justify our procedure for asymptotically normal treatment effect estimators. We provide two empirical examples that demonstrate bias correction and confidence interval adjustments for significant effects. The magnitude and direction of the bias correction depend on the correlation structure of the estimated effects and whether the interpretation of the significant effects depends on the (in)significance of other effects.
academic
الاستدلال على حجم التأثير بعد اختبار الفرضيات المتعددة
في الدراسات التي تقدّر تأثيرات معالجات متعددة، غالباً ما يتم التركيز على التأثيرات المعالجة ذات الدلالة الإحصائية عند تفسير وتلخيص النتائج التجريبية. تحت هذا الإبلاغ الانتقائي، قد تعاني تقديرات التأثير التقليدية من الانحياز، وقد تفشل فترات الثقة المقابلة في توفير تغطية كافية لحجم التأثير الحقيقي. تقترح هذه الورقة مقدّرات وفترات ثقة جديدة توفر استدلالاً فعّالاً على حجم التأثير للتأثيرات المهمة بعد اختبار الفرضيات المتعددة. تستند الطريقة إلى مبادئ الاستدلال الشرطي الانتقائي وتنطبق على مجموعة واسعة من طرق الاختبار، بما في ذلك اختبارات الخطوة الصاعدة واختبارات الخطوة الهابطة القائمة على bootstrap. تتمتع الطريقة بقابلية التوسع، مما يسمح بدراسة التطبيقات التي تتضمن أكثر من 370 تأثيراً مقدّراً. يثبت المؤلفون صحة الإجراء لمقدّرات التأثير المقاربة الطبيعية، ويقدمون مثالين تجريبيين يوضحان تصحيح الانحياز وتعديل فترات الثقة للتأثيرات المهمة.
في الدراسات التجريبية في الاقتصاد والطب وعلم النفس وغيرها، يحتاج الباحثون بشكل متكرر إلى تقدير تأثيرات معالجات متعددة. قد تنشأ هذه التأثيرات من متغيرات نتائج مختلفة أو أنواع تدخلات أو مجموعات فرعية من السكان. من خلال إجراءات اختبار الفرضيات المتعددة، يصنف الباحثون هذه التأثيرات إلى ذات دلالة إحصائية أو غير ذات دلالة، ثم يركزون على الأهمية العملية للتأثيرات المهمة.
عندما يقصر الباحثون انتباههم على التأثيرات المهمة، تتأثر تقديرات حجم هذه التأثيرات بانحياز الاختيار، مما يجعل طرق الاستدلال الإحصائي التقليدية غير فعّالة. يتجلى هذا بشكل محدد في:
انحياز الاختيار: غالباً ما يتم اختيار التأثيرات المهمة بشكل إيجابي ("لعنة الفائز")، مما يؤدي إلى المبالغة في تقدير حجمها
عدم كفاية تغطية فترات الثقة: لا توفر فترات الثقة التقليدية تغطية إحصائية فعّالة
غياب تصحيح الانحياز: تفتقر الطرق الموجودة إلى تقديرات غير متحيزة للتأثيرات بعد الاختيار
تؤمن الورقة بأن تجنب التلخيص والتفسير الانتقائي لا يحل المشكلة، بل ينقل فقط عبء تجميع النتائج إلى القارئ، الذي يواجه بدوره مشاكل الاستدلال الانتقائي. لذلك، يتطلب الأمر تطوير طرق إحصائية متخصصة للتعامل مع مشاكل الاستدلال بعد اختبار الفرضيات المتعددة.
اقتراح طريقة جديدة قائمة على الاستدلال الشرطي الانتقائي: توفر تقديرات نقطية وفترات ثقة فعّالة لحجم التأثير للتأثيرات المهمة بعد اختبار الفرضيات المتعددة
تطوير خوارزميات حسابية فعّالة: اقتراح خوارزمية بتعقيد زمني O(m³logm)، مما يسمح بتوسيع الطريقة إلى تطبيقات تتضمن مئات التأثيرات
إنشاء نظرية مقاربة: إثبات الاتساق المقارب الفعّال للإجراء تحت مقدّرات التأثير المقاربة الطبيعية
توفير قابلية تطبيق واسعة: تنطبق الطريقة على إجراءات اختبار متعددة مختلفة، بما في ذلك اختبارات الخطوة الهابطة والصاعدة
عرض القيمة التطبيقية: التحقق من فعالية الطريقة وعمليتها من خلال تطبيقين تجريبيين
بالنظر إلى m من معاملات التأثير θ = (θ₁, ..., θₘ)' وتقديراتها θ̂، بعد تحديد مجموعة التأثيرات المهمة Ŝ من خلال اختبار الفرضيات المتعددة، يتم إجراء استدلال غير متحيز على حجم التأثير الحقيقي للتأثيرات المهمة.
تتجنب الطريقة الحساب المباشر للحدث الاختياري المعقد X(S) من خلال الابتكارات التالية:
الخوارزمية 2: حساب الدعم الشرطي
(أ) ابحث عن جميع نقاط التقاطع للدالة الخطية xz,h(xs) لإيجاد الفترات I
(ب) لكل فترة I:
i. ابحث عن التبديل المرتب σ*I
ii. احسب حدود الفترة ℓ(I) و u(I)
(ج) أرجع ∪I I ∩ [ℓ(I), u(I)]
معدل الاستجابة ومبلغ التبرع المشمول بالمطابقة مهمة في جميع الإجراءات الثلاثة
يعتمد اتجاه وحجم تصحيح الانحياز على البنية الارتباطية
بالنسبة لـ "مبلغ التبرع المشمول بالمطابقة"، يحدث تصحيح صاعد تحت اختبارات Holm و Bonferroni، وهذا يرتبط بـ "مبلغ التبرع غير المشمول بالمطابقة" غير المهم والمرتبط بشدة
تستشهد الورقة بالأدبيات الرئيسية في مجال الاستدلال الانتقائي، بما في ذلك طريقة متعددة الأوجه من Lee et al. (2016)، ومبادئ الاستدلال الشرطي الانتقائي من Fithian et al. (2017)، وإجراءات الاختبار المتعددة من Romano and Wolf (2005) وغيرها. تعكس هذه الاستشهادات عمق وسعة الورقة في هذا المجال.