Directional replicability addresses the question of whether an effect studied across $n$ independent studies is present with the same direction in at least $r$ of them, for $r \geq 2$. When the expected direction of the effect is not specified in advance, the state of the art recommends assessing replicability separately by combining one-sided $p$-values for both directions (left and right), and then doubling the smaller of the two resulting combined $p$-values to account for multiple testing. In this work, we show that this multiplicative correction is not always necessary, and give conditions under which it can be safely omitted.
- معرّف الورقة: 2510.11273
- العنوان: قابلية التكرار الاتجاهية: متى يمكن حذف عامل الاثنين
- المؤلفون: فيرا جوردجيلوفيتش (جامعة البندقية)، تامار سوفر (كلية الطب بجامعة هارفارد)، جوناثان إم. درايفوس (كلية الطب بجامعة هارفارد)
- التصنيف: stat.ME (المنهجية الإحصائية)
- تاريخ النشر: 13 أكتوبر 2025 (نسخة أولية على arXiv)
- رابط الورقة: https://arxiv.org/abs/2510.11273
تتناول دراسة قابلية التكرار الاتجاهية مسألة ما إذا كان تأثير معين موجوداً في نفس الاتجاه في ما لا يقل عن r دراسة من بين n دراسة مستقلة (r ≥ 2). عندما لا يتم تحديد الاتجاه المتوقع للتأثير مسبقاً، توصي الممارسات الحالية بتقييم قابلية التكرار من خلال دمج قيم p أحادية الجانب بشكل منفصل للاتجاهات اليمين واليسار، ثم ضرب أصغر قيمة p مدمجة من القيمتين في 2 لتصحيح الاختبارات المتعددة. تُظهر هذه الدراسة أن هذا التصحيح الضربي ليس ضرورياً دائماً، وتقدم الشروط التي يمكن بموجبها حذف هذا التصحيح بأمان.
- المشكلة المراد حلها: مشكلة الاختبار الإحصائي لتقييم اتساق اتجاه التأثير عبر دراسات مستقلة متعددة، وخاصة متى يمكن حذف تصحيح عامل الاثنين التقليدي.
- أهمية المشكلة:
- انتشار مشكلة قابلية التكرار المنخفضة للاكتشافات العلمية في المجالات الطبية والاقتصادية وعلم النفس
- الحاجة إلى طرق إحصائية رسمية لتقييم قابلية تكرار نتائج البحث
- قابلية التكرار الاتجاهية أكثر صرامة من مجرد ملاحظة وجود تأثير، حيث تتطلب اتساق اتجاه التأثير
- قيود الطرق الموجودة:
- تطبق الطريقة القياسية دائماً تصحيح الاختبارات المتعددة بضرب أصغر قيمة p مدمجة في 2
- قد يكون هذا التصحيح محافظاً جداً، مما يقلل من قوة الاختبار
- دافع البحث: تحديد الشروط التي يمكن بموجبها حذف تصحيح عامل الاثنين بأمان من خلال التحليل النظري، وبالتالي تحسين قوة الاختبار الإحصائي.
- النتائج النظرية: إثبات أنه عند r > (n+1)/2، يمكن حذف عامل التصحيح 2 بأمان عند استخدام طريقة بونفيروني لدمج قيم p
- بناء الأمثلة المضادة: توضيح أن عامل التصحيح ضروري لقيم r الأصغر من خلال أمثلة مضادة
- الشروط الحدية: توضيح الشروط الحرجة التي تتطلب وتلك التي لا تتطلب التصحيح
- التوجيهات العملية: توفير إجراء لاختيار قيمة r بشكل متكيف من البيانات
- النقاش الموسع: استكشاف الامتدادات المحتملة للنتائج إلى دوال دمج أخرى
لتكن θ = (θ₁, ..., θₙ) ∈ ℝⁿ متجه أحجام التأثيرات الحقيقية في n دراسة. تعريف:
- n₊ = |{i : θᵢ > 0}|: عدد التأثيرات الموجبة
- n₋ = |{i : θᵢ < 0}|: عدد التأثيرات السالبة
فرضية العدم لقابلية التكرار الاتجاهية من r من n:
H_{r/n} : n₊ < r ∧ n₋ < r
الفرضية البديلة المقابلة:
K_{r/n} : n₊ ≥ r ∨ n₋ ≥ r
- الإعداد الأساسي:
- افتراض وجود مقدرات طبيعية مستقلة: Tᵢ ~ N(θᵢ, 1)
- قيم p أحادية الجانب: pᵢ = 1 - Φ(Tᵢ)، qᵢ = Φ(Tᵢ) = 1 - pᵢ
- قيم p المدمجة الجزئية بطريقة بونفيروني:
- الاتجاه الموجب: p⁺_{r/n} = (n - r + 1)p₍ᵣ₎
- الاتجاه السالب: p⁻_{r/n} = (n - r + 1)p₍ₙ₋ᵣ₊₁₎
- الطريقة التقليدية:
p_{r/n} = 2min{p⁻{r/n}, p⁺{r/n}}
النظرية الرئيسية (النظرية 1):
عندما يكون (n+1)/2 < r ≤ n، فإن p_{r/n} = min{p⁻{r/n}, p⁺{r/n}} هي قيمة p صحيحة لـ H_{r/n}.
الخطوط العريضة الرئيسية للإثبات:
- عندما يكون 2r > n + 1، يكون T₍ᵣ₎ ≥ T₍ₙ₋ᵣ₊₁₎، مما يؤدي إلى عدم تقاطع حدثي الخطأ من النوع الأول
- يمكن التعبير عن احتمالية الخطأ من النوع الأول كـ: c(θ) = Pr_θ(X ≥ r) + Pr_θ(Y ≥ r)
- إثبات أن c(θ) تصل إلى قيمتها العظمى على الحدود من خلال تحليل المشتقات الجزئية
- القيمة العظمى تساوي بالضبط α، بدون الحاجة إلى تصحيح إضافي
- إعداد n = 20 دراسة
- النظر في تكوينين معاملين:
- "الاتساق": θ⁺ = (∞,...,∞,0,...,0) (أول r-1 موجبة لا نهائية)
- "عدم الاتساق": θ* = (∞,...,∞,-∞,...,-∞,0,...,0) (r-1 موجبة لا نهائية و r-1 سالبة لا نهائية)
- احتمالية الخطأ من النوع الأول c(θ)
- مستوى الدلالة الاسمي α = 0.1
النتائج العددية الموضحة في الشكل 1:
- بالنسبة إلى r ∈ {2,...,7}: يتجاوز الخطأ من النوع الأول في تكوين عدم الاتساق ذلك الموجود في تكوين الاتساق، ويتجاوز α
- بالنسبة إلى r ∈ {8,9,10}: الخطأ من النوع الأول في كلا التكوينين أقل من α
- عندما يكون r > 10، يتم استيفاء شرط r > (n+1)/2، والعودة إلى إعداد النظرية 1
القضية 1: بالنسبة إلى n = 3, r = 2، على الرغم من عدم استيفاء شرط النظرية 1، فإن p_{r/n} لا تزال قيمة p صحيحة.
نقاط الإثبات الرئيسية:
- إثبات أن الدالة c(θ) لا تحتوي على نقاط ثابتة في المجال المجدي من خلال تحليل المشتقات الجزئية
- إثبات أن الحد الأعلى يساوي α من خلال تحليل النهايات
- شرط كافٍ وليس ضروري: الشرط r > (n+1)/2 الذي تعطيه النظرية 1 كافٍ لكن ليس ضروري
- المنطقة الانتقالية: وجود منطقة انتقالية حيث قد لا يكون التصحيح ضروري لكن يتطلب تحليل محدد
- التحكم في الخطأ من النوع الثالث: يمكن للإجراء المقترح التحكم في الخطأ من النوع الثالث، مما يسمح بالاستدلال اللاحق على اتجاه التأثير
- طرق إحصائية لقابلية التكرار: مراجعة بوغومولوف وهيلر (2023)
- اختبار الفرضيات المدمجة الجزئية: الإجراء العام لبنجاميني وهيلر (2008)
- اختبار المتوسطات الطبيعية متعددة المتغيرات: النتائج ذات الصلة لساسابوتشي (1980) وبيرجر (1989)
- طرق دمج قيم p: أعمال أوين (2009)، وانج وآخرون (2022) وغيرهم
- عندما يكون r > (n+1)/2، يمكن حذف عامل التصحيح 2 بأمان
- بالنسبة إلى قيم r الأصغر، يكون التصحيح ضرورياً عادة
- توجد حالات حدية تتطلب تحليل محدد
- تركز النتائج بشكل أساسي على طريقة بونفيروني لدمج قيم p
- افتراض الاستقلالية بين الدراسات وأن تقديرات التأثير موزعة بشكل طبيعي
- الامتدادات إلى دوال دمج أخرى تحتاج إلى مزيد من البحث
- التوسع إلى دوال دمج أخرى مثل Šidák و Simes و Fisher
- التطبيق في حالات الاختبارات المتعددة للفرضيات
- التعميم على حالات التوزيعات غير الطبيعية
- الصرامة النظرية: توفير إثبات رياضي كامل وأمثلة مضادة
- القيمة العملية: توفير مبادئ توجيهية واضحة للممارسة الإحصائية
- الوضوح في الكتابة: هيكل منطقي واضح وتعبير رياضي دقيق
- أهمية المشكلة: حل احتياجات عملية في أبحاث قابلية التكرار
- نطاق التطبيق محدود: ينطبق بشكل أساسي على طريقة بونفيروني والافتراضات الطبيعية
- معالجة الحالات الحدية: المعالجة غير كاملة للمنطقة الحرجة
- التوجيهات التطبيقية: نقص التحقق من البيانات الفعلية الإضافية
- المساهمة النظرية: توفير نتائج نظرية جديدة لإحصائيات قابلية التكرار
- القيمة العملية: يمكن تحسين قوة الاختبار الإحصائي
- القابلية للتوسع: وضع الأساس لتطوير الطرق ذات الصلة
- التحليل التلوي والمراجعات المنهجية
- التجارب السريرية متعددة المراكز
- التحقق من البحث عبر المختبرات
- دراسات الارتباط الجيني على نطاق واسع
- Benjamini, Y. and Heller, R. (2008). Screening for partial conjunction hypotheses. Biometrics.
- Bogomolov, M. and Heller, R. (2023). Replicability across multiple studies. Statistical Science.
- Owen, A. B. (2009). Karl Pearson's meta-analysis revisited. Annals of Statistics.
- Sasabuchi, S. (1980). A test of a multivariate normal mean with composite hypotheses. Biometrika.
تقدم هذه الورقة مساهمة نظرية مهمة لإحصائيات قابلية التكرار، حيث تحدد من خلال التحليل الرياضي الصارم متى يمكن حذف التصحيح المحافظ التقليدي، وبالتالي تحسين قوة الاختبار الإحصائي. على الرغم من وجود بعض القيود، فإن قيمتها النظرية والعملية كبيرة جداً.