The study of associations and their causal explanations is a central research activity whose methodology varies tremendously across fields. Even within specialized subfields, comparisons across textbooks and journals reveals that the basics are subject to considerable variation and controversy. This variation is often obscured by the singular viewpoints presented within textbooks and journal guidelines, which may be deceptively written as if the norms they adopt are unchallenged. Furthermore, human limitations and the vastness within fields imply that no one can have expertise across all subfields and that interpretations will be severely constrained by the limitations of studies of human populations.
The present chapter outlines an approach to statistical methods that attempts to recognize these problems from the start, rather than assume they are absent as in the claims of 'statistical significance' and 'confidence' ordinarily attached to statistical tests and interval estimates. It does so by grounding models and statistics in data description, and treating inferences from them as speculations based on assumptions that cannot be fully validated or checked using the analysis data.
- معرّف الورقة: 2508.10168
- العنوان: الطرق الإحصائية: المفاهيم الأساسية والتفسيرات والتحذيرات
- المؤلف: ساندر جرينلاند (أستاذ فخري في قسم علم الأوبئة والإحصاء بجامعة لوس أنجلوس)
- التصنيف: stat.ME math.ST stat.TH
- تاريخ النشر: 25 أغسطس 2025
- طبيعة الورقة: فصل من الطبعة الثالثة من دليل علم الأوبئة
- رابط الورقة: https://arxiv.org/abs/2508.10168
تتناول هذه الورقة مشاكل تطبيق الطرق الإحصائية في دراسات الارتباط والتفسيرات السببية، مشيرة إلى وجود اختلافات منهجية ضخمة بين المجالات المختلفة، وحتى تباينات وخلافات كبيرة داخل المجالات الفرعية المتخصصة. تفترض الطرق الإحصائية التقليدية ظروفاً مثالية (مثل العينات العشوائية البحتة والتجارب العشوائية الكاملة)، لكن هذه الافتراضات غالباً ما تكون غير قابلة للتحقق في الدراسات السكانية الفعلية. يقترح المؤلف إطار عمل جديد لتفسير الطرق الإحصائية، حيث ينظر إلى الاستدلال الإحصائي على أنه تخمين يستند إلى افتراضات لا يمكن التحقق منها بالكامل، وليس كنتائج حتمية، مما يتجنب الاستخدام الخاطئ لمفاهيم "الدلالة الإحصائية" و"الثقة".
- الخلافات المنهجية الشديدة: توجد اختلافات وخلافات كبيرة بين المجالات المختلفة والكتب الدراسية والمجلات حول المفاهيم الإحصائية الأساسية
- مثالية الافتراضات: تفترض الطرق الإحصائية التقليدية ظروفاً مثالية للعينات العشوائية أو التوزيع العشوائي، لكن هذه الشروط يصعب تحقيقها في الدراسات الفعلية
- الفهم الخاطئ الشائع: تظهر الدراسات الاستقصائية أن معظم المستخدمين غير قادرين على تعريف أو تفسير قيم P والاختبارات الإحصائية ومجالات الثقة بشكل صحيح
- مشكلة الثقة الزائدة: غالباً ما يتم تفسير النتائج الإحصائية على أنها إجابات حتمية وليس تخمينات مستندة إلى افتراضات
- توفير إطار عمل أكثر واقعية وحذراً لتفسير الطرق الإحصائية
- تقليل الثقة الزائدة والفهم الخاطئ في الاستدلال الإحصائي
- إعادة تموضع الطرق الإحصائية كأدوات لوصف البيانات وليس كحكم نهائي للاستدلال العلمي
- التأكيد على أهمية التحقق من الافتراضات وتقييم عدم اليقين
- إعادة تعريف الاستدلال الإحصائي: إعادة تفسير قيم P على أنها مقياس للتوافق بين البيانات والنموذج الافتراضي، وليس احتمالية الفرضية
- تقديم مفهوم مجال التوافق: استخدام "مجال التوافق" (compatibility interval) بدلاً من "مجال الثقة"، لتجنب مفهوم "الثقة" المضلل
- إدخال قيمة S (الدهشة): استخدام قيمة الدهشة الثنائية (-log₂(p)) كمقياس للمعلومات، مما يوفر تفسيراً أكثر حدساً لقيم P
- التأكيد على الاعتماد على الافتراضات: شرح منهجي لحساسية النتائج الإحصائية للافتراضات المساعدة وعدم اليقين
- دمج طرق متعددة: الدعوة إلى استخدام الطرق التكرارية والبايزية كمنظورات مختلفة لدمج الأدلة
- التعريف التقليدي: يشير النموذج عادة إلى معادلة تعبر عن العلاقة الدالية بين متغير مقاس ومتغيرات أخرى
- التعريف في هذه الورقة: النموذج M هو مجموعة كاملة من الافتراضات حول سلوك عملية توليد البيانات، بما في ذلك الفرضية الهدف H والافتراضات المساعدة A
التعريف التقليدي لقيمة P:
حيث T هي إحصائية الفرق، و t هي القيمة المرصودة، و H هي الفرضية الهدف، و A هي الافتراضات المساعدة.
إعادة التفسير: تمثل قيمة P درجة التوافق بين البيانات والنموذج، تتراوح من 0 (عدم توافق كامل) إلى 1 (توافق كامل).
تُقاس قيمة S بوحدات المعلومات (bits)، مما يوفر تفسيراً أكثر حدساً:
- S = 4.6 يعادل مستوى الدهشة من الحصول على جميع الرؤوس في 5 رميات عملة
- S = 0 يعني عدم وجود معلومات، وكلما زادت قيمة S زاد عدم التوافق
بالنسبة لمستوى الدلالة α، يتضمن مجال التوافق جميع قيم المعاملات التي تحقق p > α، مما يتجنب المفهوم المضلل للـ "ثقة".
- التحويل الدلالي: الانتقال من اللغة القرارية إلى اللغة الوصفية
- منظور نظرية المعلومات: إدخال مفاهيم نظرية المعلومات لقياس الأدلة الإحصائية
- شفافية الافتراضات: التمييز الواضح بين الفرضية الهدف والافتراضات المساعدة
- دمج الطرق المتعددة: النظر إلى مختلف المدارس الإحصائية كمنظورات متكاملة
يستخدم المؤلف مجموعة بيانات افتراضية حول العلاقة بين استخدام القنب والصحة العقلية لتوضيح الطريقة:
هيكل البيانات:
- حجم العينة: 600 شخص (480 غير مستخدم، 120 مستخدم قنب)
- متغير النتيجة: تشخيص المرض العقلي (ثنائي)
- الارتباط المرصود: معدل التشخيص بين المستخدمين 8.3%، بين غير المستخدمين 3.3%
نتائج الحساب:
- فرق المخاطر (RD) = 0.050 (5%)
- نسبة المخاطر (RR) = 2.5
- نسبة الأرجحية (OR) = 2.6
- اختبار بيرسون χ² = 5.79
- قيمة P التقريبية = 0.016، قيمة P الدقيقة = 0.041
- مقياس التوافق: قيمة P كمؤشر للتوافق بين البيانات والفرضية
- محتوى المعلومات: قيمة S لقياس كمية الأدلة الإحصائية
- تقدير المجال: مجال التوافق لتوفير نطاق تقدير المعامل
- مقارنة الفرضيات: مقارنة دالة قيم P لقيم فرضيات مختلفة
- الفرضية H₀: OR = 1 قيمة P الدقيقة = 0.041 (S = 4.6 bits)
- الفرضية H₁: OR = 2 قيمة P الدقيقة = 0.644 (S = 0.6 bits)
- مجال التوافق 95%: 1.04, 6.36
التفسير التقليدي: يتم "رفض" OR = 1 عند مستوى α = 0.05، والنتيجة "ذات دلالة إحصائية"
التفسير في الإطار الجديد:
- توافق OR = 1 مع البيانات منخفض نسبياً (p = 0.041)
- توافق OR = 2 مع البيانات عالي جداً (p = 0.644)
- OR = 6 أكثر توافقاً مع البيانات من OR = 1 (p = 0.070 > 0.041)
| الطريقة | قيمة P | قيمة S | التفسير |
|---|
| بيرسون χ² | 0.016 | 5.97 | طريقة تقريبية |
| فيشر الدقيقة | 0.041 | 4.61 | طريقة دقيقة |
| تقريب والد | انحراف كبير | - | غير دقيقة مع البيانات النادرة |
من خلال حالة استخدام القنب، يوضح المؤلف:
- الاعتماد على الافتراضات: تعتمد النتائج بشكل كبير على الافتراضات المساعدة (مثل العينات العشوائية، عدم التداخل، إلخ)
- عوامل الخلط: قد يؤثر العمر والتاريخ الطبي السابق واستخدام الأدوية الأخرى على الارتباط الحقيقي
- أخطاء القياس: تأثير الإبلاغ الذاتي عن الاستخدام ودقة التشخيص
- انحياز الاختيار: قد يؤثر الاختيار الانتقائي للمشاركين في الدراسة على تعميم النتائج
- أصول قيمة P: يعود تاريخها إلى أوائل القرن الثامن عشر، وضع بيرسون (1900) وفيشر (1934) أساس النظرية الحديثة
- مفهوم الدلالة: ظهر مفهوم "الدلالة الإحصائية" في ثمانينيات القرن التاسع عشر
- تاريخ الخلاف: انتقادات مبكرة من بورينج (1919)، وأشار بيرسون (1906) إلى مشاكل الفهم الخاطئ
يستشهد المؤلف بالعديد من الأدبيات الحديثة التي تدعم الإصلاح الإحصائي:
- أمرهين وآخرون (2019): الدعوة إلى "إحالة الدلالة الإحصائية للتقاعد"
- ماكشين وآخرون (2019، 2024): الدعوة للتجاوز عن القرارات الثنائية
- واسرشتاين وآخرون (2019): بيان جمعية الإحصائيين الأمريكية حول قيم P
- الطرق البايزية: توفر بيانات احتمالية عن المعاملات، لكنها تعتمد على التوزيع السابق
- الاستدلال السببي: إطار الاستدلال السببي الحديث من بيرل وهيرنان وروبينز وآخرين
- المقارنات المتعددة: تعديل بونفيروني والطرق البديلة
- الإحصاء القوي: طرق حسابية مكثفة مثل Bootstrap
- قيود الطرق الإحصائية: تستند الطرق التقليدية إلى افتراضات صارمة غالباً ما يتم انتهاكها في التطبيق العملي
- أهمية اللغة: تسبب مصطلحات مثل "الدلالة" و"الثقة" فهماً خاطئاً منهجياً
- حذر الاستدلال: يجب النظر إلى النتائج الإحصائية على أنها تخمينات مستندة إلى افتراضات وليس نتائج حتمية
- دمج الطرق: يجب استخدام الطرق الإحصائية المختلفة كأدوات متكاملة
- تحسين التقارير:
- توفير دالة قيم P بدلاً من قيمة P واحدة
- استخدام مجالات التوافق بدلاً من مجالات الثقة
- إدراج الافتراضات الرئيسية بوضوح
- إطار التفسير:
- تجنب لغة "القبول/الرفض" الثنائية
- التأكيد على اعتماد النتائج على الافتراضات
- النظر في الدلالة العملية وليس فقط الدلالة الإحصائية
- اختيار الطريقة:
- استخدام الطرق الدقيقة بدلاً من التقريبات الكبيرة للعينات
- إجراء تحليلات الحساسية
- دمج مصادر أدلة متعددة
- منحنى التعلم: يتطلب الإطار الجديد إصلاحاً جذرياً في التعليم الإحصائي
- التعقيد الحسابي: بعض الطرق المقترحة أكثر تعقيداً حسابياً
- مقاومة المجلات: قد تعيق الممارسات النشر الحالية الاعتماد
- تحديات التواصل: يصعب شرح الإطار الجديد للمتخصصين غير الإحصائيين
- إصلاح التعليم: يتطلب تدريس الإحصاء إصلاحاً جذرياً من المفاهيم الأساسية
- تطوير البرامج: الحاجة إلى برامج إحصائية تدعم الإطار التفسيري الجديد
- وضع المعايير: تحديث معايير المجلات الأكاديمية والهيئات التنظيمية
- التعاون بين التخصصات: تعزيز التعاون بين الإحصائيين والخبراء المتخصصين
- العمق النظري: يوفر تأملاً فلسفياً عميقاً للاستدلال الإحصائي
- قوة التطبيق: يقدم توصيات محددة للطرق والتفسير
- الأدلة الكافية: يستشهد بعدد كبير من الأدبيات لدعم الآراء
- الوضوح في الكتابة: يشرح المفاهيم المعقدة بوضوح مع أمثلة حية
- إدخال قيمة S: ابتكار في تفسير قيم P من منظور نظرية المعلومات
- إطار التوافق: إصلاح منهجي للمصطلحات والمفاهيم
- دمج الطرق المتعددة: توحيد منظورات المدارس الإحصائية المختلفة
- تدرج الافتراضات: التمييز الواضح بين الفرضية الهدف والافتراضات المساعدة
- تحديات التنفيذ: يواجه إصلاح الممارسة الإحصائية الحالية مقاومة ضخمة
- العبء الحسابي: بعض الطرق المقترحة تزيد من التعقيد الحسابي
- صعوبة الانتقال: قد يسبب التعايش بين الإطار القديم والجديد التباساً
- صعوبة الانتشار: يتطلب استثماراً كبيراً في التعليم والتدريب
- تحول النموذج: قد يدفع إلى تغيير جذري في المفاهيم الأساسية للإحصاء
- التأثير بين التخصصات: يؤثر على جميع المجالات التي تستخدم الطرق الإحصائية
- تجديد التعليم: يدفع إلى إصلاح جذري في التعليم الإحصائي
- تقليل الأخطاء: يساعد على تقليل سوء تفسير النتائج الإحصائية
- تحسين الجودة: يعزز الاستدلال العلمي الأكثر حذراً ودقة
- صنع السياسات: يحسن جودة القرارات المستندة إلى الأدلة الإحصائية
- البحث العلمي: جميع مجالات البحث التي تستند إلى الاستدلال الإحصائي
- البحث الطبي: التجارب السريرية ودراسات علم الأوبئة
- العلوم الاجتماعية: علم النفس والاقتصاد والدراسات التجريبية الأخرى
- صنع القرار التنظيمي: موافقة الأدوية وتقييم السياسات وغيرها
تستشهد هذه الورقة بعدد كبير من المراجع المهمة، بما في ذلك:
الأدبيات الكلاسيكية:
- بيرسون، ك. (1900). الأساس النظري المبكر لاختبارات الإحصاء
- فيشر، ر.أ. (1934). تأسيس نظرية الاستدلال الإحصائي الحديث
- نيمان، ج. (1977). نظرية الإحصاء التكراري
الانتقادات الحديثة:
- أمرهين، ف.، وآخرون (2019). حركة إحالة الدلالة الإحصائية للتقاعد
- واسرشتاين، ر.ل.، وآخرون (2019). بيان جمعية الإحصائيين الأمريكية حول قيم P
- ماكشين، ب.ب.، وآخرون (2019، 2024). التجاوز عن القرارات الإحصائية الثنائية
تطور الطرق المنهجية:
- بيرل، ج. (2009). نظرية الاستدلال السببي
- هيرنان، م.أ.، روبينز، ج.م. (2025). طرق علم الأوبئة الحديثة
- جيلمان، أ.، وآخرون (2013). تحليل البيانات البايزي
الملخص: هذه ورقة ذات أهمية نظرية وعملية كبيرة في منهجية الطرق الإحصائية. يقدم المؤلف، بفضل خبرته الإحصائية العميقة وتجربته التطبيقية الغنية، نقداً منهجياً لمشاكل إطار الاستدلال الإحصائي التقليدي، ويقترح بدائل أكثر حذراً وواقعية. على الرغم من التحديات التي تواجه التنفيذ، فإن أفكاره ذات قيمة مهمة لتحسين جودة البحث العلمي.