2025-11-24T11:16:24.556584

StatTestCalculator: A New General Tool for Statistical Analysis in High Energy Physics

Abasov, Dudko, Gorin et al.

We present StatTestCalculator (STC), a new open-source statistical analysis tool designed for analysis high energy physics experiments. STC provides both asymptotic calculations and Monte Carlo simulations for computing the exact statistical significance of a discovery or for setting upper limits on signal model parameters. We review the underlying statistical formalism, including profile likelihood ratio test statistics for discovery and exclusion hypotheses, and the asymptotic distributions that allow quick significance estimates. We explain the relevant formulas for the likelihood functions, test statistic distributions, and significance metrics (both with and without incorporating systematic uncertainties). The implementation and capabilities of STC are described, and we validate its performance against the widely-used CMS Combine tool. We find excellent agreement in both the expected discovery significances and upper limit calculations. STC is a flexible framework that can accommodate systematic uncertainties and user-defined statistical models, making it suitable for a broad range of analyses.

academic

StatTestCalculator: أداة جديدة شاملة للتحليل الإحصائي في فيزياء الطاقة العالية

المعلومات الأساسية

معرّف الورقة البحثية: 2510.11637
العنوان: StatTestCalculator: أداة جديدة شاملة للتحليل الإحصائي في فيزياء الطاقة العالية
المؤلفون: E. Abasov, L.V. Dudko, D.E. Gorin, O.S. Vasilevskii (كلية الفيزياء بجامعة موسكو الحكومية، معهد سكوبيليتسين للفيزياء النووية)
التصنيف: hep-ph (فيزياء الطاقة العالية - الظواهر)، stat.CO (الإحصاء - الحسابات)
تاريخ النشر/المؤتمر: نشرة جامعة موسكو للفيزياء 80(8)، 2025؛ ورشة العمل الدولية الخمسون لفيزياء الطاقة العالية ونظرية الحقول الكمومية
رابط الورقة: https://arxiv.org/abs/2510.11637v1

الملخص

تقدم هذه الورقة البحثية أداة StatTestCalculator (STC)، وهي أداة تحليل إحصائي مفتوحة المصدر جديدة مصممة خصيصاً لتحليل التجارب في فيزياء الطاقة العالية. توفر STC طريقتين للحساب: الصيغ التقاربية ومحاكاة مونت كارلو، لحساب الدقة الإحصائية للاكتشاف أو تحديد الحدود العليا لمعاملات نماذج الإشارة. تستعرض الورقة الصيغ الإحصائية الأساسية، بما في ذلك إحصائيات اختبار نسبة الاحتمالية الموصوفة للاكتشاف والاستبعاد، والتوزيعات التقاربية التي تسمح بتقدير سريع للدقة. يشرح المؤلفون بالتفصيل الصيغ ذات الصلة بدالة الاحتمالية وتوزيعات إحصائيات الاختبار ومقاييس الدقة (مع وبدون عدم اليقين المنهجي). تصف الورقة التنفيذ والميزات الوظيفية لـ STC، وتتحقق من أدائها من خلال المقارنة مع أداة CMS Combine المستخدمة على نطاق واسع، مما يظهر اتساقاً ممتازاً في حسابات دقة الاكتشاف المتوقعة وحسابات الحدود العليا.

الخلفية البحثية والدافع

تعريف المشكلة

تعتمد تجارب فيزياء الطاقة العالية على التحليل الإحصائي للبيانات المرصودة للتوصل إلى استنتاجات حول الظواهر الجديدة. نظراً لأن نتائج تجارب المصادمات احتمالية بطبيعتها، هناك حاجة إلى طرق إحصائية صارمة لتقدير المعاملات وتقييم دقة الاكتشافات المحتملة.

القيود في الأدوات الموجودة

على الرغم من وجود العديد من الأدوات الإحصائية المعقدة لتحليل فيزياء الطاقة العالية، مثل:

إطار عمل RooFit و RooStats
أداة CMS Combine
Theta
HistFactory

إلا أن هذه الأدوات عادة ما تكون مصممة للتحليلات الكبيرة والمعقدة، وتفتقر إلى أداة خفيفة الوزن توفر حسابات إحصائية سريعة ودقيقة لمجموعة متنوعة من السيناريوهات الشائعة.

الدافع البحثي

الحاجة إلى سهولة الاستخدام: الحاجة إلى أداة Python سهلة الاستخدام ومتعددة الوظائف
سهولة التكامل: القدرة على التكامل السلس مع خطوط أنابيب الشبكات العصبية
التحقق السريع: تسهيل الدراسات الأولية للحساسية والتحقق المتقاطع من النتائج الرسمية أو الأغراض التعليمية
القابلية للتوسع: دعم النماذج الإحصائية المخصصة وإحصائيات الاختبار المعرفة من قبل المستخدم

المساهمات الأساسية

تطوير أداة تحليل إحصائي جديدة STC: أداة خفيفة الوزن مفتوحة المصدر قائمة على Python مخصصة للتحليل الإحصائي في فيزياء الطاقة العالية
توفير طريقتي حساب مزدوجة: دعم الصيغ التقاربية (التقريبات الشكلية المغلقة) والحسابات الدقيقة لمحاكاة مونت كارلو
معالجة شاملة لعدم اليقين المنهجي: دعم التوزيعات الطبيعية واللوغاريتمية الطبيعية أو التوزيعات المخصصة للمستخدم للتأثيرات المنهجية
التحقق من دقة الأداة: مقارنة واسعة مع أداة CMS Combine تظهر اتساقاً ممتازاً
توفير إطار عمل رياضي موسع: توسيع الصيغ من تحليل bin واحد إلى تحليل الشكل متعدد bin

شرح الطريقة

الافتراضات الإحصائية والصيغ الرياضية

تعريف المهمة

في تجارب المصادمات، يتم النظر في فرضيتين:

الفرضية الصفرية H₀ (الخلفية فقط): تفترض أن البيانات لا تحتوي على مساهمة إشارة جديدة
الفرضية البديلة H₁ (الإشارة + الخلفية): تفترض وجود أحداث إشارة بالإضافة إلى الخلفية

تعريف معامل شدة الإشارة μ، حيث μ=0 يقابل H₀ و μ=1 يقابل التنبؤ الاسمي للإشارة تحت H₁.

بناء دالة الاحتمالية

بالنسبة لتجربة عد مع N منطقة إشارة، يُفترض أن العدد المرصود nᵢ يتبع توزيع بواسون: nᵢ ~ Poisson(μsᵢ + κᵢbᵢ)

دالة الاحتمالية الكاملة هي:

L(μ,θ) = ∏ᵢ₌₁ᴺ [(μsᵢ + κᵢbᵢ)^nᵢ e^-(μsᵢ+bᵢ)]/nᵢ! × ∏ⱼ₌₁ᴹ Systematic(θ)

حيث:

sᵢ: عدد أحداث الإشارة المتوقعة
bᵢ: عدد أحداث الخلفية المتوقعة
κ: معامل عدم اليقين المنهجي
θ: متجه معاملات المزعجة

نسبة الاحتمالية الموصوفة وإحصائيات الاختبار

تعريف نسبة الاحتمالية الموصوفة

λ(μ) = L(μ, θ̂(μ)) / L(μ̂, θ̂)

إحصائيات الاختبار

تعريف إحصائية الاختبار:

qμ = -2 ln λ(μ) = -2 ln [L(μ, θ̂(μ)) / L(μ̂, θ̂)]

إحصائية اختبار الاكتشاف q₀:

q₀ = {
  -2 ln λ(0),  إذا كان μ̂ ≥ 0
  0,           إذا كان μ̂ < 0
}

إحصائية اختبار الاستبعاد qμ:

qμ = {
  -2 ln λ(μ),  إذا كان μ̂ ≤ μ
  0,           إذا كان μ̂ > μ
}

الصيغ التحليلية لدقة الاكتشاف

بالنسبة للحالات التي تتضمن عدم اليقين المنهجي، صيغة دقة الاكتشاف هي:

Zdisc = √{2[(s+b)ln((s+b)(1+δ²b))/(b+δ²b(s+b)) - (1/δ²)ln(1+δ²s/(1+δ²b))]}

حيث δ = σb/b هي عدم اليقين النسبي للخلفية.

في حالة الحد الأدنى من عدم اليقين المنهجي (δ→0):

Zdisc = √{2[(s+b)ln(1+s/b) - s]}

صيغ دقة الاستبعاد (الحدود العليا)

صيغة دقة الاستبعاد التي تتضمن عدم اليقين في الخلفية:

Zexcl = √{2[s - b ln((b+s+x)/(2b)) - (1/δ²)ln((b-s+x)/(2b))] - (b+s-x)(1+1/(δ²b))}

حيث:

x = √[(b+s)² - 4δ²b²s/(1+δ²b)]

الإعداد التجريبي

إطار عمل محاكاة مونت كارلو

توليد التجارب الاختبارية

أحداث الإشارة: استخراج من توزيع بواسون Poisson(μs)
أحداث الخلفية: استخراج من توزيع بواسون Poisson(b)
عدم اليقين المنهجي: التطبيق على توزيعات الإشارة والخلفية

معالجة عدم اليقين المنهجي

التوزيع الطبيعي: κ ~ N(1, δ²)
التوزيع اللوغاريتمي الطبيعي: κ ~ LogNormal(1, δ²)
عدم اليقين في الشكل: ضرب كل bin بقيمة عددية κ
عدم اليقين في bin واحد: كل bin له عامل κ مستقل

إعداد التجارب التحقيقية

الأدوات المقارنة

المقارنة الأساسية مع أداة CMS Combine

سيناريوهات الاختبار

حسابات دقة الاكتشاف:
- الخلفية b = 100 حدث
- الإشارة s = 10, 20, 30, ..., 50 حدث
- عدم اليقين المنهجي: 0% و 20%
حسابات الحدود العليا:
- حد أعلى بمستوى ثقة 95%
- نفس تكوينات الإشارة والخلفية
- محاكاة مونت كارلو باستخدام 10⁵ تجربة اختبارية

النتائج التجريبية

النتائج الرئيسية

مقارنة دقة الاكتشاف

تظهر النتائج التجريبية اتساقاً ممتازاً بين STC وأداة Combine في:

الحسابات التقاربية:
- بدون عدم اليقين المنهجي: تطابق تام
- مع 20% عدم اليقين المنهجي: اتساق عالي
حسابات مونت كارلو:
- نتائج MC من كلا الأداتين تظهر اتساقاً جيداً مع الصيغ التقاربية
- عدم اليقين الإحصائي ضمن النطاق المتوقع

مقارنة حسابات الحدود العليا

حسابات الحد الأعلى بمستوى ثقة 95% تظهر:

التحقق من الصيغ التقاربية: صيغ STC التقاربية متطابقة تماماً مع Combine
التحقق من مونت كارلو: نتائج التجارب الاختبارية تؤكد دقة التقريب التقاربي
تأثير عدم اليقين المنهجي: يعكس بشكل صحيح تأثير عدم اليقين المنهجي على قدرة الاستبعاد

تقييم الأداء

الكفاءة الحسابية

الحسابات التقاربية: تكتمل فوراً تقريباً (أجزاء من الثانية)
محاكاة مونت كارلو: 10⁵ تجربة اختبارية تكتمل في ثوان إلى دقائق قليلة

التحقق من الدقة

جميع سيناريوهات الاختبار تظهر أن STC قادرة على إعادة إنتاج الحسابات القياسية بدقة، مما يؤكد:

التنفيذ الصحيح للصيغ الرياضية
موثوقية خوارزمية مونت كارلو
دقة معالجة عدم اليقين المنهجي

التحقق من الميزات الموسعة

تحليل الشكل متعدد bin

تطبيق STC بنجاح على سيناريوهات تحليل شكل أكثر تعقيداً باستخدام الصيغ من المرجع 7.

الميزات المخصصة للمستخدم

التحقق من القدرات الموسعة التالية:

تعريفات إحصائيات اختبار مخصصة
أشكال دوال احتمالية بديلة
توزيعات عدم اليقين المنهجي المعرفة من قبل المستخدم

الأعمال ذات الصلة

مقارنة الأدوات الإحصائية الموجودة

الأداة	الميزات	القيود
RooFit/RooStats	قوية وموسعة الاستخدام	معقدة، منحنى تعليمي حاد
CMS Combine	أداة قياسية، وظائف كاملة	موجهة بشكل أساسي للتحليلات الكبيرة
Theta	طريقة بايزية	أغراض محددة
HistFactory	بناء النموذج	تحتاج إلى أدوات أخرى

موضع STC

تملأ STC الفراغ في أدوات التحليل الإحصائي الخفيفة الوزن والسهلة الاستخدام والسريعة، وهي مناسبة بشكل خاص لـ:

الدراسات الأولية للحساسية
التحقق المتقاطع من النتائج
أغراض تعليمية وتعلم
تكامل خطوط أنابيب الشبكات العصبية

الخلاصة والمناقشة

الاستنتاجات الرئيسية

فعالية الأداة: نجحت STC في تنفيذ وظائف تحليل إحصائي دقيقة، مع إظهار اتساق ممتاز مع الأداة القياسية Combine
اكتمال الطريقة: توفير إطار عمل إحصائي كامل من تجارب العد البسيطة إلى تحليل الشكل المعقد
القيمة العملية: التصميم الخفيف الوزن يجعله مناسباً للتحليل السريع والأغراض التعليمية
القابلية للتوسع: التصميم المعياري يدعم التخصيص من قبل المستخدم وتوسيع الطرق

القيود

حدود التعقيد: على الرغم من دعم تحليل متعدد bin، قد لا يكون فعالاً مثل الأدوات المتخصصة للنماذج الإحصائية المعقدة جداً
مساحة التحسين: لا تزال هناك فرص لتحسين الأداء عند التعامل مع البيانات الكبيرة
اكتمال التوثيق: كأداة جديدة، تحتاج إلى المزيد من حالات الاستخدام والتوثيق

الاتجاهات المستقبلية

توسيع الميزات:
- دعم المزيد من التوزيعات الإحصائية
- إضافة طرق بايزية
- التوسع إلى تصاميم تجريبية أكثر تعقيداً
تحسين الأداء:
- توازي حسابات مونت كارلو
- تحسين استخدام الذاكرة
- قدرات معالجة البيانات الكبيرة
بناء المجتمع:
- إضافة أمثلة استخدام
- تحسين التوثيق
- تشجيع المساهمات المجتمعية

التقييم المتعمق

المميزات

الابتكار التقني:
- تحويل ناجح للنظرية الإحصائية المعقدة إلى أداة سهلة الاستخدام
- توفير اشتقاق رياضي كامل وتنفيذ
- طريقة التحقق المزدوجة (تقاربي + MC) تعزز موثوقية النتائج
كفاية التجارب:
- مقارنة شاملة مع الأدوات القياسية
- تغطية اختبار متعددة السيناريوهات
- معالجة صحيحة لعدم اليقين المنهجي
القيمة العملية:
- ملء الفراغ في أدوات الإحصاء الخفيفة الوزن
- تنفيذ Python يسهل التكامل والتعديل
- الطبيعة مفتوحة المصدر تعزز تطور المجتمع
وضوح الكتابة:
- اشتقاق رياضي مفصل وصحيح
- وصف واضح لتفاصيل التنفيذ
- عملية التحقق شفافة

أوجه القصور

حدود الطريقة:
- تعتمد بشكل أساسي على طرق المدرسة التكرارية
- دعم محدود لبعض النماذج الإحصائية الخاصة
- قدرات الحوسبة المتوازية على نطاق واسع تحتاج إلى تحسين
الإعداد التجريبي:
- التحقق يعتمد بشكل أساسي على نماذج بسيطة
- نقص حالات اختبار التجارب المعقدة الحقيقية
- اختبارات المعايير الأداء نسبياً بسيطة
تحليل المقارنة:
- المقارنة تركز بشكل أساسي على Combine، مع نقص المقارنة مع أدوات أخرى
- التحليل الكمي لكفاءة الحساب غير كافٍ

تقييم التأثير

المساهمة الأكاديمية:
- توفير خيار أداة جديد لتحليل الإحصاء في فيزياء الطاقة العالية
- الإطار الرياضي الكامل له قيمة تعليمية
- التنفيذ مفتوح المصدر يعزز شفافية الطريقة
التأثير العملي:
- تقليل العقبات التقنية للتحليل الإحصائي
- تسهيل تطوير النماذج الأولية السريعة والتحقق
- دعم الأنشطة التعليمية والتعلم
القابلية للتكرار:
- الكود مفتوح المصدر يضمن القابلية الكاملة للتكرار
- الاشتقاق الرياضي المفصل يدعم التحقق المستقل
- المقارنة مع الأدوات القياسية تعزز المصداقية

حالات الاستخدام المناسبة

التطبيقات المثالية:
- الدراسات الأولية للحساسية
- تعليم وتعلم الطرق الإحصائية
- تطوير النماذج الأولية السريعة
- التحقق المتقاطع من النتائج
السيناريوهات المحدودة:
- التحليلات المعقدة جداً على نطاق واسع
- الحالات التي تتطلب طرق إحصائية خاصة
- بيئات الإنتاج التي تتطلب أداء عالي جداً

المراجع

1 W. Verkerke and D. Kirkby, The RooFit toolkit for data modeling, Statistical Problems in Particle Physics, Astrophysics and Cosmology (2006)

2 L. Moneta et al., The RooStats Project, arXiv:1009.1003 (2010)

3 CMS Collaboration, The CMS Statistical Analysis and Combination Tool: Combine, arXiv:2404.06614 (2024)

6 G. Cowan, K. Cranmer, E. Gross, and O. Vitells, Asymptotic formulae for likelihood-based tests of new physics, Eur. Phys. J. C 71, 1554 (2011)

7 D. E. Gorin et al., Asymptotic formulas for estimating statistical significance in collider experiments, Uchenye Zapiski Fiz. Fak. MGU No. 1 (2024)

الحصول على الأداة: يمكن الحصول على برنامج StatTestCalculator والتوثيق على GitHub: https://github.com/skottver/stattestcalculator