2025-11-24T11:16:24.556584

StatTestCalculator: A New General Tool for Statistical Analysis in High Energy Physics

Abasov, Dudko, Gorin et al.
We present StatTestCalculator (STC), a new open-source statistical analysis tool designed for analysis high energy physics experiments. STC provides both asymptotic calculations and Monte Carlo simulations for computing the exact statistical significance of a discovery or for setting upper limits on signal model parameters. We review the underlying statistical formalism, including profile likelihood ratio test statistics for discovery and exclusion hypotheses, and the asymptotic distributions that allow quick significance estimates. We explain the relevant formulas for the likelihood functions, test statistic distributions, and significance metrics (both with and without incorporating systematic uncertainties). The implementation and capabilities of STC are described, and we validate its performance against the widely-used CMS Combine tool. We find excellent agreement in both the expected discovery significances and upper limit calculations. STC is a flexible framework that can accommodate systematic uncertainties and user-defined statistical models, making it suitable for a broad range of analyses.
academic

StatTestCalculator: उच्च ऊर्जा भौतिकी में सांख्यिकीय विश्लेषण के लिए एक नया सामान्य उपकरण

बुनियादी जानकारी

  • पेपर ID: 2510.11637
  • शीर्षक: StatTestCalculator: उच्च ऊर्जा भौतिकी में सांख्यिकीय विश्लेषण के लिए एक नया सामान्य उपकरण
  • लेखक: E. Abasov, L.V. Dudko, D.E. Gorin, O.S. Vasilevskii (मॉस्को स्टेट यूनिवर्सिटी के भौतिकी संकाय, स्कोबेलिट्सिन परमाणु भौतिकी संस्थान)
  • वर्गीकरण: hep-ph (उच्च ऊर्जा भौतिकी-घटना विज्ञान), stat.CO (सांख्यिकी-संगणना)
  • प्रकाशन समय/सम्मेलन: Moscow University Physics Bulletin 80(8), 2025; The XXV International Workshop-School High Energy Physics and Quantum Field Theory
  • पेपर लिंक: https://arxiv.org/abs/2510.11637v1

सारांश

यह पेपर StatTestCalculator (STC) का परिचय देता है, जो उच्च ऊर्जा भौतिकी प्रयोगों के विश्लेषण के लिए विशेष रूप से डिज़ाइन किया गया एक नया ओपन-सोर्स सांख्यिकीय विश्लेषण उपकरण है। STC खोज की सटीक सांख्यिकीय महत्ता की गणना या संकेत मॉडल मापदंडों पर ऊपरी सीमा निर्धारित करने के लिए स्पर्शोन्मुख गणना और मोंटे कार्लो सिमुलेशन दोनों विधियां प्रदान करता है। पेपर अंतर्निहित सांख्यिकीय औपचारिकता की समीक्षा करता है, जिसमें खोज और बहिष्कार परिकल्पना के लिए प्रोफाइल संभावना अनुपात परीक्षण आंकड़े शामिल हैं, साथ ही तेजी से महत्ता अनुमान की अनुमति देने वाले स्पर्शोन्मुख वितरण भी शामिल हैं। लेखकों ने संभावना फलन, परीक्षण आंकड़े वितरण और महत्ता उपायों से संबंधित सूत्रों (व्यवस्थित अनिश्चितता के साथ और बिना) की विस्तार से व्याख्या की है। पेपर STC के कार्यान्वयन और कार्यक्षमता का वर्णन करता है, और व्यापक रूप से उपयोग किए जाने वाले CMS Combine उपकरण के साथ तुलना के माध्यम से इसके प्रदर्शन को सत्यापित करता है, जो अपेक्षित खोज महत्ता और ऊपरी सीमा गणना दोनों में उत्कृष्ट सामंजस्य दिखाता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

उच्च ऊर्जा भौतिकी (HEP) प्रयोग नई घटनाओं के बारे में निष्कर्ष निकालने के लिए अवलोकित डेटा के सांख्यिकीय विश्लेषण पर निर्भर करते हैं। चूंकि कोलाइडर प्रयोगों के परिणाम प्रकृति में संभाव्य हैं, मापदंडों का अनुमान लगाने और संभावित खोजों की महत्ता का मूल्यांकन करने के लिए कठोर सांख्यिकीय विधियों की आवश्यकता होती है।

मौजूदा उपकरणों की सीमाएं

हालांकि HEP विश्लेषण के लिए कई जटिल सांख्यिकीय उपकरण पहले से मौजूद हैं, जैसे:

  • RooFit और RooStats फ्रेमवर्क
  • CMS Combine उपकरण
  • Theta
  • HistFactory

लेकिन ये उपकरण आमतौर पर जटिल बड़े पैमाने के विश्लेषण के लिए डिज़ाइन किए गए हैं, और विभिन्न सामान्य परिदृश्यों के लिए तेजी से और सटीक सामान्य सांख्यिकीय गणना प्रदान करने वाले एक हल्के उपकरण की कमी है।

अनुसंधान प्रेरणा

  1. उपयोग में आसानी की आवश्यकता: एक आसान और बहुकार्यात्मक Python उपकरण की आवश्यकता
  2. एकीकरण सुविधा: तंत्रिका नेटवर्क पाइपलाइनों में आसानी से एकीकृत करने की क्षमता
  3. तीव्र सत्यापन: प्रारंभिक संवेदनशीलता अध्ययन, आधिकारिक परिणामों के क्रॉस-चेक या शैक्षणिक उद्देश्यों के लिए सुविधा
  4. स्केलेबिलिटी: उपयोगकर्ता-परिभाषित सांख्यिकीय मॉडल और परीक्षण आंकड़ों का समर्थन

मुख्य योगदान

  1. नया सांख्यिकीय विश्लेषण उपकरण STC विकसित किया: हल्का, Python-आधारित ओपन-सोर्स उपकरण, विशेष रूप से HEP सांख्यिकीय विश्लेषण के लिए
  2. दोहरी गणना विधि प्रदान की: स्पर्शोन्मुख सूत्र (बंद-रूप सन्निकटन) और मोंटे कार्लो सिमुलेशन की सटीक गणना का समर्थन
  3. व्यवस्थित अनिश्चितता का पूर्ण प्रबंधन: सामान्य, लॉग-सामान्य या उपयोगकर्ता-परिभाषित व्यवस्थित प्रभाव वितरण का समर्थन
  4. उपकरण की सटीकता सत्यापित की: CMS Combine उपकरण के साथ व्यापक तुलना, उत्कृष्ट सामंजस्य प्रदर्शित करता है
  5. विस्तारित गणितीय ढांचा प्रदान किया: एकल-बिन विश्लेषण को बहु-बिन आकार विश्लेषण के सामान्य सूत्रों तक विस्तारित किया

विधि विवरण

सांख्यिकीय धारणा और संभावना औपचारिकता

कार्य परिभाषा

कोलाइडर प्रयोगों में, दो परिकल्पनाओं पर विचार करें:

  • शून्य परिकल्पना H₀ (केवल पृष्ठभूमि): डेटा में नई संकेत का कोई योगदान नहीं है
  • वैकल्पिक परिकल्पना H₁ (संकेत + पृष्ठभूमि): पृष्ठभूमि के अलावा संकेत घटनाएं मौजूद हैं

संकेत तीव्रता पैरामीटर μ परिभाषित करें, जहां μ=0 H₀ से मेल खाता है, μ=1 H₁ के तहत नाममात्र संकेत भविष्यवाणी से मेल खाता है।

संभावना फलन निर्माण

N संकेत क्षेत्रों की गणना प्रयोग के लिए, अवलोकित गणना nᵢ को पॉइसन वितरण मान लिया जाता है: nᵢ ~ Poisson(μsᵢ + κᵢbᵢ)

पूर्ण संभावना फलन है:

L(μ,θ) = ∏ᵢ₌₁ᴺ [(μsᵢ + κᵢbᵢ)^nᵢ e^-(μsᵢ+bᵢ)]/nᵢ! × ∏ⱼ₌₁ᴹ Systematic(θ)

जहां:

  • sᵢ: अपेक्षित संकेत घटनाओं की संख्या
  • bᵢ: अपेक्षित पृष्ठभूमि उपज
  • κ: व्यवस्थित अनिश्चितता पैरामीटर
  • θ: उपद्रव पैरामीटर वेक्टर

प्रोफाइल संभावना अनुपात और परीक्षण आंकड़े

प्रोफाइल संभावना अनुपात परिभाषा

λ(μ) = L(μ, θ̂(μ)) / L(μ̂, θ̂)

परीक्षण आंकड़े

परीक्षण आंकड़े परिभाषित करें:

qμ = -2 ln λ(μ) = -2 ln [L(μ, θ̂(μ)) / L(μ̂, θ̂)]

खोज परीक्षण आंकड़े q₀:

q₀ = {
  -2 ln λ(0),  यदि μ̂ ≥ 0
  0,           यदि μ̂ < 0
}

बहिष्कार परीक्षण आंकड़े qμ:

qμ = {
  -2 ln λ(μ),  यदि μ̂ ≤ μ
  0,           यदि μ̂ > μ
}

खोज महत्ता के विश्लेषणात्मक सूत्र

व्यवस्थित अनिश्चितता वाले मामले के लिए, खोज महत्ता सूत्र है:

Zdisc = √{2[(s+b)ln((s+b)(1+δ²b))/(b+δ²b(s+b)) - (1/δ²)ln(1+δ²s/(1+δ²b))]}

जहां δ = σb/b सापेक्ष पृष्ठभूमि अनिश्चितता है।

व्यवस्थित अनिश्चितता की अनुपस्थिति की सीमा में (δ→0):

Zdisc = √{2[(s+b)ln(1+s/b) - s]}

बहिष्कार महत्ता (ऊपरी सीमा) के विश्लेषणात्मक सूत्र

पृष्ठभूमि अनिश्चितता वाली बहिष्कार महत्ता सूत्र:

Zexcl = √{2[s - b ln((b+s+x)/(2b)) - (1/δ²)ln((b-s+x)/(2b))] - (b+s-x)(1+1/(δ²b))}

जहां:

x = √[(b+s)² - 4δ²b²s/(1+δ²b)]

प्रायोगिक सेटअप

मोंटे कार्लो सिमुलेशन फ्रेमवर्क

खिलौना प्रयोग पीढ़ी

  1. संकेत घटनाएं: पॉइसन वितरण Poisson(μs) से निकाली गई
  2. पृष्ठभूमि घटनाएं: पॉइसन वितरण Poisson(b) से निकाली गई
  3. व्यवस्थित अनिश्चितता: संकेत और पृष्ठभूमि वितरण पर लागू

व्यवस्थित अनिश्चितता प्रबंधन

  • सामान्य वितरण: κ ~ N(1, δ²)
  • लॉग-सामान्य वितरण: κ ~ LogNormal(1, δ²)
  • आकार अनिश्चितता: प्रत्येक बिन को स्केलर κ मान से गुणा किया जाता है
  • एकल-बिन अनिश्चितता: प्रत्येक बिन के पास स्वतंत्र κ कारक है

सत्यापन प्रायोगिक सेटअप

तुलना उपकरण

मुख्य रूप से CMS Combine उपकरण के साथ तुलना सत्यापन

परीक्षण परिदृश्य

  1. खोज महत्ता गणना:
    • पृष्ठभूमि b = 100 घटनाएं
    • संकेत s = 10, 20, 30, ..., 50 घटनाएं
    • व्यवस्थित अनिश्चितता: 0% और 20%
  2. ऊपरी सीमा गणना:
    • 95% आत्मविश्वास स्तर पर ऊपरी सीमा
    • समान संकेत और पृष्ठभूमि कॉन्फ़िगरेशन
    • मोंटे कार्लो सिमुलेशन 10⁵ खिलौना प्रयोगों का उपयोग करता है

प्रायोगिक परिणाम

मुख्य परिणाम

खोज महत्ता तुलना

प्रायोगिक परिणाम निम्नलिखित पहलुओं में STC और Combine उपकरण के बीच उत्कृष्ट सामंजस्य दिखाते हैं:

  1. स्पर्शोन्मुख गणना:
    • व्यवस्थित अनिश्चितता के बिना: पूर्ण मिलान
    • 20% व्यवस्थित अनिश्चितता: उच्च सामंजस्य
  2. मोंटे कार्लो गणना:
    • दोनों उपकरणों के MC परिणाम स्पर्शोन्मुख सूत्रों के साथ अच्छी सामंजस्य दिखाते हैं
    • सांख्यिकीय अनिश्चितता अपेक्षित सीमा में है

ऊपरी सीमा गणना तुलना

95% आत्मविश्वास स्तर पर ऊपरी सीमा गणना दिखाती है:

  1. स्पर्शोन्मुख सूत्र सत्यापन: STC का स्पर्शोन्मुख सूत्र Combine के साथ पूरी तरह से सामंजस्यपूर्ण है
  2. मोंटे कार्लो सत्यापन: खिलौना प्रयोग परिणाम स्पर्शोन्मुख सन्निकटन की सटीकता की पुष्टि करते हैं
  3. व्यवस्थित अनिश्चितता प्रभाव: बहिष्कार क्षमता पर व्यवस्थित अनिश्चितता के कमजोर प्रभाव को सही ढंग से प्रतिबिंबित करता है

प्रदर्शन मूल्यांकन

गणना दक्षता

  • स्पर्शोन्मुख गणना: लगभग तुरंत पूरी होती है (सेकंड का अंश)
  • मोंटे कार्लो सिमुलेशन: 10⁵ खिलौना प्रयोग कुछ सेकंड से कुछ मिनट में पूरे होते हैं

सटीकता सत्यापन

सभी परीक्षण परिदृश्य दिखाते हैं कि STC मानक गणना को सटीक रूप से पुनः प्रस्तुत कर सकता है, जो निम्नलिखित की पुष्टि करता है:

  1. गणितीय सूत्रों का सही कार्यान्वयन
  2. मोंटे कार्लो एल्गोरिथ्म की विश्वसनीयता
  3. व्यवस्थित अनिश्चितता प्रबंधन की सटीकता

विस्तारित कार्यक्षमता सत्यापन

बहु-बिन आकार विश्लेषण

STC सफलतापूर्वक अधिक जटिल बहु-बिन आकार विश्लेषण परिदृश्यों में लागू होता है, साहित्य 7 में सूत्रों का उपयोग करके विस्तारित किया गया।

उपयोगकर्ता-परिभाषित कार्यक्षमता

निम्नलिखित विस्तार क्षमताओं को सत्यापित किया:

  1. कस्टम परीक्षण आंकड़े परिभाषा
  2. वैकल्पिक संभावना फलन रूप
  3. उपयोगकर्ता-परिभाषित व्यवस्थित अनिश्चितता वितरण

संबंधित कार्य

मौजूदा सांख्यिकीय उपकरणों की तुलना

उपकरणविशेषताएंसीमाएं
RooFit/RooStatsशक्तिशाली कार्यक्षमता, व्यापक उपयोगजटिल, तीव्र सीखने की अवस्था
CMS Combineमानक उपकरण, पूर्ण कार्यक्षमतामुख्य रूप से बड़े विश्लेषण के लिए
Thetaबेयेसियन विधिविशिष्ट उद्देश्य
HistFactoryमॉडल निर्माणअन्य उपकरणों के साथ सहयोग की आवश्यकता

STC की स्थिति

STC हल्के, उपयोग में आसान, तेजी से सांख्यिकीय विश्लेषण उपकरण के अंतराल को भरता है, विशेष रूप से उपयुक्त:

  • प्रारंभिक संवेदनशीलता अध्ययन
  • परिणामों का क्रॉस-सत्यापन
  • शैक्षणिक और सीखने के उद्देश्य
  • तंत्रिका नेटवर्क पाइपलाइन एकीकरण

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. उपकरण प्रभावशीलता: STC ने सांख्यिकीय विश्लेषण कार्यक्षमता को सफलतापूर्वक लागू किया है, मानक उपकरण Combine के साथ उत्कृष्ट सामंजस्य दिखाता है
  2. विधि पूर्णता: सरल गणना प्रयोगों से जटिल आकार विश्लेषण तक पूर्ण सांख्यिकीय ढांचा प्रदान करता है
  3. व्यावहारिक मूल्य: हल्का डिजाइन इसे तेजी से विश्लेषण और शैक्षणिक उद्देश्यों के लिए उपयुक्त बनाता है
  4. विस्तारशीलता: मॉड्यूलर डिजाइन उपयोगकर्ता-परिभाषित और विधि विस्तार का समर्थन करता है

सीमाएं

  1. जटिलता सीमा: हालांकि बहु-बिन विश्लेषण का समर्थन करता है, अत्यंत जटिल सांख्यिकीय मॉडलों के लिए विशेष उपकरणों जितना अच्छा नहीं हो सकता है
  2. अनुकूलन स्थान: बड़े पैमाने के डेटा को संभालते समय प्रदर्शन अनुकूलन में सुधार की गुंजाइश है
  3. दस्तावेज पूर्णता: एक नए उपकरण के रूप में, अधिक उपयोग के मामले और दस्तावेज की आवश्यकता है

भविष्य की दिशाएं

  1. कार्यक्षमता विस्तार:
    • अधिक सांख्यिकीय वितरण का समर्थन
    • बेयेसियन विधियां जोड़ें
    • अधिक जटिल प्रायोगिक डिजाइन तक विस्तार
  2. प्रदर्शन अनुकूलन:
    • मोंटे कार्लो गणना का समानांतरकरण
    • मेमोरी उपयोग अनुकूलन
    • बड़े डेटा प्रसंस्करण क्षमता
  3. समुदाय निर्माण:
    • अधिक उपयोग के उदाहरण जोड़ें
    • दस्तावेज में सुधार करें
    • समुदाय योगदान को प्रोत्साहित करें

गहन मूल्यांकन

शक्तियां

  1. तकनीकी नवाचार:
    • जटिल सांख्यिकीय सिद्धांत को उपयोग में आसान उपकरण में सफलतापूर्वक परिवर्तित किया
    • पूर्ण गणितीय व्युत्पत्ति और कार्यान्वयन प्रदान किया
    • दोहरी सत्यापन विधि (स्पर्शोन्मुख + MC) परिणाम विश्वसनीयता बढ़ाता है
  2. प्रायोगिक पर्याप्तता:
    • मानक उपकरण के साथ व्यापक तुलना
    • कई परिदृश्यों का परीक्षण कवरेज
    • व्यवस्थित अनिश्चितता का सही प्रबंधन
  3. व्यावहारिक मूल्य:
    • हल्के सांख्यिकीय उपकरण के अंतराल को भरता है
    • Python कार्यान्वयन एकीकरण और संशोधन को सुविधाजनक बनाता है
    • ओपन-सोर्स विशेषता समुदाय विकास को बढ़ावा देती है
  4. लेखन स्पष्टता:
    • विस्तृत और सही गणितीय व्युत्पत्ति
    • कार्यान्वयन विवरण स्पष्ट रूप से वर्णित
    • सत्यापन प्रक्रिया पारदर्शी

कमियां

  1. विधि सीमाएं:
    • मुख्य रूप से आवृत्तिवादी विधि पर आधारित
    • कुछ विशेष सांख्यिकीय मॉडलों के लिए सीमित समर्थन
    • बड़े पैमाने पर समानांतर गणना क्षमता में सुधार की आवश्यकता है
  2. प्रायोगिक सेटअप:
    • सत्यापन मुख्य रूप से सरल मॉडलों पर आधारित है
    • वास्तविक जटिल प्रयोगों के परीक्षण के मामले की कमी है
    • प्रदर्शन बेंचमार्क परीक्षण अपेक्षाकृत सरल है
  3. तुलनात्मक विश्लेषण:
    • मुख्य रूप से Combine के साथ तुलना, अन्य उपकरणों के साथ तुलना की कमी है
    • गणना दक्षता के मात्रात्मक विश्लेषण पर्याप्त नहीं है

प्रभाव मूल्यांकन

  1. शैक्षणिक योगदान:
    • HEP सांख्यिकीय विश्लेषण के लिए नए उपकरण विकल्प प्रदान करता है
    • पूर्ण गणितीय ढांचा शैक्षणिक मूल्य रखता है
    • ओपन-सोर्स कार्यान्वयन विधि पारदर्शिता को बढ़ावा देता है
  2. व्यावहारिक प्रभाव:
    • सांख्यिकीय विश्लेषण की तकनीकी बाधा को कम करता है
    • तेजी से प्रोटोटाइप विकास और सत्यापन को सुविधाजनक बनाता है
    • शिक्षण और सीखने की गतिविधियों का समर्थन करता है
  3. पुनरुत्पादनीयता:
    • ओपन-सोर्स कोड पूर्ण पुनरुत्पादनीयता सुनिश्चित करता है
    • विस्तृत गणितीय व्युत्पत्ति स्वतंत्र सत्यापन का समर्थन करता है
    • मानक उपकरण के साथ तुलना विश्वसनीयता बढ़ाता है

लागू परिदृश्य

  1. आदर्श अनुप्रयोग:
    • प्रारंभिक संवेदनशीलता अध्ययन
    • सांख्यिकीय विधि सीखना और शिक्षण
    • तेजी से प्रोटोटाइप विकास
    • परिणामों का क्रॉस-सत्यापन
  2. प्रतिबंधित परिदृश्य:
    • अत्यंत बड़े पैमाने पर जटिल विश्लेषण
    • विशेष सांख्यिकीय विधियों की आवश्यकता वाले अवसर
    • उत्पादन वातावरण में अत्यधिक प्रदर्शन आवश्यकताएं

संदर्भ

1 W. Verkerke and D. Kirkby, The RooFit toolkit for data modeling, Statistical Problems in Particle Physics, Astrophysics and Cosmology (2006)

2 L. Moneta et al., The RooStats Project, arXiv:1009.1003 (2010)

3 CMS Collaboration, The CMS Statistical Analysis and Combination Tool: Combine, arXiv:2404.06614 (2024)

6 G. Cowan, K. Cranmer, E. Gross, and O. Vitells, Asymptotic formulae for likelihood-based tests of new physics, Eur. Phys. J. C 71, 1554 (2011)

7 D. E. Gorin et al., Asymptotic formulas for estimating statistical significance in collider experiments, Uchenye Zapiski Fiz. Fak. MGU No. 1 (2024)


उपकरण प्राप्ति: StatTestCalculator सॉफ्टवेयर और दस्तावेज GitHub पर उपलब्ध हैं: https://github.com/skottver/stattestcalculator