We present StatTestCalculator (STC), a new open-source statistical analysis tool designed for analysis high energy physics experiments. STC provides both asymptotic calculations and Monte Carlo simulations for computing the exact statistical significance of a discovery or for setting upper limits on signal model parameters. We review the underlying statistical formalism, including profile likelihood ratio test statistics for discovery and exclusion hypotheses, and the asymptotic distributions that allow quick significance estimates. We explain the relevant formulas for the likelihood functions, test statistic distributions, and significance metrics (both with and without incorporating systematic uncertainties). The implementation and capabilities of STC are described, and we validate its performance against the widely-used CMS Combine tool. We find excellent agreement in both the expected discovery significances and upper limit calculations. STC is a flexible framework that can accommodate systematic uncertainties and user-defined statistical models, making it suitable for a broad range of analyses.
論文ID : 2510.11637タイトル : StatTestCalculator: A New General Tool for Statistical Analysis in High Energy Physics著者 : E. Abasov, L.V. Dudko, D.E. Gorin, O.S. Vasilevskii(モスクワ国立大学物理学部、スコベリツィン核物理研究所)分類 : hep-ph(高エネルギー物理-現象論)、stat.CO(統計-計算)発表時期/会議 : Moscow University Physics Bulletin 80(8), 2025; 第XXV回国際高エネルギー物理・量子場論ワークショップ・スクール論文リンク : https://arxiv.org/abs/2510.11637v1 本論文は、高エネルギー物理実験分析のために設計された新しいオープンソース統計分析ツールであるStatTestCalculator(STC)を紹介する。STCは、発見の正確な統計有意性を計算するか、信号モデルパラメータの上限を設定するために、漸近計算とモンテカルロシミュレーションの両方の方法を提供する。論文は、発見と除外仮説のためのプロファイル尤度比検定統計量、および迅速な有意性推定を可能にする漸近分布を含む、基礎となる統計形式化を検討する。著者は、尤度関数、検定統計量分布、および有意性測度に関連する公式(系統的不確実性を含む場合と含まない場合)について詳しく説明する。論文はSTCの実装と機能を説明し、広く使用されているCMS Combineツールとの比較を通じてその性能を検証し、予想発見有意性と上限計算の両方において優れた一貫性を示す。
高エネルギー物理(HEP)実験は、観測データの統計分析に依存して、新現象に関する結論を導き出す。対撃機実験の結果は本質的に確率的であるため、パラメータを推定し、潜在的な発見の有意性を評価するための厳密な統計方法が必要である。
多くの複雑な統計ツールがHEP分析に使用されているが、以下のものが含まれる:
RooFitおよびRooStatsフレームワーク CMS Combineツール Theta HistFactory しかし、これらのツールは通常、複雑な大規模分析用に設計されており、様々な一般的なシナリオに対して迅速で正確な汎用統計計算を提供できる軽量ツールが不足している。
使いやすさの必要性 :使いやすく多機能なPythonツールが必要統合の利便性 :ニューラルネットワークパイプラインへの容易な統合迅速な検証 :初期感度研究、公式結果の相互検証、または教育目的の便宜拡張性 :ユーザー定義統計モデルと検定統計量をサポート新しい統計分析ツールSTCの開発 :HEP統計分析専用の軽量なPythonベースのオープンソースツール二重計算方法の提供 :漸近公式(閉形式近似)とモンテカルロシミュレーションの正確な計算をサポート完全な系統不確実性処理 :正規分布、対数正規分布、またはユーザー定義の系統効果分布をサポートツールの精度検証 :CMS Combineツールとの広範な比較を実施し、優れた一貫性を示す拡張数学フレームワークの提供 :単一ビン分析から多ビン形状分析への汎用公式の拡張対撃機実験では、2つの仮説を考慮する:
帰無仮説H₀ (背景のみ):データに新しい信号の寄与が含まれていないと仮定対立仮説H₁ (信号+背景):背景に加えて信号イベントが存在すると仮定信号強度パラメータμを定義する。ここでμ=0はH₀に対応し、μ=1はH₁下の標準的な信号予測に対応する。
N個の信号領域のカウント実験では、観測カウントnᵢはポアソン分布に従うと仮定される:nᵢ ~ Poisson(μsᵢ + κᵢbᵢ)
完全な尤度関数は以下の通りである:
L(μ,θ) = ∏ᵢ₌₁ᴺ [(μsᵢ + κᵢbᵢ)^nᵢ e^-(μsᵢ+bᵢ)]/nᵢ! × ∏ⱼ₌₁ᴹ Systematic(θ)
ここで:
sᵢ:予想信号イベント数 bᵢ:予想背景収率 κ:系統不確実性パラメータ θ:厄介なパラメータベクトル λ(μ) = L(μ, θ̂(μ)) / L(μ̂, θ̂)
検定統計量を定義する:
qμ = -2 ln λ(μ) = -2 ln [L(μ, θ̂(μ)) / L(μ̂, θ̂)]
発見検定統計量q₀ :
q₀ = {
-2 ln λ(0), if μ̂ ≥ 0
0, if μ̂ < 0
}
除外検定統計量qμ :
qμ = {
-2 ln λ(μ), if μ̂ ≤ μ
0, if μ̂ > μ
}
系統不確実性を含む場合の発見有意性公式は以下の通りである:
Zdisc = √{2[(s+b)ln((s+b)(1+δ²b))/(b+δ²b(s+b)) - (1/δ²)ln(1+δ²s/(1+δ²b))]}
ここでδ = σb/bは相対背景不確実性である。
系統不確実性がない極限の場合(δ→0):
Zdisc = √{2[(s+b)ln(1+s/b) - s]}
背景不確実性を含む除外有意性公式:
Zexcl = √{2[s - b ln((b+s+x)/(2b)) - (1/δ²)ln((b-s+x)/(2b))] - (b+s-x)(1+1/(δ²b))}
ここで:
x = √[(b+s)² - 4δ²b²s/(1+δ²b)]
信号イベント :ポアソン分布Poisson(μs)から抽出背景イベント :ポアソン分布Poisson(b)から抽出系統不確実性 :信号および背景分布に適用正規分布 :κ ~ N(1, δ²)対数正規分布 :κ ~ LogNormal(1, δ²)形状不確実性 :各ビンにスカラー値κを乗算単一ビン不確実性 :各ビンは独立したκ因子を持つ主にCMS Combineツールとの比較検証を実施
発見有意性計算 :背景b = 100イベント 信号s = 10, 20, 30, ..., 50イベント 系統不確実性:0%および20% 上限計算 :95%信頼水準上限 同じ信号および背景構成 モンテカルロシミュレーションは10⁵個のおもちゃ実験を使用 実験結果は、STCとCombineツール間の以下の側面における優れた一貫性を示す:
漸近計算 :系統不確実性なし:完全に一致 20%系統不確実性:高度に一致 モンテカルロ計算 :両ツールのMC結果は漸近公式と良好な一貫性を示す 統計不確実性は予想範囲内 95%信頼水準上限計算は以下を示す:
漸近公式の検証 :STCの漸近公式はCombineと完全に一致モンテカルロ検証 :おもちゃ実験結果は漸近近似の精度を確認系統不確実性の影響 :除外能力に対する系統不確実性の影響を正しく反映漸近計算 :ほぼ瞬時に完了(秒の小数部)モンテカルロシミュレーション :10⁵個のおもちゃ実験は数秒から数分で完了すべてのテストシナリオはSTCが標準計算を正確に再現できることを示し、以下を確認する:
数学公式の正しい実装 モンテカルロアルゴリズムの信頼性 系統不確実性処理の精度 STCは文献7 の公式を使用して、より複雑な多ビン形状分析シナリオに正常に適用された。
以下の拡張能力が検証された:
カスタム検定統計量定義 代替尤度関数形式 ユーザー定義の系統不確実性分布 ツール 特徴 制限事項 RooFit/RooStats 強力な機能、広く使用 複雑、学習曲線が急 CMS Combine 標準ツール、完全な機能 主に大規模分析向け Theta ベイズ方法 特定の目的 HistFactory モデル構築 他のツールとの連携が必要
STCは軽量で使いやすく、迅速な統計分析ツールの空白を埋め、特に以下に適している:
初期感度研究 結果の相互検証 教育および学習目的 ニューラルネットワークパイプラインへの統合 ツールの有効性 :STCは正確な統計分析機能を正常に実装し、標準ツールCombineとの優れた一貫性を示す方法の完全性 :単純なカウント実験から複雑な形状分析までの完全な統計フレームワークを提供実用的価値 :軽量設計により、迅速な分析と教育用途に適している拡張性 :モジュール設計はユーザー定義と方法の拡張をサポート複雑性の制限 :多ビン分析をサポートしているが、極めて複雑な統計モデルに対しては専門ツールほど適さない可能性がある最適化の余地 :大規模データ処理時のパフォーマンス最適化にはさらなる改善の余地があるドキュメンテーションの完成度 :新しいツールとして、より多くの使用例とドキュメントが必要機能拡張 :より多くの統計分布のサポート ベイズ方法の追加 より複雑な実験設計への拡張 性能最適化 :モンテカルロ計算の並列化 メモリ使用量の最適化 大規模データ処理能力 コミュニティ構築 :使用例の増加 ドキュメンテーションの改善 コミュニティ貢献の奨励 技術的革新性 :複雑な統計理論を使いやすいツールに正常に変換 完全な数学的導出と実装を提供 二重検証方法(漸近+MC)により結果の信頼性を強化 実験の十分性 :標準ツールとの包括的な比較 複数のシナリオのテストカバレッジ 系統不確実性の正しい処理 実用的価値 :軽量統計ツールの空白を埋める Python実装により統合と修正が容易 オープンソース特性がコミュニティ開発を促進 文章の明確性 :数学的導出が詳細かつ正確 実装の詳細が明確に説明されている 検証プロセスが透明 方法の制限 :主に頻度主義的方法に基づく 特定の統計モデルへのサポートが限定的 大規模並列計算能力が必要 実験設定 :検証は主に単純なモデルに基づく 実際の複雑な実験のテストケースが不足 パフォーマンスベンチマークテストが比較的単純 比較分析 :主にCombineとの比較であり、他のツールとの比較が不足 計算効率の定量分析が不十分 学術的貢献 :HEP統計分析に新しいツール選択肢を提供 完全な数学フレームワークは教育的価値がある オープンソース実装により方法の透明性を促進 実用的影響 :統計分析の技術的障壁を低下 迅速なプロトタイプ開発と検証を容易にする 教育と学習活動をサポート 再現性 :オープンソースコードにより完全な再現性を確保 詳細な数学的導出が独立検証をサポート 標準ツールとの比較により信頼性を強化 理想的な応用 :初期感度研究 統計方法の学習と教育 迅速なプロトタイプ開発 結果の相互検証 制限シナリオ :極めて大規模で複雑な分析 特殊な統計方法が必要な場合 パフォーマンス要件が極めて高い本番環境 1 W. Verkerke and D. Kirkby, The RooFit toolkit for data modeling, Statistical Problems in Particle Physics, Astrophysics and Cosmology (2006)
2 L. Moneta et al., The RooStats Project, arXiv:1009.1003 (2010)
3 CMS Collaboration, The CMS Statistical Analysis and Combination Tool: Combine, arXiv:2404.06614 (2024)
6 G. Cowan, K. Cranmer, E. Gross, and O. Vitells, Asymptotic formulae for likelihood-based tests of new physics, Eur. Phys. J. C 71, 1554 (2011)
7 D. E. Gorin et al., Asymptotic formulas for estimating statistical significance in collider experiments, Uchenye Zapiski Fiz. Fak. MGU No. 1 (2024)
ツール取得 :StatTestCalculatorソフトウェアおよびドキュメントはGitHubで入手可能:https://github.com/skottver/stattestcalculator