2025-11-24T11:16:24.556584

StatTestCalculator: A New General Tool for Statistical Analysis in High Energy Physics

Abasov, Dudko, Gorin et al.
We present StatTestCalculator (STC), a new open-source statistical analysis tool designed for analysis high energy physics experiments. STC provides both asymptotic calculations and Monte Carlo simulations for computing the exact statistical significance of a discovery or for setting upper limits on signal model parameters. We review the underlying statistical formalism, including profile likelihood ratio test statistics for discovery and exclusion hypotheses, and the asymptotic distributions that allow quick significance estimates. We explain the relevant formulas for the likelihood functions, test statistic distributions, and significance metrics (both with and without incorporating systematic uncertainties). The implementation and capabilities of STC are described, and we validate its performance against the widely-used CMS Combine tool. We find excellent agreement in both the expected discovery significances and upper limit calculations. STC is a flexible framework that can accommodate systematic uncertainties and user-defined statistical models, making it suitable for a broad range of analyses.
academic

StatTestCalculator: 高エネルギー物理における統計分析の新しい汎用ツール

基本情報

  • 論文ID: 2510.11637
  • タイトル: StatTestCalculator: A New General Tool for Statistical Analysis in High Energy Physics
  • 著者: E. Abasov, L.V. Dudko, D.E. Gorin, O.S. Vasilevskii(モスクワ国立大学物理学部、スコベリツィン核物理研究所)
  • 分類: hep-ph(高エネルギー物理-現象論)、stat.CO(統計-計算)
  • 発表時期/会議: Moscow University Physics Bulletin 80(8), 2025; 第XXV回国際高エネルギー物理・量子場論ワークショップ・スクール
  • 論文リンク: https://arxiv.org/abs/2510.11637v1

要旨

本論文は、高エネルギー物理実験分析のために設計された新しいオープンソース統計分析ツールであるStatTestCalculator(STC)を紹介する。STCは、発見の正確な統計有意性を計算するか、信号モデルパラメータの上限を設定するために、漸近計算とモンテカルロシミュレーションの両方の方法を提供する。論文は、発見と除外仮説のためのプロファイル尤度比検定統計量、および迅速な有意性推定を可能にする漸近分布を含む、基礎となる統計形式化を検討する。著者は、尤度関数、検定統計量分布、および有意性測度に関連する公式(系統的不確実性を含む場合と含まない場合)について詳しく説明する。論文はSTCの実装と機能を説明し、広く使用されているCMS Combineツールとの比較を通じてその性能を検証し、予想発見有意性と上限計算の両方において優れた一貫性を示す。

研究背景と動機

問題の定義

高エネルギー物理(HEP)実験は、観測データの統計分析に依存して、新現象に関する結論を導き出す。対撃機実験の結果は本質的に確率的であるため、パラメータを推定し、潜在的な発見の有意性を評価するための厳密な統計方法が必要である。

既存ツールの制限

多くの複雑な統計ツールがHEP分析に使用されているが、以下のものが含まれる:

  • RooFitおよびRooStatsフレームワーク
  • CMS Combineツール
  • Theta
  • HistFactory

しかし、これらのツールは通常、複雑な大規模分析用に設計されており、様々な一般的なシナリオに対して迅速で正確な汎用統計計算を提供できる軽量ツールが不足している。

研究の動機

  1. 使いやすさの必要性:使いやすく多機能なPythonツールが必要
  2. 統合の利便性:ニューラルネットワークパイプラインへの容易な統合
  3. 迅速な検証:初期感度研究、公式結果の相互検証、または教育目的の便宜
  4. 拡張性:ユーザー定義統計モデルと検定統計量をサポート

主要な貢献

  1. 新しい統計分析ツールSTCの開発:HEP統計分析専用の軽量なPythonベースのオープンソースツール
  2. 二重計算方法の提供:漸近公式(閉形式近似)とモンテカルロシミュレーションの正確な計算をサポート
  3. 完全な系統不確実性処理:正規分布、対数正規分布、またはユーザー定義の系統効果分布をサポート
  4. ツールの精度検証:CMS Combineツールとの広範な比較を実施し、優れた一貫性を示す
  5. 拡張数学フレームワークの提供:単一ビン分析から多ビン形状分析への汎用公式の拡張

方法の詳細

統計的仮定と尤度の形式化

タスク定義

対撃機実験では、2つの仮説を考慮する:

  • 帰無仮説H₀(背景のみ):データに新しい信号の寄与が含まれていないと仮定
  • 対立仮説H₁(信号+背景):背景に加えて信号イベントが存在すると仮定

信号強度パラメータμを定義する。ここでμ=0はH₀に対応し、μ=1はH₁下の標準的な信号予測に対応する。

尤度関数の構築

N個の信号領域のカウント実験では、観測カウントnᵢはポアソン分布に従うと仮定される:nᵢ ~ Poisson(μsᵢ + κᵢbᵢ)

完全な尤度関数は以下の通りである:

L(μ,θ) = ∏ᵢ₌₁ᴺ [(μsᵢ + κᵢbᵢ)^nᵢ e^-(μsᵢ+bᵢ)]/nᵢ! × ∏ⱼ₌₁ᴹ Systematic(θ)

ここで:

  • sᵢ:予想信号イベント数
  • bᵢ:予想背景収率
  • κ:系統不確実性パラメータ
  • θ:厄介なパラメータベクトル

プロファイル尤度比と検定統計量

プロファイル尤度比の定義

λ(μ) = L(μ, θ̂(μ)) / L(μ̂, θ̂)

検定統計量

検定統計量を定義する:

qμ = -2 ln λ(μ) = -2 ln [L(μ, θ̂(μ)) / L(μ̂, θ̂)]

発見検定統計量q₀

q₀ = {
  -2 ln λ(0),  if μ̂ ≥ 0
  0,           if μ̂ < 0
}

除外検定統計量qμ

qμ = {
  -2 ln λ(μ),  if μ̂ ≤ μ
  0,           if μ̂ > μ
}

発見有意性の解析公式

系統不確実性を含む場合の発見有意性公式は以下の通りである:

Zdisc = √{2[(s+b)ln((s+b)(1+δ²b))/(b+δ²b(s+b)) - (1/δ²)ln(1+δ²s/(1+δ²b))]}

ここでδ = σb/bは相対背景不確実性である。

系統不確実性がない極限の場合(δ→0):

Zdisc = √{2[(s+b)ln(1+s/b) - s]}

除外有意性(上限)の解析公式

背景不確実性を含む除外有意性公式:

Zexcl = √{2[s - b ln((b+s+x)/(2b)) - (1/δ²)ln((b-s+x)/(2b))] - (b+s-x)(1+1/(δ²b))}

ここで:

x = √[(b+s)² - 4δ²b²s/(1+δ²b)]

実験設定

モンテカルロシミュレーションフレームワーク

おもちゃの実験生成

  1. 信号イベント:ポアソン分布Poisson(μs)から抽出
  2. 背景イベント:ポアソン分布Poisson(b)から抽出
  3. 系統不確実性:信号および背景分布に適用

系統不確実性の処理

  • 正規分布:κ ~ N(1, δ²)
  • 対数正規分布:κ ~ LogNormal(1, δ²)
  • 形状不確実性:各ビンにスカラー値κを乗算
  • 単一ビン不確実性:各ビンは独立したκ因子を持つ

検証実験設定

比較ツール

主にCMS Combineツールとの比較検証を実施

テストシナリオ

  1. 発見有意性計算
    • 背景b = 100イベント
    • 信号s = 10, 20, 30, ..., 50イベント
    • 系統不確実性:0%および20%
  2. 上限計算
    • 95%信頼水準上限
    • 同じ信号および背景構成
    • モンテカルロシミュレーションは10⁵個のおもちゃ実験を使用

実験結果

主要な結果

発見有意性の比較

実験結果は、STCとCombineツール間の以下の側面における優れた一貫性を示す:

  1. 漸近計算
    • 系統不確実性なし:完全に一致
    • 20%系統不確実性:高度に一致
  2. モンテカルロ計算
    • 両ツールのMC結果は漸近公式と良好な一貫性を示す
    • 統計不確実性は予想範囲内

上限計算の比較

95%信頼水準上限計算は以下を示す:

  1. 漸近公式の検証:STCの漸近公式はCombineと完全に一致
  2. モンテカルロ検証:おもちゃ実験結果は漸近近似の精度を確認
  3. 系統不確実性の影響:除外能力に対する系統不確実性の影響を正しく反映

性能評価

計算効率

  • 漸近計算:ほぼ瞬時に完了(秒の小数部)
  • モンテカルロシミュレーション:10⁵個のおもちゃ実験は数秒から数分で完了

精度検証

すべてのテストシナリオはSTCが標準計算を正確に再現できることを示し、以下を確認する:

  1. 数学公式の正しい実装
  2. モンテカルロアルゴリズムの信頼性
  3. 系統不確実性処理の精度

拡張機能の検証

多ビン形状分析

STCは文献7の公式を使用して、より複雑な多ビン形状分析シナリオに正常に適用された。

ユーザー定義機能

以下の拡張能力が検証された:

  1. カスタム検定統計量定義
  2. 代替尤度関数形式
  3. ユーザー定義の系統不確実性分布

関連研究

既存統計ツールの比較

ツール特徴制限事項
RooFit/RooStats強力な機能、広く使用複雑、学習曲線が急
CMS Combine標準ツール、完全な機能主に大規模分析向け
Thetaベイズ方法特定の目的
HistFactoryモデル構築他のツールとの連携が必要

STCの位置付け

STCは軽量で使いやすく、迅速な統計分析ツールの空白を埋め、特に以下に適している:

  • 初期感度研究
  • 結果の相互検証
  • 教育および学習目的
  • ニューラルネットワークパイプラインへの統合

結論と考察

主要な結論

  1. ツールの有効性:STCは正確な統計分析機能を正常に実装し、標準ツールCombineとの優れた一貫性を示す
  2. 方法の完全性:単純なカウント実験から複雑な形状分析までの完全な統計フレームワークを提供
  3. 実用的価値:軽量設計により、迅速な分析と教育用途に適している
  4. 拡張性:モジュール設計はユーザー定義と方法の拡張をサポート

制限事項

  1. 複雑性の制限:多ビン分析をサポートしているが、極めて複雑な統計モデルに対しては専門ツールほど適さない可能性がある
  2. 最適化の余地:大規模データ処理時のパフォーマンス最適化にはさらなる改善の余地がある
  3. ドキュメンテーションの完成度:新しいツールとして、より多くの使用例とドキュメントが必要

今後の方向性

  1. 機能拡張
    • より多くの統計分布のサポート
    • ベイズ方法の追加
    • より複雑な実験設計への拡張
  2. 性能最適化
    • モンテカルロ計算の並列化
    • メモリ使用量の最適化
    • 大規模データ処理能力
  3. コミュニティ構築
    • 使用例の増加
    • ドキュメンテーションの改善
    • コミュニティ貢献の奨励

深い評価

利点

  1. 技術的革新性
    • 複雑な統計理論を使いやすいツールに正常に変換
    • 完全な数学的導出と実装を提供
    • 二重検証方法(漸近+MC)により結果の信頼性を強化
  2. 実験の十分性
    • 標準ツールとの包括的な比較
    • 複数のシナリオのテストカバレッジ
    • 系統不確実性の正しい処理
  3. 実用的価値
    • 軽量統計ツールの空白を埋める
    • Python実装により統合と修正が容易
    • オープンソース特性がコミュニティ開発を促進
  4. 文章の明確性
    • 数学的導出が詳細かつ正確
    • 実装の詳細が明確に説明されている
    • 検証プロセスが透明

不足点

  1. 方法の制限
    • 主に頻度主義的方法に基づく
    • 特定の統計モデルへのサポートが限定的
    • 大規模並列計算能力が必要
  2. 実験設定
    • 検証は主に単純なモデルに基づく
    • 実際の複雑な実験のテストケースが不足
    • パフォーマンスベンチマークテストが比較的単純
  3. 比較分析
    • 主にCombineとの比較であり、他のツールとの比較が不足
    • 計算効率の定量分析が不十分

影響力評価

  1. 学術的貢献
    • HEP統計分析に新しいツール選択肢を提供
    • 完全な数学フレームワークは教育的価値がある
    • オープンソース実装により方法の透明性を促進
  2. 実用的影響
    • 統計分析の技術的障壁を低下
    • 迅速なプロトタイプ開発と検証を容易にする
    • 教育と学習活動をサポート
  3. 再現性
    • オープンソースコードにより完全な再現性を確保
    • 詳細な数学的導出が独立検証をサポート
    • 標準ツールとの比較により信頼性を強化

適用シナリオ

  1. 理想的な応用
    • 初期感度研究
    • 統計方法の学習と教育
    • 迅速なプロトタイプ開発
    • 結果の相互検証
  2. 制限シナリオ
    • 極めて大規模で複雑な分析
    • 特殊な統計方法が必要な場合
    • パフォーマンス要件が極めて高い本番環境

参考文献

1 W. Verkerke and D. Kirkby, The RooFit toolkit for data modeling, Statistical Problems in Particle Physics, Astrophysics and Cosmology (2006)

2 L. Moneta et al., The RooStats Project, arXiv:1009.1003 (2010)

3 CMS Collaboration, The CMS Statistical Analysis and Combination Tool: Combine, arXiv:2404.06614 (2024)

6 G. Cowan, K. Cranmer, E. Gross, and O. Vitells, Asymptotic formulae for likelihood-based tests of new physics, Eur. Phys. J. C 71, 1554 (2011)

7 D. E. Gorin et al., Asymptotic formulas for estimating statistical significance in collider experiments, Uchenye Zapiski Fiz. Fak. MGU No. 1 (2024)


ツール取得:StatTestCalculatorソフトウェアおよびドキュメントはGitHubで入手可能:https://github.com/skottver/stattestcalculator