2025-11-24T11:16:24.556584

StatTestCalculator: A New General Tool for Statistical Analysis in High Energy Physics

Abasov, Dudko, Gorin et al.

We present StatTestCalculator (STC), a new open-source statistical analysis tool designed for analysis high energy physics experiments. STC provides both asymptotic calculations and Monte Carlo simulations for computing the exact statistical significance of a discovery or for setting upper limits on signal model parameters. We review the underlying statistical formalism, including profile likelihood ratio test statistics for discovery and exclusion hypotheses, and the asymptotic distributions that allow quick significance estimates. We explain the relevant formulas for the likelihood functions, test statistic distributions, and significance metrics (both with and without incorporating systematic uncertainties). The implementation and capabilities of STC are described, and we validate its performance against the widely-used CMS Combine tool. We find excellent agreement in both the expected discovery significances and upper limit calculations. STC is a flexible framework that can accommodate systematic uncertainties and user-defined statistical models, making it suitable for a broad range of analyses.

academic

StatTestCalculator: A New General Tool for Statistical Analysis in High Energy Physics

基本信息

论文ID: 2510.11637
标题: StatTestCalculator: A New General Tool for Statistical Analysis in High Energy Physics
作者: E. Abasov, L.V. Dudko, D.E. Gorin, O.S. Vasilevskii (莫斯科国立大学物理学院、斯科别利琴核物理研究所)
分类: hep-ph (高能物理-唯象学), stat.CO (统计-计算)
发表时间/会议: Moscow University Physics Bulletin 80(8), 2025; The XXV International Workshop-School High Energy Physics and Quantum Field Theory
论文链接: https://arxiv.org/abs/2510.11637v1

摘要

本文介绍了StatTestCalculator (STC)，一个专为高能物理实验分析设计的新型开源统计分析工具。STC提供渐近计算和蒙特卡洛模拟两种方法，用于计算发现的精确统计显著性或设置信号模型参数的上限。论文回顾了底层统计形式化方法，包括用于发现和排除假设的轮廓似然比检验统计量，以及允许快速显著性估计的渐近分布。作者详细解释了似然函数、检验统计量分布和显著性度量的相关公式（包含和不包含系统不确定性）。论文描述了STC的实现和功能，并通过与广泛使用的CMS Combine工具的对比验证了其性能，在预期发现显著性和上限计算方面都显示出优秀的一致性。

研究背景与动机

问题定义

高能物理(HEP)实验依赖于对观测数据的统计分析来得出关于新现象的结论。由于对撞机实验的结果本质上是概率性的，需要严格的统计方法来估计参数和评估潜在发现的显著性。

现有工具的局限性

虽然已有许多复杂的统计工具用于HEP分析，如：

RooFit和RooStats框架
CMS Combine工具
Theta
HistFactory

但这些工具通常设计用于复杂的大规模分析，缺乏一个能够为各种常见场景提供快速而准确的通用统计计算的轻量级工具。

研究动机

易用性需求：需要一个易于使用且多功能的Python工具
集成便利性：能够轻松集成到神经网络流水线中
快速验证：为初步敏感性研究、官方结果交叉检查或教育目的提供便利
可扩展性：支持用户自定义统计模型和检验统计量

核心贡献

开发了新的统计分析工具STC：轻量级、基于Python的开源工具，专门用于HEP统计分析
提供双重计算方法：支持渐近公式（闭式近似）和蒙特卡洛模拟的精确计算
完整的系统不确定性处理：支持正态、对数正态或用户自定义的系统效应分布
验证了工具的准确性：与CMS Combine工具进行了广泛对比，显示出优秀的一致性
提供了扩展的数学框架：将单bin分析扩展到多bin形状分析的通用公式

方法详解

统计假设和似然形式化

任务定义

在对撞机实验中，考虑两个假设：

零假设H₀（仅背景）：假设数据不包含新信号的贡献
备择假设H₁（信号+背景）：假设除背景外还存在信号事件

定义信号强度参数μ，其中μ=0对应H₀，μ=1对应H₁下的标称信号预测。

似然函数构建

对于N个信号区域的计数实验，观测计数nᵢ假设服从泊松分布：nᵢ ~ Poisson(μsᵢ + κᵢbᵢ)

完整的似然函数为：

L(μ,θ) = ∏ᵢ₌₁ᴺ [(μsᵢ + κᵢbᵢ)^nᵢ e^-(μsᵢ+bᵢ)]/nᵢ! × ∏ⱼ₌₁ᴹ Systematic(θ)

其中：

sᵢ：预期信号事件数
bᵢ：预期背景产额
κ：系统不确定性参数
θ：讨厌参数向量

轮廓似然比和检验统计量

轮廓似然比定义

λ(μ) = L(μ, θ̂(μ)) / L(μ̂, θ̂)

检验统计量

定义检验统计量：

qμ = -2 ln λ(μ) = -2 ln [L(μ, θ̂(μ)) / L(μ̂, θ̂)]

发现检验统计量q₀：

q₀ = {
  -2 ln λ(0),  if μ̂ ≥ 0
  0,           if μ̂ < 0
}

排除检验统计量qμ：

qμ = {
  -2 ln λ(μ),  if μ̂ ≤ μ
  0,           if μ̂ > μ
}

发现显著性的解析公式

对于包含系统不确定性的情况，发现显著性公式为：

Zdisc = √{2[(s+b)ln((s+b)(1+δ²b))/(b+δ²b(s+b)) - (1/δ²)ln(1+δ²s/(1+δ²b))]}

其中δ = σb/b是相对背景不确定性。

在无系统不确定性的极限情况下（δ→0）：

Zdisc = √{2[(s+b)ln(1+s/b) - s]}

排除显著性（上限）的解析公式

包含背景不确定性的排除显著性公式：

Zexcl = √{2[s - b ln((b+s+x)/(2b)) - (1/δ²)ln((b-s+x)/(2b))] - (b+s-x)(1+1/(δ²b))}

其中：

x = √[(b+s)² - 4δ²b²s/(1+δ²b)]

实验设置

蒙特卡洛模拟框架

玩具实验生成

信号事件：从泊松分布Poisson(μs)中抽取
背景事件：从泊松分布Poisson(b)中抽取
系统不确定性：应用于信号和背景分布

系统不确定性处理

正态分布：κ ~ N(1, δ²)
对数正态分布：κ ~ LogNormal(1, δ²)
形状不确定性：每个bin乘以标量κ值
单bin不确定性：每个bin有独立的κ因子

验证实验设置

对比工具

主要与CMS Combine工具进行对比验证

测试场景

发现显著性计算：
- 背景b = 100事件
- 信号s = 10, 20, 30, ..., 50事件
- 系统不确定性：0%和20%
上限计算：
- 95%置信水平上限
- 相同的信号和背景配置
- 蒙特卡洛模拟使用10⁵个玩具实验

实验结果

主要结果

发现显著性对比

实验结果显示STC与Combine工具在以下方面表现出优秀的一致性：

渐近计算：
- 无系统不确定性：完美匹配
- 20%系统不确定性：高度一致
蒙特卡洛计算：
- 两种工具的MC结果与渐近公式都显示良好一致性
- 统计不确定性在预期范围内

上限计算对比

95%置信水平上限计算显示：

渐近公式验证：STC的渐近公式与Combine完全一致
蒙特卡洛验证：玩具实验结果确认了渐近近似的准确性
系统不确定性影响：正确反映了系统不确定性对排除能力的削弱

性能评估

计算效率

渐近计算：几乎瞬时完成（秒的分数）
蒙特卡洛模拟：10⁵个玩具实验在几秒到几分钟内完成

准确性验证

所有测试场景都显示STC能够准确重现标准计算，证实了：

数学公式的正确实现
蒙特卡洛算法的可靠性
系统不确定性处理的准确性

扩展功能验证

多bin形状分析

STC成功应用于更复杂的多bin形状分析场景，使用文献7中的公式扩展。

用户自定义功能

验证了以下扩展能力：

自定义检验统计量定义
替代似然函数形式
用户定义的系统不确定性分布

工具	特点	局限性
RooFit/RooStats	功能强大，广泛使用	复杂，学习曲线陡峭
CMS Combine	标准工具，功能完整	主要针对大型分析
Theta	贝叶斯方法	特定用途
HistFactory	模型构建	需要其他工具配合

结论与讨论

主要结论

工具有效性：STC成功实现了准确的统计分析功能，与标准工具Combine显示出优秀的一致性
方法完整性：提供了从简单计数实验到复杂形状分析的完整统计框架
实用价值：轻量级设计使其适合快速分析和教育用途
扩展性：模块化设计支持用户自定义和方法扩展

局限性

复杂性限制：虽然支持多bin分析，但对于极其复杂的统计模型可能不如专门工具
优化空间：在处理大规模数据时的性能优化还有提升空间
文档完善性：作为新工具，需要更多使用案例和文档

未来方向

功能扩展：
- 支持更多统计分布
- 增加贝叶斯方法
- 扩展到更复杂的实验设计
性能优化：
- 并行化蒙特卡洛计算
- 内存使用优化
- 大数据处理能力
社区建设：
- 增加使用示例
- 完善文档
- 鼓励社区贡献

深度评价

优点

技术创新性：
- 成功将复杂的统计理论转化为易用的工具
- 提供了完整的数学推导和实现
- 双重验证方法（渐近+MC）增强了结果可靠性
实验充分性：
- 与标准工具的全面对比
- 多种场景的测试覆盖
- 系统不确定性的正确处理
实用价值：
- 填补了轻量级统计工具的空白
- Python实现便于集成和修改
- 开源特性促进社区发展
写作清晰度：
- 数学推导详细且正确
- 实现细节描述清楚
- 验证过程透明

不足

方法局限性：
- 主要基于频率学派方法
- 对某些特殊统计模型支持有限
- 大规模并行计算能力待提升
实验设置：
- 验证主要基于简单模型
- 缺乏真实复杂实验的测试案例
- 性能基准测试相对简单
比较分析：
- 主要与Combine对比，缺乏与其他工具的比较
- 对计算效率的定量分析不够深入

影响力评估

学术贡献：
- 为HEP统计分析提供了新的工具选择
- 完整的数学框架有教育价值
- 开源实现促进方法透明度
实用影响：
- 降低了统计分析的技术门槛
- 便于快速原型开发和验证
- 支持教学和学习活动
可复现性：
- 开源代码确保完全可复现
- 详细的数学推导支持独立验证
- 与标准工具的对比增强可信度

适用场景

理想应用：
- 初步敏感性研究
- 统计方法学习和教学
- 快速原型开发
- 结果交叉验证
限制场景：
- 极大规模复杂分析
- 需要特殊统计方法的场合
- 对性能要求极高的生产环境

参考文献

1 W. Verkerke and D. Kirkby, The RooFit toolkit for data modeling, Statistical Problems in Particle Physics, Astrophysics and Cosmology (2006)

2 L. Moneta et al., The RooStats Project, arXiv:1009.1003 (2010)

3 CMS Collaboration, The CMS Statistical Analysis and Combination Tool: Combine, arXiv:2404.06614 (2024)

6 G. Cowan, K. Cranmer, E. Gross, and O. Vitells, Asymptotic formulae for likelihood-based tests of new physics, Eur. Phys. J. C 71, 1554 (2011)

7 D. E. Gorin et al., Asymptotic formulas for estimating statistical significance in collider experiments, Uchenye Zapiski Fiz. Fak. MGU No. 1 (2024)

工具获取：StatTestCalculator软件及文档可在GitHub获取：https://github.com/skottver/stattestcalculator