2025-11-24T11:16:24.556584

StatTestCalculator: A New General Tool for Statistical Analysis in High Energy Physics

Abasov, Dudko, Gorin et al.

We present StatTestCalculator (STC), a new open-source statistical analysis tool designed for analysis high energy physics experiments. STC provides both asymptotic calculations and Monte Carlo simulations for computing the exact statistical significance of a discovery or for setting upper limits on signal model parameters. We review the underlying statistical formalism, including profile likelihood ratio test statistics for discovery and exclusion hypotheses, and the asymptotic distributions that allow quick significance estimates. We explain the relevant formulas for the likelihood functions, test statistic distributions, and significance metrics (both with and without incorporating systematic uncertainties). The implementation and capabilities of STC are described, and we validate its performance against the widely-used CMS Combine tool. We find excellent agreement in both the expected discovery significances and upper limit calculations. STC is a flexible framework that can accommodate systematic uncertainties and user-defined statistical models, making it suitable for a broad range of analyses.

academic

StatTestCalculator: 고에너지 물리학의 새로운 통계 분석 도구

기본 정보

논문 ID: 2510.11637
제목: StatTestCalculator: A New General Tool for Statistical Analysis in High Energy Physics
저자: E. Abasov, L.V. Dudko, D.E. Gorin, O.S. Vasilevskii (모스크바 국립대학교 물리학부, 스콜벨리친 핵물리 연구소)
분류: hep-ph (고에너지 물리학-현상론), stat.CO (통계-계산)
발표 시간/학회: Moscow University Physics Bulletin 80(8), 2025; 제25회 국제 고에너지 물리학 및 양자장론 워크숍-학교
논문 링크: https://arxiv.org/abs/2510.11637v1

초록

본 논문은 고에너지 물리학 실험 분석을 위해 설계된 새로운 오픈소스 통계 분석 도구인 StatTestCalculator (STC)를 소개한다. STC는 발견의 정확한 통계적 유의성을 계산하거나 신호 모델 매개변수에 대한 상한을 설정하기 위해 점근 계산과 몬테카를로 시뮬레이션 두 가지 방법을 제공한다. 논문은 발견 및 배제 가설에 사용되는 프로파일 우도비 검정 통계량과 빠른 유의성 추정을 가능하게 하는 점근 분포를 포함한 기저 통계 형식화 방법을 검토한다. 저자들은 우도 함수, 검정 통계량 분포 및 유의성 측도와 관련된 공식(체계적 불확실성 포함 및 미포함)을 자세히 설명한다. 논문은 STC의 구현과 기능을 설명하고, 광범위하게 사용되는 CMS Combine 도구와의 비교를 통해 성능을 검증하며, 예상 발견 유의성 및 상한 계산 모두에서 우수한 일치성을 보여준다.

연구 배경 및 동기

문제 정의

고에너지 물리학(HEP) 실험은 새로운 현상에 대한 결론을 도출하기 위해 관측 데이터의 통계 분석에 의존한다. 충돌기 실험의 결과는 본질적으로 확률적이므로, 매개변수를 추정하고 잠재적 발견의 유의성을 평가하기 위해 엄격한 통계 방법이 필요하다.

기존 도구의 한계

다음과 같은 많은 복잡한 통계 도구가 HEP 분석에 사용되고 있지만:

RooFit 및 RooStats 프레임워크
CMS Combine 도구
Theta
HistFactory

이러한 도구들은 일반적으로 복잡한 대규모 분석을 위해 설계되었으며, 다양한 일반적인 시나리오에 대해 빠르고 정확한 통계 계산을 제공할 수 있는 경량 도구가 부족하다.

연구 동기

사용 편의성 필요: 사용하기 쉽고 다기능인 Python 도구 필요
통합 편의성: 신경망 파이프라인에 쉽게 통합 가능
빠른 검증: 초기 민감도 연구, 공식 결과 교차 검증 또는 교육 목적에 편의성 제공
확장성: 사용자 정의 통계 모델 및 검정 통계량 지원

핵심 기여

새로운 통계 분석 도구 STC 개발: HEP 통계 분석을 위해 특별히 설계된 경량의 Python 기반 오픈소스 도구
이중 계산 방법 제공: 점근 공식(폐쇄형 근사)과 몬테카를로 시뮬레이션의 정확한 계산 지원
완전한 체계적 불확실성 처리: 정규, 로그정규 또는 사용자 정의 체계적 효과 분포 지원
도구 정확성 검증: CMS Combine 도구와의 광범위한 비교를 통해 우수한 일치성 입증
확장된 수학 프레임워크 제공: 단일 빈 분석에서 다중 빈 형태 분석으로의 일반 공식 확장

방법론 상세 설명

통계적 가정 및 우도 형식화

작업 정의

충돌기 실험에서 두 가지 가설을 고려한다:

귀무가설 H₀ (배경만): 데이터가 새로운 신호의 기여를 포함하지 않는다고 가정
대립가설 H₁ (신호+배경): 배경 외에 신호 사건이 존재한다고 가정

신호 강도 매개변수 μ를 정의하며, μ=0은 H₀에 해당하고 μ=1은 H₁ 하의 표준 신호 예측에 해당한다.

우도 함수 구성

N개의 신호 영역에 대한 계수 실험의 경우, 관측 계수 nᵢ는 포아송 분포를 따른다고 가정한다: nᵢ ~ Poisson(μsᵢ + κᵢbᵢ)

완전한 우도 함수는:

L(μ,θ) = ∏ᵢ₌₁ᴺ [(μsᵢ + κᵢbᵢ)^nᵢ e^-(μsᵢ+bᵢ)]/nᵢ! × ∏ⱼ₌₁ᴹ Systematic(θ)

여기서:

sᵢ: 예상 신호 사건 수
bᵢ: 예상 배경 산출량
κ: 체계적 불확실성 매개변수
θ: 성가신 매개변수 벡터

프로파일 우도비 및 검정 통계량

프로파일 우도비 정의

λ(μ) = L(μ, θ̂(μ)) / L(μ̂, θ̂)

검정 통계량

검정 통계량을 다음과 같이 정의한다:

qμ = -2 ln λ(μ) = -2 ln [L(μ, θ̂(μ)) / L(μ̂, θ̂)]

발견 검정 통계량 q₀:

q₀ = {
  -2 ln λ(0),  if μ̂ ≥ 0
  0,           if μ̂ < 0
}

배제 검정 통계량 qμ:

qμ = {
  -2 ln λ(μ),  if μ̂ ≤ μ
  0,           if μ̂ > μ
}

발견 유의성의 해석 공식

체계적 불확실성을 포함하는 경우, 발견 유의성 공식은:

Zdisc = √{2[(s+b)ln((s+b)(1+δ²b))/(b+δ²b(s+b)) - (1/δ²)ln(1+δ²s/(1+δ²b))]}

여기서 δ = σb/b는 상대 배경 불확실성이다.

체계적 불확실성이 없는 극한 경우(δ→0):

Zdisc = √{2[(s+b)ln(1+s/b) - s]}

배제 유의성(상한)의 해석 공식

배경 불확실성을 포함하는 배제 유의성 공식:

Zexcl = √{2[s - b ln((b+s+x)/(2b)) - (1/δ²)ln((b-s+x)/(2b))] - (b+s-x)(1+1/(δ²b))}

여기서:

x = √[(b+s)² - 4δ²b²s/(1+δ²b)]

실험 설정

몬테카를로 시뮬레이션 프레임워크

장난감 실험 생성

신호 사건: 포아송 분포 Poisson(μs)에서 추출
배경 사건: 포아송 분포 Poisson(b)에서 추출
체계적 불확실성: 신호 및 배경 분포에 적용

체계적 불확실성 처리

정규 분포: κ ~ N(1, δ²)
로그정규 분포: κ ~ LogNormal(1, δ²)
형태 불확실성: 각 빈에 스칼라 κ 값 곱하기
단일 빈 불확실성: 각 빈에 독립적인 κ 인수

검증 실험 설정

비교 도구

주로 CMS Combine 도구와의 비교 검증

테스트 시나리오

발견 유의성 계산:
- 배경 b = 100 사건
- 신호 s = 10, 20, 30, ..., 50 사건
- 체계적 불확실성: 0% 및 20%
상한 계산:
- 95% 신뢰 수준 상한
- 동일한 신호 및 배경 구성
- 몬테카를로 시뮬레이션은 10⁵개의 장난감 실험 사용

실험 결과

주요 결과

발견 유의성 비교

실험 결과는 STC와 Combine 도구가 다음 측면에서 우수한 일치성을 보여준다:

점근 계산:
- 체계적 불확실성 없음: 완벽한 일치
- 20% 체계적 불확실성: 높은 일치도
몬테카를로 계산:
- 두 도구의 MC 결과는 점근 공식과 양호한 일치성 표시
- 통계적 불확실성은 예상 범위 내

상한 계산 비교

95% 신뢰 수준 상한 계산은 다음을 보여준다:

점근 공식 검증: STC의 점근 공식은 Combine과 완전히 일치
몬테카를로 검증: 장난감 실험 결과는 점근 근사의 정확성 확인
체계적 불확실성 영향: 배제 능력에 대한 체계적 불확실성의 약화 효과를 올바르게 반영

성능 평가

계산 효율성

점근 계산: 거의 즉시 완료(초의 분수)
몬테카를로 시뮬레이션: 10⁵개의 장난감 실험을 몇 초에서 몇 분 내에 완료

정확성 검증

모든 테스트 시나리오는 STC가 표준 계산을 정확하게 재현할 수 있음을 보여주며, 다음을 확인한다:

수학 공식의 올바른 구현
몬테카를로 알고리즘의 신뢰성
체계적 불확실성 처리의 정확성

확장 기능 검증

다중 빈 형태 분석

STC는 문헌7의 공식을 사용하여 더 복잡한 다중 빈 형태 분석 시나리오에 성공적으로 적용되었다.

사용자 정의 기능

다음 확장 능력이 검증되었다:

사용자 정의 검정 통계량 정의
대체 우도 함수 형식
사용자 정의 체계적 불확실성 분포

도구	특징	한계
RooFit/RooStats	강력한 기능, 광범위한 사용	복잡함, 가파른 학습 곡선
CMS Combine	표준 도구, 완전한 기능	주로 대규모 분석 대상
Theta	베이지안 방법	특정 용도
HistFactory	모델 구축	다른 도구와의 조합 필요

결론 및 토론

주요 결론

도구 유효성: STC는 정확한 통계 분석 기능을 성공적으로 구현했으며, 표준 도구 Combine과 우수한 일치성을 보여준다
방법 완전성: 단순 계수 실험에서 복잡한 형태 분석까지의 완전한 통계 프레임워크 제공
실용적 가치: 경량 설계로 빠른 분석 및 교육 목적에 적합
확장성: 모듈식 설계는 사용자 정의 및 방법 확장을 지원

한계

복잡성 제한: 다중 빈 분석을 지원하지만, 매우 복잡한 통계 모델의 경우 전문 도구만큼 효과적이지 않을 수 있음
최적화 공간: 대규모 데이터 처리 시 성능 최적화 개선 여지 있음
문서 완성도: 새로운 도구로서 더 많은 사용 사례 및 문서 필요

향후 방향

기능 확장:
- 더 많은 통계 분포 지원
- 베이지안 방법 추가
- 더 복잡한 실험 설계로 확장
성능 최적화:
- 몬테카를로 계산 병렬화
- 메모리 사용 최적화
- 대용량 데이터 처리 능력
커뮤니티 구축:
- 사용 예제 추가
- 문서 개선
- 커뮤니티 기여 장려

심층 평가

장점

기술적 혁신성:
- 복잡한 통계 이론을 사용하기 쉬운 도구로 성공적으로 변환
- 완전한 수학적 유도 및 구현 제공
- 이중 검증 방법(점근+MC)으로 결과 신뢰성 강화
실험 충분성:
- 표준 도구와의 포괄적 비교
- 다양한 시나리오의 테스트 커버리지
- 체계적 불확실성의 올바른 처리
실용적 가치:
- 경량 통계 도구의 공백 채움
- Python 구현으로 통합 및 수정 용이
- 오픈소스 특성으로 커뮤니티 발전 촉진
작성 명확성:
- 상세하고 정확한 수학적 유도
- 명확한 구현 세부 사항 설명
- 투명한 검증 과정

부족한 점

방법론적 한계:
- 주로 빈도주의 방법 기반
- 특정 통계 모델에 대한 지원 제한
- 대규모 병렬 계산 능력 미흡
실험 설정:
- 검증이 주로 단순 모델 기반
- 실제 복잡한 실험의 테스트 사례 부족
- 성능 벤치마크 테스트 상대적으로 단순
비교 분석:
- 주로 Combine과의 비교, 다른 도구와의 비교 부족
- 계산 효율성에 대한 정량적 분석 부족

영향력 평가

학술적 기여:
- HEP 통계 분석을 위한 새로운 도구 선택지 제공
- 완전한 수학 프레임워크의 교육적 가치
- 오픈소스 구현으로 방법 투명성 촉진
실용적 영향:
- 통계 분석의 기술적 진입 장벽 낮춤
- 빠른 프로토타입 개발 및 검증 용이
- 교수 및 학습 활동 지원
재현성:
- 오픈소스 코드로 완전한 재현성 보장
- 상세한 수학적 유도로 독립적 검증 지원
- 표준 도구와의 비교로 신뢰성 강화

적용 시나리오

이상적 응용:
- 초기 민감도 연구
- 통계 방법론 학습 및 교수
- 빠른 프로토타입 개발
- 결과 교차 검증
제한 시나리오:
- 매우 대규모 복잡 분석
- 특수 통계 방법이 필요한 경우
- 성능 요구가 매우 높은 프로덕션 환경

참고문헌

1 W. Verkerke and D. Kirkby, The RooFit toolkit for data modeling, Statistical Problems in Particle Physics, Astrophysics and Cosmology (2006)

2 L. Moneta et al., The RooStats Project, arXiv:1009.1003 (2010)

3 CMS Collaboration, The CMS Statistical Analysis and Combination Tool: Combine, arXiv:2404.06614 (2024)

6 G. Cowan, K. Cranmer, E. Gross, and O. Vitells, Asymptotic formulae for likelihood-based tests of new physics, Eur. Phys. J. C 71, 1554 (2011)

7 D. E. Gorin et al., Asymptotic formulas for estimating statistical significance in collider experiments, Uchenye Zapiski Fiz. Fak. MGU No. 1 (2024)

도구 획득: StatTestCalculator 소프트웨어 및 문서는 GitHub에서 획득 가능하다: https://github.com/skottver/stattestcalculator