2025-11-24T11:16:24.556584

StatTestCalculator: A New General Tool for Statistical Analysis in High Energy Physics

Abasov, Dudko, Gorin et al.

We present StatTestCalculator (STC), a new open-source statistical analysis tool designed for analysis high energy physics experiments. STC provides both asymptotic calculations and Monte Carlo simulations for computing the exact statistical significance of a discovery or for setting upper limits on signal model parameters. We review the underlying statistical formalism, including profile likelihood ratio test statistics for discovery and exclusion hypotheses, and the asymptotic distributions that allow quick significance estimates. We explain the relevant formulas for the likelihood functions, test statistic distributions, and significance metrics (both with and without incorporating systematic uncertainties). The implementation and capabilities of STC are described, and we validate its performance against the widely-used CMS Combine tool. We find excellent agreement in both the expected discovery significances and upper limit calculations. STC is a flexible framework that can accommodate systematic uncertainties and user-defined statistical models, making it suitable for a broad range of analyses.

academic

StatTestCalculator: Новый универсальный инструмент для статистического анализа в физике высоких энергий

Основная информация

ID статьи: 2510.11637
Название: StatTestCalculator: A New General Tool for Statistical Analysis in High Energy Physics
Авторы: Е. Абасов, Л.В. Дудко, Д.Е. Горин, О.С. Василевский (Физический факультет МГУ имени М.В. Ломоносова, Институт ядерной физики им. И.В. Курчатова)
Классификация: hep-ph (физика высоких энергий - феноменология), stat.CO (статистика - вычисления)
Дата публикации/конференция: Moscow University Physics Bulletin 80(8), 2025; XXV Международный семинар-школа по физике высоких энергий и квантовой теории поля
Ссылка на статью: https://arxiv.org/abs/2510.11637v1

Аннотация

В данной работе представлен StatTestCalculator (STC) — новый инструмент с открытым исходным кодом для статистического анализа, разработанный специально для анализа экспериментов на коллайдерах. STC предоставляет два метода расчёта: асимптотические формулы и моделирование методом Монте-Карло для вычисления точной статистической значимости открытия или установления верхних пределов на параметры модели сигнала. В статье рассмотрены лежащие в основе статистические формализмы, включая тест отношения профильного правдоподобия для гипотез открытия и исключения, а также асимптотические распределения, позволяющие быстро оценивать значимость. Авторы подробно объясняют соответствующие формулы для функции правдоподобия, распределений тестовой статистики и мер значимости (с учётом и без учёта систематических неопределённостей). В работе описаны реализация и функциональность STC, а также проведена верификация производительности путём сравнения с широко используемым инструментом CMS Combine, демонстрирующая отличное согласие как при расчёте ожидаемой значимости открытия, так и при вычислении верхних пределов.

Научный контекст и мотивация

Определение проблемы

Эксперименты в физике высоких энергий (ФВЭ) полагаются на статистический анализ наблюдаемых данных для получения выводов о новых явлениях. Поскольку результаты экспериментов на коллайдерах по своей природе являются вероятностными, необходимы строгие статистические методы для оценки параметров и оценки значимости потенциальных открытий.

Ограничения существующих инструментов

Хотя существует множество сложных статистических инструментов для анализа в ФВЭ, таких как:

Фреймворки RooFit и RooStats
Инструмент CMS Combine
Theta
HistFactory

эти инструменты обычно разработаны для сложного анализа в больших масштабах и не предоставляют лёгкий в использовании универсальный инструмент для быстрых и точных статистических расчётов в различных типичных сценариях.

Научная мотивация

Потребность в удобстве использования: требуется простой в использовании многофункциональный инструмент на Python
Удобство интеграции: возможность легко встраивать в конвейеры нейронных сетей
Быстрая верификация: облегчение предварительных исследований чувствительности, перекрёстной проверки официальных результатов или образовательных целей
Масштабируемость: поддержка пользовательских статистических моделей и тестовых статистик

Основные вклады

Разработка нового инструмента статистического анализа STC: лёгкий, основанный на Python инструмент с открытым исходным кодом, специально предназначенный для статистического анализа в ФВЭ
Предоставление двойного метода расчёта: поддержка как асимптотических формул (замкнутые приближения), так и точных расчётов методом Монте-Карло
Полная обработка систематических неопределённостей: поддержка нормального, логнормального или определяемых пользователем распределений систематических эффектов
Верификация точности инструмента: обширное сравнение с инструментом CMS Combine, демонстрирующее отличное согласие
Предоставление расширенной математической базы: обобщённые формулы, расширяющие анализ одного бина на анализ формы с несколькими бинами

Методология

Статистические предположения и формализм правдоподобия

Определение задачи

На экспериментах на коллайдерах рассматриваются две гипотезы:

Нулевая гипотеза H₀ (только фон): предположение, что данные не содержат вклада нового сигнала
Альтернативная гипотеза H₁ (сигнал + фон): предположение о наличии событий сигнала в дополнение к фону

Определяется параметр интенсивности сигнала μ, где μ=0 соответствует H₀, а μ=1 соответствует номинальному предсказанию сигнала при H₁.

Построение функции правдоподобия

Для эксперимента подсчёта в N сигнальных областях наблюдаемые подсчёты nᵢ предполагаются распределёнными по Пуассону: nᵢ ~ Poisson(μsᵢ + κᵢbᵢ)

Полная функция правдоподобия:

L(μ,θ) = ∏ᵢ₌₁ᴺ [(μsᵢ + κᵢbᵢ)^nᵢ e^-(μsᵢ+bᵢ)]/nᵢ! × ∏ⱼ₌₁ᴹ Systematic(θ)

где:

sᵢ: ожидаемое число событий сигнала
bᵢ: ожидаемый выход фона
κ: параметр систематической неопределённости
θ: вектор мешающих параметров

Профильное отношение правдоподобия и тестовая статистика

Определение профильного отношения правдоподобия

λ(μ) = L(μ, θ̂(μ)) / L(μ̂, θ̂)

Тестовая статистика

Определяется тестовая статистика:

qμ = -2 ln λ(μ) = -2 ln [L(μ, θ̂(μ)) / L(μ̂, θ̂)]

Тестовая статистика открытия q₀:

q₀ = {
  -2 ln λ(0),  если μ̂ ≥ 0
  0,           если μ̂ < 0
}

Тестовая статистика исключения qμ:

qμ = {
  -2 ln λ(μ),  если μ̂ ≤ μ
  0,           если μ̂ > μ
}

Аналитические формулы для значимости открытия

Для случая с систематическими неопределённостями формула значимости открытия имеет вид:

Zdisc = √{2[(s+b)ln((s+b)(1+δ²b))/(b+δ²b(s+b)) - (1/δ²)ln(1+δ²s/(1+δ²b))]}

где δ = σb/b — относительная неопределённость фона.

В пределе отсутствия систематических неопределённостей (δ→0):

Zdisc = √{2[(s+b)ln(1+s/b) - s]}

Аналитические формулы для значимости исключения (верхние пределы)

Формула значимости исключения с учётом неопределённости фона:

Zexcl = √{2[s - b ln((b+s+x)/(2b)) - (1/δ²)ln((b-s+x)/(2b))] - (b+s-x)(1+1/(δ²b))}

где:

x = √[(b+s)² - 4δ²b²s/(1+δ²b)]

Экспериментальная установка

Фреймворк моделирования Монте-Карло

Генерация игрушечных экспериментов

События сигнала: выборка из распределения Пуассона Poisson(μs)
События фона: выборка из распределения Пуассона Poisson(b)
Систематические неопределённости: применение к распределениям сигнала и фона

Обработка систематических неопределённостей

Нормальное распределение: κ ~ N(1, δ²)
Логнормальное распределение: κ ~ LogNormal(1, δ²)
Неопределённость формы: каждый бин умножается на скалярное значение κ
Неопределённость одного бина: каждый бин имеет независимый коэффициент κ

Параметры верификационных экспериментов

Сравниваемые инструменты

Основное сравнение проводится с инструментом CMS Combine

Тестовые сценарии

Расчёт значимости открытия:
- Фон b = 100 событий
- Сигнал s = 10, 20, 30, ..., 50 событий
- Систематические неопределённости: 0% и 20%
Расчёт верхних пределов:
- Верхний предел на уровне доверия 95%
- Аналогичные конфигурации сигнала и фона
- Моделирование Монте-Карло с использованием 10⁵ игрушечных экспериментов

Результаты экспериментов

Основные результаты

Сравнение значимости открытия

Результаты экспериментов демонстрируют отличное согласие STC с инструментом Combine в следующих аспектах:

Асимптотические расчёты:
- Без систематических неопределённостей: идеальное совпадение
- С 20% систематической неопределённостью: высокое согласие
Расчёты методом Монте-Карло:
- Результаты МК обоих инструментов показывают хорошее согласие с асимптотическими формулами
- Статистические неопределённости находятся в ожидаемом диапазоне

Сравнение расчётов верхних пределов

Расчёты верхних пределов на уровне доверия 95% показывают:

Верификация асимптотических формул: асимптотические формулы STC полностью совпадают с Combine
Верификация методом Монте-Карло: результаты игрушечных экспериментов подтверждают точность асимптотического приближения
Влияние систематических неопределённостей: корректно отражает ослабление способности исключения из-за систематических неопределённостей

Оценка производительности

Вычислительная эффективность

Асимптотические расчёты: практически мгновенно (доли секунды)
Моделирование Монте-Карло: 10⁵ игрушечных экспериментов выполняются за несколько секунд до нескольких минут

Верификация точности

Все тестовые сценарии демонстрируют, что STC точно воспроизводит стандартные расчёты, подтверждая:

Корректность реализации математических формул
Надёжность алгоритма Монте-Карло
Точность обработки систематических неопределённостей

Верификация расширенных функций

Анализ формы с несколькими бинами

STC успешно применяется к более сложным сценариям анализа формы с несколькими бинами, используя расширенные формулы из литературы 7.

Функции, определяемые пользователем

Верифицированы следующие возможности расширения:

Определение пользовательской тестовой статистики
Альтернативные формы функции правдоподобия
Определяемые пользователем распределения систематических неопределённостей

Связанные работы

Сравнение существующих статистических инструментов

Инструмент	Особенности	Ограничения
RooFit/RooStats	Мощный функционал, широко используется	Сложный, крутая кривая обучения
CMS Combine	Стандартный инструмент, полный функционал	Ориентирован на крупномасштабный анализ
Theta	Байесовский подход	Специализированное назначение
HistFactory	Построение моделей	Требует других инструментов

Позиционирование STC

STC заполняет пробел в лёгком, удобном и быстром инструменте статистического анализа, особенно подходящем для:

Предварительных исследований чувствительности
Перекрёстной верификации результатов
Образовательных и учебных целей
Интеграции в конвейеры нейронных сетей

Заключение и обсуждение

Основные выводы

Эффективность инструмента: STC успешно реализует точные функции статистического анализа, демонстрируя отличное согласие со стандартным инструментом Combine
Полнота методологии: предоставляет полный статистический фреймворк от простых экспериментов подсчёта до сложного анализа формы
Практическая ценность: лёгкий дизайн делает его подходящим для быстрого анализа и образовательных целей
Расширяемость: модульный дизайн поддерживает пользовательские расширения и методологические модификации

Ограничения

Ограничения сложности: хотя поддерживается анализ с несколькими бинами, для чрезвычайно сложных статистических моделей может быть менее подходящим, чем специализированные инструменты
Пространство для оптимизации: производительность при обработке крупномасштабных данных может быть улучшена
Полнота документации: как новый инструмент, требует больше примеров использования и документации

Направления будущих исследований

Расширение функциональности:
- Поддержка большего числа статистических распределений
- Добавление байесовских методов
- Расширение на более сложные экспериментальные схемы
Оптимизация производительности:
- Параллелизация расчётов Монте-Карло
- Оптимизация использования памяти
- Повышение возможностей обработки больших данных
Развитие сообщества:
- Увеличение числа примеров использования
- Улучшение документации
- Поощрение вклада сообщества

Глубокая оценка

Преимущества

Техническая инновативность:
- Успешное преобразование сложной статистической теории в удобный инструмент
- Полный математический вывод и реализация
- Двойной метод верификации (асимптотический + МК) повышает надёжность результатов
Достаточность экспериментов:
- Комплексное сравнение со стандартными инструментами
- Широкое покрытие тестовых сценариев
- Корректная обработка систематических неопределённостей
Практическая ценность:
- Заполнение пробела в лёгких статистических инструментах
- Реализация на Python облегчает интеграцию и модификацию
- Открытый исходный код способствует развитию сообщества
Ясность изложения:
- Детальные и корректные математические выводы
- Чёткое описание деталей реализации
- Прозрачный процесс верификации

Недостатки

Методологические ограничения:
- Основан преимущественно на частотистском подходе
- Ограниченная поддержка некоторых специальных статистических моделей
- Возможности параллельных вычислений в крупном масштабе требуют развития
Параметры экспериментов:
- Верификация основана главным образом на простых моделях
- Отсутствуют тестовые случаи на реальных сложных экспериментах
- Тесты производительности относительно просты
Сравнительный анализ:
- Сравнение проводится в основном с Combine, отсутствует сравнение с другими инструментами
- Количественный анализ вычислительной эффективности недостаточно глубок

Оценка влияния

Научный вклад:
- Предоставляет новый выбор инструмента для статистического анализа в ФВЭ
- Полный математический фреймворк имеет образовательную ценность
- Открытая реализация способствует прозрачности методов
Практическое влияние:
- Снижает технический барьер для статистического анализа
- Облегчает быстрое прототипирование и верификацию
- Поддерживает преподавание и обучение
Воспроизводимость:
- Открытый исходный код обеспечивает полную воспроизводимость
- Детальные математические выводы поддерживают независимую верификацию
- Сравнение со стандартными инструментами повышает доверие

Сценарии применения

Идеальные приложения:
- Предварительные исследования чувствительности
- Обучение и преподавание статистических методов
- Быстрое прототипирование
- Перекрёстная верификация результатов
Ограничивающие сценарии:
- Чрезвычайно крупномасштабный сложный анализ
- Случаи, требующие специальных статистических методов
- Производственные среды с экстремальными требованиями к производительности

Список литературы

1 W. Verkerke and D. Kirkby, The RooFit toolkit for data modeling, Statistical Problems in Particle Physics, Astrophysics and Cosmology (2006)

2 L. Moneta et al., The RooStats Project, arXiv:1009.1003 (2010)

3 CMS Collaboration, The CMS Statistical Analysis and Combination Tool: Combine, arXiv:2404.06614 (2024)

6 G. Cowan, K. Cranmer, E. Gross, and O. Vitells, Asymptotic formulae for likelihood-based tests of new physics, Eur. Phys. J. C 71, 1554 (2011)

7 D. E. Gorin et al., Asymptotic formulas for estimating statistical significance in collider experiments, Uchenye Zapiski Fiz. Fak. MGU No. 1 (2024)

Получение инструмента: Программное обеспечение StatTestCalculator и документация доступны на GitHub: https://github.com/skottver/stattestcalculator