StatTestCalculator: A New General Tool for Statistical Analysis in High Energy Physics
Abasov, Dudko, Gorin et al.
We present StatTestCalculator (STC), a new open-source statistical analysis tool designed for analysis high energy physics experiments. STC provides both asymptotic calculations and Monte Carlo simulations for computing the exact statistical significance of a discovery or for setting upper limits on signal model parameters. We review the underlying statistical formalism, including profile likelihood ratio test statistics for discovery and exclusion hypotheses, and the asymptotic distributions that allow quick significance estimates. We explain the relevant formulas for the likelihood functions, test statistic distributions, and significance metrics (both with and without incorporating systematic uncertainties). The implementation and capabilities of STC are described, and we validate its performance against the widely-used CMS Combine tool. We find excellent agreement in both the expected discovery significances and upper limit calculations. STC is a flexible framework that can accommodate systematic uncertainties and user-defined statistical models, making it suitable for a broad range of analyses.
academic
StatTestCalculator: Una Nueva Herramienta General para Análisis Estadístico en Física de Altas Energías
Título: StatTestCalculator: A New General Tool for Statistical Analysis in High Energy Physics
Autores: E. Abasov, L.V. Dudko, D.E. Gorin, O.S. Vasilevskii (Facultad de Física de la Universidad Estatal de Moscú, Instituto de Física Nuclear Skobeltsin)
Fecha de Publicación/Conferencia: Moscow University Physics Bulletin 80(8), 2025; The XXV International Workshop-School High Energy Physics and Quantum Field Theory
Este artículo presenta StatTestCalculator (STC), una nueva herramienta de análisis estadístico de código abierto diseñada específicamente para análisis de experimentos de física de altas energías. STC proporciona dos métodos de cálculo: fórmulas asintóticas y simulaciones de Monte Carlo, para calcular la significancia estadística exacta de descubrimientos o establecer límites superiores en parámetros de modelos de señal. El artículo revisa la formalización estadística subyacente, incluyendo el estadístico de prueba de razón de verosimilitud perfilada para pruebas de descubrimiento y exclusión, así como distribuciones asintóticas que permiten estimaciones rápidas de significancia. Los autores explican en detalle las fórmulas relevantes para funciones de verosimilitud, distribuciones de estadísticos de prueba y medidas de significancia, tanto con como sin incertidumbres sistemáticas. El artículo describe la implementación y funcionalidades de STC, y verifica su desempeño mediante comparación exhaustiva con la herramienta CMS Combine ampliamente utilizada, mostrando excelente consistencia tanto en cálculos de significancia de descubrimiento esperada como en cálculos de límites superiores.
Los experimentos de física de altas energías (HEP) dependen del análisis estadístico de datos observados para extraer conclusiones sobre fenómenos nuevos. Dado que los resultados de experimentos de colisionadores son inherentemente probabilísticos, se requieren métodos estadísticos rigurosos para estimar parámetros y evaluar la significancia de posibles descubrimientos.
Aunque existen muchas herramientas estadísticas sofisticadas para análisis de HEP, tales como:
Marcos RooFit y RooStats
Herramienta CMS Combine
Theta
HistFactory
Estas herramientas generalmente están diseñadas para análisis complejos a gran escala, careciendo de una herramienta ligera que proporcione cálculos estadísticos rápidos y precisos para diversos escenarios comunes.
Desarrollo de Nueva Herramienta de Análisis Estadístico STC: Herramienta ligera de código abierto basada en Python, diseñada específicamente para análisis estadístico de HEP
Provisión de Método Dual de Cálculo: Soporte para fórmulas asintóticas (aproximaciones de forma cerrada) y cálculos exactos mediante simulaciones de Monte Carlo
Tratamiento Completo de Incertidumbres Sistemáticas: Soporte para distribuciones normales, lognormales o personalizadas por el usuario de efectos sistemáticos
Verificación de Precisión de la Herramienta: Comparación exhaustiva con la herramienta CMS Combine, mostrando excelente consistencia
Provisión de Marco Matemático Extendido: Fórmulas generales que extienden análisis de un bin a análisis de forma multibín
Para un experimento de conteo con N regiones de señal, los conteos observados nᵢ se asumen que siguen una distribución de Poisson: nᵢ ~ Poisson(μsᵢ + κᵢbᵢ)
Efectividad de la Herramienta: STC implementa exitosamente funcionalidades de análisis estadístico preciso, mostrando excelente consistencia con la herramienta estándar Combine
Completitud del Método: Proporciona un marco estadístico completo desde experimentos de conteo simple hasta análisis de forma compleja
Valor Práctico: El diseño ligero la hace adecuada para análisis rápido y propósitos educativos
Extensibilidad: El diseño modular soporta personalizaciones de usuario y extensiones de métodos
Restricciones de Complejidad: Aunque soporta análisis multibín, puede no ser tan efectiva como herramientas especializadas para modelos estadísticos extremadamente complejos
Espacio de Optimización: Hay espacio para mejorar el desempeño al procesar datos a gran escala
Completitud de Documentación: Como herramienta nueva, requiere más casos de uso y documentación