2025-11-24T11:16:24.556584

StatTestCalculator: A New General Tool for Statistical Analysis in High Energy Physics

Abasov, Dudko, Gorin et al.
We present StatTestCalculator (STC), a new open-source statistical analysis tool designed for analysis high energy physics experiments. STC provides both asymptotic calculations and Monte Carlo simulations for computing the exact statistical significance of a discovery or for setting upper limits on signal model parameters. We review the underlying statistical formalism, including profile likelihood ratio test statistics for discovery and exclusion hypotheses, and the asymptotic distributions that allow quick significance estimates. We explain the relevant formulas for the likelihood functions, test statistic distributions, and significance metrics (both with and without incorporating systematic uncertainties). The implementation and capabilities of STC are described, and we validate its performance against the widely-used CMS Combine tool. We find excellent agreement in both the expected discovery significances and upper limit calculations. STC is a flexible framework that can accommodate systematic uncertainties and user-defined statistical models, making it suitable for a broad range of analyses.
academic

StatTestCalculator: Una Nueva Herramienta General para Análisis Estadístico en Física de Altas Energías

Información Básica

  • ID del Artículo: 2510.11637
  • Título: StatTestCalculator: A New General Tool for Statistical Analysis in High Energy Physics
  • Autores: E. Abasov, L.V. Dudko, D.E. Gorin, O.S. Vasilevskii (Facultad de Física de la Universidad Estatal de Moscú, Instituto de Física Nuclear Skobeltsin)
  • Clasificación: hep-ph (Física de Altas Energías - Fenomenología), stat.CO (Estadística - Computación)
  • Fecha de Publicación/Conferencia: Moscow University Physics Bulletin 80(8), 2025; The XXV International Workshop-School High Energy Physics and Quantum Field Theory
  • Enlace del Artículo: https://arxiv.org/abs/2510.11637v1

Resumen

Este artículo presenta StatTestCalculator (STC), una nueva herramienta de análisis estadístico de código abierto diseñada específicamente para análisis de experimentos de física de altas energías. STC proporciona dos métodos de cálculo: fórmulas asintóticas y simulaciones de Monte Carlo, para calcular la significancia estadística exacta de descubrimientos o establecer límites superiores en parámetros de modelos de señal. El artículo revisa la formalización estadística subyacente, incluyendo el estadístico de prueba de razón de verosimilitud perfilada para pruebas de descubrimiento y exclusión, así como distribuciones asintóticas que permiten estimaciones rápidas de significancia. Los autores explican en detalle las fórmulas relevantes para funciones de verosimilitud, distribuciones de estadísticos de prueba y medidas de significancia, tanto con como sin incertidumbres sistemáticas. El artículo describe la implementación y funcionalidades de STC, y verifica su desempeño mediante comparación exhaustiva con la herramienta CMS Combine ampliamente utilizada, mostrando excelente consistencia tanto en cálculos de significancia de descubrimiento esperada como en cálculos de límites superiores.

Contexto de Investigación y Motivación

Definición del Problema

Los experimentos de física de altas energías (HEP) dependen del análisis estadístico de datos observados para extraer conclusiones sobre fenómenos nuevos. Dado que los resultados de experimentos de colisionadores son inherentemente probabilísticos, se requieren métodos estadísticos rigurosos para estimar parámetros y evaluar la significancia de posibles descubrimientos.

Limitaciones de Herramientas Existentes

Aunque existen muchas herramientas estadísticas sofisticadas para análisis de HEP, tales como:

  • Marcos RooFit y RooStats
  • Herramienta CMS Combine
  • Theta
  • HistFactory

Estas herramientas generalmente están diseñadas para análisis complejos a gran escala, careciendo de una herramienta ligera que proporcione cálculos estadísticos rápidos y precisos para diversos escenarios comunes.

Motivación de la Investigación

  1. Necesidad de Facilidad de Uso: Se requiere una herramienta Python fácil de usar y multifuncional
  2. Conveniencia de Integración: Capacidad de integrarse fácilmente en tuberías de redes neuronales
  3. Verificación Rápida: Facilitar estudios preliminares de sensibilidad, verificación cruzada de resultados oficiales o propósitos educativos
  4. Escalabilidad: Soportar modelos estadísticos personalizados por el usuario y estadísticos de prueba

Contribuciones Principales

  1. Desarrollo de Nueva Herramienta de Análisis Estadístico STC: Herramienta ligera de código abierto basada en Python, diseñada específicamente para análisis estadístico de HEP
  2. Provisión de Método Dual de Cálculo: Soporte para fórmulas asintóticas (aproximaciones de forma cerrada) y cálculos exactos mediante simulaciones de Monte Carlo
  3. Tratamiento Completo de Incertidumbres Sistemáticas: Soporte para distribuciones normales, lognormales o personalizadas por el usuario de efectos sistemáticos
  4. Verificación de Precisión de la Herramienta: Comparación exhaustiva con la herramienta CMS Combine, mostrando excelente consistencia
  5. Provisión de Marco Matemático Extendido: Fórmulas generales que extienden análisis de un bin a análisis de forma multibín

Detalles de la Metodología

Formalización de Hipótesis Estadísticas y Verosimilitud

Definición de la Tarea

En experimentos de colisionadores, se consideran dos hipótesis:

  • Hipótesis Nula H₀ (solo fondo): Asume que los datos no contienen contribución de nueva señal
  • Hipótesis Alternativa H₁ (señal + fondo): Asume que existen eventos de señal además del fondo

Se define el parámetro de intensidad de señal μ, donde μ=0 corresponde a H₀ y μ=1 corresponde a la predicción de señal nominal bajo H₁.

Construcción de la Función de Verosimilitud

Para un experimento de conteo con N regiones de señal, los conteos observados nᵢ se asumen que siguen una distribución de Poisson: nᵢ ~ Poisson(μsᵢ + κᵢbᵢ)

La función de verosimilitud completa es:

L(μ,θ) = ∏ᵢ₌₁ᴺ [(μsᵢ + κᵢbᵢ)^nᵢ e^-(μsᵢ+bᵢ)]/nᵢ! × ∏ⱼ₌₁ᴹ Systematic(θ)

Donde:

  • sᵢ: número esperado de eventos de señal
  • bᵢ: rendimiento esperado de fondo
  • κ: parámetro de incertidumbre sistemática
  • θ: vector de parámetros molestos

Razón de Verosimilitud Perfilada y Estadísticos de Prueba

Definición de Razón de Verosimilitud Perfilada

λ(μ) = L(μ, θ̂(μ)) / L(μ̂, θ̂)

Estadísticos de Prueba

Se define el estadístico de prueba:

qμ = -2 ln λ(μ) = -2 ln [L(μ, θ̂(μ)) / L(μ̂, θ̂)]

Estadístico de Prueba de Descubrimiento q₀:

q₀ = {
  -2 ln λ(0),  si μ̂ ≥ 0
  0,           si μ̂ < 0
}

Estadístico de Prueba de Exclusión qμ:

qμ = {
  -2 ln λ(μ),  si μ̂ ≤ μ
  0,           si μ̂ > μ
}

Fórmulas Analíticas para Significancia de Descubrimiento

Para el caso que incluye incertidumbres sistemáticas, la fórmula de significancia de descubrimiento es:

Zdisc = √{2[(s+b)ln((s+b)(1+δ²b))/(b+δ²b(s+b)) - (1/δ²)ln(1+δ²s/(1+δ²b))]}

Donde δ = σb/b es la incertidumbre relativa del fondo.

En el límite sin incertidumbre sistemática (δ→0):

Zdisc = √{2[(s+b)ln(1+s/b) - s]}

Fórmulas Analíticas para Significancia de Exclusión (Límites Superiores)

La fórmula de significancia de exclusión que incluye incertidumbre de fondo es:

Zexcl = √{2[s - b ln((b+s+x)/(2b)) - (1/δ²)ln((b-s+x)/(2b))] - (b+s-x)(1+1/(δ²b))}

Donde:

x = √[(b+s)² - 4δ²b²s/(1+δ²b)]

Configuración Experimental

Marco de Simulación de Monte Carlo

Generación de Experimentos Juguete

  1. Eventos de Señal: Extracción de distribución de Poisson Poisson(μs)
  2. Eventos de Fondo: Extracción de distribución de Poisson Poisson(b)
  3. Incertidumbres Sistemáticas: Aplicación a distribuciones de señal y fondo

Tratamiento de Incertidumbres Sistemáticas

  • Distribución Normal: κ ~ N(1, δ²)
  • Distribución Lognormal: κ ~ LogNormal(1, δ²)
  • Incertidumbre de Forma: Cada bin multiplicado por valor escalar κ
  • Incertidumbre de Un Bin: Cada bin tiene factor κ independiente

Configuración de Experimentos de Verificación

Herramienta de Comparación

Comparación principal con la herramienta CMS Combine

Escenarios de Prueba

  1. Cálculo de Significancia de Descubrimiento:
    • Fondo b = 100 eventos
    • Señal s = 10, 20, 30, ..., 50 eventos
    • Incertidumbre sistemática: 0% y 20%
  2. Cálculo de Límites Superiores:
    • Límite de nivel de confianza del 95%
    • Misma configuración de señal y fondo
    • Simulaciones de Monte Carlo usando 10⁵ experimentos juguete

Resultados Experimentales

Resultados Principales

Comparación de Significancia de Descubrimiento

Los resultados experimentales muestran que STC y la herramienta Combine presentan excelente consistencia en los siguientes aspectos:

  1. Cálculos Asintóticos:
    • Sin incertidumbre sistemática: Coincidencia perfecta
    • Incertidumbre sistemática del 20%: Altamente consistente
  2. Cálculos de Monte Carlo:
    • Los resultados de MC de ambas herramientas muestran buena consistencia con fórmulas asintóticas
    • Incertidumbre estadística dentro de rangos esperados

Comparación de Cálculos de Límites Superiores

Los cálculos de límites superiores al nivel de confianza del 95% muestran:

  1. Verificación de Fórmulas Asintóticas: Las fórmulas asintóticas de STC son completamente consistentes con Combine
  2. Verificación de Monte Carlo: Los resultados de experimentos juguete confirman la precisión de aproximaciones asintóticas
  3. Impacto de Incertidumbre Sistemática: Refleja correctamente el debilitamiento de la capacidad de exclusión por incertidumbre sistemática

Evaluación de Desempeño

Eficiencia Computacional

  • Cálculos Asintóticos: Se completan casi instantáneamente (fracciones de segundo)
  • Simulaciones de Monte Carlo: 10⁵ experimentos juguete se completan en segundos a minutos

Verificación de Precisión

Todos los escenarios de prueba muestran que STC puede reproducir con precisión cálculos estándar, confirmando:

  1. Implementación correcta de fórmulas matemáticas
  2. Confiabilidad del algoritmo de Monte Carlo
  3. Precisión en el tratamiento de incertidumbres sistemáticas

Verificación de Funcionalidades Extendidas

Análisis de Forma Multibín

STC se aplica exitosamente a escenarios de análisis de forma multibín más complejos, utilizando fórmulas extendidas de la referencia 7.

Funcionalidades Personalizadas por Usuario

Se verifican las siguientes capacidades de extensión:

  1. Definiciones personalizadas de estadísticos de prueba
  2. Formas alternativas de funciones de verosimilitud
  3. Distribuciones de incertidumbre sistemática definidas por el usuario

Trabajo Relacionado

Comparación de Herramientas Estadísticas Existentes

HerramientaCaracterísticasLimitaciones
RooFit/RooStatsFuncionalidad potente, ampliamente utilizadaCompleja, curva de aprendizaje pronunciada
CMS CombineHerramienta estándar, funcionalidad completaPrincipalmente para análisis a gran escala
ThetaMétodo bayesianoPropósito específico
HistFactoryConstrucción de modelosRequiere otras herramientas complementarias

Posicionamiento de STC

STC llena el vacío de una herramienta estadística ligera, fácil de usar y rápida, particularmente adecuada para:

  • Estudios preliminares de sensibilidad
  • Verificación cruzada de resultados
  • Propósitos educativos y de aprendizaje
  • Integración en tuberías de redes neuronales

Conclusiones y Discusión

Conclusiones Principales

  1. Efectividad de la Herramienta: STC implementa exitosamente funcionalidades de análisis estadístico preciso, mostrando excelente consistencia con la herramienta estándar Combine
  2. Completitud del Método: Proporciona un marco estadístico completo desde experimentos de conteo simple hasta análisis de forma compleja
  3. Valor Práctico: El diseño ligero la hace adecuada para análisis rápido y propósitos educativos
  4. Extensibilidad: El diseño modular soporta personalizaciones de usuario y extensiones de métodos

Limitaciones

  1. Restricciones de Complejidad: Aunque soporta análisis multibín, puede no ser tan efectiva como herramientas especializadas para modelos estadísticos extremadamente complejos
  2. Espacio de Optimización: Hay espacio para mejorar el desempeño al procesar datos a gran escala
  3. Completitud de Documentación: Como herramienta nueva, requiere más casos de uso y documentación

Direcciones Futuras

  1. Extensión de Funcionalidades:
    • Soporte para más distribuciones estadísticas
    • Incorporación de métodos bayesianos
    • Extensión a diseños experimentales más complejos
  2. Optimización de Desempeño:
    • Paralelización de cálculos de Monte Carlo
    • Optimización de uso de memoria
    • Capacidad de procesamiento de datos grandes
  3. Construcción de Comunidad:
    • Aumento de ejemplos de uso
    • Mejora de documentación
    • Fomento de contribuciones comunitarias

Evaluación Profunda

Fortalezas

  1. Innovación Técnica:
    • Conversión exitosa de teoría estadística compleja en herramienta fácil de usar
    • Provisión de derivaciones matemáticas completas e implementación
    • Método de verificación dual (asintótico + MC) mejora confiabilidad de resultados
  2. Suficiencia Experimental:
    • Comparación exhaustiva con herramientas estándar
    • Cobertura de pruebas en múltiples escenarios
    • Tratamiento correcto de incertidumbres sistemáticas
  3. Valor Práctico:
    • Llena el vacío de herramientas estadísticas ligeras
    • Implementación en Python facilita integración y modificación
    • Naturaleza de código abierto promueve desarrollo comunitario
  4. Claridad de Escritura:
    • Derivaciones matemáticas detalladas y correctas
    • Descripción clara de detalles de implementación
    • Proceso de verificación transparente

Deficiencias

  1. Limitaciones de Método:
    • Basado principalmente en enfoque frecuentista
    • Soporte limitado para ciertos modelos estadísticos especiales
    • Capacidad de computación paralela a gran escala por mejorar
  2. Configuración Experimental:
    • Verificación principalmente basada en modelos simples
    • Falta de casos de prueba de experimentos complejos reales
    • Pruebas de rendimiento relativamente simples
  3. Análisis Comparativo:
    • Comparación principalmente con Combine, falta comparación con otras herramientas
    • Análisis cuantitativo insuficiente de eficiencia computacional

Evaluación de Impacto

  1. Contribución Académica:
    • Proporciona nueva opción de herramienta para análisis estadístico de HEP
    • Marco matemático completo tiene valor educativo
    • Implementación de código abierto promueve transparencia de métodos
  2. Impacto Práctico:
    • Reduce barrera técnica para análisis estadístico
    • Facilita desarrollo rápido de prototipos y verificación
    • Soporta actividades de enseñanza y aprendizaje
  3. Reproducibilidad:
    • Código de código abierto asegura reproducibilidad completa
    • Derivaciones matemáticas detalladas soportan verificación independiente
    • Comparación con herramientas estándar mejora credibilidad

Escenarios de Aplicación

  1. Aplicaciones Ideales:
    • Estudios preliminares de sensibilidad
    • Enseñanza y aprendizaje de métodos estadísticos
    • Desarrollo rápido de prototipos
    • Verificación cruzada de resultados
  2. Escenarios Limitados:
    • Análisis complejos a escala muy grande
    • Casos que requieren métodos estadísticos especiales
    • Entornos de producción con requisitos de desempeño extremo

Referencias

1 W. Verkerke and D. Kirkby, The RooFit toolkit for data modeling, Statistical Problems in Particle Physics, Astrophysics and Cosmology (2006)

2 L. Moneta et al., The RooStats Project, arXiv:1009.1003 (2010)

3 CMS Collaboration, The CMS Statistical Analysis and Combination Tool: Combine, arXiv:2404.06614 (2024)

6 G. Cowan, K. Cranmer, E. Gross, and O. Vitells, Asymptotic formulae for likelihood-based tests of new physics, Eur. Phys. J. C 71, 1554 (2011)

7 D. E. Gorin et al., Asymptotic formulas for estimating statistical significance in collider experiments, Uchenye Zapiski Fiz. Fak. MGU No. 1 (2024)


Obtención de la Herramienta: El software StatTestCalculator y documentación están disponibles en GitHub: https://github.com/skottver/stattestcalculator