2025-11-24T11:16:24.556584

StatTestCalculator: A New General Tool for Statistical Analysis in High Energy Physics

Abasov, Dudko, Gorin et al.

We present StatTestCalculator (STC), a new open-source statistical analysis tool designed for analysis high energy physics experiments. STC provides both asymptotic calculations and Monte Carlo simulations for computing the exact statistical significance of a discovery or for setting upper limits on signal model parameters. We review the underlying statistical formalism, including profile likelihood ratio test statistics for discovery and exclusion hypotheses, and the asymptotic distributions that allow quick significance estimates. We explain the relevant formulas for the likelihood functions, test statistic distributions, and significance metrics (both with and without incorporating systematic uncertainties). The implementation and capabilities of STC are described, and we validate its performance against the widely-used CMS Combine tool. We find excellent agreement in both the expected discovery significances and upper limit calculations. STC is a flexible framework that can accommodate systematic uncertainties and user-defined statistical models, making it suitable for a broad range of analyses.

academic

StatTestCalculator : Un Nouvel Outil Général pour l'Analyse Statistique en Physique des Hautes Énergies

Informations Fondamentales

ID de l'article : 2510.11637
Titre : StatTestCalculator: A New General Tool for Statistical Analysis in High Energy Physics
Auteurs : E. Abasov, L.V. Dudko, D.E. Gorin, O.S. Vasilevskii (Faculté de Physique de l'Université d'État de Moscou, Institut de Physique Nucléaire Skobeltsyn)
Classification : hep-ph (Physique des hautes énergies - Phénoménologie), stat.CO (Statistique - Calcul)
Date de publication/Conférence : Moscow University Physics Bulletin 80(8), 2025 ; XXVe Atelier-École International de Physique des Hautes Énergies et Théorie Quantique des Champs
Lien de l'article : https://arxiv.org/abs/2510.11637v1

Résumé

Cet article présente StatTestCalculator (STC), un nouvel outil d'analyse statistique open-source conçu spécifiquement pour l'analyse expérimentale en physique des hautes énergies. STC propose deux approches : le calcul asymptotique et la simulation de Monte-Carlo, pour calculer la signification statistique précise d'une découverte ou établir des limites supérieures sur les paramètres des modèles de signal. L'article examine la formalisation statistique sous-jacente, notamment le test du rapport de vraisemblance profilée pour les hypothèses de découverte et d'exclusion, ainsi que les distributions asymptotiques permettant une estimation rapide de la signification. Les auteurs expliquent en détail les formules pertinentes concernant la fonction de vraisemblance, les distributions des statistiques de test et les mesures de signification (avec et sans incertitudes systématiques). L'article décrit l'implémentation et les fonctionnalités de STC et valide ses performances par comparaison avec l'outil CMS Combine largement utilisé, démontrant une excellente cohérence tant pour la signification de découverte attendue que pour les calculs de limites supérieures.

Contexte de Recherche et Motivation

Définition du Problème

Les expériences de physique des hautes énergies (PHE) s'appuient sur l'analyse statistique des données observées pour tirer des conclusions concernant les phénomènes nouveaux. Puisque les résultats des expériences de collisionneur sont intrinsèquement probabilistes, des méthodes statistiques rigoureuses sont nécessaires pour estimer les paramètres et évaluer la signification des découvertes potentielles.

Limitations des Outils Existants

Bien que de nombreux outils statistiques sophistiqués existent pour l'analyse en PHE, tels que :

Les cadres RooFit et RooStats
L'outil CMS Combine
Theta
HistFactory

ces outils sont généralement conçus pour des analyses complexes à grande échelle et manquent d'un outil léger capable de fournir des calculs statistiques généraux rapides et précis pour diverses situations courantes.

Motivation de la Recherche

Besoin de facilité d'utilisation : Nécessité d'un outil Python facile à utiliser et polyvalent
Commodité d'intégration : Capacité à s'intégrer facilement dans les pipelines de réseaux de neurones
Vérification rapide : Facilitation des études de sensibilité préliminaires, des vérifications croisées de résultats officiels ou des fins pédagogiques
Extensibilité : Support des modèles statistiques et des statistiques de test personnalisés par l'utilisateur

Contributions Principales

Développement d'un nouvel outil d'analyse statistique STC : Outil open-source léger basé sur Python, spécialisé dans l'analyse statistique en PHE
Fourniture d'une double approche de calcul : Support des formules asymptotiques (approximations de forme fermée) et du calcul exact par simulation de Monte-Carlo
Traitement complet des incertitudes systématiques : Support des distributions d'effets systématiques normales, log-normales ou définies par l'utilisateur
Validation de la précision de l'outil : Comparaison extensive avec l'outil CMS Combine, démontrant une excellente cohérence
Fourniture d'un cadre mathématique étendu : Extension des formules d'analyse à un bin unique vers l'analyse de forme multi-bin générale

Détails Méthodologiques

Hypothèses Statistiques et Formalisation de la Vraisemblance

Définition de la Tâche

Dans les expériences de collisionneur, deux hypothèses sont considérées :

Hypothèse nulle H₀ (fond uniquement) : Les données ne contiennent pas de contribution de nouveau signal
Hypothèse alternative H₁ (signal + fond) : Au-delà du fond, il existe des événements de signal

On définit le paramètre d'intensité du signal μ, où μ=0 correspond à H₀ et μ=1 correspond à la prédiction nominale du signal sous H₁.

Construction de la Fonction de Vraisemblance

Pour une expérience de comptage avec N régions de signal, les comptages observés nᵢ sont supposés suivre une distribution de Poisson : nᵢ ~ Poisson(μsᵢ + κᵢbᵢ)

La fonction de vraisemblance complète est :

L(μ,θ) = ∏ᵢ₌₁ᴺ [(μsᵢ + κᵢbᵢ)^nᵢ e^-(μsᵢ+bᵢ)]/nᵢ! × ∏ⱼ₌₁ᴹ Systematic(θ)

où :

sᵢ : nombre d'événements de signal attendus
bᵢ : rendement de fond attendu
κ : paramètre d'incertitude systématique
θ : vecteur de paramètres nuisibles

Rapport de Vraisemblance Profilée et Statistiques de Test

Définition du Rapport de Vraisemblance Profilée

λ(μ) = L(μ, θ̂(μ)) / L(μ̂, θ̂)

Statistiques de Test

On définit la statistique de test :

qμ = -2 ln λ(μ) = -2 ln [L(μ, θ̂(μ)) / L(μ̂, θ̂)]

Statistique de test de découverte q₀ :

q₀ = {
  -2 ln λ(0),  si μ̂ ≥ 0
  0,           si μ̂ < 0
}

Statistique de test d'exclusion qμ :

qμ = {
  -2 ln λ(μ),  si μ̂ ≤ μ
  0,           si μ̂ > μ
}

Formules Analytiques pour la Signification de Découverte

Pour le cas incluant les incertitudes systématiques, la formule de signification de découverte est :

Zdisc = √{2[(s+b)ln((s+b)(1+δ²b))/(b+δ²b(s+b)) - (1/δ²)ln(1+δ²s/(1+δ²b))]}

où δ = σb/b est l'incertitude relative du fond.

À la limite sans incertitude systématique (δ→0) :

Zdisc = √{2[(s+b)ln(1+s/b) - s]}

Formules Analytiques pour la Signification d'Exclusion (Limite Supérieure)

La formule de signification d'exclusion incluant l'incertitude du fond est :

Zexcl = √{2[s - b ln((b+s+x)/(2b)) - (1/δ²)ln((b-s+x)/(2b))] - (b+s-x)(1+1/(δ²b))}

où :

x = √[(b+s)² - 4δ²b²s/(1+δ²b)]

Configuration Expérimentale

Cadre de Simulation de Monte-Carlo

Génération d'Expériences Jouets

Événements de signal : Tirés d'une distribution de Poisson Poisson(μs)
Événements de fond : Tirés d'une distribution de Poisson Poisson(b)
Incertitudes systématiques : Appliquées aux distributions de signal et de fond

Traitement des Incertitudes Systématiques

Distribution normale : κ ~ N(1, δ²)
Distribution log-normale : κ ~ LogNormal(1, δ²)
Incertitude de forme : Chaque bin multiplié par une valeur scalaire κ
Incertitude d'un seul bin : Chaque bin possède un facteur κ indépendant

Configuration des Expériences de Validation

Outils de Comparaison

Comparaison principale avec l'outil CMS Combine

Scénarios de Test

Calcul de la signification de découverte :
- Fond b = 100 événements
- Signal s = 10, 20, 30, ..., 50 événements
- Incertitudes systématiques : 0% et 20%
Calcul de limites supérieures :
- Limite au niveau de confiance 95%
- Mêmes configurations de signal et de fond
- Simulation de Monte-Carlo utilisant 10⁵ expériences jouets

Résultats Expérimentaux

Résultats Principaux

Comparaison de la Signification de Découverte

Les résultats expérimentaux montrent que STC et l'outil Combine présentent une excellente cohérence dans les aspects suivants :

Calcul asymptotique :
- Sans incertitude systématique : Correspondance parfaite
- Avec 20% d'incertitude systématique : Haute cohérence
Calcul de Monte-Carlo :
- Les résultats MC des deux outils et les formules asymptotiques montrent une bonne cohérence
- L'incertitude statistique se situe dans la plage attendue

Comparaison des Calculs de Limites Supérieures

Les calculs de limites supérieures au niveau de confiance 95% montrent :

Validation des formules asymptotiques : Les formules asymptotiques de STC sont entièrement cohérentes avec Combine
Validation de Monte-Carlo : Les résultats des expériences jouets confirment la précision de l'approximation asymptotique
Impact des incertitudes systématiques : Reflète correctement l'affaiblissement du pouvoir d'exclusion dû aux incertitudes systématiques

Évaluation des Performances

Efficacité de Calcul

Calcul asymptotique : Complété quasi instantanément (fractions de seconde)
Simulation de Monte-Carlo : 10⁵ expériences jouets complétées en quelques secondes à quelques minutes

Vérification de la Précision

Tous les scénarios de test montrent que STC peut reproduire avec précision les calculs standards, confirmant :

La correcte implémentation des formules mathématiques
La fiabilité de l'algorithme de Monte-Carlo
La précision du traitement des incertitudes systématiques

Vérification des Fonctionnalités Étendues

Analyse de Forme Multi-bin

STC a été appliqué avec succès à des scénarios d'analyse de forme multi-bin plus complexes, utilisant les formules étendues de la référence 7.

Fonctionnalités Personnalisées par l'Utilisateur

Vérification des capacités d'extension suivantes :

Définition personnalisée des statistiques de test
Formes alternatives de fonction de vraisemblance
Distributions d'incertitudes systématiques définies par l'utilisateur

Travaux Connexes

Comparaison des Outils Statistiques Existants

Outil	Caractéristiques	Limitations
RooFit/RooStats	Puissant, largement utilisé	Complexe, courbe d'apprentissage abrupte
CMS Combine	Outil standard, fonctionnalités complètes	Principalement destiné aux analyses à grande échelle
Theta	Approche bayésienne	Usage spécifique
HistFactory	Construction de modèles	Nécessite d'autres outils

Positionnement de STC

STC comble le vide d'un outil statistique léger, facile à utiliser et rapide, particulièrement adapté à :

Les études de sensibilité préliminaires
La vérification croisée des résultats
Les fins pédagogiques et d'apprentissage
L'intégration dans les pipelines de réseaux de neurones

Conclusions et Discussion

Conclusions Principales

Efficacité de l'outil : STC implémente avec succès des fonctionnalités d'analyse statistique précises, montrant une excellente cohérence avec l'outil standard Combine
Complétude de la méthode : Fournit un cadre statistique complet allant des expériences de comptage simples à l'analyse de forme complexe
Valeur pratique : La conception légère le rend adapté aux analyses rapides et aux fins pédagogiques
Extensibilité : La conception modulaire supporte la personnalisation par l'utilisateur et l'extension des méthodes

Limitations

Limites de complexité : Bien que supportant l'analyse multi-bin, il peut être moins performant que les outils spécialisés pour les modèles statistiques extrêmement complexes
Espace d'optimisation : Il existe une marge d'amélioration dans l'optimisation des performances lors du traitement de données à grande échelle
Complétude de la documentation : En tant qu'outil nouveau, il nécessite plus de cas d'utilisation et de documentation

Directions Futures

Extension des fonctionnalités :
- Support de distributions statistiques supplémentaires
- Ajout de méthodes bayésiennes
- Extension à des conceptions expérimentales plus complexes
Optimisation des performances :
- Parallélisation des calculs de Monte-Carlo
- Optimisation de l'utilisation de la mémoire
- Capacités de traitement de données volumineuses
Construction communautaire :
- Augmentation des exemples d'utilisation
- Amélioration de la documentation
- Encouragement des contributions communautaires

Évaluation Approfondie

Points Forts

Innovation Technique :
- Conversion réussie de la théorie statistique complexe en outil facile à utiliser
- Fourniture de dérivations mathématiques et d'implémentations complètes
- La double méthode de vérification (asymptotique + MC) renforce la fiabilité des résultats
Suffisance Expérimentale :
- Comparaison complète avec les outils standards
- Couverture de test dans plusieurs scénarios
- Traitement correct des incertitudes systématiques
Valeur Pratique :
- Comble le vide d'un outil statistique léger
- L'implémentation Python facilite l'intégration et la modification
- La nature open-source favorise le développement communautaire
Clarté de la Rédaction :
- Dérivations mathématiques détaillées et correctes
- Description claire des détails d'implémentation
- Processus de validation transparent

Insuffisances

Limitations Méthodologiques :
- Basé principalement sur l'approche fréquentiste
- Support limité pour certains modèles statistiques spéciaux
- Capacités de calcul parallèle à grande échelle à améliorer
Configuration Expérimentale :
- Validation principalement basée sur des modèles simples
- Manque de cas de test d'expériences réelles complexes
- Benchmarks de performance relativement simples
Analyse Comparative :
- Comparaison principalement avec Combine, manque de comparaison avec d'autres outils
- Analyse quantitative insuffisante de l'efficacité de calcul

Évaluation de l'Impact

Contribution Académique :
- Fournit un nouveau choix d'outil pour l'analyse statistique en PHE
- Le cadre mathématique complet a une valeur pédagogique
- L'implémentation open-source favorise la transparence des méthodes
Impact Pratique :
- Réduit les barrières techniques de l'analyse statistique
- Facilite le développement et la vérification de prototypes rapides
- Supporte les activités d'enseignement et d'apprentissage
Reproductibilité :
- Le code open-source assure une reproductibilité complète
- Les dérivations mathématiques détaillées soutiennent la vérification indépendante
- La comparaison avec les outils standards renforce la crédibilité

Scénarios d'Application

Applications Idéales :
- Études de sensibilité préliminaires
- Apprentissage et enseignement des méthodes statistiques
- Développement rapide de prototypes
- Vérification croisée des résultats
Scénarios Limités :
- Analyses complexes extrêmement à grande échelle
- Situations nécessitant des méthodes statistiques spéciales
- Environnements de production avec exigences de performance extrêmes

Références

1 W. Verkerke and D. Kirkby, The RooFit toolkit for data modeling, Statistical Problems in Particle Physics, Astrophysics and Cosmology (2006)

2 L. Moneta et al., The RooStats Project, arXiv:1009.1003 (2010)

3 CMS Collaboration, The CMS Statistical Analysis and Combination Tool: Combine, arXiv:2404.06614 (2024)

6 G. Cowan, K. Cranmer, E. Gross, and O. Vitells, Asymptotic formulae for likelihood-based tests of new physics, Eur. Phys. J. C 71, 1554 (2011)

7 D. E. Gorin et al., Asymptotic formulas for estimating statistical significance in collider experiments, Uchenye Zapiski Fiz. Fak. MGU No. 1 (2024)

Accès à l'Outil : Le logiciel StatTestCalculator et la documentation sont disponibles sur GitHub : https://github.com/skottver/stattestcalculator