2025-11-24T11:16:24.556584

StatTestCalculator: A New General Tool for Statistical Analysis in High Energy Physics

Abasov, Dudko, Gorin et al.
We present StatTestCalculator (STC), a new open-source statistical analysis tool designed for analysis high energy physics experiments. STC provides both asymptotic calculations and Monte Carlo simulations for computing the exact statistical significance of a discovery or for setting upper limits on signal model parameters. We review the underlying statistical formalism, including profile likelihood ratio test statistics for discovery and exclusion hypotheses, and the asymptotic distributions that allow quick significance estimates. We explain the relevant formulas for the likelihood functions, test statistic distributions, and significance metrics (both with and without incorporating systematic uncertainties). The implementation and capabilities of STC are described, and we validate its performance against the widely-used CMS Combine tool. We find excellent agreement in both the expected discovery significances and upper limit calculations. STC is a flexible framework that can accommodate systematic uncertainties and user-defined statistical models, making it suitable for a broad range of analyses.
academic

StatTestCalculator : Un Nouvel Outil Général pour l'Analyse Statistique en Physique des Hautes Énergies

Informations Fondamentales

  • ID de l'article : 2510.11637
  • Titre : StatTestCalculator: A New General Tool for Statistical Analysis in High Energy Physics
  • Auteurs : E. Abasov, L.V. Dudko, D.E. Gorin, O.S. Vasilevskii (Faculté de Physique de l'Université d'État de Moscou, Institut de Physique Nucléaire Skobeltsyn)
  • Classification : hep-ph (Physique des hautes énergies - Phénoménologie), stat.CO (Statistique - Calcul)
  • Date de publication/Conférence : Moscow University Physics Bulletin 80(8), 2025 ; XXVe Atelier-École International de Physique des Hautes Énergies et Théorie Quantique des Champs
  • Lien de l'article : https://arxiv.org/abs/2510.11637v1

Résumé

Cet article présente StatTestCalculator (STC), un nouvel outil d'analyse statistique open-source conçu spécifiquement pour l'analyse expérimentale en physique des hautes énergies. STC propose deux approches : le calcul asymptotique et la simulation de Monte-Carlo, pour calculer la signification statistique précise d'une découverte ou établir des limites supérieures sur les paramètres des modèles de signal. L'article examine la formalisation statistique sous-jacente, notamment le test du rapport de vraisemblance profilée pour les hypothèses de découverte et d'exclusion, ainsi que les distributions asymptotiques permettant une estimation rapide de la signification. Les auteurs expliquent en détail les formules pertinentes concernant la fonction de vraisemblance, les distributions des statistiques de test et les mesures de signification (avec et sans incertitudes systématiques). L'article décrit l'implémentation et les fonctionnalités de STC et valide ses performances par comparaison avec l'outil CMS Combine largement utilisé, démontrant une excellente cohérence tant pour la signification de découverte attendue que pour les calculs de limites supérieures.

Contexte de Recherche et Motivation

Définition du Problème

Les expériences de physique des hautes énergies (PHE) s'appuient sur l'analyse statistique des données observées pour tirer des conclusions concernant les phénomènes nouveaux. Puisque les résultats des expériences de collisionneur sont intrinsèquement probabilistes, des méthodes statistiques rigoureuses sont nécessaires pour estimer les paramètres et évaluer la signification des découvertes potentielles.

Limitations des Outils Existants

Bien que de nombreux outils statistiques sophistiqués existent pour l'analyse en PHE, tels que :

  • Les cadres RooFit et RooStats
  • L'outil CMS Combine
  • Theta
  • HistFactory

ces outils sont généralement conçus pour des analyses complexes à grande échelle et manquent d'un outil léger capable de fournir des calculs statistiques généraux rapides et précis pour diverses situations courantes.

Motivation de la Recherche

  1. Besoin de facilité d'utilisation : Nécessité d'un outil Python facile à utiliser et polyvalent
  2. Commodité d'intégration : Capacité à s'intégrer facilement dans les pipelines de réseaux de neurones
  3. Vérification rapide : Facilitation des études de sensibilité préliminaires, des vérifications croisées de résultats officiels ou des fins pédagogiques
  4. Extensibilité : Support des modèles statistiques et des statistiques de test personnalisés par l'utilisateur

Contributions Principales

  1. Développement d'un nouvel outil d'analyse statistique STC : Outil open-source léger basé sur Python, spécialisé dans l'analyse statistique en PHE
  2. Fourniture d'une double approche de calcul : Support des formules asymptotiques (approximations de forme fermée) et du calcul exact par simulation de Monte-Carlo
  3. Traitement complet des incertitudes systématiques : Support des distributions d'effets systématiques normales, log-normales ou définies par l'utilisateur
  4. Validation de la précision de l'outil : Comparaison extensive avec l'outil CMS Combine, démontrant une excellente cohérence
  5. Fourniture d'un cadre mathématique étendu : Extension des formules d'analyse à un bin unique vers l'analyse de forme multi-bin générale

Détails Méthodologiques

Hypothèses Statistiques et Formalisation de la Vraisemblance

Définition de la Tâche

Dans les expériences de collisionneur, deux hypothèses sont considérées :

  • Hypothèse nulle H₀ (fond uniquement) : Les données ne contiennent pas de contribution de nouveau signal
  • Hypothèse alternative H₁ (signal + fond) : Au-delà du fond, il existe des événements de signal

On définit le paramètre d'intensité du signal μ, où μ=0 correspond à H₀ et μ=1 correspond à la prédiction nominale du signal sous H₁.

Construction de la Fonction de Vraisemblance

Pour une expérience de comptage avec N régions de signal, les comptages observés nᵢ sont supposés suivre une distribution de Poisson : nᵢ ~ Poisson(μsᵢ + κᵢbᵢ)

La fonction de vraisemblance complète est :

L(μ,θ) = ∏ᵢ₌₁ᴺ [(μsᵢ + κᵢbᵢ)^nᵢ e^-(μsᵢ+bᵢ)]/nᵢ! × ∏ⱼ₌₁ᴹ Systematic(θ)

où :

  • sᵢ : nombre d'événements de signal attendus
  • bᵢ : rendement de fond attendu
  • κ : paramètre d'incertitude systématique
  • θ : vecteur de paramètres nuisibles

Rapport de Vraisemblance Profilée et Statistiques de Test

Définition du Rapport de Vraisemblance Profilée

λ(μ) = L(μ, θ̂(μ)) / L(μ̂, θ̂)

Statistiques de Test

On définit la statistique de test :

qμ = -2 ln λ(μ) = -2 ln [L(μ, θ̂(μ)) / L(μ̂, θ̂)]

Statistique de test de découverte q₀ :

q₀ = {
  -2 ln λ(0),  si μ̂ ≥ 0
  0,           si μ̂ < 0
}

Statistique de test d'exclusion qμ :

qμ = {
  -2 ln λ(μ),  si μ̂ ≤ μ
  0,           si μ̂ > μ
}

Formules Analytiques pour la Signification de Découverte

Pour le cas incluant les incertitudes systématiques, la formule de signification de découverte est :

Zdisc = √{2[(s+b)ln((s+b)(1+δ²b))/(b+δ²b(s+b)) - (1/δ²)ln(1+δ²s/(1+δ²b))]}

où δ = σb/b est l'incertitude relative du fond.

À la limite sans incertitude systématique (δ→0) :

Zdisc = √{2[(s+b)ln(1+s/b) - s]}

Formules Analytiques pour la Signification d'Exclusion (Limite Supérieure)

La formule de signification d'exclusion incluant l'incertitude du fond est :

Zexcl = √{2[s - b ln((b+s+x)/(2b)) - (1/δ²)ln((b-s+x)/(2b))] - (b+s-x)(1+1/(δ²b))}

où :

x = √[(b+s)² - 4δ²b²s/(1+δ²b)]

Configuration Expérimentale

Cadre de Simulation de Monte-Carlo

Génération d'Expériences Jouets

  1. Événements de signal : Tirés d'une distribution de Poisson Poisson(μs)
  2. Événements de fond : Tirés d'une distribution de Poisson Poisson(b)
  3. Incertitudes systématiques : Appliquées aux distributions de signal et de fond

Traitement des Incertitudes Systématiques

  • Distribution normale : κ ~ N(1, δ²)
  • Distribution log-normale : κ ~ LogNormal(1, δ²)
  • Incertitude de forme : Chaque bin multiplié par une valeur scalaire κ
  • Incertitude d'un seul bin : Chaque bin possède un facteur κ indépendant

Configuration des Expériences de Validation

Outils de Comparaison

Comparaison principale avec l'outil CMS Combine

Scénarios de Test

  1. Calcul de la signification de découverte :
    • Fond b = 100 événements
    • Signal s = 10, 20, 30, ..., 50 événements
    • Incertitudes systématiques : 0% et 20%
  2. Calcul de limites supérieures :
    • Limite au niveau de confiance 95%
    • Mêmes configurations de signal et de fond
    • Simulation de Monte-Carlo utilisant 10⁵ expériences jouets

Résultats Expérimentaux

Résultats Principaux

Comparaison de la Signification de Découverte

Les résultats expérimentaux montrent que STC et l'outil Combine présentent une excellente cohérence dans les aspects suivants :

  1. Calcul asymptotique :
    • Sans incertitude systématique : Correspondance parfaite
    • Avec 20% d'incertitude systématique : Haute cohérence
  2. Calcul de Monte-Carlo :
    • Les résultats MC des deux outils et les formules asymptotiques montrent une bonne cohérence
    • L'incertitude statistique se situe dans la plage attendue

Comparaison des Calculs de Limites Supérieures

Les calculs de limites supérieures au niveau de confiance 95% montrent :

  1. Validation des formules asymptotiques : Les formules asymptotiques de STC sont entièrement cohérentes avec Combine
  2. Validation de Monte-Carlo : Les résultats des expériences jouets confirment la précision de l'approximation asymptotique
  3. Impact des incertitudes systématiques : Reflète correctement l'affaiblissement du pouvoir d'exclusion dû aux incertitudes systématiques

Évaluation des Performances

Efficacité de Calcul

  • Calcul asymptotique : Complété quasi instantanément (fractions de seconde)
  • Simulation de Monte-Carlo : 10⁵ expériences jouets complétées en quelques secondes à quelques minutes

Vérification de la Précision

Tous les scénarios de test montrent que STC peut reproduire avec précision les calculs standards, confirmant :

  1. La correcte implémentation des formules mathématiques
  2. La fiabilité de l'algorithme de Monte-Carlo
  3. La précision du traitement des incertitudes systématiques

Vérification des Fonctionnalités Étendues

Analyse de Forme Multi-bin

STC a été appliqué avec succès à des scénarios d'analyse de forme multi-bin plus complexes, utilisant les formules étendues de la référence 7.

Fonctionnalités Personnalisées par l'Utilisateur

Vérification des capacités d'extension suivantes :

  1. Définition personnalisée des statistiques de test
  2. Formes alternatives de fonction de vraisemblance
  3. Distributions d'incertitudes systématiques définies par l'utilisateur

Travaux Connexes

Comparaison des Outils Statistiques Existants

OutilCaractéristiquesLimitations
RooFit/RooStatsPuissant, largement utiliséComplexe, courbe d'apprentissage abrupte
CMS CombineOutil standard, fonctionnalités complètesPrincipalement destiné aux analyses à grande échelle
ThetaApproche bayésienneUsage spécifique
HistFactoryConstruction de modèlesNécessite d'autres outils

Positionnement de STC

STC comble le vide d'un outil statistique léger, facile à utiliser et rapide, particulièrement adapté à :

  • Les études de sensibilité préliminaires
  • La vérification croisée des résultats
  • Les fins pédagogiques et d'apprentissage
  • L'intégration dans les pipelines de réseaux de neurones

Conclusions et Discussion

Conclusions Principales

  1. Efficacité de l'outil : STC implémente avec succès des fonctionnalités d'analyse statistique précises, montrant une excellente cohérence avec l'outil standard Combine
  2. Complétude de la méthode : Fournit un cadre statistique complet allant des expériences de comptage simples à l'analyse de forme complexe
  3. Valeur pratique : La conception légère le rend adapté aux analyses rapides et aux fins pédagogiques
  4. Extensibilité : La conception modulaire supporte la personnalisation par l'utilisateur et l'extension des méthodes

Limitations

  1. Limites de complexité : Bien que supportant l'analyse multi-bin, il peut être moins performant que les outils spécialisés pour les modèles statistiques extrêmement complexes
  2. Espace d'optimisation : Il existe une marge d'amélioration dans l'optimisation des performances lors du traitement de données à grande échelle
  3. Complétude de la documentation : En tant qu'outil nouveau, il nécessite plus de cas d'utilisation et de documentation

Directions Futures

  1. Extension des fonctionnalités :
    • Support de distributions statistiques supplémentaires
    • Ajout de méthodes bayésiennes
    • Extension à des conceptions expérimentales plus complexes
  2. Optimisation des performances :
    • Parallélisation des calculs de Monte-Carlo
    • Optimisation de l'utilisation de la mémoire
    • Capacités de traitement de données volumineuses
  3. Construction communautaire :
    • Augmentation des exemples d'utilisation
    • Amélioration de la documentation
    • Encouragement des contributions communautaires

Évaluation Approfondie

Points Forts

  1. Innovation Technique :
    • Conversion réussie de la théorie statistique complexe en outil facile à utiliser
    • Fourniture de dérivations mathématiques et d'implémentations complètes
    • La double méthode de vérification (asymptotique + MC) renforce la fiabilité des résultats
  2. Suffisance Expérimentale :
    • Comparaison complète avec les outils standards
    • Couverture de test dans plusieurs scénarios
    • Traitement correct des incertitudes systématiques
  3. Valeur Pratique :
    • Comble le vide d'un outil statistique léger
    • L'implémentation Python facilite l'intégration et la modification
    • La nature open-source favorise le développement communautaire
  4. Clarté de la Rédaction :
    • Dérivations mathématiques détaillées et correctes
    • Description claire des détails d'implémentation
    • Processus de validation transparent

Insuffisances

  1. Limitations Méthodologiques :
    • Basé principalement sur l'approche fréquentiste
    • Support limité pour certains modèles statistiques spéciaux
    • Capacités de calcul parallèle à grande échelle à améliorer
  2. Configuration Expérimentale :
    • Validation principalement basée sur des modèles simples
    • Manque de cas de test d'expériences réelles complexes
    • Benchmarks de performance relativement simples
  3. Analyse Comparative :
    • Comparaison principalement avec Combine, manque de comparaison avec d'autres outils
    • Analyse quantitative insuffisante de l'efficacité de calcul

Évaluation de l'Impact

  1. Contribution Académique :
    • Fournit un nouveau choix d'outil pour l'analyse statistique en PHE
    • Le cadre mathématique complet a une valeur pédagogique
    • L'implémentation open-source favorise la transparence des méthodes
  2. Impact Pratique :
    • Réduit les barrières techniques de l'analyse statistique
    • Facilite le développement et la vérification de prototypes rapides
    • Supporte les activités d'enseignement et d'apprentissage
  3. Reproductibilité :
    • Le code open-source assure une reproductibilité complète
    • Les dérivations mathématiques détaillées soutiennent la vérification indépendante
    • La comparaison avec les outils standards renforce la crédibilité

Scénarios d'Application

  1. Applications Idéales :
    • Études de sensibilité préliminaires
    • Apprentissage et enseignement des méthodes statistiques
    • Développement rapide de prototypes
    • Vérification croisée des résultats
  2. Scénarios Limités :
    • Analyses complexes extrêmement à grande échelle
    • Situations nécessitant des méthodes statistiques spéciales
    • Environnements de production avec exigences de performance extrêmes

Références

1 W. Verkerke and D. Kirkby, The RooFit toolkit for data modeling, Statistical Problems in Particle Physics, Astrophysics and Cosmology (2006)

2 L. Moneta et al., The RooStats Project, arXiv:1009.1003 (2010)

3 CMS Collaboration, The CMS Statistical Analysis and Combination Tool: Combine, arXiv:2404.06614 (2024)

6 G. Cowan, K. Cranmer, E. Gross, and O. Vitells, Asymptotic formulae for likelihood-based tests of new physics, Eur. Phys. J. C 71, 1554 (2011)

7 D. E. Gorin et al., Asymptotic formulas for estimating statistical significance in collider experiments, Uchenye Zapiski Fiz. Fak. MGU No. 1 (2024)


Accès à l'Outil : Le logiciel StatTestCalculator et la documentation sont disponibles sur GitHub : https://github.com/skottver/stattestcalculator