2025-11-24T11:16:24.556584

StatTestCalculator: A New General Tool for Statistical Analysis in High Energy Physics

Abasov, Dudko, Gorin et al.

We present StatTestCalculator (STC), a new open-source statistical analysis tool designed for analysis high energy physics experiments. STC provides both asymptotic calculations and Monte Carlo simulations for computing the exact statistical significance of a discovery or for setting upper limits on signal model parameters. We review the underlying statistical formalism, including profile likelihood ratio test statistics for discovery and exclusion hypotheses, and the asymptotic distributions that allow quick significance estimates. We explain the relevant formulas for the likelihood functions, test statistic distributions, and significance metrics (both with and without incorporating systematic uncertainties). The implementation and capabilities of STC are described, and we validate its performance against the widely-used CMS Combine tool. We find excellent agreement in both the expected discovery significances and upper limit calculations. STC is a flexible framework that can accommodate systematic uncertainties and user-defined statistical models, making it suitable for a broad range of analyses.

academic

StatTestCalculator: Ein neues universelles Werkzeug für statistische Analysen in der Hochenergiephysik

Grundinformationen

Papier-ID: 2510.11637
Titel: StatTestCalculator: A New General Tool for Statistical Analysis in High Energy Physics
Autoren: E. Abasov, L.V. Dudko, D.E. Gorin, O.S. Vasilevskii (Fakultät für Physik der Moskauer Staatsuniversität, Skobeltsyn-Institut für Kernphysik)
Klassifizierung: hep-ph (Hochenergiephysik-Phänomenologie), stat.CO (Statistik-Berechnung)
Veröffentlichungszeit/Konferenz: Moscow University Physics Bulletin 80(8), 2025; The XXV International Workshop-School High Energy Physics and Quantum Field Theory
Papierlink: https://arxiv.org/abs/2510.11637v1

Zusammenfassung

Dieses Papier stellt StatTestCalculator (STC) vor, ein neues Open-Source-Werkzeug für statistische Analysen, das speziell für die Analyse von Hochenergiephysik-Experimenten entwickelt wurde. STC bietet zwei Berechnungsmethoden – asymptotische Berechnungen und Monte-Carlo-Simulationen – zur Berechnung der genauen statistischen Signifikanz von Entdeckungen oder zur Festlegung von Obergrenzen für Signalmodellparameter. Das Papier überprüft die zugrunde liegende statistische Formalisierung, einschließlich des Profil-Likelihood-Verhältnis-Teststatistik für Entdeckungs- und Ausschlusshypothesen sowie asymptotischer Verteilungen, die schnelle Signifikanzschätzungen ermöglichen. Die Autoren erläutern detailliert die relevanten Formeln für Likelihood-Funktionen, Teststatistik-Verteilungen und Signifikanzmaße (mit und ohne systematische Unsicherheiten). Das Papier beschreibt die Implementierung und Funktionalität von STC und validiert seine Leistung durch einen Vergleich mit dem weit verbreiteten CMS-Combine-Werkzeug, wobei sowohl bei der erwarteten Entdeckungssignifikanz als auch bei der Obergrenzberechnung hervorragende Übereinstimmung gezeigt wird.

Forschungshintergrund und Motivation

Problemdefinition

Hochenergiephysik-Experimente (HEP) sind auf statistische Analysen von Beobachtungsdaten angewiesen, um Schlussfolgerungen über neue Phänomene zu ziehen. Da die Ergebnisse von Collider-Experimenten von Natur aus probabilistisch sind, sind strenge statistische Methoden erforderlich, um Parameter zu schätzen und die Signifikanz potenzieller Entdeckungen zu bewerten.

Einschränkungen bestehender Werkzeuge

Obwohl bereits viele komplexe statistische Werkzeuge für HEP-Analysen vorhanden sind, wie:

RooFit- und RooStats-Framework
CMS-Combine-Werkzeug
Theta
HistFactory

sind diese Werkzeuge typischerweise für komplexe großflächige Analysen konzipiert und es fehlt ein leichtgewichtiges Werkzeug, das schnelle und genaue allgemeine statistische Berechnungen für verschiedene häufige Szenarien bietet.

Forschungsmotivation

Anforderung an Benutzerfreundlichkeit: Bedarf an einem benutzerfreundlichen und vielseitigen Python-Werkzeug
Integrationsbequemlichkeit: Einfache Integration in neuronale Netzwerk-Pipelines
Schnelle Validierung: Erleichterung für vorläufige Empfindlichkeitsstudien, Überprüfung offizieller Ergebnisse oder Bildungszwecke
Skalierbarkeit: Unterstützung benutzerdefinierter statistischer Modelle und Teststatistiken

Kernbeiträge

Entwicklung eines neuen statistischen Analysewerkzeugs STC: Leichtgewichtiges, Python-basiertes Open-Source-Werkzeug speziell für HEP-Statistikanalysen
Bereitstellung dualer Berechnungsmethoden: Unterstützung sowohl asymptotischer Formeln (geschlossene Näherungen) als auch exakter Monte-Carlo-Simulationen
Umfassende Behandlung systematischer Unsicherheiten: Unterstützung normaler, logarithmisch normaler oder benutzerdefinierter Verteilungen systematischer Effekte
Validierung der Werkzeuggenauigkeit: Umfangreicher Vergleich mit dem CMS-Combine-Werkzeug zeigt hervorragende Übereinstimmung
Bereitstellung eines erweiterten mathematischen Rahmens: Verallgemeinerte Formeln von Ein-Bin-Analysen auf Multi-Bin-Formanalysen

Methodische Details

Statistische Annahmen und Likelihood-Formalisierung

Aufgabendefinition

In Collider-Experimenten werden zwei Hypothesen betrachtet:

Nullhypothese H₀ (nur Untergrund): Die Annahme, dass die Daten keinen Beitrag eines neuen Signals enthalten
Alternativhypothese H₁ (Signal + Untergrund): Die Annahme, dass neben dem Untergrund auch Signalereignisse vorhanden sind

Definieren Sie den Signalstärkeparameter μ, wobei μ=0 H₀ entspricht und μ=1 der nominalen Signalvorhersage unter H₁ entspricht.

Konstruktion der Likelihood-Funktion

Für ein Zählexperiment mit N Signalbereichen wird angenommen, dass die beobachteten Zählungen nᵢ einer Poisson-Verteilung folgen: nᵢ ~ Poisson(μsᵢ + κᵢbᵢ)

Die vollständige Likelihood-Funktion ist:

L(μ,θ) = ∏ᵢ₌₁ᴺ [(μsᵢ + κᵢbᵢ)^nᵢ e^-(μsᵢ+bᵢ)]/nᵢ! × ∏ⱼ₌₁ᴹ Systematic(θ)

Wobei:

sᵢ: Erwartete Anzahl von Signalereignissen
bᵢ: Erwartete Untergrundausbeute
κ: Parameter der systematischen Unsicherheit
θ: Vektor der Nuisance-Parameter

Profil-Likelihood-Verhältnis und Teststatistik

Definition des Profil-Likelihood-Verhältnisses

λ(μ) = L(μ, θ̂(μ)) / L(μ̂, θ̂)

Teststatistik

Definieren Sie die Teststatistik:

qμ = -2 ln λ(μ) = -2 ln [L(μ, θ̂(μ)) / L(μ̂, θ̂)]

Entdeckungs-Teststatistik q₀:

q₀ = {
  -2 ln λ(0),  wenn μ̂ ≥ 0
  0,           wenn μ̂ < 0
}

Ausschluss-Teststatistik qμ:

qμ = {
  -2 ln λ(μ),  wenn μ̂ ≤ μ
  0,           wenn μ̂ > μ
}

Analytische Formeln für Entdeckungssignifikanz

Für den Fall mit systematischen Unsicherheiten lautet die Formel für die Entdeckungssignifikanz:

Zdisc = √{2[(s+b)ln((s+b)(1+δ²b))/(b+δ²b(s+b)) - (1/δ²)ln(1+δ²s/(1+δ²b))]}

Wobei δ = σb/b die relative Untergrund-Unsicherheit ist.

Im Grenzfall ohne systematische Unsicherheiten (δ→0):

Zdisc = √{2[(s+b)ln(1+s/b) - s]}

Analytische Formeln für Ausschlusssignifikanz (Obergrenzen)

Die Formel für die Ausschlusssignifikanz mit Untergrund-Unsicherheit:

Zexcl = √{2[s - b ln((b+s+x)/(2b)) - (1/δ²)ln((b-s+x)/(2b))] - (b+s-x)(1+1/(δ²b))}

Wobei:

x = √[(b+s)² - 4δ²b²s/(1+δ²b)]

Experimentelle Einrichtung

Monte-Carlo-Simulationsrahmen

Erzeugung von Spielzeugexperimenten

Signalereignisse: Gezogen aus Poisson-Verteilung Poisson(μs)
Untergrund-Ereignisse: Gezogen aus Poisson-Verteilung Poisson(b)
Systematische Unsicherheiten: Angewendet auf Signal- und Untergrundverteilungen

Behandlung systematischer Unsicherheiten

Normalverteilung: κ ~ N(1, δ²)
Logarithmische Normalverteilung: κ ~ LogNormal(1, δ²)
Formenunsicherheit: Jeder Bin multipliziert mit Skalarwert κ
Ein-Bin-Unsicherheit: Jeder Bin hat unabhängigen κ-Faktor

Validierungs-Experimenteinrichtung

Vergleichswerkzeuge

Hauptsächlich Vergleich mit dem CMS-Combine-Werkzeug zur Validierung

Testszenarien

Berechnung der Entdeckungssignifikanz:
- Untergrund b = 100 Ereignisse
- Signal s = 10, 20, 30, ..., 50 Ereignisse
- Systematische Unsicherheiten: 0% und 20%
Obergrenzberechnung:
- 95%-Konfidenzlevel-Obergrenze
- Gleiche Signal- und Untergrundkonfiguration
- Monte-Carlo-Simulation mit 10⁵ Spielzeugexperimenten

Experimentelle Ergebnisse

Hauptergebnisse

Vergleich der Entdeckungssignifikanz

Die experimentellen Ergebnisse zeigen hervorragende Übereinstimmung zwischen STC und dem Combine-Werkzeug in folgenden Aspekten:

Asymptotische Berechnung:
- Ohne systematische Unsicherheiten: Perfekte Übereinstimmung
- 20% systematische Unsicherheit: Hohe Übereinstimmung
Monte-Carlo-Berechnung:
- MC-Ergebnisse beider Werkzeuge zeigen gute Übereinstimmung mit asymptotischen Formeln
- Statistische Unsicherheiten liegen im erwarteten Bereich

Vergleich der Obergrenzberechnung

Obergrenzberechnung auf 95%-Konfidenzlevel zeigt:

Validierung asymptotischer Formeln: STC-Asymptotikformeln stimmen vollständig mit Combine überein
Validierung von Monte-Carlo: Spielzeugexperimente bestätigen die Genauigkeit asymptotischer Näherungen
Auswirkung systematischer Unsicherheiten: Korrekte Widerspiegelung der Schwächung der Ausschlussfähigkeit durch systematische Unsicherheiten

Leistungsbewertung

Recheneffizienz

Asymptotische Berechnung: Fast augenblicklich (Bruchteile von Sekunden)
Monte-Carlo-Simulation: 10⁵ Spielzeugexperimente in Sekunden bis Minuten

Genauigkeitsvalidierung

Alle Testszenarien zeigen, dass STC Standardberechnungen genau reproduzieren kann und bestätigen:

Korrekte Implementierung mathematischer Formeln
Zuverlässigkeit des Monte-Carlo-Algorithmus
Genauigkeit der Behandlung systematischer Unsicherheiten

Validierung erweiterter Funktionen

Multi-Bin-Formanalyse

STC wurde erfolgreich auf komplexere Multi-Bin-Formanalyseszenarien angewendet, wobei Formeln aus Referenz 7 verwendet wurden.

Benutzerdefinierte Funktionen

Validierung der folgenden Erweiterungsfähigkeiten:

Benutzerdefinierte Teststatistik-Definitionen
Alternative Likelihood-Funktionsformen
Benutzerdefinierte Verteilungen systematischer Unsicherheiten

Werkzeug	Merkmale	Einschränkungen
RooFit/RooStats	Leistungsstark, weit verbreitet	Komplex, steile Lernkurve
CMS Combine	Standard-Werkzeug, vollständige Funktionalität	Hauptsächlich für großflächige Analysen
Theta	Bayesianische Methode	Spezifischer Zweck
HistFactory	Modellkonstruktion	Benötigt andere Werkzeuge

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Werkzeugeffektivität: STC implementiert erfolgreich genaue statistische Analysefunktionen mit hervorragender Übereinstimmung mit dem Standard-Werkzeug Combine
Methodenvollständigkeit: Bietet einen vollständigen statistischen Rahmen von einfachen Zählexperimenten bis zu komplexen Formanalysen
Praktischer Wert: Das leichtgewichtige Design macht es für schnelle Analysen und Bildungszwecke geeignet
Erweiterbarkeit: Das modulare Design unterstützt benutzerdefinierte und Methodenerweiterungen

Einschränkungen

Komplexitätsgrenzen: Obwohl Multi-Bin-Analysen unterstützt werden, kann es bei extrem komplexen statistischen Modellen spezialisierteren Werkzeugen unterlegen sein
Optimierungsspielraum: Leistungsoptimierung bei der Verarbeitung großer Datenmengen hat Verbesserungspotenzial
Dokumentationsvollständigkeit: Als neues Werkzeug benötigt es mehr Anwendungsbeispiele und Dokumentation

Zukünftige Richtungen

Funktionserweiterung:
- Unterstützung für mehr statistische Verteilungen
- Hinzufügen von Bayesianischen Methoden
- Erweiterung auf komplexere Experimentdesigns
Leistungsoptimierung:
- Parallelisierung von Monte-Carlo-Berechnungen
- Speichernutzungsoptimierung
- Fähigkeiten zur Verarbeitung großer Datenmengen
Gemeinschaftsaufbau:
- Erhöhung der Verwendungsbeispiele
- Verbesserung der Dokumentation
- Förderung von Gemeinschaftsbeiträgen

Tiefgreifende Bewertung

Stärken

Technische Innovativität:
- Erfolgreiche Umwandlung komplexer statistischer Theorie in ein benutzerfreundliches Werkzeug
- Vollständige mathematische Ableitungen und Implementierung
- Duale Validierungsmethoden (asymptotisch + MC) erhöhen die Zuverlässigkeit der Ergebnisse
Experimentelle Vollständigkeit:
- Umfassender Vergleich mit Standard-Werkzeugen
- Testabdeckung mehrerer Szenarien
- Korrekte Behandlung systematischer Unsicherheiten
Praktischer Wert:
- Füllt die Lücke leichtgewichtiger statistischer Werkzeuge
- Python-Implementierung erleichtert Integration und Modifikation
- Open-Source-Natur fördert Gemeinschaftsentwicklung
Schreibklarheit:
- Detaillierte und korrekte mathematische Ableitungen
- Klare Beschreibung von Implementierungsdetails
- Transparenter Validierungsprozess

Mängel

Methodische Einschränkungen:
- Hauptsächlich auf Frequentist-Methoden basierend
- Begrenzte Unterstützung für bestimmte spezielle statistische Modelle
- Fähigkeiten zur großflächigen Parallelberechnung müssen verbessert werden
Experimentelle Einrichtung:
- Validierung hauptsächlich auf einfachen Modellen basierend
- Mangel an Testfällen echter komplexer Experimente
- Leistungs-Benchmarking ist relativ einfach
Vergleichsanalyse:
- Hauptsächlich Vergleich mit Combine, mangelnde Vergleiche mit anderen Werkzeugen
- Quantitative Analyse der Recheneffizienz nicht ausreichend

Bewertung der Auswirkungen

Akademische Beiträge:
- Bietet neue Werkzeugoptionen für HEP-Statistikanalysen
- Vollständiger mathematischer Rahmen hat Bildungswert
- Open-Source-Implementierung fördert Methodentransparenz
Praktische Auswirkungen:
- Senkt die technischen Hürden für statistische Analysen
- Erleichtert schnelle Prototypentwicklung und Validierung
- Unterstützt Lehr- und Lernaktivitäten
Reproduzierbarkeit:
- Open-Source-Code gewährleistet vollständige Reproduzierbarkeit
- Detaillierte mathematische Ableitungen unterstützen unabhängige Validierung
- Vergleich mit Standard-Werkzeugen erhöht die Glaubwürdigkeit

Anwendungsszenarien

Ideale Anwendungen:
- Vorläufige Empfindlichkeitsstudien
- Lernen und Lehren statistischer Methoden
- Schnelle Prototypentwicklung
- Überprüfung von Ergebnissen
Begrenzte Szenarien:
- Extrem großflächige komplexe Analysen
- Fälle, die spezielle statistische Methoden erfordern
- Produktionsumgebungen mit extremen Leistungsanforderungen

Literaturverzeichnis

1 W. Verkerke and D. Kirkby, The RooFit toolkit for data modeling, Statistical Problems in Particle Physics, Astrophysics and Cosmology (2006)

2 L. Moneta et al., The RooStats Project, arXiv:1009.1003 (2010)

3 CMS Collaboration, The CMS Statistical Analysis and Combination Tool: Combine, arXiv:2404.06614 (2024)

6 G. Cowan, K. Cranmer, E. Gross, and O. Vitells, Asymptotic formulae for likelihood-based tests of new physics, Eur. Phys. J. C 71, 1554 (2011)

7 D. E. Gorin et al., Asymptotic formulas for estimating statistical significance in collider experiments, Uchenye Zapiski Fiz. Fak. MGU No. 1 (2024)

Werkzeugbeschaffung: Die StatTestCalculator-Software und Dokumentation sind auf GitHub verfügbar: https://github.com/skottver/stattestcalculator