2025-11-24T11:16:24.556584

StatTestCalculator: A New General Tool for Statistical Analysis in High Energy Physics

Abasov, Dudko, Gorin et al.
We present StatTestCalculator (STC), a new open-source statistical analysis tool designed for analysis high energy physics experiments. STC provides both asymptotic calculations and Monte Carlo simulations for computing the exact statistical significance of a discovery or for setting upper limits on signal model parameters. We review the underlying statistical formalism, including profile likelihood ratio test statistics for discovery and exclusion hypotheses, and the asymptotic distributions that allow quick significance estimates. We explain the relevant formulas for the likelihood functions, test statistic distributions, and significance metrics (both with and without incorporating systematic uncertainties). The implementation and capabilities of STC are described, and we validate its performance against the widely-used CMS Combine tool. We find excellent agreement in both the expected discovery significances and upper limit calculations. STC is a flexible framework that can accommodate systematic uncertainties and user-defined statistical models, making it suitable for a broad range of analyses.
academic

StatTestCalculator: Ein neues universelles Werkzeug für statistische Analysen in der Hochenergiephysik

Grundinformationen

  • Papier-ID: 2510.11637
  • Titel: StatTestCalculator: A New General Tool for Statistical Analysis in High Energy Physics
  • Autoren: E. Abasov, L.V. Dudko, D.E. Gorin, O.S. Vasilevskii (Fakultät für Physik der Moskauer Staatsuniversität, Skobeltsyn-Institut für Kernphysik)
  • Klassifizierung: hep-ph (Hochenergiephysik-Phänomenologie), stat.CO (Statistik-Berechnung)
  • Veröffentlichungszeit/Konferenz: Moscow University Physics Bulletin 80(8), 2025; The XXV International Workshop-School High Energy Physics and Quantum Field Theory
  • Papierlink: https://arxiv.org/abs/2510.11637v1

Zusammenfassung

Dieses Papier stellt StatTestCalculator (STC) vor, ein neues Open-Source-Werkzeug für statistische Analysen, das speziell für die Analyse von Hochenergiephysik-Experimenten entwickelt wurde. STC bietet zwei Berechnungsmethoden – asymptotische Berechnungen und Monte-Carlo-Simulationen – zur Berechnung der genauen statistischen Signifikanz von Entdeckungen oder zur Festlegung von Obergrenzen für Signalmodellparameter. Das Papier überprüft die zugrunde liegende statistische Formalisierung, einschließlich des Profil-Likelihood-Verhältnis-Teststatistik für Entdeckungs- und Ausschlusshypothesen sowie asymptotischer Verteilungen, die schnelle Signifikanzschätzungen ermöglichen. Die Autoren erläutern detailliert die relevanten Formeln für Likelihood-Funktionen, Teststatistik-Verteilungen und Signifikanzmaße (mit und ohne systematische Unsicherheiten). Das Papier beschreibt die Implementierung und Funktionalität von STC und validiert seine Leistung durch einen Vergleich mit dem weit verbreiteten CMS-Combine-Werkzeug, wobei sowohl bei der erwarteten Entdeckungssignifikanz als auch bei der Obergrenzberechnung hervorragende Übereinstimmung gezeigt wird.

Forschungshintergrund und Motivation

Problemdefinition

Hochenergiephysik-Experimente (HEP) sind auf statistische Analysen von Beobachtungsdaten angewiesen, um Schlussfolgerungen über neue Phänomene zu ziehen. Da die Ergebnisse von Collider-Experimenten von Natur aus probabilistisch sind, sind strenge statistische Methoden erforderlich, um Parameter zu schätzen und die Signifikanz potenzieller Entdeckungen zu bewerten.

Einschränkungen bestehender Werkzeuge

Obwohl bereits viele komplexe statistische Werkzeuge für HEP-Analysen vorhanden sind, wie:

  • RooFit- und RooStats-Framework
  • CMS-Combine-Werkzeug
  • Theta
  • HistFactory

sind diese Werkzeuge typischerweise für komplexe großflächige Analysen konzipiert und es fehlt ein leichtgewichtiges Werkzeug, das schnelle und genaue allgemeine statistische Berechnungen für verschiedene häufige Szenarien bietet.

Forschungsmotivation

  1. Anforderung an Benutzerfreundlichkeit: Bedarf an einem benutzerfreundlichen und vielseitigen Python-Werkzeug
  2. Integrationsbequemlichkeit: Einfache Integration in neuronale Netzwerk-Pipelines
  3. Schnelle Validierung: Erleichterung für vorläufige Empfindlichkeitsstudien, Überprüfung offizieller Ergebnisse oder Bildungszwecke
  4. Skalierbarkeit: Unterstützung benutzerdefinierter statistischer Modelle und Teststatistiken

Kernbeiträge

  1. Entwicklung eines neuen statistischen Analysewerkzeugs STC: Leichtgewichtiges, Python-basiertes Open-Source-Werkzeug speziell für HEP-Statistikanalysen
  2. Bereitstellung dualer Berechnungsmethoden: Unterstützung sowohl asymptotischer Formeln (geschlossene Näherungen) als auch exakter Monte-Carlo-Simulationen
  3. Umfassende Behandlung systematischer Unsicherheiten: Unterstützung normaler, logarithmisch normaler oder benutzerdefinierter Verteilungen systematischer Effekte
  4. Validierung der Werkzeuggenauigkeit: Umfangreicher Vergleich mit dem CMS-Combine-Werkzeug zeigt hervorragende Übereinstimmung
  5. Bereitstellung eines erweiterten mathematischen Rahmens: Verallgemeinerte Formeln von Ein-Bin-Analysen auf Multi-Bin-Formanalysen

Methodische Details

Statistische Annahmen und Likelihood-Formalisierung

Aufgabendefinition

In Collider-Experimenten werden zwei Hypothesen betrachtet:

  • Nullhypothese H₀ (nur Untergrund): Die Annahme, dass die Daten keinen Beitrag eines neuen Signals enthalten
  • Alternativhypothese H₁ (Signal + Untergrund): Die Annahme, dass neben dem Untergrund auch Signalereignisse vorhanden sind

Definieren Sie den Signalstärkeparameter μ, wobei μ=0 H₀ entspricht und μ=1 der nominalen Signalvorhersage unter H₁ entspricht.

Konstruktion der Likelihood-Funktion

Für ein Zählexperiment mit N Signalbereichen wird angenommen, dass die beobachteten Zählungen nᵢ einer Poisson-Verteilung folgen: nᵢ ~ Poisson(μsᵢ + κᵢbᵢ)

Die vollständige Likelihood-Funktion ist:

L(μ,θ) = ∏ᵢ₌₁ᴺ [(μsᵢ + κᵢbᵢ)^nᵢ e^-(μsᵢ+bᵢ)]/nᵢ! × ∏ⱼ₌₁ᴹ Systematic(θ)

Wobei:

  • sᵢ: Erwartete Anzahl von Signalereignissen
  • bᵢ: Erwartete Untergrundausbeute
  • κ: Parameter der systematischen Unsicherheit
  • θ: Vektor der Nuisance-Parameter

Profil-Likelihood-Verhältnis und Teststatistik

Definition des Profil-Likelihood-Verhältnisses

λ(μ) = L(μ, θ̂(μ)) / L(μ̂, θ̂)

Teststatistik

Definieren Sie die Teststatistik:

qμ = -2 ln λ(μ) = -2 ln [L(μ, θ̂(μ)) / L(μ̂, θ̂)]

Entdeckungs-Teststatistik q₀:

q₀ = {
  -2 ln λ(0),  wenn μ̂ ≥ 0
  0,           wenn μ̂ < 0
}

Ausschluss-Teststatistik qμ:

qμ = {
  -2 ln λ(μ),  wenn μ̂ ≤ μ
  0,           wenn μ̂ > μ
}

Analytische Formeln für Entdeckungssignifikanz

Für den Fall mit systematischen Unsicherheiten lautet die Formel für die Entdeckungssignifikanz:

Zdisc = √{2[(s+b)ln((s+b)(1+δ²b))/(b+δ²b(s+b)) - (1/δ²)ln(1+δ²s/(1+δ²b))]}

Wobei δ = σb/b die relative Untergrund-Unsicherheit ist.

Im Grenzfall ohne systematische Unsicherheiten (δ→0):

Zdisc = √{2[(s+b)ln(1+s/b) - s]}

Analytische Formeln für Ausschlusssignifikanz (Obergrenzen)

Die Formel für die Ausschlusssignifikanz mit Untergrund-Unsicherheit:

Zexcl = √{2[s - b ln((b+s+x)/(2b)) - (1/δ²)ln((b-s+x)/(2b))] - (b+s-x)(1+1/(δ²b))}

Wobei:

x = √[(b+s)² - 4δ²b²s/(1+δ²b)]

Experimentelle Einrichtung

Monte-Carlo-Simulationsrahmen

Erzeugung von Spielzeugexperimenten

  1. Signalereignisse: Gezogen aus Poisson-Verteilung Poisson(μs)
  2. Untergrund-Ereignisse: Gezogen aus Poisson-Verteilung Poisson(b)
  3. Systematische Unsicherheiten: Angewendet auf Signal- und Untergrundverteilungen

Behandlung systematischer Unsicherheiten

  • Normalverteilung: κ ~ N(1, δ²)
  • Logarithmische Normalverteilung: κ ~ LogNormal(1, δ²)
  • Formenunsicherheit: Jeder Bin multipliziert mit Skalarwert κ
  • Ein-Bin-Unsicherheit: Jeder Bin hat unabhängigen κ-Faktor

Validierungs-Experimenteinrichtung

Vergleichswerkzeuge

Hauptsächlich Vergleich mit dem CMS-Combine-Werkzeug zur Validierung

Testszenarien

  1. Berechnung der Entdeckungssignifikanz:
    • Untergrund b = 100 Ereignisse
    • Signal s = 10, 20, 30, ..., 50 Ereignisse
    • Systematische Unsicherheiten: 0% und 20%
  2. Obergrenzberechnung:
    • 95%-Konfidenzlevel-Obergrenze
    • Gleiche Signal- und Untergrundkonfiguration
    • Monte-Carlo-Simulation mit 10⁵ Spielzeugexperimenten

Experimentelle Ergebnisse

Hauptergebnisse

Vergleich der Entdeckungssignifikanz

Die experimentellen Ergebnisse zeigen hervorragende Übereinstimmung zwischen STC und dem Combine-Werkzeug in folgenden Aspekten:

  1. Asymptotische Berechnung:
    • Ohne systematische Unsicherheiten: Perfekte Übereinstimmung
    • 20% systematische Unsicherheit: Hohe Übereinstimmung
  2. Monte-Carlo-Berechnung:
    • MC-Ergebnisse beider Werkzeuge zeigen gute Übereinstimmung mit asymptotischen Formeln
    • Statistische Unsicherheiten liegen im erwarteten Bereich

Vergleich der Obergrenzberechnung

Obergrenzberechnung auf 95%-Konfidenzlevel zeigt:

  1. Validierung asymptotischer Formeln: STC-Asymptotikformeln stimmen vollständig mit Combine überein
  2. Validierung von Monte-Carlo: Spielzeugexperimente bestätigen die Genauigkeit asymptotischer Näherungen
  3. Auswirkung systematischer Unsicherheiten: Korrekte Widerspiegelung der Schwächung der Ausschlussfähigkeit durch systematische Unsicherheiten

Leistungsbewertung

Recheneffizienz

  • Asymptotische Berechnung: Fast augenblicklich (Bruchteile von Sekunden)
  • Monte-Carlo-Simulation: 10⁵ Spielzeugexperimente in Sekunden bis Minuten

Genauigkeitsvalidierung

Alle Testszenarien zeigen, dass STC Standardberechnungen genau reproduzieren kann und bestätigen:

  1. Korrekte Implementierung mathematischer Formeln
  2. Zuverlässigkeit des Monte-Carlo-Algorithmus
  3. Genauigkeit der Behandlung systematischer Unsicherheiten

Validierung erweiterter Funktionen

Multi-Bin-Formanalyse

STC wurde erfolgreich auf komplexere Multi-Bin-Formanalyseszenarien angewendet, wobei Formeln aus Referenz 7 verwendet wurden.

Benutzerdefinierte Funktionen

Validierung der folgenden Erweiterungsfähigkeiten:

  1. Benutzerdefinierte Teststatistik-Definitionen
  2. Alternative Likelihood-Funktionsformen
  3. Benutzerdefinierte Verteilungen systematischer Unsicherheiten

Verwandte Arbeiten

Vergleich bestehender statistischer Werkzeuge

WerkzeugMerkmaleEinschränkungen
RooFit/RooStatsLeistungsstark, weit verbreitetKomplex, steile Lernkurve
CMS CombineStandard-Werkzeug, vollständige FunktionalitätHauptsächlich für großflächige Analysen
ThetaBayesianische MethodeSpezifischer Zweck
HistFactoryModellkonstruktionBenötigt andere Werkzeuge

Positionierung von STC

STC füllt die Lücke eines leichtgewichtigen, benutzerfreundlichen und schnellen statistischen Analysewerkzeugs, besonders geeignet für:

  • Vorläufige Empfindlichkeitsstudien
  • Überprüfung von Ergebnissen
  • Bildungs- und Lernzwecke
  • Integration in neuronale Netzwerk-Pipelines

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Werkzeugeffektivität: STC implementiert erfolgreich genaue statistische Analysefunktionen mit hervorragender Übereinstimmung mit dem Standard-Werkzeug Combine
  2. Methodenvollständigkeit: Bietet einen vollständigen statistischen Rahmen von einfachen Zählexperimenten bis zu komplexen Formanalysen
  3. Praktischer Wert: Das leichtgewichtige Design macht es für schnelle Analysen und Bildungszwecke geeignet
  4. Erweiterbarkeit: Das modulare Design unterstützt benutzerdefinierte und Methodenerweiterungen

Einschränkungen

  1. Komplexitätsgrenzen: Obwohl Multi-Bin-Analysen unterstützt werden, kann es bei extrem komplexen statistischen Modellen spezialisierteren Werkzeugen unterlegen sein
  2. Optimierungsspielraum: Leistungsoptimierung bei der Verarbeitung großer Datenmengen hat Verbesserungspotenzial
  3. Dokumentationsvollständigkeit: Als neues Werkzeug benötigt es mehr Anwendungsbeispiele und Dokumentation

Zukünftige Richtungen

  1. Funktionserweiterung:
    • Unterstützung für mehr statistische Verteilungen
    • Hinzufügen von Bayesianischen Methoden
    • Erweiterung auf komplexere Experimentdesigns
  2. Leistungsoptimierung:
    • Parallelisierung von Monte-Carlo-Berechnungen
    • Speichernutzungsoptimierung
    • Fähigkeiten zur Verarbeitung großer Datenmengen
  3. Gemeinschaftsaufbau:
    • Erhöhung der Verwendungsbeispiele
    • Verbesserung der Dokumentation
    • Förderung von Gemeinschaftsbeiträgen

Tiefgreifende Bewertung

Stärken

  1. Technische Innovativität:
    • Erfolgreiche Umwandlung komplexer statistischer Theorie in ein benutzerfreundliches Werkzeug
    • Vollständige mathematische Ableitungen und Implementierung
    • Duale Validierungsmethoden (asymptotisch + MC) erhöhen die Zuverlässigkeit der Ergebnisse
  2. Experimentelle Vollständigkeit:
    • Umfassender Vergleich mit Standard-Werkzeugen
    • Testabdeckung mehrerer Szenarien
    • Korrekte Behandlung systematischer Unsicherheiten
  3. Praktischer Wert:
    • Füllt die Lücke leichtgewichtiger statistischer Werkzeuge
    • Python-Implementierung erleichtert Integration und Modifikation
    • Open-Source-Natur fördert Gemeinschaftsentwicklung
  4. Schreibklarheit:
    • Detaillierte und korrekte mathematische Ableitungen
    • Klare Beschreibung von Implementierungsdetails
    • Transparenter Validierungsprozess

Mängel

  1. Methodische Einschränkungen:
    • Hauptsächlich auf Frequentist-Methoden basierend
    • Begrenzte Unterstützung für bestimmte spezielle statistische Modelle
    • Fähigkeiten zur großflächigen Parallelberechnung müssen verbessert werden
  2. Experimentelle Einrichtung:
    • Validierung hauptsächlich auf einfachen Modellen basierend
    • Mangel an Testfällen echter komplexer Experimente
    • Leistungs-Benchmarking ist relativ einfach
  3. Vergleichsanalyse:
    • Hauptsächlich Vergleich mit Combine, mangelnde Vergleiche mit anderen Werkzeugen
    • Quantitative Analyse der Recheneffizienz nicht ausreichend

Bewertung der Auswirkungen

  1. Akademische Beiträge:
    • Bietet neue Werkzeugoptionen für HEP-Statistikanalysen
    • Vollständiger mathematischer Rahmen hat Bildungswert
    • Open-Source-Implementierung fördert Methodentransparenz
  2. Praktische Auswirkungen:
    • Senkt die technischen Hürden für statistische Analysen
    • Erleichtert schnelle Prototypentwicklung und Validierung
    • Unterstützt Lehr- und Lernaktivitäten
  3. Reproduzierbarkeit:
    • Open-Source-Code gewährleistet vollständige Reproduzierbarkeit
    • Detaillierte mathematische Ableitungen unterstützen unabhängige Validierung
    • Vergleich mit Standard-Werkzeugen erhöht die Glaubwürdigkeit

Anwendungsszenarien

  1. Ideale Anwendungen:
    • Vorläufige Empfindlichkeitsstudien
    • Lernen und Lehren statistischer Methoden
    • Schnelle Prototypentwicklung
    • Überprüfung von Ergebnissen
  2. Begrenzte Szenarien:
    • Extrem großflächige komplexe Analysen
    • Fälle, die spezielle statistische Methoden erfordern
    • Produktionsumgebungen mit extremen Leistungsanforderungen

Literaturverzeichnis

1 W. Verkerke and D. Kirkby, The RooFit toolkit for data modeling, Statistical Problems in Particle Physics, Astrophysics and Cosmology (2006)

2 L. Moneta et al., The RooStats Project, arXiv:1009.1003 (2010)

3 CMS Collaboration, The CMS Statistical Analysis and Combination Tool: Combine, arXiv:2404.06614 (2024)

6 G. Cowan, K. Cranmer, E. Gross, and O. Vitells, Asymptotic formulae for likelihood-based tests of new physics, Eur. Phys. J. C 71, 1554 (2011)

7 D. E. Gorin et al., Asymptotic formulas for estimating statistical significance in collider experiments, Uchenye Zapiski Fiz. Fak. MGU No. 1 (2024)


Werkzeugbeschaffung: Die StatTestCalculator-Software und Dokumentation sind auf GitHub verfügbar: https://github.com/skottver/stattestcalculator