2025-11-24T11:16:24.556584

StatTestCalculator: A New General Tool for Statistical Analysis in High Energy Physics

Abasov, Dudko, Gorin et al.
We present StatTestCalculator (STC), a new open-source statistical analysis tool designed for analysis high energy physics experiments. STC provides both asymptotic calculations and Monte Carlo simulations for computing the exact statistical significance of a discovery or for setting upper limits on signal model parameters. We review the underlying statistical formalism, including profile likelihood ratio test statistics for discovery and exclusion hypotheses, and the asymptotic distributions that allow quick significance estimates. We explain the relevant formulas for the likelihood functions, test statistic distributions, and significance metrics (both with and without incorporating systematic uncertainties). The implementation and capabilities of STC are described, and we validate its performance against the widely-used CMS Combine tool. We find excellent agreement in both the expected discovery significances and upper limit calculations. STC is a flexible framework that can accommodate systematic uncertainties and user-defined statistical models, making it suitable for a broad range of analyses.
academic

StatTestCalculator: Un Nuovo Strumento Generale per l'Analisi Statistica nella Fisica delle Alte Energie

Informazioni Fondamentali

  • ID Articolo: 2510.11637
  • Titolo: StatTestCalculator: A New General Tool for Statistical Analysis in High Energy Physics
  • Autori: E. Abasov, L.V. Dudko, D.E. Gorin, O.S. Vasilevskii (Facoltà di Fisica dell'Università Statale di Mosca, Istituto di Ricerca Nucleare Skobeltsyn)
  • Classificazione: hep-ph (Fisica delle alte energie - Fenomenologia), stat.CO (Statistica - Computazionale)
  • Data di Pubblicazione/Conferenza: Moscow University Physics Bulletin 80(8), 2025; XXV International Workshop-School High Energy Physics and Quantum Field Theory
  • Link dell'Articolo: https://arxiv.org/abs/2510.11637v1

Riassunto

Questo articolo introduce StatTestCalculator (STC), un nuovo strumento open-source per l'analisi statistica appositamente progettato per l'analisi sperimentale nella fisica delle alte energie. STC fornisce due metodologie di calcolo - formule asintotiche e simulazioni Monte Carlo - per calcolare la significatività statistica precisa di una scoperta o per stabilire limiti superiori sui parametri del modello di segnale. L'articolo esamina il formalismo statistico sottostante, incluso il test del rapporto di verosimiglianza profilato per le ipotesi di scoperta e esclusione, nonché le distribuzioni asintotiche che consentono stime rapide della significatività. Gli autori spiegano in dettaglio le formule rilevanti per la funzione di verosimiglianza, la distribuzione della statistica di test e le misure di significatività, sia con che senza incertezze sistematiche. L'articolo descrive l'implementazione e le funzionalità di STC e valida le sue prestazioni attraverso un confronto estensivo con lo strumento CMS Combine ampiamente utilizzato, dimostrando un'eccellente coerenza sia nei calcoli della significatività di scoperta attesa che nei calcoli dei limiti superiori.

Contesto di Ricerca e Motivazione

Definizione del Problema

Gli esperimenti di fisica delle alte energie (HEP) si affidano all'analisi statistica dei dati osservati per trarre conclusioni su fenomeni nuovi. Poiché i risultati degli esperimenti di collisione sono intrinsecamente probabilistici, sono necessari metodi statistici rigorosi per stimare i parametri e valutare la significatività di potenziali scoperte.

Limitazioni degli Strumenti Esistenti

Sebbene esistano numerosi strumenti statistici sofisticati per l'analisi HEP, come:

  • Framework RooFit e RooStats
  • Strumento CMS Combine
  • Theta
  • HistFactory

questi strumenti sono generalmente progettati per analisi complesse su larga scala e mancano di uno strumento leggero che fornisca calcoli statistici veloci e accurati per una varietà di scenari comuni.

Motivazione della Ricerca

  1. Necessità di Facilità d'Uso: è richiesto uno strumento Python facile da usare e versatile
  2. Facilità di Integrazione: capacità di integrarsi facilmente nelle pipeline di reti neurali
  3. Verifica Rapida: facilitare gli studi preliminari di sensibilità, la verifica incrociata dei risultati ufficiali o scopi educativi
  4. Scalabilità: supportare modelli statistici personalizzati e statistiche di test definite dall'utente

Contributi Principali

  1. Sviluppo del nuovo strumento di analisi statistica STC: strumento open-source leggero basato su Python, specificamente progettato per l'analisi statistica HEP
  2. Fornitura di metodologie di calcolo duali: supporto sia per formule asintotiche (approssimazioni in forma chiusa) che per calcoli esatti mediante simulazioni Monte Carlo
  3. Gestione completa delle incertezze sistematiche: supporto per distribuzioni normali, lognormali o definite dall'utente degli effetti sistematici
  4. Validazione dell'accuratezza dello strumento: confronto estensivo con lo strumento CMS Combine, dimostrando un'eccellente coerenza
  5. Fornitura di un framework matematico esteso: generalizzazione delle formule dall'analisi a singolo bin all'analisi di forma multi-bin

Dettagli Metodologici

Formalismo Statistico e Costruzione della Verosimiglianza

Definizione del Compito

Negli esperimenti di collisione, si considerano due ipotesi:

  • Ipotesi Nulla H₀ (solo fondo): l'ipotesi che i dati non contengano contributi di nuovo segnale
  • Ipotesi Alternativa H₁ (segnale + fondo): l'ipotesi che, oltre al fondo, siano presenti eventi di segnale

Si definisce il parametro di intensità del segnale μ, dove μ=0 corrisponde a H₀ e μ=1 corrisponde alla previsione di segnale nominale sotto H₁.

Costruzione della Funzione di Verosimiglianza

Per un esperimento di conteggio con N regioni di segnale, i conteggi osservati nᵢ si assume seguano una distribuzione di Poisson: nᵢ ~ Poisson(μsᵢ + κᵢbᵢ)

La funzione di verosimiglianza completa è:

L(μ,θ) = ∏ᵢ₌₁ᴺ [(μsᵢ + κᵢbᵢ)^nᵢ e^-(μsᵢ+bᵢ)]/nᵢ! × ∏ⱼ₌₁ᴹ Systematic(θ)

dove:

  • sᵢ: numero di eventi di segnale attesi
  • bᵢ: resa di fondo attesa
  • κ: parametri di incertezza sistematica
  • θ: vettore di parametri di disturbo

Rapporto di Verosimiglianza Profilato e Statistica di Test

Definizione del Rapporto di Verosimiglianza Profilato

λ(μ) = L(μ, θ̂(μ)) / L(μ̂, θ̂)

Statistica di Test

Si definisce la statistica di test:

qμ = -2 ln λ(μ) = -2 ln [L(μ, θ̂(μ)) / L(μ̂, θ̂)]

Statistica di Test di Scoperta q₀:

q₀ = {
  -2 ln λ(0),  se μ̂ ≥ 0
  0,           se μ̂ < 0
}

Statistica di Test di Esclusione qμ:

qμ = {
  -2 ln λ(μ),  se μ̂ ≤ μ
  0,           se μ̂ > μ
}

Formule Analitiche per la Significatività di Scoperta

Per il caso che include incertezze sistematiche, la formula della significatività di scoperta è:

Zdisc = √{2[(s+b)ln((s+b)(1+δ²b))/(b+δ²b(s+b)) - (1/δ²)ln(1+δ²s/(1+δ²b))]}

dove δ = σb/b è l'incertezza relativa del fondo.

Nel limite di assenza di incertezze sistematiche (δ→0):

Zdisc = √{2[(s+b)ln(1+s/b) - s]}

Formule Analitiche per la Significatività di Esclusione (Limite Superiore)

La formula della significatività di esclusione che include l'incertezza del fondo è:

Zexcl = √{2[s - b ln((b+s+x)/(2b)) - (1/δ²)ln((b-s+x)/(2b))] - (b+s-x)(1+1/(δ²b))}

dove:

x = √[(b+s)² - 4δ²b²s/(1+δ²b)]

Configurazione Sperimentale

Framework di Simulazione Monte Carlo

Generazione di Esperimenti Giocattolo

  1. Eventi di Segnale: estratti dalla distribuzione di Poisson Poisson(μs)
  2. Eventi di Fondo: estratti dalla distribuzione di Poisson Poisson(b)
  3. Incertezze Sistematiche: applicate alle distribuzioni di segnale e fondo

Gestione delle Incertezze Sistematiche

  • Distribuzione Normale: κ ~ N(1, δ²)
  • Distribuzione Lognormale: κ ~ LogNormal(1, δ²)
  • Incertezza di Forma: ogni bin moltiplicato per un valore scalare κ
  • Incertezza a Singolo Bin: ogni bin ha un fattore κ indipendente

Configurazione degli Esperimenti di Validazione

Strumenti di Confronto

Confronto principale con lo strumento CMS Combine

Scenari di Test

  1. Calcolo della Significatività di Scoperta:
    • Fondo b = 100 eventi
    • Segnale s = 10, 20, 30, ..., 50 eventi
    • Incertezze sistematiche: 0% e 20%
  2. Calcolo dei Limiti Superiori:
    • Limite di confidenza al 95%
    • Stessa configurazione di segnale e fondo
    • Simulazioni Monte Carlo utilizzando 10⁵ esperimenti giocattolo

Risultati Sperimentali

Risultati Principali

Confronto della Significatività di Scoperta

I risultati sperimentali mostrano che STC e lo strumento Combine presentano un'eccellente coerenza nei seguenti aspetti:

  1. Calcoli Asintotici:
    • Senza incertezze sistematiche: corrispondenza perfetta
    • Con incertezza sistematica del 20%: elevata coerenza
  2. Calcoli Monte Carlo:
    • I risultati MC di entrambi gli strumenti mostrano buona coerenza con le formule asintotiche
    • Le incertezze statistiche rientrano negli intervalli attesi

Confronto dei Calcoli dei Limiti Superiori

I calcoli dei limiti superiori al livello di confidenza del 95% mostrano:

  1. Validazione delle Formule Asintotiche: le formule asintotiche di STC sono completamente coerenti con Combine
  2. Validazione Monte Carlo: i risultati degli esperimenti giocattolo confermano l'accuratezza dell'approssimazione asintotica
  3. Impatto dell'Incertezza Sistematica: riflette correttamente l'indebolimento della capacità di esclusione dovuto all'incertezza sistematica

Valutazione delle Prestazioni

Efficienza Computazionale

  • Calcoli Asintotici: completamento quasi istantaneo (frazioni di secondo)
  • Simulazioni Monte Carlo: 10⁵ esperimenti giocattolo completati in pochi secondi a pochi minuti

Validazione dell'Accuratezza

Tutti gli scenari di test mostrano che STC è in grado di riprodurre accuratamente i calcoli standard, confermando:

  1. La corretta implementazione delle formule matematiche
  2. L'affidabilità dell'algoritmo Monte Carlo
  3. L'accuratezza della gestione delle incertezze sistematiche

Validazione delle Funzionalità Estese

Analisi di Forma Multi-Bin

STC è stato applicato con successo a scenari di analisi di forma multi-bin più complessi, utilizzando le formule estese dalla letteratura 7.

Funzionalità Personalizzate dall'Utente

È stata verificata la seguente capacità di estensione:

  1. Definizioni personalizzate della statistica di test
  2. Forme alternative della funzione di verosimiglianza
  3. Distribuzioni di incertezza sistematica definite dall'utente

Lavori Correlati

Confronto degli Strumenti Statistici Esistenti

StrumentoCaratteristicheLimitazioni
RooFit/RooStatsFunzionalità potente, ampiamente utilizzatoComplesso, curva di apprendimento ripida
CMS CombineStrumento standard, funzionalità completaPrincipalmente per analisi su larga scala
ThetaMetodo bayesianoUso specifico
HistFactoryCostruzione di modelliRichiede altri strumenti di supporto

Posizionamento di STC

STC colma il vuoto di uno strumento statistico leggero, facile da usare e veloce, particolarmente adatto per:

  • Studi preliminari di sensibilità
  • Verifica incrociata dei risultati
  • Scopi educativi e di apprendimento
  • Integrazione in pipeline di reti neurali

Conclusioni e Discussione

Conclusioni Principali

  1. Efficacia dello Strumento: STC implementa con successo funzionalità di analisi statistica accurata, mostrando un'eccellente coerenza con lo strumento standard Combine
  2. Completezza del Metodo: fornisce un framework statistico completo dagli esperimenti di conteggio semplici all'analisi di forma complessa
  3. Valore Pratico: il design leggero lo rende adatto per analisi rapide e scopi educativi
  4. Estensibilità: il design modulare supporta personalizzazioni e estensioni metodologiche dell'utente

Limitazioni

  1. Limitazioni di Complessità: sebbene supporti analisi multi-bin, potrebbe non essere altrettanto efficace quanto strumenti specializzati per modelli statistici estremamente complessi
  2. Spazio di Ottimizzazione: le prestazioni nel trattamento di dati su larga scala hanno ancora margini di miglioramento
  3. Completezza della Documentazione: come nuovo strumento, richiede più casi d'uso e documentazione

Direzioni Future

  1. Estensione delle Funzionalità:
    • Supporto per più distribuzioni statistiche
    • Aggiunta di metodi bayesiani
    • Estensione a progetti sperimentali più complessi
  2. Ottimizzazione delle Prestazioni:
    • Parallelizzazione dei calcoli Monte Carlo
    • Ottimizzazione dell'utilizzo della memoria
    • Capacità di elaborazione di dati su larga scala
  3. Costruzione della Comunità:
    • Aggiunta di esempi di utilizzo
    • Miglioramento della documentazione
    • Incoraggiamento dei contributi della comunità

Valutazione Approfondita

Punti di Forza

  1. Innovazione Tecnica:
    • Conversione riuscita della teoria statistica complessa in uno strumento facile da usare
    • Fornitura di derivazioni matematiche e implementazioni complete
    • Il metodo di verifica doppia (asintotico + MC) aumenta l'affidabilità dei risultati
  2. Sufficienza Sperimentale:
    • Confronto completo con strumenti standard
    • Copertura di test in molteplici scenari
    • Gestione corretta delle incertezze sistematiche
  3. Valore Pratico:
    • Colma il vuoto di strumenti statistici leggeri
    • L'implementazione in Python facilita l'integrazione e la modifica
    • La natura open-source promuove lo sviluppo della comunità
  4. Chiarezza della Scrittura:
    • Derivazioni matematiche dettagliate e corrette
    • Descrizione chiara dei dettagli di implementazione
    • Processo di validazione trasparente

Insufficienze

  1. Limitazioni Metodologiche:
    • Basato principalmente su metodi frequentisti
    • Supporto limitato per alcuni modelli statistici speciali
    • Capacità di calcolo parallelo su larga scala da migliorare
  2. Configurazione Sperimentale:
    • La validazione è principalmente basata su modelli semplici
    • Mancanza di casi di test di esperimenti reali complessi
    • I benchmark di prestazioni sono relativamente semplici
  3. Analisi Comparativa:
    • Confronto principalmente con Combine, mancanza di confronti con altri strumenti
    • Analisi quantitativa insufficiente dell'efficienza computazionale

Valutazione dell'Impatto

  1. Contributo Accademico:
    • Fornisce una nuova scelta di strumenti per l'analisi statistica HEP
    • Il framework matematico completo ha valore educativo
    • L'implementazione open-source promuove la trasparenza metodologica
  2. Impatto Pratico:
    • Riduce la soglia tecnica per l'analisi statistica
    • Facilita lo sviluppo e la validazione rapidi di prototipi
    • Supporta attività di insegnamento e apprendimento
  3. Riproducibilità:
    • Il codice open-source garantisce completa riproducibilità
    • Le derivazioni matematiche dettagliate supportano la verifica indipendente
    • Il confronto con strumenti standard aumenta l'affidabilità

Scenari di Applicazione

  1. Applicazioni Ideali:
    • Studi preliminari di sensibilità
    • Insegnamento e apprendimento dei metodi statistici
    • Sviluppo rapido di prototipi
    • Verifica incrociata dei risultati
  2. Scenari Limitati:
    • Analisi complesse su scala molto grande
    • Situazioni che richiedono metodi statistici speciali
    • Ambienti di produzione con requisiti di prestazioni estremamente elevati

Riferimenti Bibliografici

1 W. Verkerke and D. Kirkby, The RooFit toolkit for data modeling, Statistical Problems in Particle Physics, Astrophysics and Cosmology (2006)

2 L. Moneta et al., The RooStats Project, arXiv:1009.1003 (2010)

3 CMS Collaboration, The CMS Statistical Analysis and Combination Tool: Combine, arXiv:2404.06614 (2024)

6 G. Cowan, K. Cranmer, E. Gross, and O. Vitells, Asymptotic formulae for likelihood-based tests of new physics, Eur. Phys. J. C 71, 1554 (2011)

7 D. E. Gorin et al., Asymptotic formulas for estimating statistical significance in collider experiments, Uchenye Zapiski Fiz. Fak. MGU No. 1 (2024)


Accesso allo Strumento: Il software StatTestCalculator e la documentazione sono disponibili su GitHub: https://github.com/skottver/stattestcalculator