2025-11-24T19:49:17.532907

Performance of heavy-flavour jet identification in Lorentz-boosted topologies in proton-proton collisions at $\sqrt{s}$ = 13 TeV

CMS Collaboration
Measurements in the highly Lorentz-boosted regime provoke increased interest in probing the Higgs boson properties and in searching for particles beyond the standard model at the LHC. In the CMS Collaboration, various boosted-object tagging algorithms, designed to identify hadronic jets originating from a massive particle decaying to $\mathrm{b\overline{b}}$ or $\mathrm{c\overline{c}}$, have been developed and deployed across a range of physics analyses. This paper highlights their performance on simulated events, and summarizes novel calibration techniques using proton-proton collision data collected at $\sqrt{s}$ = 13 TeV during the 2016$-$2018 LHC data-taking period. Three dedicated methods are used for the calibration in multijet events, leveraging either machine learning techniques, the presence of muons within energetic boosted jets, or the reconstruction of hadronically decaying high-energy Z bosons. The calibration results, obtained through a combination of these approaches, are presented and discussed.
academic

Prestazioni dell'identificazione di jet con sapore pesante in topologie Lorentz-potenziate in collisioni protone-protone a s\sqrt{s} = 13 TeV

Informazioni Fondamentali

  • ID Articolo: 2510.10228
  • Titolo: Performance of heavy-flavour jet identification in Lorentz-boosted topologies in proton-proton collisions at s\sqrt{s} = 13 TeV
  • Autori: CMS Collaboration
  • Classificazione: physics.ins-det hep-ex
  • Data di Pubblicazione: 14 ottobre 2025
  • Rivista: Journal of Instrumentation (in corso di revisione)
  • Link Articolo: https://arxiv.org/abs/2510.10228

Riassunto

Questo articolo esamina le prestazioni dell'identificazione di jet adronici con sapore pesante in topologie altamente Lorentz-potenziate, che rivestono importanza cruciale per l'esplorazione delle proprietà del bosone di Higgs e la ricerca di particelle oltre il Modello Standard presso l'LHC. La collaborazione CMS ha sviluppato molteplici algoritmi di etichettatura di oggetti potenziati per identificare jet adronici provenienti dal decadimento di particelle massive in bb\mathrm{b\overline{b}} o cc\mathrm{c\overline{c}}. L'articolo presenta in primo luogo le prestazioni di questi algoritmi su eventi simulati e riassume le nuove tecniche di calibrazione basate sui dati utilizzando collisioni protone-protone raccolte durante il funzionamento dell'LHC 2016-2018 a s\sqrt{s} = 13 TeV.

Contesto di Ricerca e Motivazione

Contesto Fisico

  1. Topologie potenziate nella fisica ad alta energia: A scale di energia TeV, i prodotti di decadimento di particelle pesanti (quali il bosone di Higgs e particelle oltre il Modello Standard) possiedono alto momento trasverso, causando l'aggregazione dei loro prodotti di decadimento in un singolo jet di grande raggio
  2. Importanza dell'etichettatura di jet con sapore pesante: L'identificazione accurata di jet bb\mathrm{b\overline{b}} e cc\mathrm{c\overline{c}} è cruciale per la ricerca di fisica di Higgs e per la ricerca di nuova fisica
  3. Necessità di calibrazione: Esistono discrepanze tra l'efficienza di etichettatura nei dati simulati e nei dati reali, richiedendo metodi di calibrazione precisi basati sui dati

Motivazione della Ricerca

  1. Misurazioni precise del Modello Standard: Misurazione precisa del decadimento del bosone di Higgs in quark di sapore pesante
  2. Ricerca di nuova fisica: Ricerca di nuovi stati di risonanza che decadono in coppie di quark con sapore pesante
  3. Ottimizzazione delle prestazioni del rivelatore: Miglioramento della ricostruzione di oggetti fisici del rivelatore CMS in topologie potenziate

Contributi Fondamentali

  1. Valutazione Prestazionale Comprensiva: Primo confronto completo delle prestazioni di sette algoritmi di etichettatura di jet con sapore pesante sviluppati da CMS durante il Run 2
  2. Metodi di Calibrazione Innovativi: Sviluppo di tre metodi di calibrazione indipendenti basati sui dati:
    • Metodo sfBDT (selezione di jet da scissione di gluone basata su apprendimento automatico)
    • Metodo di etichettatura μ (metodo che utilizza soft muoni all'interno del jet)
    • Metodo del bosone Z potenziato (metodo che utilizza il decadimento Z→bb)
  3. Misurazione Precisa dei Fattori di Scala: Fornitura di fattori di correzione dell'efficienza ad alta precisione attraverso la combinazione di molteplici misurazioni mediante il metodo BLUE
  4. Valutazione Sistematica delle Incertezze: Valutazione completa delle fonti di incertezza sistematica e dei loro effetti

Descrizione Dettagliata dei Metodi

Definizione del Compito

Input: Caratteristiche fisiche di jet di grande raggio (jet AK8, R=0.8) Output: Probabilità di classificazione dell'origine del jet (X→bb, X→cc, QCD, ecc.) Obiettivo: Massimizzazione dell'efficienza del segnale e soppressione del fondo QCD multi-jet mantenendo la decorrelazione dalla massa

Architettura degli Algoritmi di Etichettatura

1. ParticleNet-MD

  • Architettura: Elaborazione di caratteristiche a livello di particella basata su reti neurali grafiche
  • Input: Caratteristiche cinematiche e geometriche di candidati del flusso di particelle e vertici secondari
  • Innovazione: Operazioni di convoluzione invarianti per permutazione con estrazione di caratteristiche locali nello spazio η-φ
  • Output: Punteggio di probabilità decorrelato dalla massa

2. DeepDoubleX

  • Architettura: Combinazione di strati di convoluzione 1D e unità ricorrenti controllate
  • Ingegneria delle Caratteristiche: Utilizzo della tecnica di propagazione della rilevanza per strati per la selezione delle caratteristiche
  • Decorrelazione dalla Massa: Implementazione attraverso ripesoramento per far corrispondere la distribuzione di massa dei jet di segnale a quella del fondo QCD

3. DeepAK8-MD

  • Architettura: Classificatore multi-classe basato su strati di convoluzione residua 1D
  • Addestramento Avversariale: Implementazione della decorrelazione dalla massa utilizzando una rete di predizione della massa come termine di penalità nella funzione di perdita

4. Etichettatore Double-b

  • Architettura: Basato su alberi decisionali potenziati (BDT)
  • Caratteristiche: Variabili costruite da tracce di alto livello e costrutti di vertici secondari

Metodi di Calibrazione

1. Metodo sfBDT

Idea Fondamentale: Utilizzo di BDT per selezionare jet da scissione di gluone bb/cc 
come proxy simili ai jet di segnale

Innovazioni Chiave:
- Definizione di variabili N-subjettiness τ^h_31 a livello adronico 
  per distinguere segnale e fondo
- Procedura automatizzata per la determinazione della soglia di selezione sfBDT
- 81 diverse combinazioni di selezione per la valutazione dell'incertezza sistematica

2. Metodo di Etichettatura μ

Principio Fisico: I modi di decadimento semi-leptonici di adroni b(c) 
producono soft muoni

Criteri di Selezione:
- Presenza di soft muone con pT > 5 GeV all'interno del jet
- τ21 < 0.3 (selezione di struttura di jet biforcuta)
- Isolamento relativo Irel > 0.15

3. Metodo del Bosone Z Potenziato

Estrazione del Segnale: Estrazione del segnale Z→bb dal fondo QCD multi-jet
Strategia di Adattamento:
- Adattamento 2D (mPNet, pT)
- Modellazione del fondo QCD con funzione polinomiale
- Adattamento simultaneo delle regioni che passano e non passano 
  la selezione dell'etichettatore

Configurazione Sperimentale

Insiemi di Dati

  • Dati Sperimentali: Collisioni protone-protone raccolte da CMS nel 2016-2018
    • 2016 pre-VFP: 19,5 fb⁻¹
    • 2016 post-VFP: 16,8 fb⁻¹
    • 2017: 41,5 fb⁻¹
    • 2018: 59,8 fb⁻¹
  • Campioni Simulati:
    • Processi QCD multi-jet (MADGRAPH5 aMC@NLO)
    • Processi V+jets (Z+jets, W+jets)
    • Produzione di bosone di Higgs (HJ-MINLO + PYTHIA)

Metriche di Valutazione

  • Efficienza del Segnale: Proporzione di jet X→bb(cc) correttamente etichettati
  • Tasso di Soppressione del Fondo: Proporzione di jet QCD erroneamente etichettati
  • Fattore di Scala (SF): Rapporto tra efficienza nei dati e nei dati simulati SF = ε_data/ε_sim
  • Curva ROC: Relazione di compromesso tra efficienza del segnale ed efficienza del fondo

Definizione dei Punti di Lavoro

Ogni algoritmo di etichettatura definisce tre punti di lavoro:

  • Alta Purezza (HP): Efficienza del segnale 40%(bb)/15%(cc)
  • Purezza Media (MP): Efficienza del segnale 60%(bb)/30%(cc)
  • Bassa Purezza (LP): Efficienza del segnale 80%(bb)/50%(cc)

Risultati Sperimentali

Confronto delle Prestazioni degli Algoritmi

AlgoritmoPrestazioni X→bbPrestazioni X→ccDecorrelazione dalla Massa
ParticleNet-MDOttimaleOttimaleEccellente
DeepDoubleXBuoneBuoneBuone
DeepAK8-MDMedieMedieBuone
Double-bScarse-Medie

Risultati della Misurazione dei Fattori di Scala

ParticleNet-MD X→bb (Dati 2018)

Intervallo pT GeVHP WPMP WPLP WP
450-5000,95±0,080,98±0,061,02±0,05
500-6000,97±0,091,00±0,071,01±0,06
>6000,94±0,110,99±0,081,03±0,07

Coerenza tra Metodi

I risultati dei tre metodi di calibrazione rimangono coerenti entro gli intervalli di incertezza:

  • Metodo sfBDT: Generalmente fornisce valori SF più elevati
  • Metodo di Etichettatura μ: Valori SF medi, ma con incertezze più grandi
  • Metodo del Bosone Z Potenziato: Limitato statisticamente, con le incertezze più grandi

Decomposizione dell'Incertezza Sistematica

Principali fonti di incertezza (ad esempio, ParticleNet-MD HP WP):

  1. Incertezza Statistica: ~6%
  2. Dipendenza dalla Selezione sfBDT: ~5%
  3. Effetto dello Schema di Ripesoramento: ~9%
  4. Incertezza Teorica (ISR/FSR): ~1-4%

Lavori Correlati

Metodi Tradizionali

  • BDT Basato su Variabili di Alto Livello: Utilizzo di variabili di forma del jet costruite manualmente
  • Etichettatura b Semplice: Basata su informazioni di vertici secondari e tracce

Evoluzione dei Metodi di Apprendimento Profondo

  1. DeepCSV/DeepJet: Etichettatura di jet AK4 con apprendimento profondo
  2. Metodi CNN: Elaborazione di jet come immagini
  3. Reti Neurali Grafiche: Elaborazione diretta di informazioni a livello di particella
  4. Architetture Transformer: Applicazione di meccanismi di attenzione nell'etichettatura di jet

Sviluppo dei Metodi di Calibrazione

  • Metodi Iniziali: Basati su selezioni cinematiche semplici
  • Adattamento di Template: Utilizzo di spettri di massa invariante per l'estrazione del segnale
  • Calibrazione Assistita da Apprendimento Automatico: Utilizzo di metodi ML per migliorare la selezione di jet proxy

Conclusioni e Discussione

Conclusioni Principali

  1. ParticleNet-MD Mostra Prestazioni Ottimali: Raggiunge le migliori prestazioni sia nei compiti di etichettatura X→bb che X→cc
  2. Reti Neurali Superiori ai Metodi Tradizionali: I metodi di apprendimento profondo mostrano significativi miglioramenti rispetto ai metodi tradizionali basati su BDT
  3. Efficacia dei Metodi di Calibrazione: I tre metodi indipendenti forniscono misurazioni coerenti dei fattori di scala
  4. Decorrelazione dalla Massa Implementata con Successo: Tutti gli algoritmi moderni implementano con successo la decorrelazione dalla massa del jet

Limitazioni

  1. Limitazioni di Precisione Statistica: Particolarmente nelle regioni ad alto pT e nei punti di lavoro ad alta purezza
  2. Incertezza Sistematica: Principalmente derivante dalla dipendenza del modello nella selezione di jet proxy
  3. Ambito di Applicabilità: I risultati di calibrazione si applicano principalmente a topologie potenziate simili
  4. Complessità Computazionale: I metodi di apprendimento profondo hanno costi computazionali più elevati

Direzioni Future

  1. Analisi dei Dati del Run 3: Utilizzo di statistiche maggiori per migliorare la precisione delle misurazioni
  2. Esplorazione di Nuove Architetture: Architetture di reti neurali innovative come Transformer
  3. Ottimizzazione End-to-End: Ottimizzazione della catena completa dal segnale del rivelatore all'analisi fisica
  4. Applicazioni in Tempo Reale: Implementazione di etichettatura di jet di alto livello nei sistemi di trigger

Valutazione Approfondita

Punti di Forza

  1. Elevata Completezza: Primo confronto completo di tutti i principali algoritmi di etichettatura di jet con sapore pesante di CMS
  2. Innovazione Metodologica: Tre metodi di calibrazione indipendenti forniscono reciproca verifica e aumentano l'affidabilità dei risultati
  3. Tecnologia Avanzata: Rappresenta il livello più alto attuale della tecnologia di etichettatura di jet
  4. Elevato Valore Pratico: Fornisce importanti strumenti di calibrazione per le analisi fisiche di CMS
  5. Valutazione Completa delle Incertezze: Valutazione sistematica di varie fonti di incertezza

Limitazioni

  1. Comprensione Teorica Limitata: Manca una comprensione fisica approfondita del perché alcuni metodi funzionano meglio
  2. Discussione Insufficiente dell'Efficienza Computazionale: Discussione inadeguata dei compromessi di costo computazionale tra diversi algoritmi
  3. Valutazione Limitata della Capacità di Generalizzazione: Valutazione limitata della capacità di generalizzazione degli algoritmi in diversi processi fisici
  4. Limitazioni Statistiche: Alcune misurazioni sono limitate dalla precisione statistica

Impatto

  1. Impatto Accademico: Stabilisce nuovi standard per la tecnologia di etichettatura di jet nella fisica sperimentale ad alta energia
  2. Valore Pratico: Serve direttamente la ricerca di fisica di Higgs e la ricerca di nuova fisica
  3. Trasferibilità dei Metodi: I metodi sono trasferibili ad altri esperimenti e problemi di identificazione di oggetti fisici
  4. Potenziale di Applicazione Industriale: La tecnologia di apprendimento profondo può essere applicata ad altri problemi di riconoscimento di pattern

Scenari di Applicazione

  1. Ricerca di Fisica di Higgs: Misurazioni precise dei canali di decadimento H→bb, H→cc
  2. Ricerca di Nuova Fisica: Ricerca di nuovi stati di risonanza che decadono in coppie di quark con sapore pesante
  3. Misurazioni di Precisione: Analisi che richiedono identificazione di jet con sapore pesante ad alta precisione
  4. Ricerca Metodologica: Benchmark testing e confronto di algoritmi di etichettatura di jet

Punti Salienti dell'Innovazione Tecnica

Innovazione del Metodo sfBDT

  • Variabile τ^h_31 a Livello Adronico: Primo utilizzo della N-subjettiness basata su adroni di prima generazione per distinguere segnale e fondo
  • Selezione Automatizzata della Soglia: Sviluppo di algoritmo per la determinazione automatica della selezione sfBDT ottimale
  • Strategia di Selezione Multipla: Quantificazione dell'incertezza sistematica dipendente dalla selezione attraverso 81 combinazioni di selezione

Tecnica di Misurazione Combinata

  • Estensione del Metodo BLUE: Estensione della stima lineare imparziale ottimale a adattamenti simultanei su molteplici intervalli di pT
  • Gestione della Correlazione: Corretta gestione della correlazione dell'incertezza sistematica tra diversi metodi
  • Verifica Incrociata: Tre metodi indipendenti forniscono una verifica incrociata robusta

Riferimenti Bibliografici

L'articolo cita 72 importanti riferimenti bibliografici, che coprono:

  • Letteratura tecnica del rivelatore CMS
  • Storia dello sviluppo degli algoritmi di etichettatura di jet
  • Applicazioni dell'apprendimento profondo nella fisica ad alta energia
  • Metodi statistici e gestione dell'incertezza
  • Risultati di analisi fisiche correlate

Valutazione Complessiva: Questo è un articolo di fisica sperimentale di alta qualità che rappresenta il livello più alto attuale della tecnologia di etichettatura di jet nella fisica delle particelle sperimentale. L'articolo non solo fornisce importanti strumenti tecnici, ma pone anche una base solida per lo sviluppo futuro di algoritmi e analisi fisiche. L'innovazione metodologica e la valutazione sistematica delle prestazioni hanno un valore significativo per l'intera comunità della fisica ad alta energia.