2025-11-24T19:49:17.532907

Performance of heavy-flavour jet identification in Lorentz-boosted topologies in proton-proton collisions at $\sqrt{s}$ = 13 TeV

CMS Collaboration

Measurements in the highly Lorentz-boosted regime provoke increased interest in probing the Higgs boson properties and in searching for particles beyond the standard model at the LHC. In the CMS Collaboration, various boosted-object tagging algorithms, designed to identify hadronic jets originating from a massive particle decaying to $\mathrm{b\overline{b}}$ or $\mathrm{c\overline{c}}$, have been developed and deployed across a range of physics analyses. This paper highlights their performance on simulated events, and summarizes novel calibration techniques using proton-proton collision data collected at $\sqrt{s}$ = 13 TeV during the 2016$-$2018 LHC data-taking period. Three dedicated methods are used for the calibration in multijet events, leveraging either machine learning techniques, the presence of muons within energetic boosted jets, or the reconstruction of hadronically decaying high-energy Z bosons. The calibration results, obtained through a combination of these approaches, are presented and discussed.

academic

Prestazioni dell'identificazione di jet con sapore pesante in topologie Lorentz-potenziate in collisioni protone-protone a $\sqrt{s}$ = 13 TeV

Informazioni Fondamentali

ID Articolo: 2510.10228
Titolo: Performance of heavy-flavour jet identification in Lorentz-boosted topologies in proton-proton collisions at $\sqrt{s}$ = 13 TeV
Autori: CMS Collaboration
Classificazione: physics.ins-det hep-ex
Data di Pubblicazione: 14 ottobre 2025
Rivista: Journal of Instrumentation (in corso di revisione)
Link Articolo: https://arxiv.org/abs/2510.10228

Riassunto

Questo articolo esamina le prestazioni dell'identificazione di jet adronici con sapore pesante in topologie altamente Lorentz-potenziate, che rivestono importanza cruciale per l'esplorazione delle proprietà del bosone di Higgs e la ricerca di particelle oltre il Modello Standard presso l'LHC. La collaborazione CMS ha sviluppato molteplici algoritmi di etichettatura di oggetti potenziati per identificare jet adronici provenienti dal decadimento di particelle massive in $\mathrm{b\overline{b}}$ o $\mathrm{c\overline{c}}$ . L'articolo presenta in primo luogo le prestazioni di questi algoritmi su eventi simulati e riassume le nuove tecniche di calibrazione basate sui dati utilizzando collisioni protone-protone raccolte durante il funzionamento dell'LHC 2016-2018 a $\sqrt{s}$ = 13 TeV.

Contesto di Ricerca e Motivazione

Contesto Fisico

Topologie potenziate nella fisica ad alta energia: A scale di energia TeV, i prodotti di decadimento di particelle pesanti (quali il bosone di Higgs e particelle oltre il Modello Standard) possiedono alto momento trasverso, causando l'aggregazione dei loro prodotti di decadimento in un singolo jet di grande raggio
Importanza dell'etichettatura di jet con sapore pesante: L'identificazione accurata di jet $\mathrm{b\overline{b}}$ e $\mathrm{c\overline{c}}$ è cruciale per la ricerca di fisica di Higgs e per la ricerca di nuova fisica
Necessità di calibrazione: Esistono discrepanze tra l'efficienza di etichettatura nei dati simulati e nei dati reali, richiedendo metodi di calibrazione precisi basati sui dati

Motivazione della Ricerca

Misurazioni precise del Modello Standard: Misurazione precisa del decadimento del bosone di Higgs in quark di sapore pesante
Ricerca di nuova fisica: Ricerca di nuovi stati di risonanza che decadono in coppie di quark con sapore pesante
Ottimizzazione delle prestazioni del rivelatore: Miglioramento della ricostruzione di oggetti fisici del rivelatore CMS in topologie potenziate

Contributi Fondamentali

Valutazione Prestazionale Comprensiva: Primo confronto completo delle prestazioni di sette algoritmi di etichettatura di jet con sapore pesante sviluppati da CMS durante il Run 2
Metodi di Calibrazione Innovativi: Sviluppo di tre metodi di calibrazione indipendenti basati sui dati:
- Metodo sfBDT (selezione di jet da scissione di gluone basata su apprendimento automatico)
- Metodo di etichettatura μ (metodo che utilizza soft muoni all'interno del jet)
- Metodo del bosone Z potenziato (metodo che utilizza il decadimento Z→bb)
Misurazione Precisa dei Fattori di Scala: Fornitura di fattori di correzione dell'efficienza ad alta precisione attraverso la combinazione di molteplici misurazioni mediante il metodo BLUE
Valutazione Sistematica delle Incertezze: Valutazione completa delle fonti di incertezza sistematica e dei loro effetti

Descrizione Dettagliata dei Metodi

Definizione del Compito

Input: Caratteristiche fisiche di jet di grande raggio (jet AK8, R=0.8) Output: Probabilità di classificazione dell'origine del jet (X→bb, X→cc, QCD, ecc.) Obiettivo: Massimizzazione dell'efficienza del segnale e soppressione del fondo QCD multi-jet mantenendo la decorrelazione dalla massa

Architettura degli Algoritmi di Etichettatura

1. ParticleNet-MD

Architettura: Elaborazione di caratteristiche a livello di particella basata su reti neurali grafiche
Input: Caratteristiche cinematiche e geometriche di candidati del flusso di particelle e vertici secondari
Innovazione: Operazioni di convoluzione invarianti per permutazione con estrazione di caratteristiche locali nello spazio η-φ
Output: Punteggio di probabilità decorrelato dalla massa

2. DeepDoubleX

Architettura: Combinazione di strati di convoluzione 1D e unità ricorrenti controllate
Ingegneria delle Caratteristiche: Utilizzo della tecnica di propagazione della rilevanza per strati per la selezione delle caratteristiche
Decorrelazione dalla Massa: Implementazione attraverso ripesoramento per far corrispondere la distribuzione di massa dei jet di segnale a quella del fondo QCD

3. DeepAK8-MD

Architettura: Classificatore multi-classe basato su strati di convoluzione residua 1D
Addestramento Avversariale: Implementazione della decorrelazione dalla massa utilizzando una rete di predizione della massa come termine di penalità nella funzione di perdita

4. Etichettatore Double-b

Architettura: Basato su alberi decisionali potenziati (BDT)
Caratteristiche: Variabili costruite da tracce di alto livello e costrutti di vertici secondari

Metodi di Calibrazione

1. Metodo sfBDT

Idea Fondamentale: Utilizzo di BDT per selezionare jet da scissione di gluone bb/cc 
come proxy simili ai jet di segnale

Innovazioni Chiave:
- Definizione di variabili N-subjettiness τ^h_31 a livello adronico 
  per distinguere segnale e fondo
- Procedura automatizzata per la determinazione della soglia di selezione sfBDT
- 81 diverse combinazioni di selezione per la valutazione dell'incertezza sistematica

2. Metodo di Etichettatura μ

Principio Fisico: I modi di decadimento semi-leptonici di adroni b(c) 
producono soft muoni

Criteri di Selezione:
- Presenza di soft muone con pT > 5 GeV all'interno del jet
- τ21 < 0.3 (selezione di struttura di jet biforcuta)
- Isolamento relativo Irel > 0.15

3. Metodo del Bosone Z Potenziato

Estrazione del Segnale: Estrazione del segnale Z→bb dal fondo QCD multi-jet
Strategia di Adattamento:
- Adattamento 2D (mPNet, pT)
- Modellazione del fondo QCD con funzione polinomiale
- Adattamento simultaneo delle regioni che passano e non passano 
  la selezione dell'etichettatore

Configurazione Sperimentale

Insiemi di Dati

Dati Sperimentali: Collisioni protone-protone raccolte da CMS nel 2016-2018
- 2016 pre-VFP: 19,5 fb⁻¹
- 2016 post-VFP: 16,8 fb⁻¹
- 2017: 41,5 fb⁻¹
- 2018: 59,8 fb⁻¹
Campioni Simulati:
- Processi QCD multi-jet (MADGRAPH5 aMC@NLO)
- Processi V+jets (Z+jets, W+jets)
- Produzione di bosone di Higgs (HJ-MINLO + PYTHIA)

Metriche di Valutazione

Efficienza del Segnale: Proporzione di jet X→bb(cc) correttamente etichettati
Tasso di Soppressione del Fondo: Proporzione di jet QCD erroneamente etichettati
Fattore di Scala (SF): Rapporto tra efficienza nei dati e nei dati simulati SF = ε_data/ε_sim
Curva ROC: Relazione di compromesso tra efficienza del segnale ed efficienza del fondo

Definizione dei Punti di Lavoro

Ogni algoritmo di etichettatura definisce tre punti di lavoro:

Alta Purezza (HP): Efficienza del segnale 40%(bb)/15%(cc)
Purezza Media (MP): Efficienza del segnale 60%(bb)/30%(cc)
Bassa Purezza (LP): Efficienza del segnale 80%(bb)/50%(cc)

Risultati Sperimentali

Confronto delle Prestazioni degli Algoritmi

Algoritmo	Prestazioni X→bb	Prestazioni X→cc	Decorrelazione dalla Massa
ParticleNet-MD	Ottimale	Ottimale	Eccellente
DeepDoubleX	Buone	Buone	Buone
DeepAK8-MD	Medie	Medie	Buone
Double-b	Scarse	-	Medie

Risultati della Misurazione dei Fattori di Scala

ParticleNet-MD X→bb (Dati 2018)

Intervallo pT GeV	HP WP	MP WP	LP WP
450-500	0,95±0,08	0,98±0,06	1,02±0,05
500-600	0,97±0,09	1,00±0,07	1,01±0,06
>600	0,94±0,11	0,99±0,08	1,03±0,07

Coerenza tra Metodi

I risultati dei tre metodi di calibrazione rimangono coerenti entro gli intervalli di incertezza:

Metodo sfBDT: Generalmente fornisce valori SF più elevati
Metodo di Etichettatura μ: Valori SF medi, ma con incertezze più grandi
Metodo del Bosone Z Potenziato: Limitato statisticamente, con le incertezze più grandi

Decomposizione dell'Incertezza Sistematica

Principali fonti di incertezza (ad esempio, ParticleNet-MD HP WP):

Incertezza Statistica: ~6%
Dipendenza dalla Selezione sfBDT: ~5%
Effetto dello Schema di Ripesoramento: ~9%
Incertezza Teorica (ISR/FSR): ~1-4%

Lavori Correlati

Metodi Tradizionali

BDT Basato su Variabili di Alto Livello: Utilizzo di variabili di forma del jet costruite manualmente
Etichettatura b Semplice: Basata su informazioni di vertici secondari e tracce

Evoluzione dei Metodi di Apprendimento Profondo

DeepCSV/DeepJet: Etichettatura di jet AK4 con apprendimento profondo
Metodi CNN: Elaborazione di jet come immagini
Reti Neurali Grafiche: Elaborazione diretta di informazioni a livello di particella
Architetture Transformer: Applicazione di meccanismi di attenzione nell'etichettatura di jet

Sviluppo dei Metodi di Calibrazione

Metodi Iniziali: Basati su selezioni cinematiche semplici
Adattamento di Template: Utilizzo di spettri di massa invariante per l'estrazione del segnale
Calibrazione Assistita da Apprendimento Automatico: Utilizzo di metodi ML per migliorare la selezione di jet proxy

Conclusioni e Discussione

Conclusioni Principali

ParticleNet-MD Mostra Prestazioni Ottimali: Raggiunge le migliori prestazioni sia nei compiti di etichettatura X→bb che X→cc
Reti Neurali Superiori ai Metodi Tradizionali: I metodi di apprendimento profondo mostrano significativi miglioramenti rispetto ai metodi tradizionali basati su BDT
Efficacia dei Metodi di Calibrazione: I tre metodi indipendenti forniscono misurazioni coerenti dei fattori di scala
Decorrelazione dalla Massa Implementata con Successo: Tutti gli algoritmi moderni implementano con successo la decorrelazione dalla massa del jet

Limitazioni

Limitazioni di Precisione Statistica: Particolarmente nelle regioni ad alto pT e nei punti di lavoro ad alta purezza
Incertezza Sistematica: Principalmente derivante dalla dipendenza del modello nella selezione di jet proxy
Ambito di Applicabilità: I risultati di calibrazione si applicano principalmente a topologie potenziate simili
Complessità Computazionale: I metodi di apprendimento profondo hanno costi computazionali più elevati

Direzioni Future

Analisi dei Dati del Run 3: Utilizzo di statistiche maggiori per migliorare la precisione delle misurazioni
Esplorazione di Nuove Architetture: Architetture di reti neurali innovative come Transformer
Ottimizzazione End-to-End: Ottimizzazione della catena completa dal segnale del rivelatore all'analisi fisica
Applicazioni in Tempo Reale: Implementazione di etichettatura di jet di alto livello nei sistemi di trigger

Valutazione Approfondita

Punti di Forza

Elevata Completezza: Primo confronto completo di tutti i principali algoritmi di etichettatura di jet con sapore pesante di CMS
Innovazione Metodologica: Tre metodi di calibrazione indipendenti forniscono reciproca verifica e aumentano l'affidabilità dei risultati
Tecnologia Avanzata: Rappresenta il livello più alto attuale della tecnologia di etichettatura di jet
Elevato Valore Pratico: Fornisce importanti strumenti di calibrazione per le analisi fisiche di CMS
Valutazione Completa delle Incertezze: Valutazione sistematica di varie fonti di incertezza

Limitazioni

Comprensione Teorica Limitata: Manca una comprensione fisica approfondita del perché alcuni metodi funzionano meglio
Discussione Insufficiente dell'Efficienza Computazionale: Discussione inadeguata dei compromessi di costo computazionale tra diversi algoritmi
Valutazione Limitata della Capacità di Generalizzazione: Valutazione limitata della capacità di generalizzazione degli algoritmi in diversi processi fisici
Limitazioni Statistiche: Alcune misurazioni sono limitate dalla precisione statistica

Impatto

Impatto Accademico: Stabilisce nuovi standard per la tecnologia di etichettatura di jet nella fisica sperimentale ad alta energia
Valore Pratico: Serve direttamente la ricerca di fisica di Higgs e la ricerca di nuova fisica
Trasferibilità dei Metodi: I metodi sono trasferibili ad altri esperimenti e problemi di identificazione di oggetti fisici
Potenziale di Applicazione Industriale: La tecnologia di apprendimento profondo può essere applicata ad altri problemi di riconoscimento di pattern

Scenari di Applicazione

Ricerca di Fisica di Higgs: Misurazioni precise dei canali di decadimento H→bb, H→cc
Ricerca di Nuova Fisica: Ricerca di nuovi stati di risonanza che decadono in coppie di quark con sapore pesante
Misurazioni di Precisione: Analisi che richiedono identificazione di jet con sapore pesante ad alta precisione
Ricerca Metodologica: Benchmark testing e confronto di algoritmi di etichettatura di jet

Punti Salienti dell'Innovazione Tecnica

Innovazione del Metodo sfBDT

Variabile τ^h_31 a Livello Adronico: Primo utilizzo della N-subjettiness basata su adroni di prima generazione per distinguere segnale e fondo
Selezione Automatizzata della Soglia: Sviluppo di algoritmo per la determinazione automatica della selezione sfBDT ottimale
Strategia di Selezione Multipla: Quantificazione dell'incertezza sistematica dipendente dalla selezione attraverso 81 combinazioni di selezione

Tecnica di Misurazione Combinata

Estensione del Metodo BLUE: Estensione della stima lineare imparziale ottimale a adattamenti simultanei su molteplici intervalli di pT
Gestione della Correlazione: Corretta gestione della correlazione dell'incertezza sistematica tra diversi metodi
Verifica Incrociata: Tre metodi indipendenti forniscono una verifica incrociata robusta

Riferimenti Bibliografici

L'articolo cita 72 importanti riferimenti bibliografici, che coprono:

Letteratura tecnica del rivelatore CMS
Storia dello sviluppo degli algoritmi di etichettatura di jet
Applicazioni dell'apprendimento profondo nella fisica ad alta energia
Metodi statistici e gestione dell'incertezza
Risultati di analisi fisiche correlate

Valutazione Complessiva: Questo è un articolo di fisica sperimentale di alta qualità che rappresenta il livello più alto attuale della tecnologia di etichettatura di jet nella fisica delle particelle sperimentale. L'articolo non solo fornisce importanti strumenti tecnici, ma pone anche una base solida per lo sviluppo futuro di algoritmi e analisi fisiche. L'innovazione metodologica e la valutazione sistematica delle prestazioni hanno un valore significativo per l'intera comunità della fisica ad alta energia.

Performance of heavy-flavour jet identification in Lorentz-boosted topologies in proton-proton collisions at $\sqrt{s}$ = 13 TeV

Prestazioni dell'identificazione di jet con sapore pesante in topologie Lorentz-potenziate in collisioni protone-protone a s\sqrt{s}s​ = 13 TeV

Prestazioni dell'identificazione di jet con sapore pesante in topologie Lorentz-potenziate in collisioni protone-protone a $\sqrt{s}$ = 13 TeV