2025-11-24T19:49:17.532907

Performance of heavy-flavour jet identification in Lorentz-boosted topologies in proton-proton collisions at $\sqrt{s}$ = 13 TeV

CMS Collaboration

Measurements in the highly Lorentz-boosted regime provoke increased interest in probing the Higgs boson properties and in searching for particles beyond the standard model at the LHC. In the CMS Collaboration, various boosted-object tagging algorithms, designed to identify hadronic jets originating from a massive particle decaying to $\mathrm{b\overline{b}}$ or $\mathrm{c\overline{c}}$, have been developed and deployed across a range of physics analyses. This paper highlights their performance on simulated events, and summarizes novel calibration techniques using proton-proton collision data collected at $\sqrt{s}$ = 13 TeV during the 2016$-$2018 LHC data-taking period. Three dedicated methods are used for the calibration in multijet events, leveraging either machine learning techniques, the presence of muons within energetic boosted jets, or the reconstruction of hadronically decaying high-energy Z bosons. The calibration results, obtained through a combination of these approaches, are presented and discussed.

academic

Performance de l'identification des jets de saveur lourde dans les topologies de Lorentz amplifiées dans les collisions proton-proton à $\sqrt{s}$ = 13 TeV

Informations fondamentales

ID de l'article: 2510.10228
Titre: Performance de l'identification des jets de saveur lourde dans les topologies de Lorentz amplifiées dans les collisions proton-proton à $\sqrt{s}$ = 13 TeV
Auteurs: Collaboration CMS
Classification: physics.ins-det hep-ex
Date de publication: 14 octobre 2025
Journal: Journal of Instrumentation (en cours de soumission)
Lien de l'article: https://arxiv.org/abs/2510.10228

Résumé

Cet article étudie la performance de l'identification des jets hadroniques de saveur lourde dans les topologies hautement amplifiées par Lorentz, ce qui est crucial pour explorer les propriétés du boson de Higgs et rechercher des particules au-delà du Modèle standard au LHC. La collaboration CMS a développé plusieurs algorithmes de marquage d'objets améliorés pour identifier les jets hadroniques provenant de la désintégration de particules massives en $\mathrm{b\overline{b}}$ ou $\mathrm{c\overline{c}}$ . L'article met l'accent sur la performance de ces algorithmes dans les événements simulés et résume les nouvelles techniques d'étalonnage basées sur les données utilisant les collisions proton-proton collectées à $\sqrt{s}$ = 13 TeV pendant les périodes d'exploitation du LHC 2016-2018.

Contexte et motivation de la recherche

Contexte physique

Topologies amplifiées en physique des hautes énergies: À l'échelle du TeV, les produits de désintégration des particules lourdes (tels que le boson de Higgs et les particules au-delà du Modèle standard) possèdent une impulsion élevée, ce qui entraîne l'agrégation de leurs produits de désintégration dans un seul jet de grand rayon
Importance du marquage des jets de saveur lourde: L'identification précise des jets $\mathrm{b\overline{b}}$ et $\mathrm{c\overline{c}}$ est cruciale pour la recherche en physique du Higgs et la recherche de nouvelle physique
Besoins d'étalonnage: Il existe des différences entre l'efficacité du marquage des jets dans les événements simulés et les données réelles, nécessitant des méthodes d'étalonnage précises basées sur les données

Motivation de la recherche

Mesures précises du Modèle standard: Mesure précise de la désintégration du boson de Higgs en quarks de saveur lourde
Recherche de nouvelle physique: Recherche de nouveaux états de résonance se désintégrant en paires de quarks de saveur lourde
Optimisation des performances du détecteur: Amélioration de la reconstruction des objets physiques du détecteur CMS dans les topologies amplifiées

Contributions principales

Évaluation complète des performances: Première comparaison exhaustive des performances de sept algorithmes de marquage des jets de saveur lourde développés par CMS pendant Run 2
Méthodes d'étalonnage innovantes: Développement de trois méthodes d'étalonnage indépendantes basées sur les données:
- Méthode sfBDT (sélection de jets de division de gluon basée sur l'apprentissage automatique)
- Méthode de marquage μ (utilisant les muons mous intra-jets)
- Méthode du boson Z amplifié (utilisant la désintégration Z→bb)
Mesure précise des facteurs d'échelle: Fourniture de facteurs de correction d'efficacité de haute précision par combinaison de plusieurs mesures via la méthode BLUE
Évaluation complète des incertitudes systématiques: Évaluation systématique des sources d'incertitude systématique et de leurs impacts

Détails méthodologiques

Définition de la tâche

Entrées: Caractéristiques physiques des jets de grand rayon (jets AK8, R=0,8) Sorties: Probabilités de classification de l'origine du jet (X→bb, X→cc, QCD, etc.) Objectif: Maximiser l'efficacité du signal tout en supprimant le bruit de fond multi-jets QCD, en maintenant la décorrélation de masse

Architecture des algorithmes de marquage

1. ParticleNet-MD

Architecture: Traitement des caractéristiques au niveau des particules basé sur les réseaux de neurones graphiques
Entrées: Candidats du flux de particules et caractéristiques cinématiques et géométriques des vertex secondaires
Point innovant: Opérations de convolution invariantes par permutation, extraction de caractéristiques locales dans l'espace η-φ
Sorties: Scores de probabilité décorrélés en masse

2. DeepDoubleX

Architecture: Combinaison de couches de convolution 1D et d'unités récurrentes à portes
Ingénierie des caractéristiques: Utilisation de la technique de propagation de pertinence au niveau des couches pour la sélection des caractéristiques
Décorrélation de masse: Réalisation par repondération pour adapter la distribution de masse des jets de signal à celle du bruit de fond QCD

3. DeepAK8-MD

Architecture: Classificateur multi-classe basé sur des couches de convolution résiduelle 1D
Entraînement antagoniste: Utilisation d'un réseau de prédiction de masse comme terme de pénalité dans la fonction de perte pour la décorrélation de masse

4. Marqueur Double-b

Architecture: Basé sur les arbres de décision amplifiés (BDT)
Caractéristiques: Variables de construction de traces et de vertex secondaires de haut niveau

Méthodes d'étalonnage

1. Méthode sfBDT

Idée centrale: Utilisation du BDT pour sélectionner les jets de division de gluon bb/cc 
comme proxy similaires aux jets de signal

Innovations clés:
- Définition de la variable N-substructure τ^h_31 au niveau hadronique 
  pour distinguer le signal du bruit de fond
- Procédure automatisée de détermination du seuil de sélection sfBDT
- 81 combinaisons de sélection différentes pour l'évaluation 
  des incertitudes systématiques

2. Méthode de marquage μ

Principe physique: Les modes de désintégration semi-leptonique des hadrons b(c) 
produisent des muons mous
Critères de sélection:
- Présence d'un muon mou avec pT > 5 GeV dans le jet
- τ21 < 0,3 (sélection de la structure de bifurcation double)
- Isolement relatif Irel > 0,15

3. Méthode du boson Z amplifié

Extraction du signal: Extraction du signal Z→bb du bruit de fond multi-jets QCD
Stratégie d'ajustement:
- Ajustement 2D (mPNet, pT)
- Modélisation du bruit de fond QCD par fonction polynomiale
- Ajustement simultané des régions passant et ne passant pas 
  la sélection du marqueur

Configuration expérimentale

Ensembles de données

Données expérimentales: Collisions proton-proton collectées par CMS 2016-2018
- 2016 pré-VFP: 19,5 fb⁻¹
- 2016 post-VFP: 16,8 fb⁻¹
- 2017: 41,5 fb⁻¹
- 2018: 59,8 fb⁻¹
Échantillons simulés:
- Processus multi-jets QCD (MADGRAPH5 aMC@NLO)
- Processus V+jets (Z+jets, W+jets)
- Production de boson de Higgs (HJ-MINLO + PYTHIA)

Métriques d'évaluation

Efficacité du signal: Proportion de jets X→bb(cc) correctement marqués
Taux de suppression du bruit de fond: Proportion de jets QCD incorrectement marqués
Facteur d'échelle (SF): Rapport des efficacités données/simulation SF = ε_data/ε_sim
Courbe ROC: Compromis entre efficacité du signal et efficacité du bruit de fond

Définition des points de fonctionnement

Chaque algorithme de marquage définit trois points de fonctionnement:

Haute pureté (HP): 40% (bb)/15% (cc) efficacité du signal
Pureté moyenne (MP): 60% (bb)/30% (cc) efficacité du signal
Basse pureté (LP): 80% (bb)/50% (cc) efficacité du signal

Résultats expérimentaux

Comparaison des performances des algorithmes

Algorithme	Performance X→bb	Performance X→cc	Décorrélation de masse
ParticleNet-MD	Optimale	Optimale	Excellente
DeepDoubleX	Bonne	Bonne	Bonne
DeepAK8-MD	Moyenne	Moyenne	Bonne
Double-b	Faible	-	Moyenne

Résultats de mesure des facteurs d'échelle

ParticleNet-MD X→bb (données 2018)

Intervalle pT GeV	HP WP	MP WP	LP WP
450-500	0,95±0,08	0,98±0,06	1,02±0,05
500-600	0,97±0,09	1,00±0,07	1,01±0,06
>600	0,94±0,11	0,99±0,08	1,03±0,07

Cohérence entre les méthodes

Les résultats des trois méthodes d'étalonnage restent cohérents dans les barres d'incertitude:

Méthode sfBDT: Fournit généralement des valeurs SF plus élevées
Méthode de marquage μ: Valeurs SF moyennes, mais incertitudes plus grandes
Méthode du boson Z amplifié: Limitée statistiquement, incertitudes maximales

Décomposition des incertitudes systématiques

Principales sources d'incertitude (exemple ParticleNet-MD HP WP):

Incertitude statistique: ~6%
Dépendance de la sélection sfBDT: ~5%
Effets du schéma de repondération: ~9%
Incertitude théorique (ISR/FSR): ~1-4%

Travaux connexes

Méthodes traditionnelles

BDT basé sur variables de haut niveau: Utilisation de variables de forme de jet construites manuellement
Marquage b simple: Basé sur les informations de vertex secondaire et de trace

Évolution des méthodes d'apprentissage profond

DeepCSV/DeepJet: Marquage des jets AK4 par apprentissage profond
Méthodes CNN: Traitement des jets comme images
Réseaux de neurones graphiques: Traitement direct des informations au niveau des particules
Architecture Transformer: Application des mécanismes d'attention au marquage des jets

Développement des méthodes d'étalonnage

Méthodes précoces: Basées sur des sélections cinématiques simples
Ajustement de modèles: Utilisation de spectres de masse invariante pour l'extraction du signal
Assistance par apprentissage automatique: Utilisation de méthodes ML pour améliorer la sélection de jets proxy

Conclusions et discussion

Conclusions principales

ParticleNet-MD offre les meilleures performances: Atteint les meilleures performances pour les tâches de marquage X→bb et X→cc
Les réseaux de neurones surpassent les méthodes traditionnelles: Les méthodes d'apprentissage profond surpassent significativement les méthodes traditionnelles basées sur BDT
Efficacité des méthodes d'étalonnage: Les trois méthodes indépendantes fournissent des mesures cohérentes des facteurs d'échelle
Décorrélation de masse réussie: Tous les algorithmes modernes réalisent avec succès la décorrélation avec la masse du jet

Limitations

Limitations de précision statistique: Particulièrement dans les régions de haut pT et les points de fonctionnement de haute pureté
Incertitudes systématiques: Proviennent principalement de la dépendance du modèle dans la sélection de jets proxy
Portée d'application: Les résultats d'étalonnage s'appliquent principalement aux topologies amplifiées similaires
Complexité computationnelle: Les méthodes d'apprentissage profond ont des coûts computationnels plus élevés

Directions futures

Analyse des données Run 3: Utilisation de statistiques plus importantes pour améliorer la précision des mesures
Exploration de nouvelles architectures: Architectures de réseaux de neurones innovantes comme Transformer
Optimisation de bout en bout: Optimisation complète de la chaîne du signal du détecteur à l'analyse physique
Applications en temps réel: Implémentation du marquage des jets de haut niveau dans les systèmes de déclenchement

Évaluation approfondie

Points forts

Caractère exhaustif: Première comparaison complète de tous les principaux algorithmes de marquage des jets de saveur lourde de CMS
Innovation méthodologique: Trois méthodes d'étalonnage indépendantes se validant mutuellement, améliorant la fiabilité des résultats
Technologie avancée: Représente le niveau le plus élevé actuel de la technologie de marquage des jets
Valeur pratique élevée: Fournit des outils d'étalonnage importants pour les analyses physiques de CMS
Évaluation complète des incertitudes: Évaluation systématique de diverses sources d'incertitude

Insuffisances

Compréhension théorique limitée: Manque de compréhension physique approfondie sur les raisons pour lesquelles certaines méthodes fonctionnent mieux
Discussion insuffisante sur l'efficacité computationnelle: Compromis insuffisamment discutés entre les coûts computationnels des différents algorithmes
Évaluation limitée de la capacité de généralisation: Évaluation limitée de la capacité de généralisation des algorithmes à différents processus physiques
Limitations statistiques: Certains points de mesure sont limités par la précision statistique

Impact

Impact académique: Établit de nouvelles normes pour la technologie de marquage des jets dans les expériences de physique des hautes énergies
Valeur pratique: Sert directement la recherche en physique du Higgs et la recherche de nouvelle physique
Promotion technologique: Les méthodes peuvent être généralisées à d'autres expériences et à la reconnaissance d'objets physiques
Potentiel d'application industrielle: Les technologies d'apprentissage profond peuvent s'appliquer à d'autres problèmes de reconnaissance de motifs

Scénarios d'application

Recherche en physique du Higgs: Mesures précises des canaux de désintégration H→bb, H→cc
Recherche de nouvelle physique: Recherche de nouveaux états de résonance se désintégrant en paires de quarks de saveur lourde
Mesures précises: Analyses nécessitant une identification précise des jets de saveur lourde
Recherche méthodologique: Référence et comparaison des algorithmes de marquage des jets

Points forts de l'innovation technologique

Innovation de la méthode sfBDT

Variable τ^h_31 au niveau hadronique: Première utilisation de la N-substructure basée sur les hadrons de première génération pour distinguer le signal du bruit de fond
Sélection de seuil automatisée: Développement d'un algorithme pour déterminer automatiquement la sélection sfBDT optimale
Stratégie de sélection multiple: Quantification de l'incertitude systématique dépendante de la sélection par 81 combinaisons de sélection

Technique de mesure combinée

Extension de la méthode BLUE: Extension de la méthode d'estimation linéaire sans biais optimale à l'ajustement simultané sur plusieurs intervalles pT
Traitement des corrélations: Traitement correct des corrélations d'incertitude systématique entre différentes méthodes
Validation croisée: Les trois méthodes indépendantes fournissent une validation croisée robuste

Références

L'article cite 72 références importantes couvrant:

Documentation technique du détecteur CMS
Historique du développement des algorithmes de marquage des jets
Applications de l'apprentissage profond en physique des hautes énergies
Méthodes statistiques et traitement des incertitudes
Résultats d'analyses physiques connexes

Évaluation globale: Cet article est un travail de physique expérimentale de haute qualité, représentant le niveau le plus élevé actuel de la technologie de marquage des jets en physique des particules expérimentale. L'article fournit non seulement des outils techniques importants, mais pose également une base solide pour le développement futur des algorithmes et les analyses physiques. Ses innovations méthodologiques et son évaluation systématique des performances ont une valeur importante pour l'ensemble de la communauté de la physique des hautes énergies.

Performance of heavy-flavour jet identification in Lorentz-boosted topologies in proton-proton collisions at $\sqrt{s}$ = 13 TeV

Performance de l'identification des jets de saveur lourde dans les topologies de Lorentz amplifiées dans les collisions proton-proton à s\sqrt{s}s​ = 13 TeV

Performance de l'identification des jets de saveur lourde dans les topologies de Lorentz amplifiées dans les collisions proton-proton à $\sqrt{s}$ = 13 TeV