2025-11-24T19:49:17.532907

Performance of heavy-flavour jet identification in Lorentz-boosted topologies in proton-proton collisions at $\sqrt{s}$ = 13 TeV

CMS Collaboration
Measurements in the highly Lorentz-boosted regime provoke increased interest in probing the Higgs boson properties and in searching for particles beyond the standard model at the LHC. In the CMS Collaboration, various boosted-object tagging algorithms, designed to identify hadronic jets originating from a massive particle decaying to $\mathrm{b\overline{b}}$ or $\mathrm{c\overline{c}}$, have been developed and deployed across a range of physics analyses. This paper highlights their performance on simulated events, and summarizes novel calibration techniques using proton-proton collision data collected at $\sqrt{s}$ = 13 TeV during the 2016$-$2018 LHC data-taking period. Three dedicated methods are used for the calibration in multijet events, leveraging either machine learning techniques, the presence of muons within energetic boosted jets, or the reconstruction of hadronically decaying high-energy Z bosons. The calibration results, obtained through a combination of these approaches, are presented and discussed.
academic

Performance de l'identification des jets de saveur lourde dans les topologies de Lorentz amplifiées dans les collisions proton-proton à s\sqrt{s} = 13 TeV

Informations fondamentales

  • ID de l'article: 2510.10228
  • Titre: Performance de l'identification des jets de saveur lourde dans les topologies de Lorentz amplifiées dans les collisions proton-proton à s\sqrt{s} = 13 TeV
  • Auteurs: Collaboration CMS
  • Classification: physics.ins-det hep-ex
  • Date de publication: 14 octobre 2025
  • Journal: Journal of Instrumentation (en cours de soumission)
  • Lien de l'article: https://arxiv.org/abs/2510.10228

Résumé

Cet article étudie la performance de l'identification des jets hadroniques de saveur lourde dans les topologies hautement amplifiées par Lorentz, ce qui est crucial pour explorer les propriétés du boson de Higgs et rechercher des particules au-delà du Modèle standard au LHC. La collaboration CMS a développé plusieurs algorithmes de marquage d'objets améliorés pour identifier les jets hadroniques provenant de la désintégration de particules massives en bb\mathrm{b\overline{b}} ou cc\mathrm{c\overline{c}}. L'article met l'accent sur la performance de ces algorithmes dans les événements simulés et résume les nouvelles techniques d'étalonnage basées sur les données utilisant les collisions proton-proton collectées à s\sqrt{s} = 13 TeV pendant les périodes d'exploitation du LHC 2016-2018.

Contexte et motivation de la recherche

Contexte physique

  1. Topologies amplifiées en physique des hautes énergies: À l'échelle du TeV, les produits de désintégration des particules lourdes (tels que le boson de Higgs et les particules au-delà du Modèle standard) possèdent une impulsion élevée, ce qui entraîne l'agrégation de leurs produits de désintégration dans un seul jet de grand rayon
  2. Importance du marquage des jets de saveur lourde: L'identification précise des jets bb\mathrm{b\overline{b}} et cc\mathrm{c\overline{c}} est cruciale pour la recherche en physique du Higgs et la recherche de nouvelle physique
  3. Besoins d'étalonnage: Il existe des différences entre l'efficacité du marquage des jets dans les événements simulés et les données réelles, nécessitant des méthodes d'étalonnage précises basées sur les données

Motivation de la recherche

  1. Mesures précises du Modèle standard: Mesure précise de la désintégration du boson de Higgs en quarks de saveur lourde
  2. Recherche de nouvelle physique: Recherche de nouveaux états de résonance se désintégrant en paires de quarks de saveur lourde
  3. Optimisation des performances du détecteur: Amélioration de la reconstruction des objets physiques du détecteur CMS dans les topologies amplifiées

Contributions principales

  1. Évaluation complète des performances: Première comparaison exhaustive des performances de sept algorithmes de marquage des jets de saveur lourde développés par CMS pendant Run 2
  2. Méthodes d'étalonnage innovantes: Développement de trois méthodes d'étalonnage indépendantes basées sur les données:
    • Méthode sfBDT (sélection de jets de division de gluon basée sur l'apprentissage automatique)
    • Méthode de marquage μ (utilisant les muons mous intra-jets)
    • Méthode du boson Z amplifié (utilisant la désintégration Z→bb)
  3. Mesure précise des facteurs d'échelle: Fourniture de facteurs de correction d'efficacité de haute précision par combinaison de plusieurs mesures via la méthode BLUE
  4. Évaluation complète des incertitudes systématiques: Évaluation systématique des sources d'incertitude systématique et de leurs impacts

Détails méthodologiques

Définition de la tâche

Entrées: Caractéristiques physiques des jets de grand rayon (jets AK8, R=0,8) Sorties: Probabilités de classification de l'origine du jet (X→bb, X→cc, QCD, etc.) Objectif: Maximiser l'efficacité du signal tout en supprimant le bruit de fond multi-jets QCD, en maintenant la décorrélation de masse

Architecture des algorithmes de marquage

1. ParticleNet-MD

  • Architecture: Traitement des caractéristiques au niveau des particules basé sur les réseaux de neurones graphiques
  • Entrées: Candidats du flux de particules et caractéristiques cinématiques et géométriques des vertex secondaires
  • Point innovant: Opérations de convolution invariantes par permutation, extraction de caractéristiques locales dans l'espace η-φ
  • Sorties: Scores de probabilité décorrélés en masse

2. DeepDoubleX

  • Architecture: Combinaison de couches de convolution 1D et d'unités récurrentes à portes
  • Ingénierie des caractéristiques: Utilisation de la technique de propagation de pertinence au niveau des couches pour la sélection des caractéristiques
  • Décorrélation de masse: Réalisation par repondération pour adapter la distribution de masse des jets de signal à celle du bruit de fond QCD

3. DeepAK8-MD

  • Architecture: Classificateur multi-classe basé sur des couches de convolution résiduelle 1D
  • Entraînement antagoniste: Utilisation d'un réseau de prédiction de masse comme terme de pénalité dans la fonction de perte pour la décorrélation de masse

4. Marqueur Double-b

  • Architecture: Basé sur les arbres de décision amplifiés (BDT)
  • Caractéristiques: Variables de construction de traces et de vertex secondaires de haut niveau

Méthodes d'étalonnage

1. Méthode sfBDT

Idée centrale: Utilisation du BDT pour sélectionner les jets de division de gluon bb/cc 
comme proxy similaires aux jets de signal

Innovations clés:
- Définition de la variable N-substructure τ^h_31 au niveau hadronique 
  pour distinguer le signal du bruit de fond
- Procédure automatisée de détermination du seuil de sélection sfBDT
- 81 combinaisons de sélection différentes pour l'évaluation 
  des incertitudes systématiques

2. Méthode de marquage μ

Principe physique: Les modes de désintégration semi-leptonique des hadrons b(c) 
produisent des muons mous
Critères de sélection:
- Présence d'un muon mou avec pT > 5 GeV dans le jet
- τ21 < 0,3 (sélection de la structure de bifurcation double)
- Isolement relatif Irel > 0,15

3. Méthode du boson Z amplifié

Extraction du signal: Extraction du signal Z→bb du bruit de fond multi-jets QCD
Stratégie d'ajustement:
- Ajustement 2D (mPNet, pT)
- Modélisation du bruit de fond QCD par fonction polynomiale
- Ajustement simultané des régions passant et ne passant pas 
  la sélection du marqueur

Configuration expérimentale

Ensembles de données

  • Données expérimentales: Collisions proton-proton collectées par CMS 2016-2018
    • 2016 pré-VFP: 19,5 fb⁻¹
    • 2016 post-VFP: 16,8 fb⁻¹
    • 2017: 41,5 fb⁻¹
    • 2018: 59,8 fb⁻¹
  • Échantillons simulés:
    • Processus multi-jets QCD (MADGRAPH5 aMC@NLO)
    • Processus V+jets (Z+jets, W+jets)
    • Production de boson de Higgs (HJ-MINLO + PYTHIA)

Métriques d'évaluation

  • Efficacité du signal: Proportion de jets X→bb(cc) correctement marqués
  • Taux de suppression du bruit de fond: Proportion de jets QCD incorrectement marqués
  • Facteur d'échelle (SF): Rapport des efficacités données/simulation SF = ε_data/ε_sim
  • Courbe ROC: Compromis entre efficacité du signal et efficacité du bruit de fond

Définition des points de fonctionnement

Chaque algorithme de marquage définit trois points de fonctionnement:

  • Haute pureté (HP): 40% (bb)/15% (cc) efficacité du signal
  • Pureté moyenne (MP): 60% (bb)/30% (cc) efficacité du signal
  • Basse pureté (LP): 80% (bb)/50% (cc) efficacité du signal

Résultats expérimentaux

Comparaison des performances des algorithmes

AlgorithmePerformance X→bbPerformance X→ccDécorrélation de masse
ParticleNet-MDOptimaleOptimaleExcellente
DeepDoubleXBonneBonneBonne
DeepAK8-MDMoyenneMoyenneBonne
Double-bFaible-Moyenne

Résultats de mesure des facteurs d'échelle

ParticleNet-MD X→bb (données 2018)

Intervalle pT GeVHP WPMP WPLP WP
450-5000,95±0,080,98±0,061,02±0,05
500-6000,97±0,091,00±0,071,01±0,06
>6000,94±0,110,99±0,081,03±0,07

Cohérence entre les méthodes

Les résultats des trois méthodes d'étalonnage restent cohérents dans les barres d'incertitude:

  • Méthode sfBDT: Fournit généralement des valeurs SF plus élevées
  • Méthode de marquage μ: Valeurs SF moyennes, mais incertitudes plus grandes
  • Méthode du boson Z amplifié: Limitée statistiquement, incertitudes maximales

Décomposition des incertitudes systématiques

Principales sources d'incertitude (exemple ParticleNet-MD HP WP):

  1. Incertitude statistique: ~6%
  2. Dépendance de la sélection sfBDT: ~5%
  3. Effets du schéma de repondération: ~9%
  4. Incertitude théorique (ISR/FSR): ~1-4%

Travaux connexes

Méthodes traditionnelles

  • BDT basé sur variables de haut niveau: Utilisation de variables de forme de jet construites manuellement
  • Marquage b simple: Basé sur les informations de vertex secondaire et de trace

Évolution des méthodes d'apprentissage profond

  1. DeepCSV/DeepJet: Marquage des jets AK4 par apprentissage profond
  2. Méthodes CNN: Traitement des jets comme images
  3. Réseaux de neurones graphiques: Traitement direct des informations au niveau des particules
  4. Architecture Transformer: Application des mécanismes d'attention au marquage des jets

Développement des méthodes d'étalonnage

  • Méthodes précoces: Basées sur des sélections cinématiques simples
  • Ajustement de modèles: Utilisation de spectres de masse invariante pour l'extraction du signal
  • Assistance par apprentissage automatique: Utilisation de méthodes ML pour améliorer la sélection de jets proxy

Conclusions et discussion

Conclusions principales

  1. ParticleNet-MD offre les meilleures performances: Atteint les meilleures performances pour les tâches de marquage X→bb et X→cc
  2. Les réseaux de neurones surpassent les méthodes traditionnelles: Les méthodes d'apprentissage profond surpassent significativement les méthodes traditionnelles basées sur BDT
  3. Efficacité des méthodes d'étalonnage: Les trois méthodes indépendantes fournissent des mesures cohérentes des facteurs d'échelle
  4. Décorrélation de masse réussie: Tous les algorithmes modernes réalisent avec succès la décorrélation avec la masse du jet

Limitations

  1. Limitations de précision statistique: Particulièrement dans les régions de haut pT et les points de fonctionnement de haute pureté
  2. Incertitudes systématiques: Proviennent principalement de la dépendance du modèle dans la sélection de jets proxy
  3. Portée d'application: Les résultats d'étalonnage s'appliquent principalement aux topologies amplifiées similaires
  4. Complexité computationnelle: Les méthodes d'apprentissage profond ont des coûts computationnels plus élevés

Directions futures

  1. Analyse des données Run 3: Utilisation de statistiques plus importantes pour améliorer la précision des mesures
  2. Exploration de nouvelles architectures: Architectures de réseaux de neurones innovantes comme Transformer
  3. Optimisation de bout en bout: Optimisation complète de la chaîne du signal du détecteur à l'analyse physique
  4. Applications en temps réel: Implémentation du marquage des jets de haut niveau dans les systèmes de déclenchement

Évaluation approfondie

Points forts

  1. Caractère exhaustif: Première comparaison complète de tous les principaux algorithmes de marquage des jets de saveur lourde de CMS
  2. Innovation méthodologique: Trois méthodes d'étalonnage indépendantes se validant mutuellement, améliorant la fiabilité des résultats
  3. Technologie avancée: Représente le niveau le plus élevé actuel de la technologie de marquage des jets
  4. Valeur pratique élevée: Fournit des outils d'étalonnage importants pour les analyses physiques de CMS
  5. Évaluation complète des incertitudes: Évaluation systématique de diverses sources d'incertitude

Insuffisances

  1. Compréhension théorique limitée: Manque de compréhension physique approfondie sur les raisons pour lesquelles certaines méthodes fonctionnent mieux
  2. Discussion insuffisante sur l'efficacité computationnelle: Compromis insuffisamment discutés entre les coûts computationnels des différents algorithmes
  3. Évaluation limitée de la capacité de généralisation: Évaluation limitée de la capacité de généralisation des algorithmes à différents processus physiques
  4. Limitations statistiques: Certains points de mesure sont limités par la précision statistique

Impact

  1. Impact académique: Établit de nouvelles normes pour la technologie de marquage des jets dans les expériences de physique des hautes énergies
  2. Valeur pratique: Sert directement la recherche en physique du Higgs et la recherche de nouvelle physique
  3. Promotion technologique: Les méthodes peuvent être généralisées à d'autres expériences et à la reconnaissance d'objets physiques
  4. Potentiel d'application industrielle: Les technologies d'apprentissage profond peuvent s'appliquer à d'autres problèmes de reconnaissance de motifs

Scénarios d'application

  1. Recherche en physique du Higgs: Mesures précises des canaux de désintégration H→bb, H→cc
  2. Recherche de nouvelle physique: Recherche de nouveaux états de résonance se désintégrant en paires de quarks de saveur lourde
  3. Mesures précises: Analyses nécessitant une identification précise des jets de saveur lourde
  4. Recherche méthodologique: Référence et comparaison des algorithmes de marquage des jets

Points forts de l'innovation technologique

Innovation de la méthode sfBDT

  • Variable τ^h_31 au niveau hadronique: Première utilisation de la N-substructure basée sur les hadrons de première génération pour distinguer le signal du bruit de fond
  • Sélection de seuil automatisée: Développement d'un algorithme pour déterminer automatiquement la sélection sfBDT optimale
  • Stratégie de sélection multiple: Quantification de l'incertitude systématique dépendante de la sélection par 81 combinaisons de sélection

Technique de mesure combinée

  • Extension de la méthode BLUE: Extension de la méthode d'estimation linéaire sans biais optimale à l'ajustement simultané sur plusieurs intervalles pT
  • Traitement des corrélations: Traitement correct des corrélations d'incertitude systématique entre différentes méthodes
  • Validation croisée: Les trois méthodes indépendantes fournissent une validation croisée robuste

Références

L'article cite 72 références importantes couvrant:

  • Documentation technique du détecteur CMS
  • Historique du développement des algorithmes de marquage des jets
  • Applications de l'apprentissage profond en physique des hautes énergies
  • Méthodes statistiques et traitement des incertitudes
  • Résultats d'analyses physiques connexes

Évaluation globale: Cet article est un travail de physique expérimentale de haute qualité, représentant le niveau le plus élevé actuel de la technologie de marquage des jets en physique des particules expérimentale. L'article fournit non seulement des outils techniques importants, mais pose également une base solide pour le développement futur des algorithmes et les analyses physiques. Ses innovations méthodologiques et son évaluation systématique des performances ont une valeur importante pour l'ensemble de la communauté de la physique des hautes énergies.