2025-11-24T19:49:17.532907

Performance of heavy-flavour jet identification in Lorentz-boosted topologies in proton-proton collisions at $\sqrt{s}$ = 13 TeV

CMS Collaboration

Measurements in the highly Lorentz-boosted regime provoke increased interest in probing the Higgs boson properties and in searching for particles beyond the standard model at the LHC. In the CMS Collaboration, various boosted-object tagging algorithms, designed to identify hadronic jets originating from a massive particle decaying to $\mathrm{b\overline{b}}$ or $\mathrm{c\overline{c}}$, have been developed and deployed across a range of physics analyses. This paper highlights their performance on simulated events, and summarizes novel calibration techniques using proton-proton collision data collected at $\sqrt{s}$ = 13 TeV during the 2016$-$2018 LHC data-taking period. Three dedicated methods are used for the calibration in multijet events, leveraging either machine learning techniques, the presence of muons within energetic boosted jets, or the reconstruction of hadronically decaying high-energy Z bosons. The calibration results, obtained through a combination of these approaches, are presented and discussed.

academic

Performance of heavy-flavour jet identification in Lorentz-boosted topologies in proton-proton collisions at $\sqrt{s}$ = 13 TeV

基本信息

论文ID: 2510.10228
标题: Performance of heavy-flavour jet identification in Lorentz-boosted topologies in proton-proton collisions at $\sqrt{s}$ = 13 TeV
作者: CMS Collaboration
分类: physics.ins-det hep-ex
发表时间: 2025年10月14日
期刊: Journal of Instrumentation (投稿中)
论文链接: https://arxiv.org/abs/2510.10228

摘要

本文研究了在高度洛伦兹增强（Lorentz-boosted）拓扑结构中重味强子射流识别的性能，这对于在LHC上探测希格斯玻色子性质和寻找超出标准模型的粒子具有重要意义。CMS合作组开发了多种增强对象标记算法，用于识别来自大质量粒子衰变为 $\mathrm{b\overline{b}}$ 或 $\mathrm{c\overline{c}}$ 的强子射流。论文重点展示了这些算法在模拟事例中的性能，并总结了使用2016-2018年LHC运行期间在 $\sqrt{s}$ = 13 TeV下收集的质子-质子碰撞数据的新颖校准技术。

研究背景与动机

物理背景

高能物理中的增强拓扑：在TeV能标下，重粒子（如希格斯玻色子、超出标准模型粒子）的衰变产物具有高动量，导致其衰变产物被聚集在单个大半径射流中
重味射流标记的重要性：准确识别 $\mathrm{b\overline{b}}$ 和 $\mathrm{c\overline{c}}$ 射流对于希格斯物理研究和新物理搜寻至关重要
校准需求：模拟事例中的射流标记效率与实际数据存在差异，需要精确的数据驱动校准方法

研究动机

标准模型精确测量：希格斯玻色子衰变到重味夸克的精确测量
新物理搜寻：寻找衰变为重味夸克对的新共振态
探测器性能优化：提高CMS探测器在增强拓扑下的物理对象重建性能

核心贡献

综合性能评估：首次全面比较了CMS在Run 2期间开发的七种重味射流标记算法的性能
创新校准方法：开发了三种独立的数据驱动校准方法：
- sfBDT方法（基于机器学习的胶子分裂射流选择）
- μ标记方法（利用射流内软μ子的方法）
- 增强Z玻色子方法（使用Z→bb衰变的方法）
精确的标度因子测量：通过BLUE方法组合多种测量，提供了高精度的效率校正因子
系统性不确定度评估：全面评估了各种系统性不确定度来源及其影响

方法详解

任务定义

输入：大半径射流（AK8射流，R=0.8）的物理特征输出：射流来源分类概率（X→bb, X→cc, QCD等）目标：在保持质量去相关性的同时，最大化信号效率并抑制QCD多射流背景

标记算法架构

1. ParticleNet-MD

架构：基于图神经网络的粒子级特征处理
输入：粒子流候选者和次级顶点的运动学和几何特征
创新点：排列不变的卷积操作，在η-φ空间中进行局部特征提取
输出：质量去相关的概率分数

2. DeepDoubleX

架构：结合1D卷积层和门控循环单元
特征工程：使用层级相关性传播技术进行特征选择
质量去相关：通过重新加权使信号射流匹配QCD背景的质量分布

3. DeepAK8-MD

架构：基于1D残差卷积层的多类分类器
对抗训练：使用质量预测网络作为损失函数的惩罚项实现质量去相关

4. Double-b标记器

架构：基于增强决策树（BDT）
特征：高级别的径迹和次级顶点构造变量

校准方法

1. sfBDT方法

核心思想：使用BDT选择与信号射流相似的胶子分裂bb/cc射流作为代理

关键创新：
- 定义基于强子级别的N-主观性变量τ^h_31来区分信号和背景
- 自动化的sfBDT选择阈值确定程序
- 81种不同的选择组合用于系统性不确定度评估

2. μ标记方法

物理原理：b(c)强子的半轻衰变模式产生软μ子
选择标准：
- 射流内包含pT > 5 GeV的软μ子
- τ21 < 0.3（选择双分叉射流结构）
- 相对隔离度Irel > 0.15

3. 增强Z玻色子方法

信号提取：从QCD多射流背景中提取Z→bb信号峰
拟合策略：
- 2D拟合（mPNet, pT）
- QCD背景用多项式函数建模
- 同时拟合通过和未通过标记器选择的区域

实验设置

数据集

实验数据：2016-2018年CMS收集的质子-质子碰撞数据
- 2016 pre-VFP: 19.5 fb⁻¹
- 2016 post-VFP: 16.8 fb⁻¹
- 2017: 41.5 fb⁻¹
- 2018: 59.8 fb⁻¹
模拟样本：
- QCD多射流过程（MADGRAPH5 aMC@NLO）
- V+jets过程（Z+jets, W+jets）
- 希格斯玻色子产生（HJ-MINLO + PYTHIA）