2025-11-24T19:49:17.532907

Performance of heavy-flavour jet identification in Lorentz-boosted topologies in proton-proton collisions at $\sqrt{s}$ = 13 TeV

CMS Collaboration
Measurements in the highly Lorentz-boosted regime provoke increased interest in probing the Higgs boson properties and in searching for particles beyond the standard model at the LHC. In the CMS Collaboration, various boosted-object tagging algorithms, designed to identify hadronic jets originating from a massive particle decaying to $\mathrm{b\overline{b}}$ or $\mathrm{c\overline{c}}$, have been developed and deployed across a range of physics analyses. This paper highlights their performance on simulated events, and summarizes novel calibration techniques using proton-proton collision data collected at $\sqrt{s}$ = 13 TeV during the 2016$-$2018 LHC data-taking period. Three dedicated methods are used for the calibration in multijet events, leveraging either machine learning techniques, the presence of muons within energetic boosted jets, or the reconstruction of hadronically decaying high-energy Z bosons. The calibration results, obtained through a combination of these approaches, are presented and discussed.
academic

Performance of heavy-flavour jet identification in Lorentz-boosted topologies in proton-proton collisions at s\sqrt{s} = 13 TeV

基本信息

  • 论文ID: 2510.10228
  • 标题: Performance of heavy-flavour jet identification in Lorentz-boosted topologies in proton-proton collisions at s\sqrt{s} = 13 TeV
  • 作者: CMS Collaboration
  • 分类: physics.ins-det hep-ex
  • 发表时间: 2025年10月14日
  • 期刊: Journal of Instrumentation (投稿中)
  • 论文链接: https://arxiv.org/abs/2510.10228

摘要

本文研究了在高度洛伦兹增强(Lorentz-boosted)拓扑结构中重味强子射流识别的性能,这对于在LHC上探测希格斯玻色子性质和寻找超出标准模型的粒子具有重要意义。CMS合作组开发了多种增强对象标记算法,用于识别来自大质量粒子衰变为bb\mathrm{b\overline{b}}cc\mathrm{c\overline{c}}的强子射流。论文重点展示了这些算法在模拟事例中的性能,并总结了使用2016-2018年LHC运行期间在s\sqrt{s} = 13 TeV下收集的质子-质子碰撞数据的新颖校准技术。

研究背景与动机

物理背景

  1. 高能物理中的增强拓扑:在TeV能标下,重粒子(如希格斯玻色子、超出标准模型粒子)的衰变产物具有高动量,导致其衰变产物被聚集在单个大半径射流中
  2. 重味射流标记的重要性:准确识别bb\mathrm{b\overline{b}}cc\mathrm{c\overline{c}}射流对于希格斯物理研究和新物理搜寻至关重要
  3. 校准需求:模拟事例中的射流标记效率与实际数据存在差异,需要精确的数据驱动校准方法

研究动机

  1. 标准模型精确测量:希格斯玻色子衰变到重味夸克的精确测量
  2. 新物理搜寻:寻找衰变为重味夸克对的新共振态
  3. 探测器性能优化:提高CMS探测器在增强拓扑下的物理对象重建性能

核心贡献

  1. 综合性能评估:首次全面比较了CMS在Run 2期间开发的七种重味射流标记算法的性能
  2. 创新校准方法:开发了三种独立的数据驱动校准方法:
    • sfBDT方法(基于机器学习的胶子分裂射流选择)
    • μ标记方法(利用射流内软μ子的方法)
    • 增强Z玻色子方法(使用Z→bb衰变的方法)
  3. 精确的标度因子测量:通过BLUE方法组合多种测量,提供了高精度的效率校正因子
  4. 系统性不确定度评估:全面评估了各种系统性不确定度来源及其影响

方法详解

任务定义

输入:大半径射流(AK8射流,R=0.8)的物理特征 输出:射流来源分类概率(X→bb, X→cc, QCD等) 目标:在保持质量去相关性的同时,最大化信号效率并抑制QCD多射流背景

标记算法架构

1. ParticleNet-MD

  • 架构:基于图神经网络的粒子级特征处理
  • 输入:粒子流候选者和次级顶点的运动学和几何特征
  • 创新点:排列不变的卷积操作,在η-φ空间中进行局部特征提取
  • 输出:质量去相关的概率分数

2. DeepDoubleX

  • 架构:结合1D卷积层和门控循环单元
  • 特征工程:使用层级相关性传播技术进行特征选择
  • 质量去相关:通过重新加权使信号射流匹配QCD背景的质量分布

3. DeepAK8-MD

  • 架构:基于1D残差卷积层的多类分类器
  • 对抗训练:使用质量预测网络作为损失函数的惩罚项实现质量去相关

4. Double-b标记器

  • 架构:基于增强决策树(BDT)
  • 特征:高级别的径迹和次级顶点构造变量

校准方法

1. sfBDT方法

核心思想:使用BDT选择与信号射流相似的胶子分裂bb/cc射流作为代理

关键创新:
- 定义基于强子级别的N-主观性变量τ^h_31来区分信号和背景
- 自动化的sfBDT选择阈值确定程序
- 81种不同的选择组合用于系统性不确定度评估

2. μ标记方法

物理原理:b(c)强子的半轻衰变模式产生软μ子
选择标准:
- 射流内包含pT > 5 GeV的软μ子
- τ21 < 0.3(选择双分叉射流结构)
- 相对隔离度Irel > 0.15

3. 增强Z玻色子方法

信号提取:从QCD多射流背景中提取Z→bb信号峰
拟合策略:
- 2D拟合(mPNet, pT)
- QCD背景用多项式函数建模
- 同时拟合通过和未通过标记器选择的区域

实验设置

数据集

  • 实验数据:2016-2018年CMS收集的质子-质子碰撞数据
    • 2016 pre-VFP: 19.5 fb⁻¹
    • 2016 post-VFP: 16.8 fb⁻¹
    • 2017: 41.5 fb⁻¹
    • 2018: 59.8 fb⁻¹
  • 模拟样本
    • QCD多射流过程(MADGRAPH5 aMC@NLO)
    • V+jets过程(Z+jets, W+jets)
    • 希格斯玻色子产生(HJ-MINLO + PYTHIA)

评价指标

  • 信号效率:正确标记X→bb(cc)射流的比例
  • 背景抑制率:错误标记QCD射流的比例
  • 标度因子(SF):数据与模拟效率的比值 SF = ε_data/ε_sim
  • ROC曲线:信号效率vs背景效率的权衡关系

工作点定义

每个标记算法定义三个工作点:

  • 高纯度(HP):40%(bb)/15%(cc)信号效率
  • 中等纯度(MP):60%(bb)/30%(cc)信号效率
  • 低纯度(LP):80%(bb)/50%(cc)信号效率

实验结果

算法性能比较

算法X→bb性能X→cc性能质量去相关
ParticleNet-MD最优最优优秀
DeepDoubleX良好良好良好
DeepAK8-MD中等中等良好
Double-b较差-中等

标度因子测量结果

ParticleNet-MD X→bb(2018年数据)

pT区间 GeVHP WPMP WPLP WP
450-5000.95±0.080.98±0.061.02±0.05
500-6000.97±0.091.00±0.071.01±0.06
>6000.94±0.110.99±0.081.03±0.07

方法间一致性

三种校准方法的结果在不确定度范围内保持一致:

  • sfBDT方法:通常给出较高的SF值
  • μ标记方法:中等SF值,但不确定度较大
  • 增强Z玻色子方法:受统计限制,不确定度最大

系统性不确定度分解

主要不确定度来源(以ParticleNet-MD HP WP为例):

  1. 统计不确定度:~6%
  2. sfBDT选择依赖性:~5%
  3. 重新加权方案效应:~9%
  4. 理论不确定度(ISR/FSR):~1-4%

相关工作

传统方法

  • 基于高级变量的BDT:使用人工构造的射流形状变量
  • 简单的b标记:基于次级顶点和径迹信息

深度学习方法演进

  1. DeepCSV/DeepJet:AK4射流的深度学习标记
  2. CNN方法:将射流图像化处理
  3. 图神经网络:直接处理粒子级信息
  4. Transformer架构:注意力机制在射流标记中的应用

校准方法发展

  • 早期方法:基于简单的运动学选择
  • 模板拟合:使用不变质量谱进行信号提取
  • 机器学习辅助:使用ML方法改进代理射流选择

结论与讨论

主要结论

  1. ParticleNet-MD表现最优:在X→bb和X→cc标记任务中均达到最佳性能
  2. 神经网络优于传统方法:深度学习方法显著优于基于BDT的传统方法
  3. 校准方法有效:三种独立方法提供了一致的标度因子测量
  4. 质量去相关成功实现:所有现代算法都成功实现了与射流质量的去相关

局限性

  1. 统计精度限制:特别是在高pT区域和高纯度工作点
  2. 系统性不确定度:主要来自代理射流选择的模型依赖性
  3. 适用范围:校准结果主要适用于类似的增强拓扑
  4. 计算复杂度:深度学习方法的计算成本较高

未来方向

  1. Run 3数据分析:利用更大统计量改进测量精度
  2. 新架构探索:Transformer等新型神经网络架构
  3. 端到端优化:从探测器信号到物理分析的全链条优化
  4. 实时应用:在触发系统中实现高级别射流标记

深度评价

优点

  1. 综合性强:首次全面比较了CMS所有主要的重味射流标记算法
  2. 方法创新:三种独立的校准方法相互验证,提高了结果可靠性
  3. 技术先进:代表了当前射流标记技术的最高水平
  4. 实用价值高:为CMS物理分析提供了重要的校准工具
  5. 不确定度评估完整:系统性地评估了各种不确定度来源

不足

  1. 理论理解有限:对于为什么某些方法表现更好缺乏深入的物理理解
  2. 计算效率讨论不足:未充分讨论不同算法的计算成本权衡
  3. 泛化能力评估:对于算法在不同物理过程中的泛化能力评估有限
  4. 统计限制:某些测量点受到统计精度限制

影响力

  1. 学术影响:为高能物理实验中的射流标记技术设立了新标准
  2. 实用价值:直接服务于希格斯物理和新物理搜寻
  3. 技术推广:方法可推广到其他实验和物理对象识别
  4. 工业应用潜力:深度学习技术可应用于其他模式识别问题

适用场景

  1. 希格斯物理研究:H→bb, H→cc衰变道的精确测量
  2. 新物理搜寻:寻找衰变为重味夸克的新共振态
  3. 精确测量:需要高精度重味射流识别的分析
  4. 方法学研究:射流标记算法的基准测试和比较

技术创新亮点

sfBDT方法的创新

  • 强子级别τ^h_31变量:首次使用基于第一代强子的N-主观性来区分信号和背景
  • 自动化阈值选择:开发了自动确定最优sfBDT选择的算法
  • 多重选择策略:通过81种选择组合量化选择依赖的系统性不确定度

组合测量技术

  • BLUE方法扩展:将最佳线性无偏估计方法扩展到多pT区间的同时拟合
  • 相关性处理:正确处理了不同方法间的系统性不确定度相关性
  • 交叉验证:三种独立方法提供了强有力的交叉验证

参考文献

论文引用了72篇重要参考文献,涵盖了:

  • CMS探测器技术文献
  • 射流标记算法发展历史
  • 深度学习在高能物理中的应用
  • 统计方法和不确定度处理
  • 相关的物理分析结果

总体评价:这是一篇高质量的实验物理论文,代表了当前粒子物理实验中射流标记技术的最高水平。论文不仅提供了重要的技术工具,也为未来的算法发展和物理分析奠定了坚实基础。其方法学创新和系统性的性能评估对整个高能物理社区都具有重要价值。