2025-11-24T19:49:17.532907

Performance of heavy-flavour jet identification in Lorentz-boosted topologies in proton-proton collisions at $\sqrt{s}$ = 13 TeV

CMS Collaboration
Measurements in the highly Lorentz-boosted regime provoke increased interest in probing the Higgs boson properties and in searching for particles beyond the standard model at the LHC. In the CMS Collaboration, various boosted-object tagging algorithms, designed to identify hadronic jets originating from a massive particle decaying to $\mathrm{b\overline{b}}$ or $\mathrm{c\overline{c}}$, have been developed and deployed across a range of physics analyses. This paper highlights their performance on simulated events, and summarizes novel calibration techniques using proton-proton collision data collected at $\sqrt{s}$ = 13 TeV during the 2016$-$2018 LHC data-taking period. Three dedicated methods are used for the calibration in multijet events, leveraging either machine learning techniques, the presence of muons within energetic boosted jets, or the reconstruction of hadronically decaying high-energy Z bosons. The calibration results, obtained through a combination of these approaches, are presented and discussed.
academic

Desempeño de la identificación de jets de sabor pesado en topologías impulsadas por Lorentz en colisiones protón-protón a s\sqrt{s} = 13 TeV

Información Básica

  • ID del Artículo: 2510.10228
  • Título: Performance of heavy-flavour jet identification in Lorentz-boosted topologies in proton-proton collisions at s\sqrt{s} = 13 TeV
  • Autores: Colaboración CMS
  • Clasificación: physics.ins-det hep-ex
  • Fecha de Publicación: 14 de octubre de 2025
  • Revista: Journal of Instrumentation (en revisión)
  • Enlace del Artículo: https://arxiv.org/abs/2510.10228

Resumen

Este artículo investiga el desempeño de la identificación de jets hadrónicos de sabor pesado en topologías altamente impulsadas por Lorentz, lo cual es de importancia crítica para explorar las propiedades del bosón de Higgs y buscar partículas más allá del Modelo Estándar en el LHC. La colaboración CMS ha desarrollado múltiples algoritmos mejorados de etiquetado de objetos para identificar jets hadrónicos provenientes de la desintegración de partículas masivas en bb\mathrm{b\overline{b}} o cc\mathrm{c\overline{c}}. El artículo presenta el desempeño de estos algoritmos en eventos simulados y resume técnicas novedosas de calibración utilizando datos de colisiones protón-protón recolectados durante los períodos de operación del LHC 2016-2018 a s\sqrt{s} = 13 TeV.

Antecedentes y Motivación de la Investigación

Contexto Físico

  1. Topologías impulsadas en física de altas energías: A escala de TeV, los productos de desintegración de partículas pesadas (como el bosón de Higgs y partículas más allá del Modelo Estándar) poseen alto momento, causando que sus productos de desintegración se agrupen en un único jet de radio grande
  2. Importancia del etiquetado de jets de sabor pesado: La identificación precisa de jets bb\mathrm{b\overline{b}} y cc\mathrm{c\overline{c}} es crucial para la investigación de física de Higgs y la búsqueda de nueva física
  3. Necesidad de calibración: Existen discrepancias entre la eficiencia de etiquetado de jets en eventos simulados y datos reales, requiriendo métodos precisos de calibración impulsados por datos

Motivación de la Investigación

  1. Mediciones precisas del Modelo Estándar: Medición precisa de la desintegración del bosón de Higgs en quarks de sabor pesado
  2. Búsqueda de nueva física: Búsqueda de nuevos estados resonantes que se desintegran en pares de quarks de sabor pesado
  3. Optimización del desempeño del detector: Mejora del desempeño de reconstrucción de objetos físicos del detector CMS en topologías impulsadas

Contribuciones Principales

  1. Evaluación de desempeño integral: Primera comparación exhaustiva del desempeño de siete algoritmos de etiquetado de jets de sabor pesado desarrollados por CMS durante Run 2
  2. Métodos de calibración innovadores: Desarrollo de tres métodos independientes de calibración impulsados por datos:
    • Método sfBDT (selección de jets de división de gluones basada en aprendizaje automático)
    • Método de etiquetado μ (método utilizando muones suaves dentro del jet)
    • Método de bosón Z impulsado (método utilizando desintegración Z→bb)
  3. Medición precisa de factores de escala: Mediante el método BLUE, se combinan múltiples mediciones para proporcionar factores de corrección de eficiencia de alta precisión
  4. Evaluación integral de incertidumbres sistemáticas: Evaluación exhaustiva de diversas fuentes de incertidumbre sistemática y sus impactos

Explicación Detallada de Métodos

Definición de la Tarea

Entrada: Características físicas de jets de radio grande (jets AK8, R=0.8) Salida: Probabilidades de clasificación del origen del jet (X→bb, X→cc, QCD, etc.) Objetivo: Maximizar la eficiencia de señal mientras se suprime el fondo de múltiples jets QCD, manteniendo la decorrelación de masa

Arquitectura de Algoritmos de Etiquetado

1. ParticleNet-MD

  • Arquitectura: Procesamiento de características a nivel de partículas basado en redes neuronales de grafos
  • Entrada: Características cinemáticas y geométricas de candidatos de flujo de partículas y vértices secundarios
  • Punto innovador: Operaciones convolutivas invariantes a permutaciones, extrayendo características locales en espacio η-φ
  • Salida: Puntuación de probabilidad decorrelacionada en masa

2. DeepDoubleX

  • Arquitectura: Combinación de capas convolutivas 1D y unidades recurrentes con compuerta
  • Ingeniería de características: Utiliza técnicas de propagación de relevancia por capas para selección de características
  • Decorrelación de masa: Mediante reponderación para que jets de señal coincidan con la distribución de masa del fondo QCD

3. DeepAK8-MD

  • Arquitectura: Clasificador multiclase basado en capas convolutivas residuales 1D
  • Entrenamiento adversarial: Implementa decorrelación de masa utilizando una red de predicción de masa como término de penalización en la función de pérdida

4. Etiquetador Double-b

  • Arquitectura: Basado en árboles de decisión impulsados (BDT)
  • Características: Variables de construcción de trazas y vértices secundarios de alto nivel

Métodos de Calibración

1. Método sfBDT

Idea central: Utilizar BDT para seleccionar jets de división de gluones bb/cc 
como proxy que sean similares a jets de señal

Innovaciones clave:
- Definición de variable N-subjetividad τ^h_31 a nivel hadrón para 
  distinguir señal de fondo
- Procedimiento automatizado para determinar umbral de selección sfBDT
- 81 combinaciones de selección diferentes para evaluación de 
  incertidumbre sistemática

2. Método de Etiquetado μ

Principio físico: Modos de desintegración semileptónica de hadrones b(c) 
producen muones suaves

Criterios de selección:
- Presencia de muón suave con pT > 5 GeV dentro del jet
- τ21 < 0.3 (selecciona estructura de jet de bifurcación doble)
- Aislamiento relativo Irel > 0.15

3. Método de Bosón Z Impulsado

Extracción de señal: Extrae señal Z→bb del fondo de múltiples jets QCD

Estrategia de ajuste:
- Ajuste 2D (mPNet, pT)
- Fondo QCD modelado con función polinomial
- Ajuste simultáneo de regiones que pasan y no pasan la selección 
  del etiquetador

Configuración Experimental

Conjunto de Datos

  • Datos experimentales: Datos de colisiones protón-protón recolectados por CMS 2016-2018
    • 2016 pre-VFP: 19.5 fb⁻¹
    • 2016 post-VFP: 16.8 fb⁻¹
    • 2017: 41.5 fb⁻¹
    • 2018: 59.8 fb⁻¹
  • Muestras simuladas:
    • Procesos de múltiples jets QCD (MADGRAPH5 aMC@NLO)
    • Procesos V+jets (Z+jets, W+jets)
    • Producción de bosón de Higgs (HJ-MINLO + PYTHIA)

Métricas de Evaluación

  • Eficiencia de señal: Proporción de jets X→bb(cc) etiquetados correctamente
  • Tasa de supresión de fondo: Proporción de jets QCD etiquetados incorrectamente
  • Factor de escala (SF): Razón de eficiencia entre datos y simulación SF = ε_data/ε_sim
  • Curva ROC: Relación de compromiso entre eficiencia de señal y eficiencia de fondo

Definición de Puntos de Operación

Cada algoritmo de etiquetado define tres puntos de operación:

  • Alta pureza (HP): Eficiencia de señal 40%(bb)/15%(cc)
  • Pureza media (MP): Eficiencia de señal 60%(bb)/30%(cc)
  • Baja pureza (LP): Eficiencia de señal 80%(bb)/50%(cc)

Resultados Experimentales

Comparación de Desempeño de Algoritmos

AlgoritmoDesempeño X→bbDesempeño X→ccDecorrelación de Masa
ParticleNet-MDÓptimoÓptimoExcelente
DeepDoubleXBuenoBuenoBueno
DeepAK8-MDMedioMedioBueno
Double-bDeficiente-Medio

Resultados de Medición de Factores de Escala

ParticleNet-MD X→bb (Datos 2018)

Intervalo pT GeVWP HPWP MPWP LP
450-5000.95±0.080.98±0.061.02±0.05
500-6000.97±0.091.00±0.071.01±0.06
>6000.94±0.110.99±0.081.03±0.07

Consistencia Entre Métodos

Los resultados de los tres métodos de calibración permanecen consistentes dentro de rangos de incertidumbre:

  • Método sfBDT: Típicamente proporciona valores SF más altos
  • Método de etiquetado μ: Valores SF intermedios, pero con incertidumbres mayores
  • Método de bosón Z impulsado: Limitado estadísticamente, con incertidumbres máximas

Descomposición de Incertidumbre Sistemática

Principales fuentes de incertidumbre (ejemplo: ParticleNet-MD WP HP):

  1. Incertidumbre estadística: ~6%
  2. Dependencia de selección sfBDT: ~5%
  3. Efectos de esquema de reponderación: ~9%
  4. Incertidumbre teórica (ISR/FSR): ~1-4%

Trabajo Relacionado

Métodos Tradicionales

  • BDT basado en variables de alto nivel: Utiliza variables de forma de jet construidas manualmente
  • Etiquetado b simple: Basado en información de vértices secundarios y trazas

Evolución de Métodos de Aprendizaje Profundo

  1. DeepCSV/DeepJet: Etiquetado de jets AK4 con aprendizaje profundo
  2. Métodos CNN: Procesamiento de jets como imágenes
  3. Redes neuronales de grafos: Procesamiento directo de información a nivel de partículas
  4. Arquitectura Transformer: Aplicación de mecanismos de atención en etiquetado de jets

Desarrollo de Métodos de Calibración

  • Métodos tempranos: Basados en selecciones cinemáticas simples
  • Ajuste de plantillas: Utiliza espectros de masa invariante para extracción de señal
  • Asistencia de aprendizaje automático: Utiliza métodos ML para mejorar selección de jets proxy

Conclusiones y Discusión

Conclusiones Principales

  1. ParticleNet-MD muestra desempeño óptimo: Alcanza el mejor desempeño tanto en tareas de etiquetado X→bb como X→cc
  2. Redes neuronales superan métodos tradicionales: Los métodos de aprendizaje profundo muestran ventajas significativas sobre métodos tradicionales basados en BDT
  3. Métodos de calibración efectivos: Los tres métodos independientes proporcionan mediciones consistentes de factores de escala
  4. Decorrelación de masa implementada exitosamente: Todos los algoritmos modernos logran exitosamente la decorrelación con la masa del jet

Limitaciones

  1. Limitaciones de precisión estadística: Particularmente en regiones de alto pT y puntos de operación de alta pureza
  2. Incertidumbre sistemática: Principalmente proveniente de la dependencia del modelo en la selección de jets proxy
  3. Rango de aplicabilidad: Los resultados de calibración se aplican principalmente a topologías impulsadas similares
  4. Complejidad computacional: Los métodos de aprendizaje profundo tienen costos computacionales más altos

Direcciones Futuras

  1. Análisis de datos Run 3: Utilizar mayor estadística para mejorar precisión de mediciones
  2. Exploración de nuevas arquitecturas: Arquitecturas de redes neuronales novedosas como Transformers
  3. Optimización de extremo a extremo: Optimización de cadena completa desde señal del detector hasta análisis físico
  4. Aplicaciones en tiempo real: Implementación de etiquetado de jets de alto nivel en sistemas de disparo

Evaluación Profunda

Fortalezas

  1. Alcance integral: Primera comparación exhaustiva de todos los algoritmos principales de etiquetado de jets de sabor pesado de CMS
  2. Innovación metodológica: Tres métodos de calibración independientes que se verifican mutuamente, mejorando la confiabilidad de resultados
  3. Tecnología avanzada: Representa el nivel más alto actual de tecnología de etiquetado de jets
  4. Alto valor práctico: Proporciona herramientas de calibración importantes para análisis físicos de CMS
  5. Evaluación completa de incertidumbres: Evaluación sistemática de diversas fuentes de incertidumbre

Deficiencias

  1. Comprensión teórica limitada: Falta de comprensión profunda de por qué ciertos métodos funcionan mejor
  2. Discusión insuficiente de eficiencia computacional: No se discute suficientemente el compromiso de costo computacional entre diferentes algoritmos
  3. Evaluación limitada de capacidad de generalización: Evaluación limitada de la capacidad de generalización de algoritmos en diferentes procesos físicos
  4. Limitaciones estadísticas: Ciertos puntos de medición están limitados por precisión estadística

Impacto

  1. Impacto académico: Establece nuevos estándares para tecnología de etiquetado de jets en experimentos de física de altas energías
  2. Valor práctico: Sirve directamente a investigación de física de Higgs y búsqueda de nueva física
  3. Promoción de tecnología: Los métodos pueden generalizarse a otros experimentos e identificación de objetos físicos
  4. Potencial de aplicación industrial: La tecnología de aprendizaje profundo puede aplicarse a otros problemas de reconocimiento de patrones

Escenarios de Aplicabilidad

  1. Investigación de física de Higgs: Mediciones precisas de canales de desintegración H→bb, H→cc
  2. Búsqueda de nueva física: Búsqueda de nuevos estados resonantes que se desintegran en quarks de sabor pesado
  3. Mediciones precisas: Análisis que requieren identificación de jets de sabor pesado de alta precisión
  4. Investigación metodológica: Pruebas de referencia y comparación de algoritmos de etiquetado de jets

Puntos Destacados de Innovación Técnica

Innovación del Método sfBDT

  • Variable τ^h_31 a nivel hadrón: Primer uso de N-subjetividad basada en hadrones de primera generación para distinguir señal de fondo
  • Selección de umbral automatizada: Desarrollo de algoritmo para determinar automáticamente la selección sfBDT óptima
  • Estrategia de selecciones múltiples: Cuantificación de incertidumbre sistemática de dependencia de selección mediante 81 combinaciones de selección

Técnica de Medición Combinada

  • Extensión del método BLUE: Extensión del método de estimación lineal insesgada óptima a ajuste simultáneo en múltiples intervalos pT
  • Tratamiento de correlaciones: Manejo correcto de correlaciones de incertidumbre sistemática entre diferentes métodos
  • Verificación cruzada: Los tres métodos independientes proporcionan verificación cruzada sólida

Referencias

El artículo cita 72 referencias importantes, abarcando:

  • Literatura técnica del detector CMS
  • Historial de desarrollo de algoritmos de etiquetado de jets
  • Aplicaciones de aprendizaje profundo en física de altas energías
  • Métodos estadísticos y tratamiento de incertidumbres
  • Resultados de análisis físicos relacionados

Evaluación General: Este es un artículo de física experimental de alta calidad que representa el nivel más alto actual de tecnología de etiquetado de jets en experimentos de física de partículas. El artículo no solo proporciona herramientas técnicas importantes, sino que también sienta bases sólidas para el desarrollo futuro de algoritmos y análisis físicos. Sus innovaciones metodológicas y evaluación sistemática de desempeño tienen valor importante para toda la comunidad de física de altas energías.