2025-11-24T19:49:17.532907

Performance of heavy-flavour jet identification in Lorentz-boosted topologies in proton-proton collisions at $\sqrt{s}$ = 13 TeV

CMS Collaboration
Measurements in the highly Lorentz-boosted regime provoke increased interest in probing the Higgs boson properties and in searching for particles beyond the standard model at the LHC. In the CMS Collaboration, various boosted-object tagging algorithms, designed to identify hadronic jets originating from a massive particle decaying to $\mathrm{b\overline{b}}$ or $\mathrm{c\overline{c}}$, have been developed and deployed across a range of physics analyses. This paper highlights their performance on simulated events, and summarizes novel calibration techniques using proton-proton collision data collected at $\sqrt{s}$ = 13 TeV during the 2016$-$2018 LHC data-taking period. Three dedicated methods are used for the calibration in multijet events, leveraging either machine learning techniques, the presence of muons within energetic boosted jets, or the reconstruction of hadronically decaying high-energy Z bosons. The calibration results, obtained through a combination of these approaches, are presented and discussed.
academic

Leistung der Identifikation von Schwerflavor-Jets in Lorentz-verstärkten Topologien in Proton-Proton-Kollisionen bei s\sqrt{s} = 13 TeV

Grundinformationen

  • Papier-ID: 2510.10228
  • Titel: Performance of heavy-flavour jet identification in Lorentz-boosted topologies in proton-proton collisions at s\sqrt{s} = 13 TeV
  • Autoren: CMS-Kollaboration
  • Klassifizierung: physics.ins-det hep-ex
  • Veröffentlichungsdatum: 14. Oktober 2025
  • Journal: Journal of Instrumentation (eingereicht)
  • Papierlink: https://arxiv.org/abs/2510.10228

Zusammenfassung

Dieses Papier untersucht die Leistung der Schwerflavor-Hadron-Jet-Identifikation in hochgradig Lorentz-verstärkten Topologien, was für die Untersuchung der Higgs-Boson-Eigenschaften am LHC und die Suche nach Teilchen jenseits des Standardmodells von großer Bedeutung ist. Die CMS-Kollaboration hat mehrere verbesserte Objekt-Tagging-Algorithmen entwickelt, um Hadron-Jets aus dem Zerfall massiver Teilchen in bb\mathrm{b\overline{b}} oder cc\mathrm{c\overline{c}} zu identifizieren. Das Papier zeigt die Leistung dieser Algorithmen in simulierten Ereignissen und fasst neuartige Kalibrierungstechniken zusammen, die mit Proton-Proton-Kollisionsdaten verwendet werden, die während der LHC-Laufzeit 2016-2018 bei s\sqrt{s} = 13 TeV gesammelt wurden.

Forschungshintergrund und Motivation

Physikalischer Hintergrund

  1. Verstärkte Topologien in der Hochenergiephysik: Bei TeV-Energieskalen haben die Zerfallsprodukte schwerer Teilchen (wie Higgs-Bosonen, Teilchen jenseits des Standardmodells) hohen Impuls, was dazu führt, dass ihre Zerfallsprodukte in einem einzelnen großen Radius-Jet zusammengefasst werden
  2. Bedeutung des Schwerflavor-Jet-Taggings: Die genaue Identifikation von bb\mathrm{b\overline{b}}- und cc\mathrm{c\overline{c}}-Jets ist entscheidend für die Higgs-Physik-Forschung und die Suche nach neuer Physik
  3. Kalibrierungsbedarf: Die Jet-Tagging-Effizienz in simulierten Ereignissen unterscheidet sich von den tatsächlichen Daten und erfordert präzise datengesteuerte Kalibrierungsmethoden

Forschungsmotivation

  1. Präzisionsmessungen des Standardmodells: Genaue Messung des Higgs-Boson-Zerfalls in Schwerflavor-Quarks
  2. Suche nach neuer Physik: Suche nach neuen Resonanzzuständen, die in Schwerflavor-Quark-Paare zerfallen
  3. Optimierung der Detektorleistung: Verbesserung der Rekonstruktion physikalischer Objekte des CMS-Detektors in verstärkten Topologien

Kernbeiträge

  1. Umfassende Leistungsbewertung: Erstmalige umfassende Vergleichung der Leistung von sieben Schwerflavor-Jet-Tagging-Algorithmen, die während der CMS-Laufzeit 2 entwickelt wurden
  2. Innovative Kalibrierungsmethoden: Entwicklung von drei unabhängigen datengesteuerten Kalibrierungsmethoden:
    • sfBDT-Methode (basierend auf maschinellem Lernen zur Auswahl von Gluon-Splitting-Jets)
    • μ-Tagging-Methode (Methode unter Verwendung von weichen Myonen innerhalb von Jets)
    • Verstärkte Z-Boson-Methode (Methode unter Verwendung von Z→bb-Zerfällen)
  3. Präzise Messung von Skalierungsfaktoren: Durch Kombination mehrerer Messungen mit der BLUE-Methode werden hochpräzise Effizienzkorrektur-Faktoren bereitgestellt
  4. Bewertung systematischer Unsicherheiten: Umfassende Bewertung verschiedener Quellen systematischer Unsicherheiten und deren Auswirkungen

Methodische Details

Aufgabendefinition

Eingabe: Physikalische Merkmale großer Radius-Jets (AK8-Jets, R=0,8) Ausgabe: Wahrscheinlichkeitsklassifizierung der Jet-Quelle (X→bb, X→cc, QCD usw.) Ziel: Maximierung der Signaleffizienz und Unterdrückung des QCD-Mehrjet-Hintergrunds bei Beibehaltung der Massendekorrelation

Tagging-Algorithmus-Architektur

1. ParticleNet-MD

  • Architektur: Auf Graphenneuralen Netzen basierende Verarbeitung von Merkmalen auf Partikelebene
  • Eingabe: Kinematische und geometrische Merkmale von Partikelfluss-Kandidaten und Sekundärvertices
  • Innovationspunkt: Permutationsinvariante Faltungsoperationen mit lokaler Merkmalsextraktion im η-φ-Raum
  • Ausgabe: Massendekorrelierte Wahrscheinlichkeitswerte

2. DeepDoubleX

  • Architektur: Kombination von 1D-Faltungsschichten und gated recurrent units
  • Merkmalsengineering: Verwendung von Layer-wise Relevance Propagation-Techniken zur Merkmalsauswahl
  • Massendekorrelation: Durch Neugewichtung wird die Signaljet-Massenverteilung an die QCD-Hintergrund-Massenverteilung angepasst

3. DeepAK8-MD

  • Architektur: Mehrklassen-Klassifizierer basierend auf 1D-Residual-Faltungsschichten
  • Adversariales Training: Verwendung eines Massenvorhersage-Netzwerks als Strafterm in der Verlustfunktion zur Massendekorrelation

4. Double-b-Tagger

  • Architektur: Basierend auf verstärkten Entscheidungsbäumen (BDT)
  • Merkmale: Hochstufige Spur- und Sekundärvertex-Konstruktionsvariablen

Kalibrierungsmethoden

1. sfBDT-Methode

Kernidee: Verwendung von BDT zur Auswahl von Gluon-Splitting-bb/cc-Jets, 
die dem Signaljet ähneln, als Proxy

Wichtige Innovationen:
- Definition der hadronischen N-Subjektivitätsvariable τ^h_31 auf Hadron-Ebene 
  zur Unterscheidung von Signal und Hintergrund
- Automatisiertes Verfahren zur Bestimmung des sfBDT-Selektionsschwellwerts
- 81 verschiedene Selektionskombinationen zur Bewertung systematischer Unsicherheiten

2. μ-Tagging-Methode

Physikalisches Prinzip: Halbzerfallsmodi von b(c)-Hadronen erzeugen weiche Myonen
Auswahlkriterien:
- Weiche Myonen mit pT > 5 GeV innerhalb des Jets
- τ21 < 0,3 (Auswahl von Doppelgabel-Jet-Struktur)
- Relative Isolation Irel > 0,15

3. Verstärkte Z-Boson-Methode

Signalextraktion: Extraktion des Z→bb-Signals aus dem QCD-Mehrjet-Hintergrund
Anpassungsstrategie:
- 2D-Anpassung (mPNet, pT)
- QCD-Hintergrund modelliert mit Polynomfunktion
- Gleichzeitige Anpassung von Regionen mit und ohne Tagger-Auswahl

Experimentelle Einrichtung

Datensätze

  • Experimentelle Daten: Proton-Proton-Kollisionsdaten von CMS 2016-2018
    • 2016 pre-VFP: 19,5 fb⁻¹
    • 2016 post-VFP: 16,8 fb⁻¹
    • 2017: 41,5 fb⁻¹
    • 2018: 59,8 fb⁻¹
  • Simulierte Proben:
    • QCD-Mehrjet-Prozesse (MADGRAPH5 aMC@NLO)
    • V+Jets-Prozesse (Z+Jets, W+Jets)
    • Higgs-Boson-Produktion (HJ-MINLO + PYTHIA)

Bewertungsmetriken

  • Signaleffizienz: Anteil der korrekt gekennzeichneten X→bb(cc)-Jets
  • Hintergrund-Unterdrückungsrate: Anteil der falsch gekennzeichneten QCD-Jets
  • Skalierungsfaktor (SF): Verhältnis der Daten- zur Simulationseffizienz SF = ε_data/ε_sim
  • ROC-Kurve: Kompromiss zwischen Signaleffizienz und Hintergrund-Effizienz

Arbeitspunkt-Definition

Jeder Tagging-Algorithmus definiert drei Arbeitspunkte:

  • Hohe Reinheit (HP): 40%(bb)/15%(cc) Signaleffizienz
  • Mittlere Reinheit (MP): 60%(bb)/30%(cc) Signaleffizienz
  • Niedrige Reinheit (LP): 80%(bb)/50%(cc) Signaleffizienz

Experimentelle Ergebnisse

Vergleich der Algorithmus-Leistung

AlgorithmusX→bb-LeistungX→cc-LeistungMassendekorrelation
ParticleNet-MDOptimalOptimalAusgezeichnet
DeepDoubleXGutGutGut
DeepAK8-MDMittelMittelGut
Double-bSchwach-Mittel

Messergebnisse der Skalierungsfaktoren

ParticleNet-MD X→bb (2018-Daten)

pT-Bereich GeVHP WPMP WPLP WP
450-5000,95±0,080,98±0,061,02±0,05
500-6000,97±0,091,00±0,071,01±0,06
>6000,94±0,110,99±0,081,03±0,07

Konsistenz zwischen Methoden

Die Ergebnisse der drei Kalibrierungsmethoden bleiben innerhalb der Unsicherheitsbereiche konsistent:

  • sfBDT-Methode: Liefert typischerweise höhere SF-Werte
  • μ-Tagging-Methode: Mittlere SF-Werte, aber größere Unsicherheiten
  • Verstärkte Z-Boson-Methode: Begrenzt durch statistische Genauigkeit, größte Unsicherheiten

Zerlegung systematischer Unsicherheiten

Hauptquellen der Unsicherheit (beispielsweise für ParticleNet-MD HP WP):

  1. Statistische Unsicherheit: ~6%
  2. sfBDT-Selektionsabhängigkeit: ~5%
  3. Neugewichtungsschema-Effekte: ~9%
  4. Theoretische Unsicherheit (ISR/FSR): ~1-4%

Verwandte Arbeiten

Traditionelle Methoden

  • BDT basierend auf hochstufigen Variablen: Verwendung von manuell konstruierten Jet-Form-Variablen
  • Einfaches b-Tagging: Basierend auf Sekundärvertex- und Spurinformationen

Entwicklung von Deep-Learning-Methoden

  1. DeepCSV/DeepJet: Deep-Learning-Tagging für AK4-Jets
  2. CNN-Methoden: Bildverarbeitung von Jets
  3. Graphenneurale Netze: Direkte Verarbeitung von Partikelinformationen
  4. Transformer-Architektur: Anwendung von Aufmerksamkeitsmechanismen beim Jet-Tagging

Entwicklung von Kalibrierungsmethoden

  • Frühe Methoden: Basierend auf einfachen kinematischen Auswahlkriterien
  • Template-Anpassung: Signalextraktion unter Verwendung von invarianten Massenspektren
  • ML-gestützte Methoden: Verwendung von ML-Methoden zur Verbesserung der Proxy-Jet-Auswahl

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. ParticleNet-MD zeigt optimale Leistung: Erreicht beste Leistung bei X→bb- und X→cc-Tagging-Aufgaben
  2. Neuronale Netze übertreffen traditionelle Methoden: Deep-Learning-Methoden zeigen signifikante Verbesserungen gegenüber traditionellen BDT-basierten Methoden
  3. Kalibrierungsmethoden sind wirksam: Drei unabhängige Methoden liefern konsistente Skalierungsfaktor-Messungen
  4. Massendekorrelation erfolgreich implementiert: Alle modernen Algorithmen erreichen erfolgreich Dekorrelation von der Jet-Masse

Einschränkungen

  1. Statistische Genauigkeitsbegrenzungen: Besonders in hochem pT-Bereich und bei hohen Reinheits-Arbeitspunkten
  2. Systematische Unsicherheiten: Hauptsächlich aus der Modellabhängigkeit der Proxy-Jet-Auswahl
  3. Anwendungsbereich: Kalibrierungsergebnisse gelten hauptsächlich für ähnliche verstärkte Topologien
  4. Rechenkomplexität: Deep-Learning-Methoden haben höhere Rechenkosten

Zukünftige Richtungen

  1. Run-3-Datenanalyse: Nutzung größerer statistischer Mengen zur Verbesserung der Messergebnisse
  2. Erkundung neuer Architekturen: Transformer und andere neue neuronale Netzwerk-Architekturen
  3. End-to-End-Optimierung: Vollständige Optimierungskette von Detektorsignalen bis zur physikalischen Analyse
  4. Echtzeitanwendungen: Implementierung von hochstufigem Jet-Tagging im Triggersystem

Tiefgreifende Bewertung

Stärken

  1. Hohe Umfassendheit: Erstmalige umfassende Vergleichung aller wichtigen CMS-Schwerflavor-Jet-Tagging-Algorithmen
  2. Methodische Innovation: Drei unabhängige Kalibrierungsmethoden ermöglichen gegenseitige Validierung und erhöhen die Zuverlässigkeit der Ergebnisse
  3. Technisch fortschrittlich: Repräsentiert das aktuelle Spitzenniveau der Jet-Tagging-Technologie
  4. Hoher praktischer Wert: Bietet wichtige Kalibrierungswerkzeuge für CMS-Physikanalysen
  5. Vollständige Unsicherheitsbewertung: Systematische Bewertung verschiedener Unsicherheitsquellen

Mängel

  1. Begrenzte theoretische Einsicht: Mangelndes tieferes physikalisches Verständnis dafür, warum bestimmte Methoden besser funktionieren
  2. Unzureichende Diskussion der Recheneffizienz: Unzureichende Diskussion des Kompromisses zwischen Rechenkosten verschiedener Algorithmen
  3. Begrenzte Bewertung der Generalisierungsfähigkeit: Begrenzte Bewertung der Generalisierungsfähigkeit von Algorithmen in verschiedenen physikalischen Prozessen
  4. Statistische Einschränkungen: Einige Messergebnisse sind durch statistische Genauigkeit begrenzt

Auswirkungen

  1. Akademische Auswirkungen: Setzt neue Standards für Jet-Tagging-Technologie in der Hochenergiephysik-Experimentalforschung
  2. Praktischer Wert: Dient direkt der Higgs-Physik und der Suche nach neuer Physik
  3. Technologische Verbreitung: Methoden können auf andere Experimente und Objektidentifikationsprobleme übertragen werden
  4. Potenzial für industrielle Anwendungen: Deep-Learning-Techniken können auf andere Mustererkennung angewendet werden

Anwendungsszenarien

  1. Higgs-Physik-Forschung: Präzisionsmessungen der H→bb-, H→cc-Zerfallskanäle
  2. Suche nach neuer Physik: Suche nach neuen Resonanzzuständen, die in Schwerflavor-Quarks zerfallen
  3. Präzisionsmessungen: Analysen, die hochpräzise Schwerflavor-Jet-Identifikation erfordern
  4. Methodologische Forschung: Benchmark-Tests und Vergleiche von Jet-Tagging-Algorithmen

Technische Innovationshighlights

Innovation der sfBDT-Methode

  • Hadronische τ^h_31-Variable: Erstmalige Verwendung von N-Subjektivität basierend auf Hadronen der ersten Generation zur Unterscheidung von Signal und Hintergrund
  • Automatisierte Schwellwertauswahl: Entwicklung eines Algorithmus zur automatischen Bestimmung der optimalen sfBDT-Auswahl
  • Mehrfach-Selektionsstrategie: Quantifizierung der Selektionsabhängigkeit systematischer Unsicherheiten durch 81 Selektionskombinationen

Kombinierte Messtechnik

  • BLUE-Methode-Erweiterung: Erweiterung der Best Linear Unbiased Estimate-Methode auf gleichzeitige Anpassung über mehrere pT-Bereiche
  • Korrelationsbehandlung: Korrekte Behandlung von systematischen Unsicherheitskorrelationen zwischen verschiedenen Methoden
  • Kreuzvalidierung: Drei unabhängige Methoden bieten starke gegenseitige Validierung

Referenzen

Das Papier zitiert 72 wichtige Referenzen, die folgende Bereiche abdecken:

  • CMS-Detektortechnologie-Literatur
  • Entwicklungsgeschichte von Jet-Tagging-Algorithmen
  • Anwendung von Deep Learning in der Hochenergiephysik
  • Statistische Methoden und Unsicherheitsbehandlung
  • Verwandte physikalische Analyseergebnisse

Gesamtbewertung: Dies ist ein hochqualitatives experimentelles Physik-Papier, das das aktuelle Spitzenniveau der Jet-Tagging-Technologie in der Teilchenphysik-Experimentalforschung repräsentiert. Das Papier bietet nicht nur wichtige technische Werkzeuge, sondern legt auch eine solide Grundlage für zukünftige Algorithmusentwicklung und physikalische Analysen. Seine methodologischen Innovationen und systematische Leistungsbewertung haben großen Wert für die gesamte Hochenergiephysik-Gemeinschaft.