2025-11-23T22:22:17.433145

CAPSim: A Fast CPU Performance Simulator Using Attention-based Predictor

Xu, Zhu, Zhang et al.
CPU simulators are vital for computer architecture research, primarily for estimating performance under different programs. This poses challenges for fast and accurate simulation of modern CPUs, especially in multi-core systems. Modern CPU peformance simulators such as GEM5 adopt the cycle-accurate and event-driven approach, which is timeconsuming to simulate the extensive microarchitectural behavior of a real benchmark running on out-of-order CPUs. Recently, machine leaning based approach has been proposed to improve simulation speed, but they are currently limited to estimating the cycles of basic blocks rather than the complete benchmark program. This paper introduces a novel ML-based CPU simulator named CAPSim, which uses an attention-based neural network performance predictor and instruction trace sampling method annotated with context. The attention mechanism effectively captures long-range influence within the instruction trace, emphasizing critical context information. This allows the model to improve performance prediction accuracy by focusing on important code instruction. CAPSim can predict the execution time of unseen benchmarks at a significantly fast speed compared with an accurate O3 simulator built with gem5. Our evaluation on a commercial Intel Xeon CPU demonstrates that CAPSim achieves a 2.2 - 8.3x speedup compared to using gem5 built simulator, which is superior to the cutting-edge deep learning approach
academic

CAPSim: Ein schneller CPU-Leistungssimulator mit aufmerksamkeitsbasiertem Prädiktor

Grundinformationen

  • Papier-ID: 2510.10484
  • Titel: CAPSim: A Fast CPU Performance Simulator Using Attention-based Predictor
  • Autoren: Buqing Xu, Jianfeng Zhu, Yichi Zhang, Qinyi Cai, Guanhua Li, Shaojun Wei, Leibo Liu
  • Klassifizierung: cs.PF (Leistung)
  • Veröffentlichungsdatum: 12. Oktober 2025
  • Institution: School of Integrated Circuits, Tsinghua University
  • Papierlink: https://arxiv.org/abs/2510.10484v1

Zusammenfassung

CPU-Simulatoren sind für die Forschung im Bereich Computerarchitektur von entscheidender Bedeutung und werden hauptsächlich zur Bewertung der Leistung verschiedener Programme verwendet. Moderne CPU-Leistungssimulator wie GEM5 verwenden zykluspräzise und ereignisgesteuerte Methoden, sind jedoch bei der Simulation komplexer Mikroarchitektur-Verhaltensweisen echter Benchmarks auf Out-of-Order-CPUs zeitaufwändig. Dieses Papier präsentiert CAPSim, einen neuartigen ML-gesteuerten CPU-Simulator basierend auf einem aufmerksamkeitsmechanismus-basierten neuronalen Netzwerk-Leistungsprädiktor mit einer Instruktions-Trace-Sampling-Methode mit kontextuellen Anmerkungen. Der Aufmerksamkeitsmechanismus erfasst effektiv Fernwirkungen in Instruktions-Traces und betont kritische Kontextinformationen. Experimente zeigen, dass CAPSim eine Beschleunigung von 2,2–8,3× gegenüber dem O3-Simulator von gem5 erreicht.

Forschungshintergrund und Motivation

Kernprobleme

  1. Geschwindigkeitsengpässe traditioneller Simulatoren: Moderne zykluspräzise Simulatoren (wie gem5) sind bei der Simulation vollständiger Benchmark-Programme zu langsam, hauptsächlich aufgrund von:
    • Die zykluspräzise Simulation ist von Natur aus ein serieller Prozess und schwer zu parallelisieren
    • Die Simulation moderner Out-of-Order-CPUs erfordert die Modellierung aller Mikroarchitektur-Details mit enormem Rechenaufwand
  2. Einschränkungen bestehender ML-Methoden: Bestehende Machine-Learning-Methoden (wie Ithemal, Granite usw.) sind auf die Vorhersage des Durchsatzes von Grundblöcken beschränkt und können die Leistungsvorhersage vollständiger Programme nicht bewältigen
  3. Ausgleich zwischen Genauigkeit und Geschwindigkeit: Es ist erforderlich, die Vorhersagegenauigkeit zu gewährleisten und gleichzeitig die Simulationsgeschwindigkeit erheblich zu verbessern

Forschungsbedeutung

  • CPU-Simulatoren sind Schlüsselwerkzeuge in der Computerarchitektur-Forschung
  • Mit zunehmender Komplexität der CPU-Mikroarchitektur und der Verbreitung von Mehrkernsystemen sehen sich traditionelle Simulationsmethoden mit ernsthaften Effizienzproblemen konfrontiert
  • Schnelle und genaue Leistungsvorhersagen sind für die Co-Design- und Optimierung von Hard- und Software von entscheidender Bedeutung

Kernbeiträge

  1. Vorschlag einer aufmerksamkeitsmechanismus-basierten CPU-Leistungsvorhersagemethode: Erstmalige Anwendung des Aufmerksamkeitsmechanismus auf die Leistungsvorhersage auf Instruktionsebene, die Fernabhängigkeiten zwischen Instruktionen erfassen kann und die Vorhersagefähigkeit von der Grundblock-Ebene auf die Ebene vollständiger Programme erweitert
  2. Entwurf des vollständigen CAPSim-Simulator-Frameworks: Integration eines schnellen funktionalen Simulators und eines feingranularen Code-Block-Leistungsprädiktors zur Erreichung eines Gleichgewichts zwischen Geschwindigkeit und Genauigkeit
  3. Entwicklung beschleunigter Trainingsmethoden: Durch Clustering- und Sampling-Techniken wird der Trainingsdatensatz in Kategorien wie rechenintensiv, speicherintensiv und kontrollintensiv unterteilt, was die Trainingszeit erheblich reduziert und Überanpassung verhindert
  4. Realisierung signifikanter Leistungssteigerungen: Erreicht maximale 8,3× Beschleunigung auf SPEC2017-Benchmarks mit durchschnittlich 4,9× Beschleunigung, während akzeptable Vorhersagegenauigkeit beibehalten wird

Methodische Details

Aufgabendefinition

Eingabe: Instruktions-Trace-Sequenz und CPU-Kontextinformationen (Registerzustände) Ausgabe: Vorhersage der Ausführungszeit von Code-Fragmenten Ziel: Erhebliche Verbesserung der Geschwindigkeit der Leistungsbewertung vollständiger Benchmark-Programme bei Gewährleistung der Vorhersagegenauigkeit

Modellarchitektur

1. Gesamtarchitektur-Design

CAPSim verwendet eine End-to-End-Architektur mit den folgenden Hauptkomponenten:

  • AtomicSimple CPU-Simulator: Schnelle Generierung von Instruktions-Traces
  • Instruktions-Sequenz-Slicer: Teilt lange Instruktions-Sequenzen in verarbeitbare Code-Fragmente auf
  • Sampler: Reduziert die Trainingsdatenmenge und beschleunigt den Trainingsprozess
  • Aufmerksamkeitsbasierter Leistungsprädiktor: Kernvorhersagemodul

2. Theoretische Grundlagen

Das Papier modelliert die gesamte Ausführungszeit als:

Ttotal=n=1NtiαiT_{total} = \sum_{n=1}^{N} t_i \cdot \alpha_i

wobei tit_i die ideale Ausführungszeit der i-ten Instruktion ist und αi\alpha_i der Einflussfaktor ist. Durch Einführung von Vektordarstellung und Aufmerksamkeitsmechanismus wird die endgültige Form formalisiert als:

Ttotal=i=1MMLP(Attention(contextM×E,TET,TET))T_{total} = \sum_{i=1}^{M} MLP(Attention(context_{M \times E}, T_E^T, T_E^T))

3. Detailliertes Design des Leistungsprädiktors

Normalisierungskonvertierungsschicht: Konvertiert ursprüngliche Assembly-Instruktionen in normalisierte Token-Sequenzen mit vier Segmenten:

  • <OPCODE>: Operationscode
  • <DSTS>: Zieloperanden
  • <SRCS>: Quelloperanden
  • <MEM>: Speicherzugriffsinformationen

Kontextinformationskonstruktion: Konstruiert eine Kontextmatrix mit CPU-Zustandsinformationen, wie in Tabelle I gezeigt:

RegistertypAnzahlBitbreiteBeschreibung
Universalregister (GPR)3264Hauptspeicherregister
Vektor-Skalar-Register (VSR)64128Gleitkomma-Rechenregister
Bedingungsregister (CR)132Spiegelt Operationsergebnisse wider
Programmzähler (CIA/NIA)264Instruktionsadresse

Mehrschichtiges Aufmerksamkeitsnetzwerk:

  • Instruktions-Encoder: Wendet Self-Attention-Mechanismus auf jede Instruktion an
  • Block-Encoder: Verarbeitet Abhängigkeitsbeziehungen zwischen Instruktionssequenzen
  • MLP-Schicht: Endgültige Ausgabe der Ausführungszeit-Vorhersage

Technische Innovationen

  1. Modellierung von Fernabhängigkeiten: Im Vergleich zu sequenziellen Modellen wie LSTM kann der Aufmerksamkeitsmechanismus Fernabhängigkeiten zwischen Instruktionen besser erfassen
  2. Kontextbewusste Vorhersage: Einbeziehung des CPU-Registerzustands als Kontextinformation zur Verbesserung der Vorhersagegenauigkeit
  3. Hierarchisches Aufmerksamkeits-Design: Duale Aufmerksamkeitsmechanismen auf Instruktions- und Block-Ebene, die sowohl Token-Beziehungen innerhalb von Instruktionen als auch Abhängigkeiten zwischen Instruktionen berücksichtigen
  4. Parallelisierte Verarbeitung: Teilt lange Instruktions-Sequenzen in kleine Fragmente auf und unterstützt GPU-parallele Verarbeitung für erheblich verbesserte Inferenzgeschwindigkeit

Experimentelle Einrichtung

Datensatz

  • Benchmark-Suite: SPEC2017 mit 24 Benchmark-Programmen
  • Instruktionssatz-Architektur: Power ISA
  • Intervallgröße: 5.000.000 Instruktionen, Aufwärmgröße 1.000.000 Instruktionen
  • Code-Fragment-Länge: 100–200 Instruktionen
  • Gesamtzahl der Kontrollpunkte: 623

Bewertungsmetriken

  • Geschwindigkeitsmetrik: Beschleunigungsverhältnis relativ zum gem5-Simulator
  • Genauigkeitsmetrik: Mittlerer absoluter prozentualer Fehler (MAPE)

Vergleichsmethoden

  • Traditionelle Methode: gem5 O3 Superscalar-Prozessor-Simulator
  • ML-Baseline: Ithemal-Modell basierend auf LSTM
  • Ablationsstudien: CAPSim-Variante ohne Kontextinformationen

Implementierungsdetails

  • Hardware-Plattform: NVIDIA GeForce RTX 4090 (24 GB), Intel Xeon CPU E5-2623 v4
  • Modellparameter: Einbettungsvektordimension 128, Anzahl der Aufmerksamkeitsköpfe 4, Encoder-Schichten 4
  • Trainingseinstellungen: SGD-Optimierer, Lernrate 0,001, Momentum 0,9
  • Sampling-Parameter: Schwellenwert 200, Sampling-Koeffizient 0,02

Experimentelle Ergebnisse

Hauptergebnisse

Geschwindigkeitssteigerung:

  • Maximales Beschleunigungsverhältnis: 8,3× (510.parest Benchmark)
  • Durchschnittliches Beschleunigungsverhältnis: 4,9×
  • Der Beschleunigungseffekt korreliert mit der Anzahl der Kontrollpunkte und zeigt die Vorteile der GPU-Parallelisierung

Genauigkeitsleistung:

  • Verbesserung gegenüber LSTM-Baseline um 9,5 %–21,2 %, durchschnittlich 15,8 %
  • Nach Einbeziehung von Kontextinformationen Genauigkeitsverbesserung um 1,3 %–9,6 %, durchschnittlich 6,2 %
  • Durchschnittlicher MAPE von 12,0 % auf gemischtem Trainingssatz

Ablationsstudien

  1. Aufmerksamkeitsmechanismus vs. LSTM: Der Aufmerksamkeitsmechanismus ist bei der Verarbeitung langer Code-Fragmente deutlich überlegen gegenüber LSTM
  2. Auswirkung von Kontextinformationen: Kontextinformationen spielen eine Schlüsselrolle bei der Verbesserung der Vorhersagegenauigkeit
  3. Effekt des klassifizierten Trainings: Klassifiziertes Training verbessert die Genauigkeit um 0,5 % gegenüber gemischtem Training

Generalisierungsfähigkeitstests

Benchmark-übergreifend:

  • 6×6 Cross-Validierungsexperimente mit 36 Trainings-Test-Kombinationen
  • Trainingsgenauigkeit 91,3 %, Gesamtdurchschnittsgenauigkeit 88,3 %
  • Demonstriert gute Generalisierungsfähigkeit des Modells auf unbekannte Benchmarks

Architekturparameter-übergreifend: Genauigkeitsleistung unter verschiedenen Mikroarchitektur-Parameterkonfigurationen:

ParameterkonfigurationFetchWidthIssueWidthCommitWidthROBEntryFehler
Basis-Konfiguration88819212,0 %
Variante 148819212,2 %
Variante 284819212,9 %

Experimentelle Erkenntnisse

  1. Signifikanter Parallelisierungseffekt: GPU-Parallelverarbeitung zeigt deutliche Vorteile gegenüber CPU-serieller Simulation
  2. Wichtigkeit von Fernabhängigkeiten: Der Aufmerksamkeitsmechanismus erfasst effektiv komplexe Abhängigkeitsbeziehungen zwischen Instruktionen
  3. Kritische Bedeutung von Kontextinformationen: CPU-Zustandsinformationen sind entscheidend für genaue Vorhersage der Ausführungszeit
  4. Effektivität des klassifizierten Trainings: Das Klassifizieren des Trainings nach Programmeigenschaften verbessert die Generalisierungsfähigkeit des Modells

Verwandte Arbeiten

Traditionelle Simulatoren

  • Zykluspräzise Simulatoren: gem5, SimpleScalar, Sniper usw., hohe Genauigkeit aber langsam
  • Grundblock-Level-Tools: llvm-mca, uiCA, IACA usw., schnell aber funktional begrenzt

Machine-Learning-Methoden

  • Regressionsmodelle: Verwendung linearer/nichtlinearer Regression zur Vorhersage von CPI und Stromverbrauch
  • Deep-Learning-Methoden:
    • Ithemal: LSTM zur Vorhersage des Grundblock-Durchsatzes
    • Difftune: Optimierung von llvm-mca-Parametern
    • Granite: Graph Neural Network zur Vorhersage der Grundblock-Leistung

Sampling-Techniken

  • Statistische Sampling: SMARTS periodisches Sampling
  • Zielgerichtetes Sampling: SimPoint-Sampling basierend auf Programmverhalten

Hauptvorteile dieser Arbeit gegenüber bestehenden Arbeiten:

  1. Erstmalige Realisierung von Leistungsvorhersage auf Ebene vollständiger Programme (nicht nur Grundblock-Ebene)
  2. Verwendung zykluspräziser Simulatoren als Ground Truth (nicht einfache Compiler-Tools)
  3. Aufmerksamkeitsmechanismus modelliert Fernabhängigkeitsbeziehungen besser

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Technische Machbarkeit: Die aufmerksamkeitsmechanismus-basierte Methode kann die CPU-Leistung vollständiger Programme effektiv vorhersagen
  2. Leistungsvorteil: Signifikante Beschleunigung gegenüber traditionellem gem5-Simulator (2,2–8,3×)
  3. Genauigkeitsgarantie: Beibehaltung akzeptabler Vorhersagegenauigkeit bei erheblicher Geschwindigkeitssteigerung
  4. Generalisierungsfähigkeit: Das Modell zeigt gute Anpassungsfähigkeit an unbekannte Benchmarks und verschiedene Architekturparameter

Einschränkungen

  1. Genauigkeits-Kompromiss: Obwohl die Geschwindigkeit erheblich verbessert wird, liegt die Vorhersagegenauigkeit immer noch hinter speziellen zykluspräzisen Simulatoren zurück (durchschnittlicher Fehler von 12 %)
  2. Architekturabhängigkeit: Die aktuelle Implementierung basiert auf Power ISA; die Erweiterung auf andere Instruktionssätze erfordert Neuanpassung
  3. Trainingsdatenbedarf: Erfordert große Mengen an annotierten Daten für das Training mit hohen Anfangskosten
  4. Verarbeitung komplexer Szenarien: Die Vorhersagefähigkeit kann bei extrem komplexem Programmverhalten und Mikroarchitektur-Eigenschaften begrenzt sein

Zukünftige Richtungen

  1. Unterstützung mehrerer Architekturen: Erweiterung auf x86, ARM und andere Mainstream-Instruktionssatz-Architekturen
  2. Genauigkeitsverbesserung: Erforschung fortgeschrittener Aufmerksamkeitsmechanismen und Kontextmodellierungsmethoden
  3. Mehrkernsupport: Erweiterung auf Mehrkernsysteme und heterogene Systeme zur Leistungsvorhersage
  4. Online-Lernen: Unterstützung von Laufzeit-Selbstanpassung und Modellaktualisierung

Tiefgehende Bewertung

Stärken

Technische Innovativität:

  1. Erstmalige Anwendung des Transformer-Aufmerksamkeitsmechanismus auf das Gebiet der CPU-Leistungsvorhersage
  2. Innovative Kombination von Kontextinformationen und Instruktions-Sequenz-Modellierung
  3. Entwurf eines vollständigen End-to-End-Vorhersage-Frameworks

Experimentelle Vollständigkeit:

  1. Umfassende Bewertung auf Standard-SPEC2017-Benchmarks
  2. Detaillierte Ablationsstudien und Generalisierungsfähigkeitstests
  3. Vergleich mit mehreren Baseline-Methoden

Überzeugungskraft der Ergebnisse:

  1. Signifikante Geschwindigkeitssteigerung (maximale 8,3× Beschleunigung)
  2. Genauigkeitsverbesserung gegenüber bestehenden ML-Methoden
  3. Gute Generalisierungsfähigkeit über Benchmarks hinweg

Klarheit der Darstellung:

  1. Klare Darlegung der Problemmotivation
  2. Detaillierte Methodenbeschreibung mit mathematischen Formeln
  3. Vollständige Darstellung von Experimentaleinrichtung und Ergebnissen

Schwächen

Methodische Einschränkungen:

  1. Vorhersagegenauigkeit hat noch Verbesserungspotenzial (durchschnittlicher Fehler von 12 %)
  2. Validierung nur auf Power ISA, fehlende Multi-Architektur-Validierung
  3. Unzureichende Validierung der Verarbeitungsfähigkeit für extrem komplexe Szenarien

Experimentelle Mängel:

  1. Hardware-Plattform-Vergleich könnte unfair sein (GPU vs. CPU)
  2. Fehlende Vergleiche mit mehr neuesten ML-Methoden
  3. Unzureichende Analyse der Vorhersageeffektivität für verschiedene Programmtypen

Unzureichende Analyse:

  1. Oberflächliche Analyse der Interpretierbarkeit des Aufmerksamkeitsmechanismus
  2. Wenige Fehlerfall-Analysen
  3. Unzureichende Analyse des Ressourcenverbrauchs

Auswirkungen

Beitrag zum Gebiet:

  1. Bietet einen neuen technischen Pfad für CPU-Leistungsvorhersage
  2. Fördert die Anwendung von ML in der Computerarchitektur-Forschung
  3. Bietet Werkzeuge für schnelle Architektur-Design-Space-Exploration

Praktischer Wert:

  1. Erhebliche Verbesserung der Bewertungseffizienz großer Benchmark-Tests
  2. Schnelle Rückmeldung für Compiler-Optimierung und Hardware-Design
  3. Reduzierung der Zeitkosten für Computerarchitektur-Forschung

Reproduzierbarkeit:

  1. Relativ detaillierte Methodenbeschreibung
  2. Verwendung von Standard-Benchmark-Test-Suites
  3. Aber einige Implementierungsdetails und Code sind nicht öffentlich

Anwendungsszenarien

  1. Architektur-Design-Space-Exploration: Schnelle Bewertung der Leistungsauswirkungen verschiedener Design-Parameter
  2. Compiler-Optimierung: Schnelle Leistungsrückmeldung für Code-Optimierung
  3. Benchmark-Test-Beschleunigung: Erhebliche Reduzierung der Laufzeit von Standard-Benchmark-Tests
  4. Lehre und Forschung: Effizientes Simulationswerkzeug für Computerarchitektur-Kurse und -Forschung

Literaturverzeichnis

Das Papier zitiert 61 verwandte Literaturquellen, hauptsächlich einschließlich:

Klassische Simulatoren:

  • gem5: The gem5 simulator (Binkert et al.)
  • SimpleScalar, Sniper, Zesto und andere traditionelle Simulatoren

Machine-Learning-Methoden:

  • Ithemal: Accurate, portable and fast basic block throughput estimation (Mendis et al.)
  • Granite: A graph neural network model for basic block throughput estimation (Sýkora et al.)

Aufmerksamkeitsmechanismus:

  • Attention is all you need (Vaswani et al.)
  • Transformer-bezogene Forschung

Benchmark-Tests:

  • SPEC CPU2017 Benchmark-Test-Suite

Gesamtbewertung: Dies ist ein innovatives und praktisch wertvolles Papier im Gebiet der CPU-Leistungsvorhersage. Die Autoren haben erfolgreich den Aufmerksamkeitsmechanismus in die CPU-Leistungsvorhersage eingeführt und einen Durchbruch von der Grundblock-Ebene zur Vorhersage auf Ebene vollständiger Programme erreicht, mit signifikanten Geschwindigkeitssteigerungen. Obwohl es noch Raum für Verbesserungen in der Vorhersagegenauigkeit und der Generalisierungsfähigkeit der Methode gibt, bietet diese Arbeit wertvolle Werkzeuge und Ideen für die Computerarchitektur-Forschung mit guten Anwendungsaussichten.