CPU simulators are vital for computer architecture research, primarily for estimating performance under different programs. This poses challenges for fast and accurate simulation of modern CPUs, especially in multi-core systems. Modern CPU peformance simulators such as GEM5 adopt the cycle-accurate and event-driven approach, which is timeconsuming to simulate the extensive microarchitectural behavior of a real benchmark running on out-of-order CPUs. Recently, machine leaning based approach has been proposed to improve simulation speed, but they are currently limited to estimating the cycles of basic blocks rather than the complete benchmark program. This paper introduces a novel ML-based CPU simulator named CAPSim, which uses an attention-based neural network performance predictor and instruction trace sampling method annotated with context. The attention mechanism effectively captures long-range influence within the instruction trace, emphasizing critical context information. This allows the model to improve performance prediction accuracy by focusing on important code instruction. CAPSim can predict the execution time of unseen benchmarks at a significantly fast speed compared with an accurate O3 simulator built with gem5. Our evaluation on a commercial Intel Xeon CPU demonstrates that CAPSim achieves a 2.2 - 8.3x speedup compared to using gem5 built simulator, which is superior to the cutting-edge deep learning approach
- Papier-ID: 2510.10484
- Titel: CAPSim: A Fast CPU Performance Simulator Using Attention-based Predictor
- Autoren: Buqing Xu, Jianfeng Zhu, Yichi Zhang, Qinyi Cai, Guanhua Li, Shaojun Wei, Leibo Liu
- Klassifizierung: cs.PF (Leistung)
- Veröffentlichungsdatum: 12. Oktober 2025
- Institution: School of Integrated Circuits, Tsinghua University
- Papierlink: https://arxiv.org/abs/2510.10484v1
CPU-Simulatoren sind für die Forschung im Bereich Computerarchitektur von entscheidender Bedeutung und werden hauptsächlich zur Bewertung der Leistung verschiedener Programme verwendet. Moderne CPU-Leistungssimulator wie GEM5 verwenden zykluspräzise und ereignisgesteuerte Methoden, sind jedoch bei der Simulation komplexer Mikroarchitektur-Verhaltensweisen echter Benchmarks auf Out-of-Order-CPUs zeitaufwändig. Dieses Papier präsentiert CAPSim, einen neuartigen ML-gesteuerten CPU-Simulator basierend auf einem aufmerksamkeitsmechanismus-basierten neuronalen Netzwerk-Leistungsprädiktor mit einer Instruktions-Trace-Sampling-Methode mit kontextuellen Anmerkungen. Der Aufmerksamkeitsmechanismus erfasst effektiv Fernwirkungen in Instruktions-Traces und betont kritische Kontextinformationen. Experimente zeigen, dass CAPSim eine Beschleunigung von 2,2–8,3× gegenüber dem O3-Simulator von gem5 erreicht.
- Geschwindigkeitsengpässe traditioneller Simulatoren: Moderne zykluspräzise Simulatoren (wie gem5) sind bei der Simulation vollständiger Benchmark-Programme zu langsam, hauptsächlich aufgrund von:
- Die zykluspräzise Simulation ist von Natur aus ein serieller Prozess und schwer zu parallelisieren
- Die Simulation moderner Out-of-Order-CPUs erfordert die Modellierung aller Mikroarchitektur-Details mit enormem Rechenaufwand
- Einschränkungen bestehender ML-Methoden: Bestehende Machine-Learning-Methoden (wie Ithemal, Granite usw.) sind auf die Vorhersage des Durchsatzes von Grundblöcken beschränkt und können die Leistungsvorhersage vollständiger Programme nicht bewältigen
- Ausgleich zwischen Genauigkeit und Geschwindigkeit: Es ist erforderlich, die Vorhersagegenauigkeit zu gewährleisten und gleichzeitig die Simulationsgeschwindigkeit erheblich zu verbessern
- CPU-Simulatoren sind Schlüsselwerkzeuge in der Computerarchitektur-Forschung
- Mit zunehmender Komplexität der CPU-Mikroarchitektur und der Verbreitung von Mehrkernsystemen sehen sich traditionelle Simulationsmethoden mit ernsthaften Effizienzproblemen konfrontiert
- Schnelle und genaue Leistungsvorhersagen sind für die Co-Design- und Optimierung von Hard- und Software von entscheidender Bedeutung
- Vorschlag einer aufmerksamkeitsmechanismus-basierten CPU-Leistungsvorhersagemethode: Erstmalige Anwendung des Aufmerksamkeitsmechanismus auf die Leistungsvorhersage auf Instruktionsebene, die Fernabhängigkeiten zwischen Instruktionen erfassen kann und die Vorhersagefähigkeit von der Grundblock-Ebene auf die Ebene vollständiger Programme erweitert
- Entwurf des vollständigen CAPSim-Simulator-Frameworks: Integration eines schnellen funktionalen Simulators und eines feingranularen Code-Block-Leistungsprädiktors zur Erreichung eines Gleichgewichts zwischen Geschwindigkeit und Genauigkeit
- Entwicklung beschleunigter Trainingsmethoden: Durch Clustering- und Sampling-Techniken wird der Trainingsdatensatz in Kategorien wie rechenintensiv, speicherintensiv und kontrollintensiv unterteilt, was die Trainingszeit erheblich reduziert und Überanpassung verhindert
- Realisierung signifikanter Leistungssteigerungen: Erreicht maximale 8,3× Beschleunigung auf SPEC2017-Benchmarks mit durchschnittlich 4,9× Beschleunigung, während akzeptable Vorhersagegenauigkeit beibehalten wird
Eingabe: Instruktions-Trace-Sequenz und CPU-Kontextinformationen (Registerzustände)
Ausgabe: Vorhersage der Ausführungszeit von Code-Fragmenten
Ziel: Erhebliche Verbesserung der Geschwindigkeit der Leistungsbewertung vollständiger Benchmark-Programme bei Gewährleistung der Vorhersagegenauigkeit
CAPSim verwendet eine End-to-End-Architektur mit den folgenden Hauptkomponenten:
- AtomicSimple CPU-Simulator: Schnelle Generierung von Instruktions-Traces
- Instruktions-Sequenz-Slicer: Teilt lange Instruktions-Sequenzen in verarbeitbare Code-Fragmente auf
- Sampler: Reduziert die Trainingsdatenmenge und beschleunigt den Trainingsprozess
- Aufmerksamkeitsbasierter Leistungsprädiktor: Kernvorhersagemodul
Das Papier modelliert die gesamte Ausführungszeit als:
Ttotal=∑n=1Nti⋅αi
wobei ti die ideale Ausführungszeit der i-ten Instruktion ist und αi der Einflussfaktor ist. Durch Einführung von Vektordarstellung und Aufmerksamkeitsmechanismus wird die endgültige Form formalisiert als:
Ttotal=∑i=1MMLP(Attention(contextM×E,TET,TET))
Normalisierungskonvertierungsschicht:
Konvertiert ursprüngliche Assembly-Instruktionen in normalisierte Token-Sequenzen mit vier Segmenten:
<OPCODE>: Operationscode<DSTS>: Zieloperanden<SRCS>: Quelloperanden<MEM>: Speicherzugriffsinformationen
Kontextinformationskonstruktion:
Konstruiert eine Kontextmatrix mit CPU-Zustandsinformationen, wie in Tabelle I gezeigt:
| Registertyp | Anzahl | Bitbreite | Beschreibung |
|---|
| Universalregister (GPR) | 32 | 64 | Hauptspeicherregister |
| Vektor-Skalar-Register (VSR) | 64 | 128 | Gleitkomma-Rechenregister |
| Bedingungsregister (CR) | 1 | 32 | Spiegelt Operationsergebnisse wider |
| Programmzähler (CIA/NIA) | 2 | 64 | Instruktionsadresse |
Mehrschichtiges Aufmerksamkeitsnetzwerk:
- Instruktions-Encoder: Wendet Self-Attention-Mechanismus auf jede Instruktion an
- Block-Encoder: Verarbeitet Abhängigkeitsbeziehungen zwischen Instruktionssequenzen
- MLP-Schicht: Endgültige Ausgabe der Ausführungszeit-Vorhersage
- Modellierung von Fernabhängigkeiten: Im Vergleich zu sequenziellen Modellen wie LSTM kann der Aufmerksamkeitsmechanismus Fernabhängigkeiten zwischen Instruktionen besser erfassen
- Kontextbewusste Vorhersage: Einbeziehung des CPU-Registerzustands als Kontextinformation zur Verbesserung der Vorhersagegenauigkeit
- Hierarchisches Aufmerksamkeits-Design: Duale Aufmerksamkeitsmechanismen auf Instruktions- und Block-Ebene, die sowohl Token-Beziehungen innerhalb von Instruktionen als auch Abhängigkeiten zwischen Instruktionen berücksichtigen
- Parallelisierte Verarbeitung: Teilt lange Instruktions-Sequenzen in kleine Fragmente auf und unterstützt GPU-parallele Verarbeitung für erheblich verbesserte Inferenzgeschwindigkeit
- Benchmark-Suite: SPEC2017 mit 24 Benchmark-Programmen
- Instruktionssatz-Architektur: Power ISA
- Intervallgröße: 5.000.000 Instruktionen, Aufwärmgröße 1.000.000 Instruktionen
- Code-Fragment-Länge: 100–200 Instruktionen
- Gesamtzahl der Kontrollpunkte: 623
- Geschwindigkeitsmetrik: Beschleunigungsverhältnis relativ zum gem5-Simulator
- Genauigkeitsmetrik: Mittlerer absoluter prozentualer Fehler (MAPE)
- Traditionelle Methode: gem5 O3 Superscalar-Prozessor-Simulator
- ML-Baseline: Ithemal-Modell basierend auf LSTM
- Ablationsstudien: CAPSim-Variante ohne Kontextinformationen
- Hardware-Plattform: NVIDIA GeForce RTX 4090 (24 GB), Intel Xeon CPU E5-2623 v4
- Modellparameter: Einbettungsvektordimension 128, Anzahl der Aufmerksamkeitsköpfe 4, Encoder-Schichten 4
- Trainingseinstellungen: SGD-Optimierer, Lernrate 0,001, Momentum 0,9
- Sampling-Parameter: Schwellenwert 200, Sampling-Koeffizient 0,02
Geschwindigkeitssteigerung:
- Maximales Beschleunigungsverhältnis: 8,3× (510.parest Benchmark)
- Durchschnittliches Beschleunigungsverhältnis: 4,9×
- Der Beschleunigungseffekt korreliert mit der Anzahl der Kontrollpunkte und zeigt die Vorteile der GPU-Parallelisierung
Genauigkeitsleistung:
- Verbesserung gegenüber LSTM-Baseline um 9,5 %–21,2 %, durchschnittlich 15,8 %
- Nach Einbeziehung von Kontextinformationen Genauigkeitsverbesserung um 1,3 %–9,6 %, durchschnittlich 6,2 %
- Durchschnittlicher MAPE von 12,0 % auf gemischtem Trainingssatz
- Aufmerksamkeitsmechanismus vs. LSTM: Der Aufmerksamkeitsmechanismus ist bei der Verarbeitung langer Code-Fragmente deutlich überlegen gegenüber LSTM
- Auswirkung von Kontextinformationen: Kontextinformationen spielen eine Schlüsselrolle bei der Verbesserung der Vorhersagegenauigkeit
- Effekt des klassifizierten Trainings: Klassifiziertes Training verbessert die Genauigkeit um 0,5 % gegenüber gemischtem Training
Benchmark-übergreifend:
- 6×6 Cross-Validierungsexperimente mit 36 Trainings-Test-Kombinationen
- Trainingsgenauigkeit 91,3 %, Gesamtdurchschnittsgenauigkeit 88,3 %
- Demonstriert gute Generalisierungsfähigkeit des Modells auf unbekannte Benchmarks
Architekturparameter-übergreifend:
Genauigkeitsleistung unter verschiedenen Mikroarchitektur-Parameterkonfigurationen:
| Parameterkonfiguration | FetchWidth | IssueWidth | CommitWidth | ROBEntry | Fehler |
|---|
| Basis-Konfiguration | 8 | 8 | 8 | 192 | 12,0 % |
| Variante 1 | 4 | 8 | 8 | 192 | 12,2 % |
| Variante 2 | 8 | 4 | 8 | 192 | 12,9 % |
- Signifikanter Parallelisierungseffekt: GPU-Parallelverarbeitung zeigt deutliche Vorteile gegenüber CPU-serieller Simulation
- Wichtigkeit von Fernabhängigkeiten: Der Aufmerksamkeitsmechanismus erfasst effektiv komplexe Abhängigkeitsbeziehungen zwischen Instruktionen
- Kritische Bedeutung von Kontextinformationen: CPU-Zustandsinformationen sind entscheidend für genaue Vorhersage der Ausführungszeit
- Effektivität des klassifizierten Trainings: Das Klassifizieren des Trainings nach Programmeigenschaften verbessert die Generalisierungsfähigkeit des Modells
- Zykluspräzise Simulatoren: gem5, SimpleScalar, Sniper usw., hohe Genauigkeit aber langsam
- Grundblock-Level-Tools: llvm-mca, uiCA, IACA usw., schnell aber funktional begrenzt
- Regressionsmodelle: Verwendung linearer/nichtlinearer Regression zur Vorhersage von CPI und Stromverbrauch
- Deep-Learning-Methoden:
- Ithemal: LSTM zur Vorhersage des Grundblock-Durchsatzes
- Difftune: Optimierung von llvm-mca-Parametern
- Granite: Graph Neural Network zur Vorhersage der Grundblock-Leistung
- Statistische Sampling: SMARTS periodisches Sampling
- Zielgerichtetes Sampling: SimPoint-Sampling basierend auf Programmverhalten
Hauptvorteile dieser Arbeit gegenüber bestehenden Arbeiten:
- Erstmalige Realisierung von Leistungsvorhersage auf Ebene vollständiger Programme (nicht nur Grundblock-Ebene)
- Verwendung zykluspräziser Simulatoren als Ground Truth (nicht einfache Compiler-Tools)
- Aufmerksamkeitsmechanismus modelliert Fernabhängigkeitsbeziehungen besser
- Technische Machbarkeit: Die aufmerksamkeitsmechanismus-basierte Methode kann die CPU-Leistung vollständiger Programme effektiv vorhersagen
- Leistungsvorteil: Signifikante Beschleunigung gegenüber traditionellem gem5-Simulator (2,2–8,3×)
- Genauigkeitsgarantie: Beibehaltung akzeptabler Vorhersagegenauigkeit bei erheblicher Geschwindigkeitssteigerung
- Generalisierungsfähigkeit: Das Modell zeigt gute Anpassungsfähigkeit an unbekannte Benchmarks und verschiedene Architekturparameter
- Genauigkeits-Kompromiss: Obwohl die Geschwindigkeit erheblich verbessert wird, liegt die Vorhersagegenauigkeit immer noch hinter speziellen zykluspräzisen Simulatoren zurück (durchschnittlicher Fehler von 12 %)
- Architekturabhängigkeit: Die aktuelle Implementierung basiert auf Power ISA; die Erweiterung auf andere Instruktionssätze erfordert Neuanpassung
- Trainingsdatenbedarf: Erfordert große Mengen an annotierten Daten für das Training mit hohen Anfangskosten
- Verarbeitung komplexer Szenarien: Die Vorhersagefähigkeit kann bei extrem komplexem Programmverhalten und Mikroarchitektur-Eigenschaften begrenzt sein
- Unterstützung mehrerer Architekturen: Erweiterung auf x86, ARM und andere Mainstream-Instruktionssatz-Architekturen
- Genauigkeitsverbesserung: Erforschung fortgeschrittener Aufmerksamkeitsmechanismen und Kontextmodellierungsmethoden
- Mehrkernsupport: Erweiterung auf Mehrkernsysteme und heterogene Systeme zur Leistungsvorhersage
- Online-Lernen: Unterstützung von Laufzeit-Selbstanpassung und Modellaktualisierung
Technische Innovativität:
- Erstmalige Anwendung des Transformer-Aufmerksamkeitsmechanismus auf das Gebiet der CPU-Leistungsvorhersage
- Innovative Kombination von Kontextinformationen und Instruktions-Sequenz-Modellierung
- Entwurf eines vollständigen End-to-End-Vorhersage-Frameworks
Experimentelle Vollständigkeit:
- Umfassende Bewertung auf Standard-SPEC2017-Benchmarks
- Detaillierte Ablationsstudien und Generalisierungsfähigkeitstests
- Vergleich mit mehreren Baseline-Methoden
Überzeugungskraft der Ergebnisse:
- Signifikante Geschwindigkeitssteigerung (maximale 8,3× Beschleunigung)
- Genauigkeitsverbesserung gegenüber bestehenden ML-Methoden
- Gute Generalisierungsfähigkeit über Benchmarks hinweg
Klarheit der Darstellung:
- Klare Darlegung der Problemmotivation
- Detaillierte Methodenbeschreibung mit mathematischen Formeln
- Vollständige Darstellung von Experimentaleinrichtung und Ergebnissen
Methodische Einschränkungen:
- Vorhersagegenauigkeit hat noch Verbesserungspotenzial (durchschnittlicher Fehler von 12 %)
- Validierung nur auf Power ISA, fehlende Multi-Architektur-Validierung
- Unzureichende Validierung der Verarbeitungsfähigkeit für extrem komplexe Szenarien
Experimentelle Mängel:
- Hardware-Plattform-Vergleich könnte unfair sein (GPU vs. CPU)
- Fehlende Vergleiche mit mehr neuesten ML-Methoden
- Unzureichende Analyse der Vorhersageeffektivität für verschiedene Programmtypen
Unzureichende Analyse:
- Oberflächliche Analyse der Interpretierbarkeit des Aufmerksamkeitsmechanismus
- Wenige Fehlerfall-Analysen
- Unzureichende Analyse des Ressourcenverbrauchs
Beitrag zum Gebiet:
- Bietet einen neuen technischen Pfad für CPU-Leistungsvorhersage
- Fördert die Anwendung von ML in der Computerarchitektur-Forschung
- Bietet Werkzeuge für schnelle Architektur-Design-Space-Exploration
Praktischer Wert:
- Erhebliche Verbesserung der Bewertungseffizienz großer Benchmark-Tests
- Schnelle Rückmeldung für Compiler-Optimierung und Hardware-Design
- Reduzierung der Zeitkosten für Computerarchitektur-Forschung
Reproduzierbarkeit:
- Relativ detaillierte Methodenbeschreibung
- Verwendung von Standard-Benchmark-Test-Suites
- Aber einige Implementierungsdetails und Code sind nicht öffentlich
- Architektur-Design-Space-Exploration: Schnelle Bewertung der Leistungsauswirkungen verschiedener Design-Parameter
- Compiler-Optimierung: Schnelle Leistungsrückmeldung für Code-Optimierung
- Benchmark-Test-Beschleunigung: Erhebliche Reduzierung der Laufzeit von Standard-Benchmark-Tests
- Lehre und Forschung: Effizientes Simulationswerkzeug für Computerarchitektur-Kurse und -Forschung
Das Papier zitiert 61 verwandte Literaturquellen, hauptsächlich einschließlich:
Klassische Simulatoren:
- gem5: The gem5 simulator (Binkert et al.)
- SimpleScalar, Sniper, Zesto und andere traditionelle Simulatoren
Machine-Learning-Methoden:
- Ithemal: Accurate, portable and fast basic block throughput estimation (Mendis et al.)
- Granite: A graph neural network model for basic block throughput estimation (Sýkora et al.)
Aufmerksamkeitsmechanismus:
- Attention is all you need (Vaswani et al.)
- Transformer-bezogene Forschung
Benchmark-Tests:
- SPEC CPU2017 Benchmark-Test-Suite
Gesamtbewertung: Dies ist ein innovatives und praktisch wertvolles Papier im Gebiet der CPU-Leistungsvorhersage. Die Autoren haben erfolgreich den Aufmerksamkeitsmechanismus in die CPU-Leistungsvorhersage eingeführt und einen Durchbruch von der Grundblock-Ebene zur Vorhersage auf Ebene vollständiger Programme erreicht, mit signifikanten Geschwindigkeitssteigerungen. Obwohl es noch Raum für Verbesserungen in der Vorhersagegenauigkeit und der Generalisierungsfähigkeit der Methode gibt, bietet diese Arbeit wertvolle Werkzeuge und Ideen für die Computerarchitektur-Forschung mit guten Anwendungsaussichten.