2025-11-23T22:22:17.433145

CAPSim: A Fast CPU Performance Simulator Using Attention-based Predictor

Xu, Zhu, Zhang et al.

CPU simulators are vital for computer architecture research, primarily for estimating performance under different programs. This poses challenges for fast and accurate simulation of modern CPUs, especially in multi-core systems. Modern CPU peformance simulators such as GEM5 adopt the cycle-accurate and event-driven approach, which is timeconsuming to simulate the extensive microarchitectural behavior of a real benchmark running on out-of-order CPUs. Recently, machine leaning based approach has been proposed to improve simulation speed, but they are currently limited to estimating the cycles of basic blocks rather than the complete benchmark program. This paper introduces a novel ML-based CPU simulator named CAPSim, which uses an attention-based neural network performance predictor and instruction trace sampling method annotated with context. The attention mechanism effectively captures long-range influence within the instruction trace, emphasizing critical context information. This allows the model to improve performance prediction accuracy by focusing on important code instruction. CAPSim can predict the execution time of unseen benchmarks at a significantly fast speed compared with an accurate O3 simulator built with gem5. Our evaluation on a commercial Intel Xeon CPU demonstrates that CAPSim achieves a 2.2 - 8.3x speedup compared to using gem5 built simulator, which is superior to the cutting-edge deep learning approach

academic

CAPSim: 注意機構ベースの予測器を用いた高速CPU性能シミュレータ

基本情報

論文ID: 2510.10484
タイトル: CAPSim: A Fast CPU Performance Simulator Using Attention-based Predictor
著者: Buqing Xu, Jianfeng Zhu, Yichi Zhang, Qinyi Cai, Guanhua Li, Shaojun Wei, Leibo Liu
分類: cs.PF (性能)
発表日: 2025年10月12日
機関: 清華大学集積回路学院
論文リンク: https://arxiv.org/abs/2510.10484v1

概要

CPU シミュレータは計算機アーキテクチャ研究に不可欠であり、主に異なるプログラムの性能評価に用いられる。GEM5 などの現代的な CPU 性能シミュレータはサイクル精密かつイベント駆動型のアプローチを採用しているが、乱序 CPU 上の実ベンチマークの複雑なマイクロアーキテクチャ動作をシミュレートする際に過度に時間がかかる。本論文では、コンテキスト注釈付き命令トレースサンプリング方法を採用した、注意機構ベースのニューラルネットワーク性能予測器を用いた新しい ML 駆動型 CPU シミュレータである CAPSim を提案する。注意機構は命令トレース内の長距離影響を効果的に捉え、重要なコンテキスト情報を強調する。実験結果により、CAPSim は gem5 で構築された O3 シミュレータと比較して 2.2～8.3 倍の高速化を実現することが示された。

研究背景と動機

核心問題

従来型シミュレータの速度ボトルネック: 現代的なサイクルレベルシミュレータ (gem5 など) が完全なベンチマークプログラムをシミュレートする際に速度が遅い主な理由:
- サイクル精密シミュレーションは本質的に直列処理であり、並列化が困難
- 現代的な乱序 CPU のシミュレーションにはすべてのマイクロアーキテクチャ詳細のモデル化が必要であり、計算オーバーヘッドが膨大
既存 ML 手法の限界: 既存の機械学習手法 (Ithemal、Granite など) は基本ブロックスループット予測に限定され、完全なプログラムの性能予測を処理できない
精度と速度のバランス: 予測精度を保証しながら同時にシミュレーション速度を大幅に向上させる必要がある

研究の重要性

CPU シミュレータは計算機アーキテクチャ研究の重要なツール
CPU マイクロアーキテクチャの複雑性の増加とマルチコアシステムの普及に伴い、従来型シミュレーション方法は深刻な効率問題に直面している
高速で正確な性能予測はソフトウェア・ハードウェア協調設計と最適化に不可欠

核心貢献

注意機構ベースの CPU 性能予測方法の提案: 注意機構を命令レベル性能予測に初めて適用し、命令間の長距離依存関係を捉え、予測能力を基本ブロックレベルから完全なプログラムレベルに拡張
CAPSim 完全シミュレータフレームワークの設計: 高速機能シミュレータと細粒度コードブロック性能予測器を統合し、速度と精度のバランスを実現
加速訓練方法の開発: クラスタリングとサンプリング技術を通じて訓練データセットを計算集約型、メモリ集約型、制御集約型などのカテゴリに分割し、訓練時間を大幅に削減し過学習を防止
顕著な性能向上の実現: SPEC2017 ベンチマークで最大 8.3 倍の高速化、平均 4.9 倍の高速化を実現しながら、許容可能な予測精度を維持

方法の詳細説明

タスク定義

入力: 命令トレースシーケンスと CPU コンテキスト情報 (レジスタ状態) 出力: コード片の実行時間予測目標: 予測精度を保証しながら、完全なベンチマークプログラムの性能評価速度を大幅に向上させる

モデルアーキテクチャ

1. 全体アーキテクチャ設計

CAPSim はエンドツーエンドアーキテクチャを採用し、主に以下のコンポーネントで構成される:

AtomicSimple CPU シミュレータ: 命令トレースの高速生成
命令シーケンススライサー: 長い命令シーケンスを処理可能なコード片に分割
サンプラー: 訓練データ量を削減し、訓練プロセスを加速
注意機構ベースの性能予測器: コア予測モジュール

2. 理論的基礎

論文は総実行時間を以下のようにモデル化する:

$T_{total} = \sum_{n=1}^{N} t_i \cdot \alpha_i$

ここで $t_i$ は第 i 命令の理想実行時間、 $\alpha_i$ は影響係数である。ベクトル表現と注意機構を導入することで、最終的な形式化は以下となる:

$T_{total} = \sum_{i=1}^{M} MLP(Attention(context_{M \times E}, T_E^T, T_E^T))$

3. 性能予測器の詳細設計

正規化変換層: 元の汇编命令を正規化トークンシーケンスに変換し、4 つのセグメントを含む:

<OPCODE>: 操作コード
<DSTS>: 宛先オペランド
<SRCS>: ソースオペランド
<MEM>: メモリアクセス情報

コンテキスト情報の構築: 表 I に示すような各種レジスタを含む CPU 状態情報を含むコンテキストマトリックスを構築:

レジスタタイプ	数量	ビット幅	説明
汎用レジスタ (GPR)	32	64	主要ストレージレジスタ
ベクトルスカラーレジスタ (VSR)	64	128	浮動小数点演算レジスタ
条件レジスタ (CR)	1	32	操作結果を反映
プログラムカウンタ (CIA/NIA)	2	64	命令アドレス

多層注意機構ネットワーク:

命令エンコーダー: 各命令に自己注意機構を適用
ブロックエンコーダー: 命令シーケンス間の依存関係を処理
MLP 層: 実行時間予測の最終出力

技術的革新点

長距離依存関係のモデル化: LSTM などのシーケンスモデルと比較して、注意機構は命令間の長距離依存関係をより良く捉えることができる
コンテキスト認識予測: CPU レジスタ状態をコンテキスト情報として導入し、予測精度を向上
階層的注意機構設計: 命令レベルとブロックレベルの二重注意機構により、命令内トークン関係と命令間依存関係の両方を考慮
並列処理: 長い命令シーケンスを小片に分割し、GPU 並列処理をサポートし、推論速度を大幅に向上

実験設定

データセット

ベンチマークスイート: SPEC2017、24 個のベンチマークプログラムを含む
命令セットアーキテクチャ: Power ISA
間隔サイズ: 5,000,000 命令、ウォームアップサイズ 1,000,000 命令
コード片長: 100～200 命令
総チェックポイント数: 623

評価指標

速度指標: gem5 シミュレータに対する相対的な高速化比
精度指標: 平均絶対パーセンテージ誤差 (MAPE)

比較手法

従来型手法: gem5 O3 スーパースカラープロセッサシミュレータ
ML ベースライン: LSTM ベースの Ithemal モデル
アブレーション実験: コンテキスト情報を含まない CAPSim バリアント

実装詳細

ハードウェアプラットフォーム: NVIDIA GeForce RTX 4090 (24GB)、Intel Xeon CPU E5-2623 v4
モデルパラメータ: 埋め込みベクトル次元 128、注意ヘッド数 4、エンコーダー層数 4
訓練設定: SGD オプティマイザー、学習率 0.001、モメンタム 0.9
サンプリングパラメータ: しきい値 200、サンプリング係数 0.02

実験結果

主要結果

速度向上:

最高高速化比: 8.3 倍 (510.parest ベンチマーク)
平均高速化比: 4.9 倍
高速化効果はチェックポイント数と正相関し、GPU 並列化の利点を実証

精度性能:

LSTM ベースラインと比較して 9.5%～21.2% の精度向上、平均 15.8% の向上
コンテキスト情報導入後、精度が 1.3%～9.6% 向上、平均 6.2% の向上
混合訓練セット上の平均 MAPE は 12.0%

アブレーション実験

注意機構 vs LSTM: 注意機構は長いコード片の処理において LSTM より大幅に優れている
コンテキスト情報の影響: コンテキスト情報は予測精度向上に重要な役割を果たす
分類訓練効果: 分類訓練は混合訓練と比較して精度を 0.5% 向上

汎化能力テスト

クロスベンチマークテスト:

6×6 クロス検証実験、36 個の訓練-テスト組み合わせ
訓練セット精度 91.3%、全体平均精度 88.3%
未見ベンチマークに対する良好な汎化能力を実証

クロスアーキテクチャパラメータテスト: 異なるマイクロアーキテクチャパラメータ構成下の精度性能:

パラメータ構成	FetchWidth	IssueWidth	CommitWidth	ROBEntry	誤差
ベース構成	8	8	8	192	12.0%
バリアント 1	4	8	8	192	12.2%
バリアント 2	8	4	8	192	12.9%

実験的発見

並列化効果が顕著: GPU 並列処理は CPU 直列シミュレーションと比較して明らかな利点がある
長距離依存が重要: 注意機構は命令間の複雑な依存関係を効果的に捉える
コンテキスト情報が重要: CPU 状態情報は実行時間の正確な予測に不可欠
分類訓練が有効: プログラム特性に基づく分類訓練はモデルの汎化能力を向上

結論と考察

主要な結論

技術的実現可能性: 注意機構ベースの手法は完全なプログラムの CPU 性能を効果的に予測できる
性能上の利点: 従来の gem5 シミュレータと比較して顕著な高速化 (2.2～8.3 倍) を実現
精度保証: 速度を大幅に向上させながら許容可能な予測精度を維持
汎化能力: モデルは未見ベンチマークと異なるアーキテクチャパラメータに対して良好な適応性を示す

限界

精度のトレードオフ: 速度が大幅に向上する一方で、予測精度は専門的なサイクルレベルシミュレータと比較してまだ差がある (平均 12% 誤差)
アーキテクチャ依存性: 現在の実装は Power ISA に基づいており、他の命令セットへの拡張には再適応が必要
訓練データ要件: 訓練には大量の注釈付きデータが必要であり、初期コストが高い
複雑なシナリオの処理: 極度に複雑なプログラム動作とマイクロアーキテクチャ特性に対しては、予測能力が制限される可能性がある

今後の方向性

マルチアーキテクチャサポート: x86、ARM などの主流命令セットアーキテクチャへの拡張
精度向上: より高度な注意機構とコンテキストモデリング手法の探索
マルチコアサポート: マルチコアと異種システムの性能予測への拡張
オンライン学習: 実行時の自適応学習とモデル更新のサポート

深層評価

利点

技術的革新性:

Transformer 注意機構を CPU 性能予測分野に初めて適用
コンテキスト情報と命令シーケンスモデリングを革新的に組み合わせ
完全なエンドツーエンド予測フレームワークを設計

実験の充実性:

標準 SPEC2017 ベンチマークで包括的な評価を実施
詳細なアブレーション実験と汎化能力テストを含む
複数のベースライン手法と比較

結果の説得力:

顕著な速度向上 (最大 8.3 倍の高速化)
既存 ML 手法に対する精度向上
優れたクロスベンチマーク汎化能力

記述の明確性:

問題の動機が明確に説明されている
方法の説明が詳細で数学公式を含む
実験設定と結果の提示が完全

不足

方法の限界:

予測精度にはまだ改善の余地がある (平均 12% 誤差)
Power ISA でのみ検証され、マルチアーキテクチャ検証が不足
極度に複雑なシナリオの処理能力が十分に検証されていない

実験設定の欠陥:

ハードウェアプラットフォーム比較が公平でない可能性 (GPU vs CPU)
より多くの最新 ML 手法との比較が不足
異なるタイプのプログラムの予測効果の差異分析が不十分

分析の不足:

注意機構の解釈可能性分析が十分でない
エラーケース分析が少ない
計算リソース消費分析が不十分

影響力

分野への貢献:

CPU 性能予測に新しい技術的パスを提供
計算機アーキテクチャ分野における ML 応用を推進
高速アーキテクチャ設計空間探索のためのツールを提供

実用的価値:

大規模ベンチマークテストの評価効率を大幅に向上
コンパイラ最適化とハードウェア設計に高速フィードバックを提供
計算機アーキテクチャ研究の時間コストを削減

再現性:

方法の説明が比較的詳細
標準ベンチマークテストスイートを使用
ただし、一部の実装詳細とコードは公開されていない

適用シナリオ

アーキテクチャ設計空間探索: 異なる設計パラメータの性能影響を高速に評価
コンパイラ最適化: コード最適化に高速な性能フィードバックを提供
ベンチマークテスト加速: 標準ベンチマークテストの実行時間を大幅に削減
教育と研究: アーキテクチャコースと研究に効率的なシミュレーションツールを提供

参考文献

論文は 61 篇の関連文献を引用しており、主に以下を含む:

古典的シミュレータ:

gem5: The gem5 simulator (Binkert et al.)
SimpleScalar、Sniper、Zesto などの従来型シミュレータ

機械学習手法:

Ithemal: Accurate, portable and fast basic block throughput estimation (Mendis et al.)
Granite: A graph neural network model for basic block throughput estimation (Sýkora et al.)

注意機構:

Attention is all you need (Vaswani et al.)
Transformer 関連研究

ベンチマークテスト:

SPEC CPU2017 ベンチマークテストスイート

総合評価: これは CPU 性能予測分野における革新性と実用的価値を備えた論文である。著者は注意機構を CPU 性能予測に成功裏に導入し、基本ブロックレベルから完全なプログラムレベル予測への突破を実現し、顕著な速度向上を達成した。予測精度と方法の汎化性においてまだ改善の余地があるものの、本研究は計算機アーキテクチャ研究に価値あるツールと思想を提供し、良好な応用前景を有している。