2025-11-23T22:22:17.433145

CAPSim: A Fast CPU Performance Simulator Using Attention-based Predictor

Xu, Zhu, Zhang et al.
CPU simulators are vital for computer architecture research, primarily for estimating performance under different programs. This poses challenges for fast and accurate simulation of modern CPUs, especially in multi-core systems. Modern CPU peformance simulators such as GEM5 adopt the cycle-accurate and event-driven approach, which is timeconsuming to simulate the extensive microarchitectural behavior of a real benchmark running on out-of-order CPUs. Recently, machine leaning based approach has been proposed to improve simulation speed, but they are currently limited to estimating the cycles of basic blocks rather than the complete benchmark program. This paper introduces a novel ML-based CPU simulator named CAPSim, which uses an attention-based neural network performance predictor and instruction trace sampling method annotated with context. The attention mechanism effectively captures long-range influence within the instruction trace, emphasizing critical context information. This allows the model to improve performance prediction accuracy by focusing on important code instruction. CAPSim can predict the execution time of unseen benchmarks at a significantly fast speed compared with an accurate O3 simulator built with gem5. Our evaluation on a commercial Intel Xeon CPU demonstrates that CAPSim achieves a 2.2 - 8.3x speedup compared to using gem5 built simulator, which is superior to the cutting-edge deep learning approach
academic

CAPSim: 注意機構ベースの予測器を用いた高速CPU性能シミュレータ

基本情報

  • 論文ID: 2510.10484
  • タイトル: CAPSim: A Fast CPU Performance Simulator Using Attention-based Predictor
  • 著者: Buqing Xu, Jianfeng Zhu, Yichi Zhang, Qinyi Cai, Guanhua Li, Shaojun Wei, Leibo Liu
  • 分類: cs.PF (性能)
  • 発表日: 2025年10月12日
  • 機関: 清華大学集積回路学院
  • 論文リンク: https://arxiv.org/abs/2510.10484v1

概要

CPU シミュレータは計算機アーキテクチャ研究に不可欠であり、主に異なるプログラムの性能評価に用いられる。GEM5 などの現代的な CPU 性能シミュレータはサイクル精密かつイベント駆動型のアプローチを採用しているが、乱序 CPU 上の実ベンチマークの複雑なマイクロアーキテクチャ動作をシミュレートする際に過度に時間がかかる。本論文では、コンテキスト注釈付き命令トレース サンプリング方法を採用した、注意機構ベースのニューラルネットワーク性能予測器を用いた新しい ML 駆動型 CPU シミュレータである CAPSim を提案する。注意機構は命令トレース内の長距離影響を効果的に捉え、重要なコンテキスト情報を強調する。実験結果により、CAPSim は gem5 で構築された O3 シミュレータと比較して 2.2~8.3 倍の高速化を実現することが示された。

研究背景と動機

核心問題

  1. 従来型シミュレータの速度ボトルネック: 現代的なサイクルレベル シミュレータ (gem5 など) が完全なベンチマーク プログラムをシミュレートする際に速度が遅い主な理由:
    • サイクル精密シミュレーションは本質的に直列処理であり、並列化が困難
    • 現代的な乱序 CPU のシミュレーションにはすべてのマイクロアーキテクチャ詳細のモデル化が必要であり、計算オーバーヘッドが膨大
  2. 既存 ML 手法の限界: 既存の機械学習手法 (Ithemal、Granite など) は基本ブロック スループット予測に限定され、完全なプログラムの性能予測を処理できない
  3. 精度と速度のバランス: 予測精度を保証しながら同時にシミュレーション速度を大幅に向上させる必要がある

研究の重要性

  • CPU シミュレータは計算機アーキテクチャ研究の重要なツール
  • CPU マイクロアーキテクチャの複雑性の増加とマルチコア システムの普及に伴い、従来型シミュレーション方法は深刻な効率問題に直面している
  • 高速で正確な性能予測はソフトウェア・ハードウェア協調設計と最適化に不可欠

核心貢献

  1. 注意機構ベースの CPU 性能予測方法の提案: 注意機構を命令レベル性能予測に初めて適用し、命令間の長距離依存関係を捉え、予測能力を基本ブロック レベルから完全なプログラム レベルに拡張
  2. CAPSim 完全シミュレータ フレームワークの設計: 高速機能シミュレータと細粒度コード ブロック性能予測器を統合し、速度と精度のバランスを実現
  3. 加速訓練方法の開発: クラスタリングとサンプリング技術を通じて訓練データセットを計算集約型、メモリ集約型、制御集約型などのカテゴリに分割し、訓練時間を大幅に削減し過学習を防止
  4. 顕著な性能向上の実現: SPEC2017 ベンチマークで最大 8.3 倍の高速化、平均 4.9 倍の高速化を実現しながら、許容可能な予測精度を維持

方法の詳細説明

タスク定義

入力: 命令トレース シーケンスと CPU コンテキスト情報 (レジスタ状態) 出力: コード片の実行時間予測 目標: 予測精度を保証しながら、完全なベンチマーク プログラムの性能評価速度を大幅に向上させる

モデル アーキテクチャ

1. 全体アーキテクチャ設計

CAPSim はエンドツーエンド アーキテクチャを採用し、主に以下のコンポーネントで構成される:

  • AtomicSimple CPU シミュレータ: 命令トレースの高速生成
  • 命令シーケンス スライサー: 長い命令シーケンスを処理可能なコード片に分割
  • サンプラー: 訓練データ量を削減し、訓練プロセスを加速
  • 注意機構ベースの性能予測器: コア予測モジュール

2. 理論的基礎

論文は総実行時間を以下のようにモデル化する:

Ttotal=n=1NtiαiT_{total} = \sum_{n=1}^{N} t_i \cdot \alpha_i

ここで tit_i は第 i 命令の理想実行時間、αi\alpha_i は影響係数である。ベクトル表現と注意機構を導入することで、最終的な形式化は以下となる:

Ttotal=i=1MMLP(Attention(contextM×E,TET,TET))T_{total} = \sum_{i=1}^{M} MLP(Attention(context_{M \times E}, T_E^T, T_E^T))

3. 性能予測器の詳細設計

正規化変換層: 元の汇编命令を正規化トークン シーケンスに変換し、4 つのセグメントを含む:

  • <OPCODE>: 操作コード
  • <DSTS>: 宛先オペランド
  • <SRCS>: ソース オペランド
  • <MEM>: メモリ アクセス情報

コンテキスト情報の構築: 表 I に示すような各種レジスタを含む CPU 状態情報を含むコンテキスト マトリックスを構築:

レジスタ タイプ数量ビット幅説明
汎用レジスタ (GPR)3264主要ストレージ レジスタ
ベクトル スカラー レジスタ (VSR)64128浮動小数点演算レジスタ
条件レジスタ (CR)132操作結果を反映
プログラム カウンタ (CIA/NIA)264命令アドレス

多層注意機構ネットワーク:

  • 命令エンコーダー: 各命令に自己注意機構を適用
  • ブロック エンコーダー: 命令シーケンス間の依存関係を処理
  • MLP 層: 実行時間予測の最終出力

技術的革新点

  1. 長距離依存関係のモデル化: LSTM などのシーケンス モデルと比較して、注意機構は命令間の長距離依存関係をより良く捉えることができる
  2. コンテキスト認識予測: CPU レジスタ状態をコンテキスト情報として導入し、予測精度を向上
  3. 階層的注意機構設計: 命令レベルとブロック レベルの二重注意機構により、命令内トークン関係と命令間依存関係の両方を考慮
  4. 並列処理: 長い命令シーケンスを小片に分割し、GPU 並列処理をサポートし、推論速度を大幅に向上

実験設定

データセット

  • ベンチマーク スイート: SPEC2017、24 個のベンチマーク プログラムを含む
  • 命令セット アーキテクチャ: Power ISA
  • 間隔サイズ: 5,000,000 命令、ウォームアップ サイズ 1,000,000 命令
  • コード片長: 100~200 命令
  • 総チェックポイント数: 623

評価指標

  • 速度指標: gem5 シミュレータに対する相対的な高速化比
  • 精度指標: 平均絶対パーセンテージ誤差 (MAPE)

比較手法

  • 従来型手法: gem5 O3 スーパースカラー プロセッサ シミュレータ
  • ML ベースライン: LSTM ベースの Ithemal モデル
  • アブレーション実験: コンテキスト情報を含まない CAPSim バリアント

実装詳細

  • ハードウェア プラットフォーム: NVIDIA GeForce RTX 4090 (24GB)、Intel Xeon CPU E5-2623 v4
  • モデル パラメータ: 埋め込みベクトル次元 128、注意ヘッド数 4、エンコーダー層数 4
  • 訓練設定: SGD オプティマイザー、学習率 0.001、モメンタム 0.9
  • サンプリング パラメータ: しきい値 200、サンプリング係数 0.02

実験結果

主要結果

速度向上:

  • 最高高速化比: 8.3 倍 (510.parest ベンチマーク)
  • 平均高速化比: 4.9 倍
  • 高速化効果はチェックポイント数と正相関し、GPU 並列化の利点を実証

精度性能:

  • LSTM ベースラインと比較して 9.5%~21.2% の精度向上、平均 15.8% の向上
  • コンテキスト情報導入後、精度が 1.3%~9.6% 向上、平均 6.2% の向上
  • 混合訓練セット上の平均 MAPE は 12.0%

アブレーション実験

  1. 注意機構 vs LSTM: 注意機構は長いコード片の処理において LSTM より大幅に優れている
  2. コンテキスト情報の影響: コンテキスト情報は予測精度向上に重要な役割を果たす
  3. 分類訓練効果: 分類訓練は混合訓練と比較して精度を 0.5% 向上

汎化能力テスト

クロス ベンチマーク テスト:

  • 6×6 クロス検証実験、36 個の訓練-テスト組み合わせ
  • 訓練セット精度 91.3%、全体平均精度 88.3%
  • 未見ベンチマークに対する良好な汎化能力を実証

クロス アーキテクチャ パラメータ テスト: 異なるマイクロアーキテクチャ パラメータ構成下の精度性能:

パラメータ構成FetchWidthIssueWidthCommitWidthROBEntry誤差
ベース構成88819212.0%
バリアント 148819212.2%
バリアント 284819212.9%

実験的発見

  1. 並列化効果が顕著: GPU 並列処理は CPU 直列シミュレーションと比較して明らかな利点がある
  2. 長距離依存が重要: 注意機構は命令間の複雑な依存関係を効果的に捉える
  3. コンテキスト情報が重要: CPU 状態情報は実行時間の正確な予測に不可欠
  4. 分類訓練が有効: プログラム特性に基づく分類訓練はモデルの汎化能力を向上

関連研究

従来型シミュレータ

  • サイクルレベル シミュレータ: gem5、SimpleScalar、Sniper など、精度は高いが速度が遅い
  • 基本ブロック レベル ツール: llvm-mca、uiCA、IACA など、速度は速いが機能が限定される

機械学習手法

  • 回帰モデル: 線形/非線形回帰を使用して CPI と消費電力を予測
  • 深層学習手法:
    • Ithemal: LSTM で基本ブロック スループットを予測
    • Difftune: llvm-mca パラメータを最適化
    • Granite: グラフ ニューラル ネットワークで基本ブロック性能を予測

サンプリング技術

  • 統計的サンプリング: SMARTS 周期的サンプリング
  • 対象サンプリング: SimPoint プログラム動作ベースのサンプリング

本論文の既存研究に対する主な利点:

  1. 基本ブロック レベルではなく、完全なプログラム レベルの性能予測を初めて実現
  2. 単純なコンパイラ ツールではなく、サイクルレベル シミュレータを ground truth として使用
  3. 注意機構は長距離依存関係をより良くモデル化

結論と考察

主要な結論

  1. 技術的実現可能性: 注意機構ベースの手法は完全なプログラムの CPU 性能を効果的に予測できる
  2. 性能上の利点: 従来の gem5 シミュレータと比較して顕著な高速化 (2.2~8.3 倍) を実現
  3. 精度保証: 速度を大幅に向上させながら許容可能な予測精度を維持
  4. 汎化能力: モデルは未見ベンチマークと異なるアーキテクチャ パラメータに対して良好な適応性を示す

限界

  1. 精度のトレードオフ: 速度が大幅に向上する一方で、予測精度は専門的なサイクルレベル シミュレータと比較してまだ差がある (平均 12% 誤差)
  2. アーキテクチャ依存性: 現在の実装は Power ISA に基づいており、他の命令セットへの拡張には再適応が必要
  3. 訓練データ要件: 訓練には大量の注釈付きデータが必要であり、初期コストが高い
  4. 複雑なシナリオの処理: 極度に複雑なプログラム動作とマイクロアーキテクチャ特性に対しては、予測能力が制限される可能性がある

今後の方向性

  1. マルチアーキテクチャ サポート: x86、ARM などの主流命令セット アーキテクチャへの拡張
  2. 精度向上: より高度な注意機構とコンテキスト モデリング手法の探索
  3. マルチコア サポート: マルチコアと異種システムの性能予測への拡張
  4. オンライン学習: 実行時の自適応学習とモデル更新のサポート

深層評価

利点

技術的革新性:

  1. Transformer 注意機構を CPU 性能予測分野に初めて適用
  2. コンテキスト情報と命令シーケンス モデリングを革新的に組み合わせ
  3. 完全なエンドツーエンド予測フレームワークを設計

実験の充実性:

  1. 標準 SPEC2017 ベンチマークで包括的な評価を実施
  2. 詳細なアブレーション実験と汎化能力テストを含む
  3. 複数のベースライン手法と比較

結果の説得力:

  1. 顕著な速度向上 (最大 8.3 倍の高速化)
  2. 既存 ML 手法に対する精度向上
  3. 優れたクロス ベンチマーク汎化能力

記述の明確性:

  1. 問題の動機が明確に説明されている
  2. 方法の説明が詳細で数学公式を含む
  3. 実験設定と結果の提示が完全

不足

方法の限界:

  1. 予測精度にはまだ改善の余地がある (平均 12% 誤差)
  2. Power ISA でのみ検証され、マルチアーキテクチャ検証が不足
  3. 極度に複雑なシナリオの処理能力が十分に検証されていない

実験設定の欠陥:

  1. ハードウェア プラットフォーム比較が公平でない可能性 (GPU vs CPU)
  2. より多くの最新 ML 手法との比較が不足
  3. 異なるタイプのプログラムの予測効果の差異分析が不十分

分析の不足:

  1. 注意機構の解釈可能性分析が十分でない
  2. エラー ケース分析が少ない
  3. 計算リソース消費分析が不十分

影響力

分野への貢献:

  1. CPU 性能予測に新しい技術的パスを提供
  2. 計算機アーキテクチャ分野における ML 応用を推進
  3. 高速アーキテクチャ設計空間探索のためのツールを提供

実用的価値:

  1. 大規模ベンチマーク テストの評価効率を大幅に向上
  2. コンパイラ最適化とハードウェア設計に高速フィードバックを提供
  3. 計算機アーキテクチャ研究の時間コストを削減

再現性:

  1. 方法の説明が比較的詳細
  2. 標準ベンチマーク テスト スイートを使用
  3. ただし、一部の実装詳細とコードは公開されていない

適用シナリオ

  1. アーキテクチャ設計空間探索: 異なる設計パラメータの性能影響を高速に評価
  2. コンパイラ最適化: コード最適化に高速な性能フィードバックを提供
  3. ベンチマーク テスト加速: 標準ベンチマーク テストの実行時間を大幅に削減
  4. 教育と研究: アーキテクチャ コースと研究に効率的なシミュレーション ツールを提供

参考文献

論文は 61 篇の関連文献を引用しており、主に以下を含む:

古典的シミュレータ:

  • gem5: The gem5 simulator (Binkert et al.)
  • SimpleScalar、Sniper、Zesto などの従来型シミュレータ

機械学習手法:

  • Ithemal: Accurate, portable and fast basic block throughput estimation (Mendis et al.)
  • Granite: A graph neural network model for basic block throughput estimation (Sýkora et al.)

注意機構:

  • Attention is all you need (Vaswani et al.)
  • Transformer 関連研究

ベンチマーク テスト:

  • SPEC CPU2017 ベンチマーク テスト スイート

総合評価: これは CPU 性能予測分野における革新性と実用的価値を備えた論文である。著者は注意機構を CPU 性能予測に成功裏に導入し、基本ブロック レベルから完全なプログラム レベル予測への突破を実現し、顕著な速度向上を達成した。予測精度と方法の汎化性においてまだ改善の余地があるものの、本研究は計算機アーキテクチャ研究に価値あるツールと思想を提供し、良好な応用前景を有している。