2025-11-21T09:31:15.798794

Comparing Cross-Platform Performance via Node-to-Node Scaling Studies

Weiss, Stitt, Hawkins et al.

Due to the increasing diversity of high-performance computing architectures, researchers and practitioners are increasingly interested in comparing a code's performance and scalability across different platforms. However, there is a lack of available guidance on how to actually set up and analyze such cross-platform studies. In this paper, we contend that the natural base unit of computing for such studies is a single compute node on each platform and offer guidance in setting up, running, and analyzing node-to-node scaling studies. We propose templates for presenting scaling results of these studies and provide several case studies highlighting the benefits of this approach.

academic

ノード間スケーリング研究を通じたクロスプラットフォーム性能比較

基本情報

論文ID: 2510.12166
タイトル: Comparing Cross-Platform Performance via Node-to-Node Scaling Studies
著者: Kenneth Weiss, Thomas M. Stitt, Daryl Hawkins, Olga Pearce, Stephanie Brink, Robert N. Rieben
分類: cs.DC（分散・並列・クラスタコンピューティング）
発表日: 2025年10月15日（プレプリント）
論文リンク: https://arxiv.org/abs/2510.12166

要旨

高性能計算（HPC）アーキテクチャの多様性が増加するにつれ、研究者と実務家は異なるプラットフォーム間でのコードの性能とスケーラビリティの比較にますます関心を寄せています。しかし、このようなクロスプラットフォーム研究の実施方法と分析方法に関する利用可能なガイダンスが不足しています。本論文は、このような研究の自然な基本計算単位が各プラットフォーム上の個別計算ノードであることを主張し、ノード間スケーリング研究の設定、実行、分析のためのガイダンスを提供します。スケーリング結果を示すためのテンプレートを提案し、この手法の利点を強調するいくつかのケーススタディを提供します。

研究背景と動機

問題背景

アーキテクチャの多様性の増加：Exascale Computing Project（ECP）の完了と初期のエクサスケール機の成功した配備（Lawrence Livermore National LaboratoryのEl Capitan システムが1.7 exaflopに達するなど）に伴い、スーパーコンピュータのノードアーキテクチャに相当な多様性が生じています。
プラットフォーム選択の課題：2024年11月のTop500リストでは、システムの29.2%がGPUとCPUの両方を備えており、総性能シェアの41.3%を占めています。多数の計算プラットフォーム選択に直面して、研究者が実際の制約条件（クラスタの可用性やプロジェクト予算など）下で問題解決に適切なプラットフォームを選択することは必ずしも明確ではありません。
性能ポータビリティの必要性：大規模コードベースは、様々な既存および今後のアーキテクチャと新機能を同時にサポートする必要があり、プラットフォーム固有のコードベースバージョンの開発、管理、テスト、保守は実行不可能です。多くのチームは、RAJA、Kokkos、SYCL、OpenMPなどの抽象化ライブラリを使用したシングルソース性能ポータビリティアプローチでこの課題に対処しています。

既存手法の限界

ガイダンスの欠如：異種システム間の性能比較方法に関する文献のガイダンスが不足しています
ベンチマーク単位の不統一：従来のシングルプロセッサベンチマークは、異種計算タイプ間の比較時に困難があります
分析ツールの分散：既存の性能分析ツールは通常、単一アーキテクチャまたは性能の単一側面に焦点を当てています

研究動機

本論文は、特にクラウドコンピューティング環境でクロスプラットフォーム性能比較のための体系的なガイダンスを提供することを目指しています。ユーザーが計算ノードアーキテクチャの範囲から選択し、それに応じて支払う必要があるシナリオです。

核心的貢献

ノード間比較パラダイムの提案：個別計算ノードをクロスプラットフォーム研究の関連計算単位として確立
スケーリング研究方法の体系化：4つのタイプのノード間スケーリング研究方法を詳細に説明
標準化可視化テンプレート：クロスプラットフォーム性能分析と比較のためのグラフテンプレートを提案
実践的ワークフローガイダンス：ノード間スケーリング研究の設定、実行、分析の完全なワークフローを提供
実例による検証：MARBLコードの複数のケーススタディを通じて方法の有効性を検証

方法論の詳細

タスク定義

本論文で研究するタスクは、異なるプラットフォーム上の計算タスクを入力とし、比較可能な性能分析結果と可視化グラフを出力とする、標準化されたクロスプラットフォーム性能比較方法の確立です。

ノード間スケーリング研究の種類

1. 強スケーリング研究（Strong Scaling）

定義：総問題規模を固定し、計算リソース数を変化させる
度量：強スケーリング加速比 = t_P(1)/t_P(N)、ここでt_P(1)は単一ノード実行時間、t_P(N)はNノード実行時間
理想的な場合：実行時間がノード数に応じて線形に減少（log₂-log₂座標系で傾き-1）

2. 弱スケーリング研究（Weak Scaling）

定義：各計算ノードのローカル問題規模を固定し、ノード数の増加に応じて総問題規模を増加させる
度量：弱スケーリング効率 = t_P(1)/t_P(N)
理想的な場合：実行時間が一定に保たれる（log₂-log₂座標系で傾き0）

3. 強-弱スケーリング研究（Strong-Weak Scaling）

定義：単一グラフ内に強スケーリングと弱スケーリングの結果を同時に表示
用途：計算実行の「最適点」を決定するのに役立つ
可視化：実線が強スケーリングデータポイントを接続し、破線が弱スケーリングデータポイントを接続

4. スループットスケーリング研究（Throughput Scaling）

定義：固定リソース上でノードあたりのスループットを比較し、問題内の自由度数を変化させる
度量：スループット = ⟨DOFs-processed⟩/compute_node × cycles/second
目標：リソース飽和点を見つけ、性能ボトルネックを特定する

技術的革新点

統一ベンチマーク単位：計算ノードを基本比較単位として、異なるノードアーキテクチャの差異を効果的に正規化
標準化可視化：log₂-log₂座標系を採用し、理想的なスケーリング性能を特定の傾きの直線として表現
クロスプラットフォーム分析：垂直線で同じノード数での相対性能を比較し、水平線で同様の性能に到達するために必要なノード数を比較
包括的評価フレームワーク：複数のスケーリングタイプを組み合わせて、包括的な性能プロファイルを提供

実験設定

テストプラットフォーム

Sierra（ATS-2）：125ペタフロップシステム、4,320計算ノード、各ノードに2つの20コアPOWER9プロセッサ、4つのNVIDIA Volta V100 16GB GPU、256GBメモリを搭載
Astra：2.3ペタフロップシステム、2,592計算ノード、各ノードに2つの28コアCavium ThunderX2 ARMプロセッサ、128GBメモリを搭載
CTS-1：商用システム、1,302計算ノード、デュアル18コアIntel Xeon E5-2695プロセッサ、128GBメモリ
CTS-2：商用システム、1,496計算ノード、デュアル56コアIntel Xeon Platinum 8480+プロセッサ、256GBメモリ
EAS-3：El Capitan早期アクセスシステム、36計算ノード、シングル64コアAMD Trentoプロセッサ、4つのAMD MI-250X 128GB GPU、512GBメモリ

テストコード

MARBL（Advanced Platforms上のMultiphysics）コードを使用。これはLawrence Livermore National Laboratoryが開発した次世代性能ポータブルマルチフィジックスシミュレーションコードで、高エネルギー密度物理（HEDP）のシミュレーション用に特別に設計されています。

ワークフロー管理ツール

Maestro：スケーリング研究実行のオーケストレーション用
Caliperおよび Adiak：コード注釈とメタデータ収集用
Thicket：Caliperデータの読み込みとフィルタリング、スケーリンググラフ生成用

実験結果

ケーススタディ1：FY20プロジェクトマイルストーン

Triple-Pt 3D流体力学ベンチマークテストにおいて：

強スケーリング性能：GPU プラットフォームSierraは単一ノード上でCPUプラットフォームと比較して約15倍の加速比を達成しますが、ノード数の増加に伴い利点は段階的に減少します（8ノード時で約8倍、32ノード時で約4倍）
弱スケーリング性能：Astraは優れた弱スケーリング性能を示します（2,048ノード時でわずか1.49倍の減速）。Sierraも合理的な弱スケーリング性能を示します（1.8倍の減速）