2025-11-21T09:31:15.798794

Comparing Cross-Platform Performance via Node-to-Node Scaling Studies

Weiss, Stitt, Hawkins et al.

Due to the increasing diversity of high-performance computing architectures, researchers and practitioners are increasingly interested in comparing a code's performance and scalability across different platforms. However, there is a lack of available guidance on how to actually set up and analyze such cross-platform studies. In this paper, we contend that the natural base unit of computing for such studies is a single compute node on each platform and offer guidance in setting up, running, and analyzing node-to-node scaling studies. We propose templates for presenting scaling results of these studies and provide several case studies highlighting the benefits of this approach.

academic

Comparing Cross-Platform Performance via Node-to-Node Scaling Studies

基本信息

论文ID: 2510.12166
标题: Comparing Cross-Platform Performance via Node-to-Node Scaling Studies
作者: Kenneth Weiss, Thomas M. Stitt, Daryl Hawkins, Olga Pearce, Stephanie Brink, Robert N. Rieben
分类: cs.DC (Distributed, Parallel, and Cluster Computing)
发表时间: October 15, 2025 (预印本)
论文链接: https://arxiv.org/abs/2510.12166

摘要

随着高性能计算架构多样性的增加，研究人员和从业者越来越关注代码在不同平台上的性能和可扩展性比较。然而，缺乏关于如何实际设置和分析此类跨平台研究的可用指导。本文认为，此类研究的自然基本计算单位是每个平台上的单个计算节点，并为设置、运行和分析节点到节点扩展研究提供指导。我们提出了展示这些研究扩展结果的模板，并提供了几个案例研究来突出这种方法的优势。

研究背景与动机

问题背景

架构多样性增长：随着Exascale Computing Project (ECP)的完成和首批千万亿次级机器的成功部署（如Lawrence Livermore National Laboratory的El Capitan系统达到1.7 exaflops），超级计算机的节点架构出现了相当大的多样性。
平台选择挑战：在2024年11月的Top500榜单中，29.2%的系统同时具有GPU和CPU，占总性能份额的41.3%。面对众多计算平台选择，研究人员在实际约束条件下（如集群可用性和项目预算）选择合适平台求解问题并不总是明确的。
性能可移植性需求：大型代码库必须同时支持各种现有和即将推出的架构以及新功能，开发、管理、测试和维护特定平台的代码库版本是不可行的。许多团队通过使用RAJA、Kokkos、SYCL和OpenMP等抽象库进行单源性能可移植移植来应对这一挑战。

现有方法局限性

缺乏指导：文献中缺乏关于如何实际比较异构系统性能的指导
基准单位不统一：传统的单处理器基准在异构计算类型间比较时存在困难
分析工具分散：现有性能分析工具通常专注于单一架构或性能的单一方面

研究动机

本文旨在为跨平台性能比较提供系统性指导，特别是在云计算环境中，用户必须从一系列计算节点架构中选择并相应付费的场景下。

核心贡献

提出节点到节点比较范式：将单个计算节点确立为跨平台研究的相关计算单位
系统化扩展研究方法：详细描述了四种类型的节点到节点扩展研究方法
标准化可视化模板：提出了用于分析和比较跨平台性能的图表模板
实际工作流程指导：提供了设置、运行和分析节点到节点扩展研究的完整工作流程
真实案例验证：通过MARBL代码的多个案例研究验证了方法的有效性

方法详解

任务定义

本文研究的任务是建立一套标准化的跨平台性能比较方法，输入为不同平台上的计算任务，输出为可比较的性能分析结果和可视化图表。

节点到节点扩展研究类型

1. 强扩展研究（Strong Scaling）

定义：保持总问题规模固定，变化计算资源数量
度量：强扩展加速比 = t_P(1)/t_P(N)，其中t_P(1)为单节点运行时间，t_P(N)为N个节点运行时间
理想情况：运行时间随节点数量线性减少（log₂-log₂坐标系中斜率为-1）

2. 弱扩展研究（Weak Scaling）

定义：保持每个计算节点的局部问题规模固定，随节点数量增加而增加总问题规模
度量：弱扩展效率 = t_P(1)/t_P(N)
理想情况：运行时间保持不变（log₂-log₂坐标系中斜率为0）

3. 强-弱扩展研究（Strong-Weak Scaling）

定义：在单一图表中同时展示强扩展和弱扩展结果
用途：帮助确定运行计算的"最佳点"
可视化：实线连接强扩展数据点，虚线连接弱扩展数据点

4. 吞吐量扩展研究（Throughput Scaling）

定义：在固定资源上比较每节点吞吐量，变化问题中的自由度数量
度量：吞吐量 = ⟨DOFs-processed⟩/compute_node × cycles/second
目标：找到资源饱和点并识别性能瓶颈

技术创新点

统一基准单位：以计算节点为基本比较单位，有效规范化不同节点架构的差异
标准化可视化：采用log₂-log₂坐标系，使理想扩展表现为特定斜率的直线
跨平台分析：通过垂直线比较相同节点数下的相对性能，通过水平线比较达到相似性能所需的节点数
综合评估框架：结合多种扩展类型提供全面的性能画像

实验设置

测试平台

Sierra (ATS-2)：125 petaflop系统，4,320个计算节点，每节点配备两个20核POWER9处理器、四个NVIDIA Volta V100 16GB GPU和256GB内存
Astra：2.3 petaflop系统，2,592个计算节点，每节点配备两个28核Cavium ThunderX2 ARM处理器和128GB内存
CTS-1：商用系统，1,302个计算节点，双18核Intel Xeon E5-2695处理器，128GB内存
CTS-2：商用系统，1,496个计算节点，双56核Intel Xeon Platinum 8480+处理器，256GB内存
EAS-3：El Capitan早期访问系统，36个计算节点，单64核AMD Trento处理器，四个AMD MI-250X 128GB GPU，512GB内存