2025-11-21T09:31:15.798794

Comparing Cross-Platform Performance via Node-to-Node Scaling Studies

Weiss, Stitt, Hawkins et al.

Due to the increasing diversity of high-performance computing architectures, researchers and practitioners are increasingly interested in comparing a code's performance and scalability across different platforms. However, there is a lack of available guidance on how to actually set up and analyze such cross-platform studies. In this paper, we contend that the natural base unit of computing for such studies is a single compute node on each platform and offer guidance in setting up, running, and analyzing node-to-node scaling studies. We propose templates for presenting scaling results of these studies and provide several case studies highlighting the benefits of this approach.

academic

노드 간 확장 연구를 통한 크로스플랫폼 성능 비교

기본 정보

논문 ID: 2510.12166
제목: Comparing Cross-Platform Performance via Node-to-Node Scaling Studies
저자: Kenneth Weiss, Thomas M. Stitt, Daryl Hawkins, Olga Pearce, Stephanie Brink, Robert N. Rieben
분류: cs.DC (분산, 병렬 및 클러스터 컴퓨팅)
발표 시간: 2025년 10월 15일 (프리프린트)
논문 링크: https://arxiv.org/abs/2510.12166

초록

고성능 컴퓨팅 아키텍처의 다양성이 증가함에 따라, 연구자 및 실무자들은 서로 다른 플랫폼에서 코드의 성능 및 확장성을 비교하는 데 점점 더 관심을 기울이고 있습니다. 그러나 이러한 크로스플랫폼 연구를 실제로 설정하고 분석하는 방법에 대한 지침이 부족합니다. 본 논문은 이러한 연구의 자연스러운 기본 계산 단위가 각 플랫폼의 개별 계산 노드라고 주장하며, 노드 간 확장 연구를 설정, 실행 및 분석하기 위한 지침을 제공합니다. 본 논문은 이러한 연구의 확장 결과를 표시하기 위한 템플릿을 제시하고, 이 방법의 장점을 강조하기 위한 여러 사례 연구를 제공합니다.

연구 배경 및 동기

문제 배경

아키텍처 다양성 증가: Exascale Computing Project (ECP)의 완료 및 첫 번째 엑사스케일 머신의 성공적 배포(예: Lawrence Livermore National Laboratory의 El Capitan 시스템이 1.7 exaflops 달성)로 인해 슈퍼컴퓨터의 노드 아키텍처에서 상당한 다양성이 나타났습니다.
플랫폼 선택의 어려움: 2024년 11월 Top500 목록에서 29.2%의 시스템이 GPU와 CPU를 모두 보유하고 있으며, 전체 성능 점유율의 41.3%를 차지합니다. 수많은 컴퓨팅 플랫폼 선택에 직면하여, 연구자들이 실제 제약 조건(예: 클러스터 가용성 및 프로젝트 예산) 하에서 문제를 해결하기 위한 적절한 플랫폼을 선택하는 것이 항상 명확하지는 않습니다.
성능 이식성 요구사항: 대규모 코드베이스는 다양한 기존 및 향후 아키텍처와 새로운 기능을 동시에 지원해야 하므로, 플랫폼별 코드베이스 버전을 개발, 관리, 테스트 및 유지보수하는 것은 불가능합니다. 많은 팀이 RAJA, Kokkos, SYCL 및 OpenMP와 같은 추상화 라이브러리를 사용하여 단일 소스 성능 이식성을 달성함으로써 이 문제에 대응하고 있습니다.

기존 방법의 한계

지침 부족: 문헌에서 이질적 시스템의 성능을 실제로 비교하는 방법에 대한 지침이 부족합니다.
벤치마크 단위 불통일: 전통적인 단일 프로세서 벤치마크는 이질적 컴퓨팅 유형 간 비교 시 어려움이 있습니다.
분석 도구 분산: 기존 성능 분석 도구는 일반적으로 단일 아키텍처 또는 성능의 단일 측면에 중점을 둡니다.

연구 동기

본 논문은 특히 사용자가 일련의 계산 노드 아키텍처 중에서 선택하고 그에 따라 비용을 지불해야 하는 클라우드 컴퓨팅 환경에서 크로스플랫폼 성능 비교를 위한 체계적 지침을 제공하는 것을 목표로 합니다.

핵심 기여

노드 간 비교 패러다임 제시: 개별 계산 노드를 크로스플랫폼 연구의 관련 계산 단위로 확립
확장 연구 방법의 체계화: 네 가지 유형의 노드 간 확장 연구 방법을 상세히 설명
표준화된 시각화 템플릿: 크로스플랫폼 성능 분석 및 비교를 위한 차트 템플릿 제시
실제 워크플로우 지침: 노드 간 확장 연구를 설정, 실행 및 분석하기 위한 완전한 워크플로우 제공
실제 사례 검증: MARBL 코드의 여러 사례 연구를 통해 방법의 유효성 검증

방법 상세 설명

작업 정의

본 논문의 연구 작업은 표준화된 크로스플랫폼 성능 비교 방법 집합을 확립하는 것으로, 입력은 서로 다른 플랫폼의 계산 작업이고 출력은 비교 가능한 성능 분석 결과 및 시각화 차트입니다.

노드 간 확장 연구 유형

1. 강 확장 연구(Strong Scaling)

정의: 전체 문제 규모를 고정하고 계산 리소스 수량을 변경
측정: 강 확장 가속비 = t_P(1)/t_P(N), 여기서 t_P(1)은 단일 노드 실행 시간, t_P(N)은 N개 노드 실행 시간
이상적 경우: 실행 시간이 노드 수에 따라 선형으로 감소 (log₂-log₂ 좌표계에서 기울기 -1)

2. 약 확장 연구(Weak Scaling)

정의: 각 계산 노드의 로컬 문제 규모를 고정하고 노드 수 증가에 따라 전체 문제 규모 증가
측정: 약 확장 효율성 = t_P(1)/t_P(N)
이상적 경우: 실행 시간 유지 (log₂-log₂ 좌표계에서 기울기 0)

3. 강-약 확장 연구(Strong-Weak Scaling)

정의: 단일 차트에서 강 확장과 약 확장 결과를 동시에 표시
용도: 계산 실행의 "최적 지점" 결정에 도움
시각화: 실선이 강 확장 데이터 포인트를 연결하고, 점선이 약 확장 데이터 포인트를 연결

4. 처리량 확장 연구(Throughput Scaling)

정의: 고정 리소스에서 노드당 처리량을 비교하고 문제의 자유도 수를 변경
측정: 처리량 = ⟨DOFs-processed⟩/compute_node × cycles/second
목표: 리소스 포화 지점을 찾고 성능 병목 현상 식별

기술 혁신 포인트

통일된 벤치마크 단위: 계산 노드를 기본 비교 단위로 사용하여 서로 다른 노드 아키텍처의 차이를 효과적으로 정규화
표준화된 시각화: log₂-log₂ 좌표계를 채택하여 이상적 확장을 특정 기울기의 직선으로 표현
크로스플랫폼 분석: 수직선을 통해 동일 노드 수에서의 상대 성능을 비교하고, 수평선을 통해 유사한 성능에 도달하는 데 필요한 노드 수를 비교
종합 평가 프레임워크: 여러 확장 유형을 결합하여 포괄적인 성능 프로필 제공

실험 설정

테스트 플랫폼

Sierra (ATS-2): 125 petaflop 시스템, 4,320개 계산 노드, 노드당 두 개의 20코어 POWER9 프로세서, 4개의 NVIDIA Volta V100 16GB GPU 및 256GB 메모리 탑재
Astra: 2.3 petaflop 시스템, 2,592개 계산 노드, 노드당 두 개의 28코어 Cavium ThunderX2 ARM 프로세서 및 128GB 메모리
CTS-1: 상용 시스템, 1,302개 계산 노드, 듀얼 18코어 Intel Xeon E5-2695 프로세서, 128GB 메모리
CTS-2: 상용 시스템, 1,496개 계산 노드, 듀얼 56코어 Intel Xeon Platinum 8480+ 프로세서, 256GB 메모리
EAS-3: El Capitan 조기 액세스 시스템, 36개 계산 노드, 단일 64코어 AMD Trento 프로세서, 4개의 AMD MI-250X 128GB GPU, 512GB 메모리

테스트 코드

Lawrence Livermore National Laboratory에서 개발한 MARBL(Advanced Platforms의 다중물리학) 코드를 사용하며, 이는 고에너지 밀도 물리학(HEDP) 시뮬레이션을 위한 차세대 성능 이식성 다중물리학 시뮬레이션 코드입니다.

워크플로우 도구

Maestro: 확장 연구 실행 조율용
Caliper 및 Adiak: 코드 주석 및 메타데이터 수집용
Thicket: Caliper 데이터 읽기 및 필터링, 확장 차트 생성용

실험 결과

사례 연구 1: FY20 프로젝트 마일스톤

Triple-Pt 3D 유체역학 벤치마크 테스트에서:

강 확장 성능: GPU 플랫폼 Sierra는 단일 노드에서 CPU 플랫폼 대비 약 15배 가속비를 달성하지만, 노드 수 증가에 따라 이점이 점진적으로 감소 (8개 노드에서 약 8배, 32개 노드에서 약 4배)
약 확장 성능: Astra는 우수한 약 확장 성능을 보여줌 (2,048개 노드에서 1.49배 감속만 발생), Sierra도 합리적인 약 확장 성능을 표시 (1.8배 감속)