Due to the increasing diversity of high-performance computing architectures, researchers and practitioners are increasingly interested in comparing a code's performance and scalability across different platforms. However, there is a lack of available guidance on how to actually set up and analyze such cross-platform studies. In this paper, we contend that the natural base unit of computing for such studies is a single compute node on each platform and offer guidance in setting up, running, and analyzing node-to-node scaling studies. We propose templates for presenting scaling results of these studies and provide several case studies highlighting the benefits of this approach.
- 논문 ID: 2510.12166
- 제목: Comparing Cross-Platform Performance via Node-to-Node Scaling Studies
- 저자: Kenneth Weiss, Thomas M. Stitt, Daryl Hawkins, Olga Pearce, Stephanie Brink, Robert N. Rieben
- 분류: cs.DC (분산, 병렬 및 클러스터 컴퓨팅)
- 발표 시간: 2025년 10월 15일 (프리프린트)
- 논문 링크: https://arxiv.org/abs/2510.12166
고성능 컴퓨팅 아키텍처의 다양성이 증가함에 따라, 연구자 및 실무자들은 서로 다른 플랫폼에서 코드의 성능 및 확장성을 비교하는 데 점점 더 관심을 기울이고 있습니다. 그러나 이러한 크로스플랫폼 연구를 실제로 설정하고 분석하는 방법에 대한 지침이 부족합니다. 본 논문은 이러한 연구의 자연스러운 기본 계산 단위가 각 플랫폼의 개별 계산 노드라고 주장하며, 노드 간 확장 연구를 설정, 실행 및 분석하기 위한 지침을 제공합니다. 본 논문은 이러한 연구의 확장 결과를 표시하기 위한 템플릿을 제시하고, 이 방법의 장점을 강조하기 위한 여러 사례 연구를 제공합니다.
- 아키텍처 다양성 증가: Exascale Computing Project (ECP)의 완료 및 첫 번째 엑사스케일 머신의 성공적 배포(예: Lawrence Livermore National Laboratory의 El Capitan 시스템이 1.7 exaflops 달성)로 인해 슈퍼컴퓨터의 노드 아키텍처에서 상당한 다양성이 나타났습니다.
- 플랫폼 선택의 어려움: 2024년 11월 Top500 목록에서 29.2%의 시스템이 GPU와 CPU를 모두 보유하고 있으며, 전체 성능 점유율의 41.3%를 차지합니다. 수많은 컴퓨팅 플랫폼 선택에 직면하여, 연구자들이 실제 제약 조건(예: 클러스터 가용성 및 프로젝트 예산) 하에서 문제를 해결하기 위한 적절한 플랫폼을 선택하는 것이 항상 명확하지는 않습니다.
- 성능 이식성 요구사항: 대규모 코드베이스는 다양한 기존 및 향후 아키텍처와 새로운 기능을 동시에 지원해야 하므로, 플랫폼별 코드베이스 버전을 개발, 관리, 테스트 및 유지보수하는 것은 불가능합니다. 많은 팀이 RAJA, Kokkos, SYCL 및 OpenMP와 같은 추상화 라이브러리를 사용하여 단일 소스 성능 이식성을 달성함으로써 이 문제에 대응하고 있습니다.
- 지침 부족: 문헌에서 이질적 시스템의 성능을 실제로 비교하는 방법에 대한 지침이 부족합니다.
- 벤치마크 단위 불통일: 전통적인 단일 프로세서 벤치마크는 이질적 컴퓨팅 유형 간 비교 시 어려움이 있습니다.
- 분석 도구 분산: 기존 성능 분석 도구는 일반적으로 단일 아키텍처 또는 성능의 단일 측면에 중점을 둡니다.
본 논문은 특히 사용자가 일련의 계산 노드 아키텍처 중에서 선택하고 그에 따라 비용을 지불해야 하는 클라우드 컴퓨팅 환경에서 크로스플랫폼 성능 비교를 위한 체계적 지침을 제공하는 것을 목표로 합니다.
- 노드 간 비교 패러다임 제시: 개별 계산 노드를 크로스플랫폼 연구의 관련 계산 단위로 확립
- 확장 연구 방법의 체계화: 네 가지 유형의 노드 간 확장 연구 방법을 상세히 설명
- 표준화된 시각화 템플릿: 크로스플랫폼 성능 분석 및 비교를 위한 차트 템플릿 제시
- 실제 워크플로우 지침: 노드 간 확장 연구를 설정, 실행 및 분석하기 위한 완전한 워크플로우 제공
- 실제 사례 검증: MARBL 코드의 여러 사례 연구를 통해 방법의 유효성 검증
본 논문의 연구 작업은 표준화된 크로스플랫폼 성능 비교 방법 집합을 확립하는 것으로, 입력은 서로 다른 플랫폼의 계산 작업이고 출력은 비교 가능한 성능 분석 결과 및 시각화 차트입니다.
- 정의: 전체 문제 규모를 고정하고 계산 리소스 수량을 변경
- 측정: 강 확장 가속비 = t_P(1)/t_P(N), 여기서 t_P(1)은 단일 노드 실행 시간, t_P(N)은 N개 노드 실행 시간
- 이상적 경우: 실행 시간이 노드 수에 따라 선형으로 감소 (log₂-log₂ 좌표계에서 기울기 -1)
- 정의: 각 계산 노드의 로컬 문제 규모를 고정하고 노드 수 증가에 따라 전체 문제 규모 증가
- 측정: 약 확장 효율성 = t_P(1)/t_P(N)
- 이상적 경우: 실행 시간 유지 (log₂-log₂ 좌표계에서 기울기 0)
- 정의: 단일 차트에서 강 확장과 약 확장 결과를 동시에 표시
- 용도: 계산 실행의 "최적 지점" 결정에 도움
- 시각화: 실선이 강 확장 데이터 포인트를 연결하고, 점선이 약 확장 데이터 포인트를 연결
- 정의: 고정 리소스에서 노드당 처리량을 비교하고 문제의 자유도 수를 변경
- 측정: 처리량 = ⟨DOFs-processed⟩/compute_node × cycles/second
- 목표: 리소스 포화 지점을 찾고 성능 병목 현상 식별
- 통일된 벤치마크 단위: 계산 노드를 기본 비교 단위로 사용하여 서로 다른 노드 아키텍처의 차이를 효과적으로 정규화
- 표준화된 시각화: log₂-log₂ 좌표계를 채택하여 이상적 확장을 특정 기울기의 직선으로 표현
- 크로스플랫폼 분석: 수직선을 통해 동일 노드 수에서의 상대 성능을 비교하고, 수평선을 통해 유사한 성능에 도달하는 데 필요한 노드 수를 비교
- 종합 평가 프레임워크: 여러 확장 유형을 결합하여 포괄적인 성능 프로필 제공
- Sierra (ATS-2): 125 petaflop 시스템, 4,320개 계산 노드, 노드당 두 개의 20코어 POWER9 프로세서, 4개의 NVIDIA Volta V100 16GB GPU 및 256GB 메모리 탑재
- Astra: 2.3 petaflop 시스템, 2,592개 계산 노드, 노드당 두 개의 28코어 Cavium ThunderX2 ARM 프로세서 및 128GB 메모리
- CTS-1: 상용 시스템, 1,302개 계산 노드, 듀얼 18코어 Intel Xeon E5-2695 프로세서, 128GB 메모리
- CTS-2: 상용 시스템, 1,496개 계산 노드, 듀얼 56코어 Intel Xeon Platinum 8480+ 프로세서, 256GB 메모리
- EAS-3: El Capitan 조기 액세스 시스템, 36개 계산 노드, 단일 64코어 AMD Trento 프로세서, 4개의 AMD MI-250X 128GB GPU, 512GB 메모리
Lawrence Livermore National Laboratory에서 개발한 MARBL(Advanced Platforms의 다중물리학) 코드를 사용하며, 이는 고에너지 밀도 물리학(HEDP) 시뮬레이션을 위한 차세대 성능 이식성 다중물리학 시뮬레이션 코드입니다.
- Maestro: 확장 연구 실행 조율용
- Caliper 및 Adiak: 코드 주석 및 메타데이터 수집용
- Thicket: Caliper 데이터 읽기 및 필터링, 확장 차트 생성용
Triple-Pt 3D 유체역학 벤치마크 테스트에서:
- 강 확장 성능: GPU 플랫폼 Sierra는 단일 노드에서 CPU 플랫폼 대비 약 15배 가속비를 달성하지만, 노드 수 증가에 따라 이점이 점진적으로 감소 (8개 노드에서 약 8배, 32개 노드에서 약 4배)
- 약 확장 성능: Astra는 우수한 약 확장 성능을 보여줌 (2,048개 노드에서 1.49배 감속만 발생), Sierra도 합리적인 약 확장 성능을 표시 (1.8배 감속)
- CPU 플랫폼 제한: CTS-1 및 CTS-2는 빠르게 포화되며, 처리량 곡선이 상대적으로 평탄
- GPU 플랫폼 이점: ATS-2 및 EAS-3은 현저히 높은 처리량 달성
- 메모리 용량 영향: EAS-3 노드는 ATS-2 대비 한 자릿수 더 큰 문제를 실행 가능
- 다항식 차수 효과: 모든 플랫폼에서 다항식 차수가 선형에서 이차로, 이차에서 삼차로 증가함에 따라 코드가 더 높은 처리량 달성
Shaped-Charge 3D 문제에서:
- 메모리 풀 공유 이점: GPU 플랫폼에서 호스트 코드 MARBL과 상태 방정식 라이브러리 LEOS가 사전 할당된 메모리 풀을 공유할 경우, 각각 독립적인 메모리 할당을 사용하는 경우 대비 모든 규모에서 현저한 이점 관찰 (2배-4배 개선)
- 최소 성능 손실: 컨테이너화된 MARBL (cMARBL)은 원본 MARBL 바이너리 파일 대비 무시할 수 있는 성능 손실
- 클라우드 배포 가능성: 다양한 MARBL 워크로드에 클라우드 리소스 활용 기회 제공
전통적 강 확장 및 약 확장 연구는 일반적으로 단일 프로세서를 벤치마크로 사용하며, 이 방법은 이질적 컴퓨팅 유형 간 비교 시 어려움이 있습니다. 본 논문의 노드 간 방법은 더 실용적인 크로스플랫폼 비교 기초를 제공합니다.
PAPI counters, ARM forge, Intel VTune, NVIDIA Nsight 등의 기존 도구는 일반적으로 단일 아키텍처에 중점을 둡니다. 이에 비해 Ubiquitous Performance Analysis 패러다임 및 관련 도구(Caliper, Adiak, Hatchet, Thicket)는 크로스플랫폼 성능 분석을 위한 더 나은 지원을 제공합니다.
Maestro, Merlin, Ramble 등의 도구는 시뮬레이션 집합 관리에 도움이 되지만, 모두 서로 다른 클러스터에서 시뮬레이션을 실행하고 결과를 비교하는 기능이 내장되어 있지는 않습니다.
- 노드 수준 비교의 유효성: 개별 계산 노드가 크로스플랫폼 비교의 기본 단위로 합리적이고 실용적
- 표준화된 시각화의 가치: 제시된 차트 템플릿은 다양한 유형의 확장 성능을 명확하게 표시 가능
- 실제 응용의 성공: 여러 실제 사례를 통해 방법의 유효성 및 실용성 검증
- 노드 내 통신 비용: 노드 간 확장 연구는 일부 노드 내 통신 비용을 초기 단일 노드 측정에 포함
- 수동 작업량 많음: 이러한 연구를 실제로 설정하고 실행 간 데이터/메타데이터를 추적하려면 상당한 수동 작업 필요
- 데이터 포인트 제한: 균일 세분화를 사용한 약 확장으로 인해 데이터 포인트 부족
- 프레임워크 개발: 이러한 연구 설정을 더 용이하게 하는 프레임워크 개발
- 클라우드 컴퓨팅 탐색: 클라우드 컴퓨팅 클러스터의 다양한 계산 노드를 활용하여 더 많은 "가정" 문제 탐색
- 에너지 소비 분석: 에너지/전력 사용의 크로스플랫폼 비교로 확장
- 높은 실용성: 제시된 방법은 HPC 커뮤니티가 직면한 실제 문제를 직접 해결
- 체계적 완성도: 이론 프레임워크에서 실제 워크플로우까지 완전한 커버리지
- 충분한 검증: 여러 대규모 실제 사례 연구를 통해 방법 유효성 검증
- 명확한 시각화: 제시된 차트 템플릿은 직관적이고 이해하기 쉬우며 분석 및 비교에 편리
- 도구 지원: 완전한 도구 체인 지원 제공
- 제한된 이론적 깊이: 주로 방법론 및 실무 지침이며 심층 이론 분석 부족
- 보편성 검증 필요: 주로 MARBL 코드 사례에 기반하며, 다른 유형 응용의 적용성 추가 검증 필요
- 낮은 자동화 수준: 현재 워크플로우는 여전히 많은 수동 구성 및 관리 필요
- 공백 채우기: HPC 커뮤니티가 부족한 크로스플랫폼 성능 비교 지침에 대한 체계적 솔루션 제공
- 표준화 잠재력: 제시된 방법 및 시각화 템플릿이 커뮤니티 표준이 될 가능성
- 높은 실용 가치: 시스템 구매, 클라우드 컴퓨팅 리소스 선택 등 실제 의사결정에 중요한 가치
- 시스템 구매 평가: 의사결정자가 서로 다른 아키텍처 시스템의 성능을 비교하는 데 도움
- 클라우드 컴퓨팅 리소스 선택: 사용자가 클라우드 환경에서 가장 적합한 컴퓨팅 인스턴스 유형을 선택하는 데 지침
- 코드 이식 평가: 개발자가 서로 다른 플랫폼에서 코드의 이식 효과를 평가하는 데 도움
- 성능 최적화 지침: 성능 최적화 작업을 위한 벤치마크 및 목표 설정 제공
본 논문은 52개의 관련 문헌을 인용하며, HPC 확장 연구, 성능 분석 도구, 워크플로우 관리 및 관련 응용 등 여러 측면을 포함하여 연구에 견고한 이론적 기초 및 기술 지원을 제공합니다.
이 논문은 HPC 커뮤니티가 절실히 필요로 하는 크로스플랫폼 성능 비교 지침을 제공하며, 매우 높은 실용 가치를 가집니다. 이론적 혁신 측면에서는 상대적으로 제한적이지만, 체계적인 방법론과 충분한 실험 검증으로 인해 해당 분야의 중요한 기여가 됩니다.