2025-11-21T09:31:15.798794

Comparing Cross-Platform Performance via Node-to-Node Scaling Studies

Weiss, Stitt, Hawkins et al.

Due to the increasing diversity of high-performance computing architectures, researchers and practitioners are increasingly interested in comparing a code's performance and scalability across different platforms. However, there is a lack of available guidance on how to actually set up and analyze such cross-platform studies. In this paper, we contend that the natural base unit of computing for such studies is a single compute node on each platform and offer guidance in setting up, running, and analyzing node-to-node scaling studies. We propose templates for presenting scaling results of these studies and provide several case studies highlighting the benefits of this approach.

academic

Vergleich der plattformübergreifenden Leistung durch Node-zu-Node-Skalierungsstudien

Grundinformationen

Paper-ID: 2510.12166
Titel: Comparing Cross-Platform Performance via Node-to-Node Scaling Studies
Autoren: Kenneth Weiss, Thomas M. Stitt, Daryl Hawkins, Olga Pearce, Stephanie Brink, Robert N. Rieben
Klassifizierung: cs.DC (Verteiltes, paralleles und Cluster-Computing)
Veröffentlichungsdatum: 15. Oktober 2025 (Preprint)
Paper-Link: https://arxiv.org/abs/2510.12166

Zusammenfassung

Mit der zunehmenden Vielfalt der Hochleistungsrechner-Architekturen befassen sich Forscher und Praktiker zunehmend mit dem Vergleich der Leistung und Skalierbarkeit von Code auf verschiedenen Plattformen. Es mangelt jedoch an verfügbaren Richtlinien zur praktischen Durchführung und Analyse solcher plattformübergreifenden Studien. Dieses Papier argumentiert, dass die natürliche grundlegende Recheneinheit für solche Studien der einzelne Rechenknoten auf jeder Plattform ist, und bietet Richtlinien für die Einrichtung, Durchführung und Analyse von Node-zu-Node-Skalierungsstudien. Wir präsentieren Vorlagen zur Darstellung der Skalierungsergebnisse dieser Studien und bieten mehrere Fallstudien, um die Vorteile dieses Ansatzes hervorzuheben.

Forschungshintergrund und Motivation

Problemhintergrund

Wachsende Architekturvielfalt: Mit der Fertigstellung des Exascale Computing Project (ECP) und der erfolgreichen Bereitstellung der ersten Exascale-Maschinen (wie das El Capitan-System des Lawrence Livermore National Laboratory mit 1,7 Exaflops) hat sich die Knotenarchitektur von Supercomputern erheblich diversifiziert.
Herausforderungen bei der Plattformwahl: In der Top500-Liste vom November 2024 verfügen 29,2% der Systeme gleichzeitig über GPUs und CPUs und machen 41,3% der Gesamtleistung aus. Angesichts zahlreicher Rechenplattformoptionen ist es für Forscher unter praktischen Einschränkungen (wie Cluster-Verfügbarkeit und Projektbudget) nicht immer klar, welche Plattform für die Problemlösung am besten geeignet ist.
Anforderungen an Performance-Portabilität: Große Codebasen müssen verschiedene vorhandene und zukünftige Architekturen sowie neue Funktionen unterstützen. Die Entwicklung, Verwaltung, das Testen und die Wartung plattformspezifischer Codebase-Versionen ist nicht praktikabel. Viele Teams begegnen dieser Herausforderung durch die Verwendung von Abstraktionsbibliotheken wie RAJA, Kokkos, SYCL und OpenMP für Single-Source-Performance-Portabilität.

Einschränkungen bestehender Ansätze

Mangel an Richtlinien: In der Literatur fehlen Richtlinien zur praktischen Durchführung von Leistungsvergleichen heterogener Systeme
Fehlende Standardisierung der Benchmark-Einheiten: Traditionelle Single-Processor-Benchmarks weisen Schwierigkeiten beim Vergleich zwischen heterogenen Rechentypen auf
Verteilte Analyse-Tools: Bestehende Performance-Analyse-Tools konzentrieren sich typischerweise auf eine einzelne Architektur oder einen einzelnen Aspekt der Leistung

Forschungsmotivation

Dieses Papier zielt darauf ab, systematische Richtlinien für plattformübergreifende Leistungsvergleiche bereitzustellen, insbesondere in Cloud-Computing-Umgebungen, in denen Benutzer aus einer Reihe von Rechenknoten-Architekturen auswählen und entsprechend bezahlen müssen.

Kernbeiträge

Vorschlag eines Node-zu-Node-Vergleichsparadigmas: Etablierung des einzelnen Rechenknotens als relevante Recheneinheit für plattformübergreifende Studien
Systematisierung von Skalierungsstudien-Methoden: Detaillierte Beschreibung von vier Arten von Node-zu-Node-Skalierungsstudien
Standardisierte Visualisierungsvorlagen: Vorschlag von Diagrammvorlagen zur Analyse und zum Vergleich der plattformübergreifenden Leistung
Praktische Workflow-Richtlinien: Bereitstellung eines vollständigen Workflows zur Einrichtung, Durchführung und Analyse von Node-zu-Node-Skalierungsstudien
Validierung durch reale Fallstudien: Validierung der Methodeneffektivität durch mehrere Fallstudien des MARBL-Codes

Methodische Details

Aufgabendefinition

Die in diesem Papier untersuchte Aufgabe besteht darin, eine standardisierte Methode für plattformübergreifende Leistungsvergleiche zu etablieren, wobei die Eingabe Rechenaufgaben auf verschiedenen Plattformen sind und die Ausgabe vergleichbare Leistungsanalyseergebnisse und Visualisierungsdiagramme sind.

Arten von Node-zu-Node-Skalierungsstudien

1. Strong-Scaling-Studien

Definition: Beibehaltung der Gesamtproblemgröße, Variation der Anzahl der Rechenressourcen
Metrik: Strong-Scaling-Beschleunigung = t_P(1)/t_P(N), wobei t_P(1) die Laufzeit auf einem einzelnen Knoten und t_P(N) die Laufzeit auf N Knoten ist
Idealfall: Laufzeit nimmt linear mit der Anzahl der Knoten ab (Steigung von -1 in log₂-log₂-Koordinaten)

2. Weak-Scaling-Studien

Definition: Beibehaltung der lokalen Problemgröße pro Rechenknoten, Erhöhung der Gesamtproblemgröße mit zunehmender Knotenzahl
Metrik: Weak-Scaling-Effizienz = t_P(1)/t_P(N)
Idealfall: Laufzeit bleibt konstant (Steigung von 0 in log₂-log₂-Koordinaten)

3. Strong-Weak-Scaling-Studien

Definition: Gleichzeitige Darstellung von Strong-Scaling- und Weak-Scaling-Ergebnissen in einem einzelnen Diagramm
Zweck: Hilft bei der Bestimmung des „optimalen Punktes" für die Durchführung der Berechnung
Visualisierung: Durchgezogene Linien verbinden Strong-Scaling-Datenpunkte, gestrichelte Linien verbinden Weak-Scaling-Datenpunkte

4. Durchsatz-Skalierungsstudien

Definition: Vergleich des Durchsatzes pro Knoten auf fester Ressource, Variation der Anzahl der Freiheitsgrade im Problem
Metrik: Durchsatz = ⟨DOFs-processed⟩/compute_node × cycles/second
Ziel: Identifikation des Ressourcensättigungspunkts und Erkennung von Leistungsengpässen

Technische Innovationen

Einheitliche Benchmark-Einheit: Verwendung des Rechenknotens als grundlegende Vergleichseinheit, effektive Normalisierung der Unterschiede zwischen verschiedenen Knotenarchitekturen
Standardisierte Visualisierung: Verwendung von log₂-log₂-Koordinaten, wobei ideale Skalierung als gerade Linie mit spezifischer Steigung dargestellt wird
Plattformübergreifende Analyse: Vergleich der relativen Leistung bei gleicher Knotenzahl durch vertikale Linien, Vergleich der erforderlichen Knotenzahl für ähnliche Leistung durch horizontale Linien
Umfassendes Bewertungsframework: Kombination mehrerer Skalierungstypen für ein vollständiges Leistungsprofil

Experimentelle Einrichtung

Test-Plattformen

Sierra (ATS-2): 125-Petaflop-System mit 4.320 Rechenknoten, jeder Knoten mit zwei 20-Kern-POWER9-Prozessoren, vier NVIDIA Volta V100 16GB GPUs und 256GB Speicher
Astra: 2,3-Petaflop-System mit 2.592 Rechenknoten, jeder Knoten mit zwei 28-Kern-Cavium ThunderX2 ARM-Prozessoren und 128GB Speicher
CTS-1: Kommerzielles System mit 1.302 Rechenknoten, duale 18-Kern-Intel Xeon E5-2695-Prozessoren, 128GB Speicher
CTS-2: Kommerzielles System mit 1.496 Rechenknoten, duale 56-Kern-Intel Xeon Platinum 8480+-Prozessoren, 256GB Speicher
EAS-3: El Capitan Early Access System mit 36 Rechenknoten, einzelne 64-Kern-AMD Trento-Prozessoren, vier AMD MI-250X 128GB GPUs, 512GB Speicher

Test-Code

Verwendung des MARBL-Codes (Multiphysics on Advanced Platforms), einem vom Lawrence Livermore National Laboratory entwickelten Code der nächsten Generation für Performance-portable Multiphysik-Simulationen, spezialisiert auf die Simulation von Hochenergie-Dichte-Physik (HEDP).

Workflow-Tools

Maestro: Zur Orchestrierung der Durchführung von Skalierungsstudien
Caliper und Adiak: Zur Code-Annotation und Metadaten-Erfassung
Thicket: Zum Lesen und Filtern von Caliper-Daten sowie zur Generierung von Skalierungsdiagrammen

Experimentelle Ergebnisse

Fallstudie 1: FY20-Projektmeilenstein

In der Triple-Pt 3D-Fluiddynamik-Benchmark-Studie:

Strong-Scaling-Leistung: GPU-Plattform Sierra zeigt etwa 15-fache Beschleunigung auf einem einzelnen Knoten im Vergleich zur CPU-Plattform, aber der Vorteil nimmt mit zunehmender Knotenzahl ab (etwa 8-fach bei 8 Knoten, etwa 4-fach bei 32 Knoten)
Weak-Scaling-Leistung: Astra zeigt hervorragende Weak-Scaling-Eigenschaften (nur 1,49-fache Verlangsamung bei 2.048 Knoten), Sierra zeigt auch angemessene Weak-Scaling-Eigenschaften (1,8-fache Verlangsamung)

Fallstudie 2: Node-zu-Node-Durchsatz-Skalierungsstudie für hochgradige Läufe

CPU-Plattform-Einschränkungen: CTS-1 und CTS-2 sättigen schnell, Durchsatzkurven sind relativ flach
GPU-Plattform-Vorteile: ATS-2 und EAS-3 erreichen deutlich höheren Durchsatz
Speicherkapazitäts-Auswirkungen: EAS-3-Knoten können Probleme um eine Größenordnung größer als ATS-2 ausführen
Polynom-Ordnungs-Effekt: Auf allen Plattformen erreicht der Code höheren Durchsatz, wenn die Polynom-Ordnung von linear zu quadratisch zu kubisch erhöht wird

Fallstudie 3: Plattformübergreifender Vergleich verschiedener Bibliotheks-Merkmale

Im Shaped-Charge 3D-Problem:

Speicherpool-Sharing-Vorteile: Auf GPU-Plattformen zeigt der Host-Code MARBL und die Zustandsgleichungs-Bibliothek LEOS, die einen vorverteilten Speicherpool teilen, im Vergleich zur Verwendung unabhängiger Speicherzuweisungen auf allen Skalen erhebliche Vorteile (2x-4x Verbesserung)

Fallstudie 4: Vergleich der containerisierten MARBL-Leistung

Minimale Leistungsverluste: Der Leistungsverlust von containerisiertem MARBL (cMARBL) im Vergleich zu nativen MARBL-Binärdateien ist vernachlässigbar
Cloud-Deployment-Machbarkeit: Bietet Möglichkeiten zur Nutzung von Cloud-Ressourcen für verschiedene MARBL-Workloads

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Effektivität des Node-Level-Vergleichs: Der einzelne Rechenknoten als grundlegende Einheit für plattformübergreifende Vergleiche ist sinnvoll und praktisch
Wert der standardisierten Visualisierung: Die vorgeschlagenen Diagrammvorlagen können verschiedene Arten von Skalierungsleistung klar darstellen
Erfolg in praktischen Anwendungen: Die Methodeneffektivität und Praktikabilität wurden durch mehrere reale Fallstudien validiert

Einschränkungen

Kosten der Knoten-internen Kommunikation: Node-zu-Node-Skalierungsstudien berücksichtigen einige Knoten-interne Kommunikationskosten in der anfänglichen Single-Node-Messung
Hoher manueller Aufwand: Die praktische Einrichtung dieser Studien und das Tracking von Daten/Metadaten über Läufe hinweg erfordern erhebliche manuelle Arbeit
Begrenzte Datenpunkte: Die Verwendung von uniformer Verfeinerung für Weak-Scaling führt zu wenigen Datenpunkten

Zukünftige Richtungen

Framework-Entwicklung: Entwicklung von Frameworks, die die Einrichtung solcher Studien erleichtern
Cloud-Computing-Erkundung: Erkundung weiterer „Was-wäre-wenn"-Probleme unter Nutzung der vielfältigen Rechenknoten von Cloud-Computing-Clustern
Energieverbrauchsanalyse: Erweiterung auf plattformübergreifende Vergleiche von Energieverbrauch/Stromverbrauch

Tiefgreifende Bewertung

Stärken

Hohe Praktikabilität: Die vorgeschlagene Methode adressiert direkt praktische Probleme, denen sich die HPC-Community gegenübersieht
Systematische Vollständigkeit: Vollständige Abdeckung von theoretischem Framework bis zu praktischen Workflows
Umfassende Validierung: Validierung der Methodeneffektivität durch mehrere reale, großmaßstäbliche Fallstudien
Klare Visualisierung: Die vorgeschlagenen Diagrammvorlagen sind intuitiv und verständlich, erleichtern Analyse und Vergleich
Tool-Unterstützung: Bereitstellung einer vollständigen Tool-Chain-Unterstützung

Schwächen

Begrenzte theoretische Tiefe: Hauptsächlich methodologische und praktische Richtlinien, mangelnde tiefgreifende theoretische Analyse
Zu validierende Universalität: Hauptsächlich auf Fallstudien des MARBL-Codes basierend, die Anwendbarkeit auf andere Anwendungstypen bedarf weiterer Validierung
Niedriger Automatisierungsgrad: Der aktuelle Workflow erfordert immer noch erhebliche manuelle Konfiguration und Verwaltung

Auswirkungen

Schließung einer Lücke: Bereitstellung einer systematischen Lösung für die in der HPC-Community fehlende Anleitung zu plattformübergreifenden Leistungsvergleichen
Standardisierungspotenzial: Die vorgeschlagenen Methoden und Visualisierungsvorlagen haben das Potenzial, zu Community-Standards zu werden
Hoher praktischer Wert: Von großer Bedeutung für praktische Entscheidungen wie Systemanschaffung und Cloud-Computing-Ressourcenauswahl

Anwendungsszenarien

Systemanschaffungs-Bewertung: Hilft Entscheidungsträgern, die Leistung verschiedener Architektur-Systeme zu vergleichen
Cloud-Computing-Ressourcenauswahl: Leitet Benutzer bei der Auswahl der am besten geeigneten Recheninstanztypen in Cloud-Umgebungen
Code-Portierungs-Bewertung: Hilft Entwicklern, die Portierungseffektivität von Code auf verschiedenen Plattformen zu bewerten
Performance-Optimierungs-Richtlinien: Bietet Benchmarks und Zielwerte für Performance-Optimierungsarbeiten

Literaturverzeichnis

Dieses Papier zitiert 52 verwandte Literaturquellen, die HPC-Skalierungsstudien, Performance-Analyse-Tools, Workflow-Management und verwandte Anwendungen abdecken und eine solide theoretische Grundlage und technische Unterstützung für die Forschung bieten.

Dieses Papier bietet der HPC-Community dringend benötigte Richtlinien für plattformübergreifende Leistungsvergleiche und hat hohen praktischen Wert. Obwohl die theoretischen Innovationen relativ begrenzt sind, machen die systematische Methodik und umfassende experimentelle Validierung es zu einem wichtigen Beitrag in diesem Bereich.