2025-11-21T09:31:15.798794

Comparing Cross-Platform Performance via Node-to-Node Scaling Studies

Weiss, Stitt, Hawkins et al.
Due to the increasing diversity of high-performance computing architectures, researchers and practitioners are increasingly interested in comparing a code's performance and scalability across different platforms. However, there is a lack of available guidance on how to actually set up and analyze such cross-platform studies. In this paper, we contend that the natural base unit of computing for such studies is a single compute node on each platform and offer guidance in setting up, running, and analyzing node-to-node scaling studies. We propose templates for presenting scaling results of these studies and provide several case studies highlighting the benefits of this approach.
academic

Vergleich der plattformübergreifenden Leistung durch Node-zu-Node-Skalierungsstudien

Grundinformationen

  • Paper-ID: 2510.12166
  • Titel: Comparing Cross-Platform Performance via Node-to-Node Scaling Studies
  • Autoren: Kenneth Weiss, Thomas M. Stitt, Daryl Hawkins, Olga Pearce, Stephanie Brink, Robert N. Rieben
  • Klassifizierung: cs.DC (Verteiltes, paralleles und Cluster-Computing)
  • Veröffentlichungsdatum: 15. Oktober 2025 (Preprint)
  • Paper-Link: https://arxiv.org/abs/2510.12166

Zusammenfassung

Mit der zunehmenden Vielfalt der Hochleistungsrechner-Architekturen befassen sich Forscher und Praktiker zunehmend mit dem Vergleich der Leistung und Skalierbarkeit von Code auf verschiedenen Plattformen. Es mangelt jedoch an verfügbaren Richtlinien zur praktischen Durchführung und Analyse solcher plattformübergreifenden Studien. Dieses Papier argumentiert, dass die natürliche grundlegende Recheneinheit für solche Studien der einzelne Rechenknoten auf jeder Plattform ist, und bietet Richtlinien für die Einrichtung, Durchführung und Analyse von Node-zu-Node-Skalierungsstudien. Wir präsentieren Vorlagen zur Darstellung der Skalierungsergebnisse dieser Studien und bieten mehrere Fallstudien, um die Vorteile dieses Ansatzes hervorzuheben.

Forschungshintergrund und Motivation

Problemhintergrund

  1. Wachsende Architekturvielfalt: Mit der Fertigstellung des Exascale Computing Project (ECP) und der erfolgreichen Bereitstellung der ersten Exascale-Maschinen (wie das El Capitan-System des Lawrence Livermore National Laboratory mit 1,7 Exaflops) hat sich die Knotenarchitektur von Supercomputern erheblich diversifiziert.
  2. Herausforderungen bei der Plattformwahl: In der Top500-Liste vom November 2024 verfügen 29,2% der Systeme gleichzeitig über GPUs und CPUs und machen 41,3% der Gesamtleistung aus. Angesichts zahlreicher Rechenplattformoptionen ist es für Forscher unter praktischen Einschränkungen (wie Cluster-Verfügbarkeit und Projektbudget) nicht immer klar, welche Plattform für die Problemlösung am besten geeignet ist.
  3. Anforderungen an Performance-Portabilität: Große Codebasen müssen verschiedene vorhandene und zukünftige Architekturen sowie neue Funktionen unterstützen. Die Entwicklung, Verwaltung, das Testen und die Wartung plattformspezifischer Codebase-Versionen ist nicht praktikabel. Viele Teams begegnen dieser Herausforderung durch die Verwendung von Abstraktionsbibliotheken wie RAJA, Kokkos, SYCL und OpenMP für Single-Source-Performance-Portabilität.

Einschränkungen bestehender Ansätze

  1. Mangel an Richtlinien: In der Literatur fehlen Richtlinien zur praktischen Durchführung von Leistungsvergleichen heterogener Systeme
  2. Fehlende Standardisierung der Benchmark-Einheiten: Traditionelle Single-Processor-Benchmarks weisen Schwierigkeiten beim Vergleich zwischen heterogenen Rechentypen auf
  3. Verteilte Analyse-Tools: Bestehende Performance-Analyse-Tools konzentrieren sich typischerweise auf eine einzelne Architektur oder einen einzelnen Aspekt der Leistung

Forschungsmotivation

Dieses Papier zielt darauf ab, systematische Richtlinien für plattformübergreifende Leistungsvergleiche bereitzustellen, insbesondere in Cloud-Computing-Umgebungen, in denen Benutzer aus einer Reihe von Rechenknoten-Architekturen auswählen und entsprechend bezahlen müssen.

Kernbeiträge

  1. Vorschlag eines Node-zu-Node-Vergleichsparadigmas: Etablierung des einzelnen Rechenknotens als relevante Recheneinheit für plattformübergreifende Studien
  2. Systematisierung von Skalierungsstudien-Methoden: Detaillierte Beschreibung von vier Arten von Node-zu-Node-Skalierungsstudien
  3. Standardisierte Visualisierungsvorlagen: Vorschlag von Diagrammvorlagen zur Analyse und zum Vergleich der plattformübergreifenden Leistung
  4. Praktische Workflow-Richtlinien: Bereitstellung eines vollständigen Workflows zur Einrichtung, Durchführung und Analyse von Node-zu-Node-Skalierungsstudien
  5. Validierung durch reale Fallstudien: Validierung der Methodeneffektivität durch mehrere Fallstudien des MARBL-Codes

Methodische Details

Aufgabendefinition

Die in diesem Papier untersuchte Aufgabe besteht darin, eine standardisierte Methode für plattformübergreifende Leistungsvergleiche zu etablieren, wobei die Eingabe Rechenaufgaben auf verschiedenen Plattformen sind und die Ausgabe vergleichbare Leistungsanalyseergebnisse und Visualisierungsdiagramme sind.

Arten von Node-zu-Node-Skalierungsstudien

1. Strong-Scaling-Studien

  • Definition: Beibehaltung der Gesamtproblemgröße, Variation der Anzahl der Rechenressourcen
  • Metrik: Strong-Scaling-Beschleunigung = t_P(1)/t_P(N), wobei t_P(1) die Laufzeit auf einem einzelnen Knoten und t_P(N) die Laufzeit auf N Knoten ist
  • Idealfall: Laufzeit nimmt linear mit der Anzahl der Knoten ab (Steigung von -1 in log₂-log₂-Koordinaten)

2. Weak-Scaling-Studien

  • Definition: Beibehaltung der lokalen Problemgröße pro Rechenknoten, Erhöhung der Gesamtproblemgröße mit zunehmender Knotenzahl
  • Metrik: Weak-Scaling-Effizienz = t_P(1)/t_P(N)
  • Idealfall: Laufzeit bleibt konstant (Steigung von 0 in log₂-log₂-Koordinaten)

3. Strong-Weak-Scaling-Studien

  • Definition: Gleichzeitige Darstellung von Strong-Scaling- und Weak-Scaling-Ergebnissen in einem einzelnen Diagramm
  • Zweck: Hilft bei der Bestimmung des „optimalen Punktes" für die Durchführung der Berechnung
  • Visualisierung: Durchgezogene Linien verbinden Strong-Scaling-Datenpunkte, gestrichelte Linien verbinden Weak-Scaling-Datenpunkte

4. Durchsatz-Skalierungsstudien

  • Definition: Vergleich des Durchsatzes pro Knoten auf fester Ressource, Variation der Anzahl der Freiheitsgrade im Problem
  • Metrik: Durchsatz = ⟨DOFs-processed⟩/compute_node × cycles/second
  • Ziel: Identifikation des Ressourcensättigungspunkts und Erkennung von Leistungsengpässen

Technische Innovationen

  1. Einheitliche Benchmark-Einheit: Verwendung des Rechenknotens als grundlegende Vergleichseinheit, effektive Normalisierung der Unterschiede zwischen verschiedenen Knotenarchitekturen
  2. Standardisierte Visualisierung: Verwendung von log₂-log₂-Koordinaten, wobei ideale Skalierung als gerade Linie mit spezifischer Steigung dargestellt wird
  3. Plattformübergreifende Analyse: Vergleich der relativen Leistung bei gleicher Knotenzahl durch vertikale Linien, Vergleich der erforderlichen Knotenzahl für ähnliche Leistung durch horizontale Linien
  4. Umfassendes Bewertungsframework: Kombination mehrerer Skalierungstypen für ein vollständiges Leistungsprofil

Experimentelle Einrichtung

Test-Plattformen

  1. Sierra (ATS-2): 125-Petaflop-System mit 4.320 Rechenknoten, jeder Knoten mit zwei 20-Kern-POWER9-Prozessoren, vier NVIDIA Volta V100 16GB GPUs und 256GB Speicher
  2. Astra: 2,3-Petaflop-System mit 2.592 Rechenknoten, jeder Knoten mit zwei 28-Kern-Cavium ThunderX2 ARM-Prozessoren und 128GB Speicher
  3. CTS-1: Kommerzielles System mit 1.302 Rechenknoten, duale 18-Kern-Intel Xeon E5-2695-Prozessoren, 128GB Speicher
  4. CTS-2: Kommerzielles System mit 1.496 Rechenknoten, duale 56-Kern-Intel Xeon Platinum 8480+-Prozessoren, 256GB Speicher
  5. EAS-3: El Capitan Early Access System mit 36 Rechenknoten, einzelne 64-Kern-AMD Trento-Prozessoren, vier AMD MI-250X 128GB GPUs, 512GB Speicher

Test-Code

Verwendung des MARBL-Codes (Multiphysics on Advanced Platforms), einem vom Lawrence Livermore National Laboratory entwickelten Code der nächsten Generation für Performance-portable Multiphysik-Simulationen, spezialisiert auf die Simulation von Hochenergie-Dichte-Physik (HEDP).

Workflow-Tools

  • Maestro: Zur Orchestrierung der Durchführung von Skalierungsstudien
  • Caliper und Adiak: Zur Code-Annotation und Metadaten-Erfassung
  • Thicket: Zum Lesen und Filtern von Caliper-Daten sowie zur Generierung von Skalierungsdiagrammen

Experimentelle Ergebnisse

Fallstudie 1: FY20-Projektmeilenstein

In der Triple-Pt 3D-Fluiddynamik-Benchmark-Studie:

  • Strong-Scaling-Leistung: GPU-Plattform Sierra zeigt etwa 15-fache Beschleunigung auf einem einzelnen Knoten im Vergleich zur CPU-Plattform, aber der Vorteil nimmt mit zunehmender Knotenzahl ab (etwa 8-fach bei 8 Knoten, etwa 4-fach bei 32 Knoten)
  • Weak-Scaling-Leistung: Astra zeigt hervorragende Weak-Scaling-Eigenschaften (nur 1,49-fache Verlangsamung bei 2.048 Knoten), Sierra zeigt auch angemessene Weak-Scaling-Eigenschaften (1,8-fache Verlangsamung)

Fallstudie 2: Node-zu-Node-Durchsatz-Skalierungsstudie für hochgradige Läufe

  • CPU-Plattform-Einschränkungen: CTS-1 und CTS-2 sättigen schnell, Durchsatzkurven sind relativ flach
  • GPU-Plattform-Vorteile: ATS-2 und EAS-3 erreichen deutlich höheren Durchsatz
  • Speicherkapazitäts-Auswirkungen: EAS-3-Knoten können Probleme um eine Größenordnung größer als ATS-2 ausführen
  • Polynom-Ordnungs-Effekt: Auf allen Plattformen erreicht der Code höheren Durchsatz, wenn die Polynom-Ordnung von linear zu quadratisch zu kubisch erhöht wird

Fallstudie 3: Plattformübergreifender Vergleich verschiedener Bibliotheks-Merkmale

Im Shaped-Charge 3D-Problem:

  • Speicherpool-Sharing-Vorteile: Auf GPU-Plattformen zeigt der Host-Code MARBL und die Zustandsgleichungs-Bibliothek LEOS, die einen vorverteilten Speicherpool teilen, im Vergleich zur Verwendung unabhängiger Speicherzuweisungen auf allen Skalen erhebliche Vorteile (2x-4x Verbesserung)

Fallstudie 4: Vergleich der containerisierten MARBL-Leistung

  • Minimale Leistungsverluste: Der Leistungsverlust von containerisiertem MARBL (cMARBL) im Vergleich zu nativen MARBL-Binärdateien ist vernachlässigbar
  • Cloud-Deployment-Machbarkeit: Bietet Möglichkeiten zur Nutzung von Cloud-Ressourcen für verschiedene MARBL-Workloads

Verwandte Arbeiten

Traditionelle Skalierungsstudien

Traditionelle Strong-Scaling- und Weak-Scaling-Studien verwenden typischerweise einen Single-Processor als Benchmark, ein Ansatz, der beim Vergleich zwischen heterogenen Rechentypen schwierig ist. Die Node-zu-Node-Methode dieses Papiers bietet eine praktischere Grundlage für plattformübergreifende Vergleiche.

Performance-Analyse-Tools

Bestehende Tools wie PAPI-Counter, ARM Forge, Intel VTune und NVIDIA Nsight konzentrieren sich typischerweise auf eine einzelne Architektur. Im Vergleich dazu bieten das Ubiquitous Performance Analysis-Paradigma und verwandte Tools (Caliper, Adiak, Hatchet, Thicket) bessere Unterstützung für plattformübergreifende Performance-Analysen.

Workflow-Management

Tools wie Maestro, Merlin und Ramble helfen bei der Verwaltung von Simulationssammlungen, bieten aber nicht alle integrierte Unterstützung für die Durchführung von Simulationen auf verschiedenen Clustern und den Vergleich von Ergebnissen.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Effektivität des Node-Level-Vergleichs: Der einzelne Rechenknoten als grundlegende Einheit für plattformübergreifende Vergleiche ist sinnvoll und praktisch
  2. Wert der standardisierten Visualisierung: Die vorgeschlagenen Diagrammvorlagen können verschiedene Arten von Skalierungsleistung klar darstellen
  3. Erfolg in praktischen Anwendungen: Die Methodeneffektivität und Praktikabilität wurden durch mehrere reale Fallstudien validiert

Einschränkungen

  1. Kosten der Knoten-internen Kommunikation: Node-zu-Node-Skalierungsstudien berücksichtigen einige Knoten-interne Kommunikationskosten in der anfänglichen Single-Node-Messung
  2. Hoher manueller Aufwand: Die praktische Einrichtung dieser Studien und das Tracking von Daten/Metadaten über Läufe hinweg erfordern erhebliche manuelle Arbeit
  3. Begrenzte Datenpunkte: Die Verwendung von uniformer Verfeinerung für Weak-Scaling führt zu wenigen Datenpunkten

Zukünftige Richtungen

  1. Framework-Entwicklung: Entwicklung von Frameworks, die die Einrichtung solcher Studien erleichtern
  2. Cloud-Computing-Erkundung: Erkundung weiterer „Was-wäre-wenn"-Probleme unter Nutzung der vielfältigen Rechenknoten von Cloud-Computing-Clustern
  3. Energieverbrauchsanalyse: Erweiterung auf plattformübergreifende Vergleiche von Energieverbrauch/Stromverbrauch

Tiefgreifende Bewertung

Stärken

  1. Hohe Praktikabilität: Die vorgeschlagene Methode adressiert direkt praktische Probleme, denen sich die HPC-Community gegenübersieht
  2. Systematische Vollständigkeit: Vollständige Abdeckung von theoretischem Framework bis zu praktischen Workflows
  3. Umfassende Validierung: Validierung der Methodeneffektivität durch mehrere reale, großmaßstäbliche Fallstudien
  4. Klare Visualisierung: Die vorgeschlagenen Diagrammvorlagen sind intuitiv und verständlich, erleichtern Analyse und Vergleich
  5. Tool-Unterstützung: Bereitstellung einer vollständigen Tool-Chain-Unterstützung

Schwächen

  1. Begrenzte theoretische Tiefe: Hauptsächlich methodologische und praktische Richtlinien, mangelnde tiefgreifende theoretische Analyse
  2. Zu validierende Universalität: Hauptsächlich auf Fallstudien des MARBL-Codes basierend, die Anwendbarkeit auf andere Anwendungstypen bedarf weiterer Validierung
  3. Niedriger Automatisierungsgrad: Der aktuelle Workflow erfordert immer noch erhebliche manuelle Konfiguration und Verwaltung

Auswirkungen

  1. Schließung einer Lücke: Bereitstellung einer systematischen Lösung für die in der HPC-Community fehlende Anleitung zu plattformübergreifenden Leistungsvergleichen
  2. Standardisierungspotenzial: Die vorgeschlagenen Methoden und Visualisierungsvorlagen haben das Potenzial, zu Community-Standards zu werden
  3. Hoher praktischer Wert: Von großer Bedeutung für praktische Entscheidungen wie Systemanschaffung und Cloud-Computing-Ressourcenauswahl

Anwendungsszenarien

  1. Systemanschaffungs-Bewertung: Hilft Entscheidungsträgern, die Leistung verschiedener Architektur-Systeme zu vergleichen
  2. Cloud-Computing-Ressourcenauswahl: Leitet Benutzer bei der Auswahl der am besten geeigneten Recheninstanztypen in Cloud-Umgebungen
  3. Code-Portierungs-Bewertung: Hilft Entwicklern, die Portierungseffektivität von Code auf verschiedenen Plattformen zu bewerten
  4. Performance-Optimierungs-Richtlinien: Bietet Benchmarks und Zielwerte für Performance-Optimierungsarbeiten

Literaturverzeichnis

Dieses Papier zitiert 52 verwandte Literaturquellen, die HPC-Skalierungsstudien, Performance-Analyse-Tools, Workflow-Management und verwandte Anwendungen abdecken und eine solide theoretische Grundlage und technische Unterstützung für die Forschung bieten.


Dieses Papier bietet der HPC-Community dringend benötigte Richtlinien für plattformübergreifende Leistungsvergleiche und hat hohen praktischen Wert. Obwohl die theoretischen Innovationen relativ begrenzt sind, machen die systematische Methodik und umfassende experimentelle Validierung es zu einem wichtigen Beitrag in diesem Bereich.