2025-11-21T09:31:15.798794

Comparing Cross-Platform Performance via Node-to-Node Scaling Studies

Weiss, Stitt, Hawkins et al.
Due to the increasing diversity of high-performance computing architectures, researchers and practitioners are increasingly interested in comparing a code's performance and scalability across different platforms. However, there is a lack of available guidance on how to actually set up and analyze such cross-platform studies. In this paper, we contend that the natural base unit of computing for such studies is a single compute node on each platform and offer guidance in setting up, running, and analyzing node-to-node scaling studies. We propose templates for presenting scaling results of these studies and provide several case studies highlighting the benefits of this approach.
academic

Comparaison des Performances Multiplateforme via des Études de Mise à l'Échelle Nœud par Nœud

Informations Fondamentales

  • ID de l'article : 2510.12166
  • Titre : Comparing Cross-Platform Performance via Node-to-Node Scaling Studies
  • Auteurs : Kenneth Weiss, Thomas M. Stitt, Daryl Hawkins, Olga Pearce, Stephanie Brink, Robert N. Rieben
  • Classification : cs.DC (Informatique Distribuée, Parallèle et en Grappe)
  • Date de Publication : 15 octobre 2025 (prépublication)
  • Lien de l'article : https://arxiv.org/abs/2510.12166

Résumé

Avec l'augmentation de la diversité des architectures de calcul haute performance, les chercheurs et praticiens s'intéressent de plus en plus à la comparaison des performances et de la scalabilité du code sur différentes plateformes. Cependant, il existe un manque de directives disponibles sur la façon de configurer et d'analyser concrètement de telles études multiplateforme. Cet article soutient que l'unité de calcul fondamentale naturelle pour de telles études est le nœud de calcul individuel sur chaque plateforme, et fournit des directives pour configurer, exécuter et analyser des études de mise à l'échelle nœud par nœud. Nous proposons des modèles pour présenter les résultats de mise à l'échelle de ces études et fournissons plusieurs études de cas pour mettre en évidence les avantages de cette approche.

Contexte et Motivation de la Recherche

Contexte du Problème

  1. Croissance de la Diversité Architecturale : Avec l'achèvement de l'Exascale Computing Project (ECP) et le déploiement réussi des premiers supercalculateurs exaflopiques (comme le système El Capitan du Lawrence Livermore National Laboratory atteignant 1,7 exaflops), les architectures de nœuds des supercalculateurs présentent une diversité considérable.
  2. Défis de la Sélection de Plateforme : Dans le classement Top500 de novembre 2024, 29,2 % des systèmes possèdent à la fois des GPU et des CPU, représentant 41,3 % de la part de performance totale. Face aux nombreux choix de plateformes informatiques, il n'est pas toujours évident pour les chercheurs de sélectionner la plateforme appropriée pour résoudre un problème dans les contraintes pratiques (telles que la disponibilité des grappes et le budget du projet).
  3. Besoins de Portabilité des Performances : Les grandes bases de code doivent prendre en charge diverses architectures existantes et à venir ainsi que de nouvelles fonctionnalités. Le développement, la gestion, les tests et la maintenance de versions de bases de code spécifiques à une plateforme ne sont pas viables. De nombreuses équipes relèvent ce défi en utilisant des bibliothèques d'abstraction telles que RAJA, Kokkos, SYCL et OpenMP pour la portabilité des performances à source unique.

Limitations des Approches Existantes

  1. Manque de Directives : La littérature manque de directives sur la façon de comparer concrètement les performances des systèmes hétérogènes
  2. Unités de Référence Non Uniformes : Les repères traditionnels à processeur unique présentent des difficultés lors de la comparaison entre différents types de calcul hétérogène
  3. Outils d'Analyse Dispersés : Les outils d'analyse de performance existants se concentrent généralement sur une architecture unique ou un seul aspect des performances

Motivation de la Recherche

Cet article vise à fournir des directives systématiques pour la comparaison des performances multiplateforme, en particulier dans les environnements informatiques en nuage où les utilisateurs doivent sélectionner parmi une série d'architectures de nœuds informatiques et payer en conséquence.

Contributions Principales

  1. Proposition d'un Paradigme de Comparaison Nœud par Nœud : Établissement du nœud de calcul individuel comme unité de calcul pertinente pour les études multiplateforme
  2. Systématisation des Méthodes d'Études de Mise à l'Échelle : Description détaillée de quatre types de méthodes d'études de mise à l'échelle nœud par nœud
  3. Normalisation des Modèles de Visualisation : Proposition de modèles de graphiques pour l'analyse et la comparaison des performances multiplateforme
  4. Directives de Flux de Travail Pratique : Fourniture d'un flux de travail complet pour configurer, exécuter et analyser des études de mise à l'échelle nœud par nœud
  5. Validation par Cas Réels : Vérification de l'efficacité de la méthode par plusieurs études de cas du code MARBL

Détails de la Méthode

Définition de la Tâche

La tâche étudiée dans cet article consiste à établir un ensemble de méthodes standardisées pour la comparaison des performances multiplateforme, avec comme entrée des tâches informatiques sur différentes plateformes et comme sortie des résultats d'analyse de performance comparables et des graphiques de visualisation.

Types d'Études de Mise à l'Échelle Nœud par Nœud

1. Études de Mise à l'Échelle Forte (Strong Scaling)

  • Définition : Maintien de la taille totale du problème fixe, variation du nombre de ressources informatiques
  • Métrique : Accélération de mise à l'échelle forte = t_P(1)/t_P(N), où t_P(1) est le temps d'exécution sur un seul nœud et t_P(N) est le temps d'exécution sur N nœuds
  • Cas Idéal : Le temps d'exécution diminue linéairement avec le nombre de nœuds (pente de -1 dans le système de coordonnées log₂-log₂)

2. Études de Mise à l'Échelle Faible (Weak Scaling)

  • Définition : Maintien de la taille du problème local par nœud de calcul fixe, augmentation de la taille totale du problème avec le nombre de nœuds
  • Métrique : Efficacité de mise à l'échelle faible = t_P(1)/t_P(N)
  • Cas Idéal : Le temps d'exécution reste constant (pente de 0 dans le système de coordonnées log₂-log₂)

3. Études de Mise à l'Échelle Forte-Faible (Strong-Weak Scaling)

  • Définition : Présentation simultanée des résultats de mise à l'échelle forte et faible dans un seul graphique
  • Utilité : Aide à déterminer le « point optimal » pour l'exécution du calcul
  • Visualisation : Les lignes continues relient les points de données de mise à l'échelle forte, les lignes pointillées relient les points de données de mise à l'échelle faible

4. Études de Mise à l'Échelle du Débit (Throughput Scaling)

  • Définition : Comparaison du débit par nœud sur des ressources fixes, variation du nombre de degrés de liberté dans le problème
  • Métrique : Débit = ⟨DOFs-processed⟩/compute_node × cycles/second
  • Objectif : Identification du point de saturation des ressources et des goulots d'étranglement de performance

Points d'Innovation Technique

  1. Unité de Référence Unifiée : Utilisation du nœud de calcul comme unité de comparaison fondamentale, normalisant efficacement les différences entre les architectures de nœuds
  2. Visualisation Standardisée : Adoption du système de coordonnées log₂-log₂, rendant la mise à l'échelle idéale sous forme de ligne avec une pente spécifique
  3. Analyse Multiplateforme : Comparaison des performances relatives à un nombre de nœuds identique via des lignes verticales, comparaison du nombre de nœuds nécessaires pour atteindre des performances similaires via des lignes horizontales
  4. Cadre d'Évaluation Intégré : Fourniture d'un profil de performance complet en combinant plusieurs types de mise à l'échelle

Configuration Expérimentale

Plateformes de Test

  1. Sierra (ATS-2) : Système de 125 pétaflops, 4 320 nœuds de calcul, chaque nœud équipé de deux processeurs POWER9 20 cœurs, quatre GPU NVIDIA Volta V100 16 Go et 256 Go de mémoire
  2. Astra : Système de 2,3 pétaflops, 2 592 nœuds de calcul, chaque nœud équipé de deux processeurs ARM Cavium ThunderX2 28 cœurs et 128 Go de mémoire
  3. CTS-1 : Système commercial, 1 302 nœuds de calcul, deux processeurs Intel Xeon E5-2695 18 cœurs, 128 Go de mémoire
  4. CTS-2 : Système commercial, 1 496 nœuds de calcul, deux processeurs Intel Xeon Platinum 8480+ 56 cœurs, 256 Go de mémoire
  5. EAS-3 : Système d'accès anticipé El Capitan, 36 nœuds de calcul, processeur AMD Trento 64 cœurs unique, quatre GPU AMD MI-250X 128 Go, 512 Go de mémoire

Code de Test

Utilisation du code MARBL (Multiphysics on Advanced Platforms), code de simulation multiphysique portable en performance de nouvelle génération développé par le Lawrence Livermore National Laboratory, spécialisé dans la simulation de la physique à haute densité d'énergie (HEDP).

Outils de Flux de Travail

  • Maestro : Orchestration de l'exécution des études de mise à l'échelle
  • Caliper et Adiak : Annotation du code et collecte de métadonnées
  • Thicket : Lecture et filtrage des données Caliper, génération de graphiques de mise à l'échelle

Résultats Expérimentaux

Étude de Cas 1 : Jalon du Projet FY20

Dans le test de référence de dynamique des fluides Triple-Pt 3D :

  • Performance de Mise à l'Échelle Forte : La plateforme GPU Sierra affiche un rapport d'accélération d'environ 15 fois sur un seul nœud par rapport à la plateforme CPU, mais cet avantage diminue progressivement avec l'augmentation du nombre de nœuds (environ 8 fois à 8 nœuds, environ 4 fois à 32 nœuds)
  • Performance de Mise à l'Échelle Faible : Astra affiche une excellente mise à l'échelle faible (ralentissement de seulement 1,49 fois à 2 048 nœuds), Sierra affiche également une mise à l'échelle faible raisonnable (ralentissement de 1,8 fois)

Étude de Cas 2 : Étude de Débit Nœud par Nœud pour Exécutions d'Ordre Élevé

  • Limitations des Plateformes CPU : CTS-1 et CTS-2 se saturent rapidement, les courbes de débit sont relativement plates
  • Avantages des Plateformes GPU : ATS-2 et EAS-3 réalisent un débit significativement plus élevé
  • Impact de la Capacité Mémoire : Les nœuds EAS-3 peuvent exécuter des problèmes d'un ordre de grandeur plus grand que ATS-2
  • Effet de l'Ordre Polynomial : Sur toutes les plateformes, le code réalise un débit plus élevé à mesure que l'ordre polynomial augmente de linéaire à quadratique puis à cubique

Étude de Cas 3 : Comparaison Multiplateforme de Différentes Caractéristiques de Bibliothèque

Dans le problème Shaped-Charge 3D :

  • Avantages du Partage de Pool Mémoire : Sur les plateformes GPU, le code hôte MARBL et la bibliothèque d'équation d'état LEOS partageant un pool mémoire préalloué affichent des avantages significatifs par rapport à l'utilisation d'allocations mémoire indépendantes à toutes les échelles (améliorations de 2x-4x)

Étude de Cas 4 : Comparaison des Performances de MARBL Conteneurisé

  • Perte de Performance Minimale : La perte de performance de MARBL conteneurisé (cMARBL) par rapport au binaire MARBL natif est négligeable
  • Viabilité du Déploiement en Nuage : Offre des opportunités pour exploiter les ressources en nuage pour diverses charges de travail MARBL

Travaux Connexes

Études de Mise à l'Échelle Traditionnelles

Les études traditionnelles de mise à l'échelle forte et faible utilisent généralement le processeur unique comme référence, une approche qui présente des difficultés lors de la comparaison entre différents types de calcul hétérogène. La méthode nœud par nœud de cet article fournit une base de comparaison multiplateforme plus pratique.

Outils d'Analyse de Performance

Les outils existants tels que les compteurs PAPI, ARM Forge, Intel VTune, NVIDIA Nsight se concentrent généralement sur une architecture unique. En comparaison, le paradigme Ubiquitous Performance Analysis et les outils connexes (Caliper, Adiak, Hatchet, Thicket) offrent un meilleur support pour l'analyse des performances multiplateforme.

Gestion des Flux de Travail

Les outils tels que Maestro, Merlin, Ramble aident à gérer les ensembles de simulations, mais ne disposent pas tous du support intégré pour exécuter des simulations sur différentes grappes et comparer les résultats.

Conclusion et Discussion

Conclusions Principales

  1. Validité de la Comparaison au Niveau des Nœuds : Le nœud de calcul individuel comme unité fondamentale de comparaison multiplateforme est raisonnable et pratique
  2. Valeur de la Visualisation Standardisée : Les modèles de graphiques proposés peuvent clairement présenter différents types de performances de mise à l'échelle
  3. Succès de l'Application Pratique : La validité et l'utilité pratique de la méthode ont été vérifiées par plusieurs cas réels

Limitations

  1. Coûts de Communication Intra-Nœud : Les études de mise à l'échelle nœud par nœud intègrent certains coûts de communication intra-nœud dans la mesure initiale du nœud unique
  2. Volume de Travail Manuel Important : La configuration réelle de ces études et le suivi des données/métadonnées entre les exécutions nécessitent un travail manuel considérable
  3. Points de Données Limités : L'utilisation d'un raffinement uniforme pour la mise à l'échelle faible entraîne très peu de points de données

Directions Futures

  1. Développement de Cadres : Développement de cadres facilitant la configuration de telles études
  2. Exploration du Calcul en Nuage : Exploration de plus de problèmes « hypothétiques » utilisant la diversité des nœuds informatiques des grappes informatiques en nuage
  3. Analyse de la Consommation Énergétique : Extension à la comparaison multiplateforme de l'utilisation de l'énergie/puissance

Évaluation Approfondie

Points Forts

  1. Forte Praticité : La méthode proposée résout directement les problèmes pratiques auxquels fait face la communauté HPC
  2. Complétude Systématique : Couverture complète du cadre théorique au flux de travail pratique
  3. Vérification Suffisante : Validation de l'efficacité de la méthode par plusieurs études de cas réelles à grande échelle
  4. Visualisation Claire : Les modèles de graphiques proposés sont intuitifs et faciles à comprendre, facilitant l'analyse et la comparaison
  5. Support Outillage : Fourniture d'une chaîne d'outils complète

Insuffisances

  1. Profondeur Théorique Limitée : Principalement des directives méthodologiques et pratiques, manquant d'analyse théorique approfondie
  2. Applicabilité Générale à Vérifier : Basée principalement sur les cas du code MARBL, l'applicabilité à d'autres types d'applications nécessite une vérification supplémentaire
  3. Degré d'Automatisation Faible : Le flux de travail actuel nécessite toujours une configuration et une gestion manuelles considérables

Influence

  1. Combler une Lacune : Fourniture d'une solution systématique aux directives manquantes de comparaison des performances multiplateforme pour la communauté HPC
  2. Potentiel de Normalisation : Les méthodes et modèles de visualisation proposés ont le potentiel de devenir des normes communautaires
  3. Valeur Pratique Élevée : Importance significative pour les décisions pratiques telles que l'acquisition de systèmes et la sélection des ressources informatiques en nuage

Scénarios Applicables

  1. Évaluation de l'Acquisition de Systèmes : Aide les décideurs à comparer les performances des systèmes d'architectures différentes
  2. Sélection des Ressources Informatiques en Nuage : Guide les utilisateurs dans le choix des types d'instances informatiques les plus appropriés dans les environnements en nuage
  3. Évaluation de la Portabilité du Code : Aide les développeurs à évaluer l'efficacité de la portabilité du code sur différentes plateformes
  4. Orientation de l'Optimisation des Performances : Fournit des références et des objectifs pour les travaux d'optimisation des performances

Références Bibliographiques

Cet article cite 52 références connexes, couvrant les études de mise à l'échelle HPC, les outils d'analyse de performance, la gestion des flux de travail et les applications connexes, fournissant une base théorique et un support technique solides pour la recherche.


Cet article fournit à la communauté HPC les directives urgentes pour la comparaison des performances multiplateforme, avec une forte valeur pratique. Bien que relativement limité en innovation théorique, sa méthodologie systématique et sa vérification expérimentale suffisante en font une contribution importante dans ce domaine.