2025-11-21T09:31:15.798794

Comparing Cross-Platform Performance via Node-to-Node Scaling Studies

Weiss, Stitt, Hawkins et al.
Due to the increasing diversity of high-performance computing architectures, researchers and practitioners are increasingly interested in comparing a code's performance and scalability across different platforms. However, there is a lack of available guidance on how to actually set up and analyze such cross-platform studies. In this paper, we contend that the natural base unit of computing for such studies is a single compute node on each platform and offer guidance in setting up, running, and analyzing node-to-node scaling studies. We propose templates for presenting scaling results of these studies and provide several case studies highlighting the benefits of this approach.
academic

Confronto delle Prestazioni Cross-Platform mediante Studi di Scaling Node-to-Node

Informazioni Fondamentali

  • ID Articolo: 2510.12166
  • Titolo: Comparing Cross-Platform Performance via Node-to-Node Scaling Studies
  • Autori: Kenneth Weiss, Thomas M. Stitt, Daryl Hawkins, Olga Pearce, Stephanie Brink, Robert N. Rieben
  • Classificazione: cs.DC (Distributed, Parallel, and Cluster Computing)
  • Data di Pubblicazione: 15 Ottobre 2025 (preprint)
  • Link Articolo: https://arxiv.org/abs/2510.12166

Riassunto

Con l'aumento della diversità delle architetture di calcolo ad alte prestazioni, ricercatori e professionisti sono sempre più interessati al confronto delle prestazioni e della scalabilità del codice su diverse piattaforme. Tuttavia, mancano linee guida disponibili su come effettivamente configurare e analizzare tali studi cross-platform. Questo articolo sostiene che l'unità di calcolo fondamentale naturale per tali studi è il singolo nodo di calcolo su ciascuna piattaforma, e fornisce linee guida per configurare, eseguire e analizzare studi di scaling node-to-node. Presentiamo modelli per visualizzare i risultati di scaling di questi studi e forniamo diversi casi di studio per evidenziare i vantaggi di questo approccio.

Contesto di Ricerca e Motivazione

Contesto del Problema

  1. Crescita della Diversità Architettonica: Con il completamento dell'Exascale Computing Project (ECP) e il successo del dispiegamento dei primi sistemi exascale (come il sistema El Capitan del Lawrence Livermore National Laboratory che raggiunge 1,7 exaflops), l'architettura dei nodi dei supercomputer ha subito una considerevole diversificazione.
  2. Sfida nella Selezione della Piattaforma: Nella lista Top500 di novembre 2024, il 29,2% dei sistemi possiede sia GPU che CPU, rappresentando il 41,3% della quota di prestazioni totale. Di fronte a numerose scelte di piattaforme di calcolo, non è sempre chiaro per i ricercatori quale piattaforma selezionare per risolvere problemi entro vincoli pratici (come la disponibilità del cluster e il budget del progetto).
  3. Necessità di Portabilità delle Prestazioni: I grandi codici devono supportare simultaneamente varie architetture esistenti e future nonché nuove funzionalità; sviluppare, gestire, testare e mantenere versioni di codice specifiche per piattaforma non è praticabile. Molti team affrontano questa sfida utilizzando librerie di astrazione come RAJA, Kokkos, SYCL e OpenMP per la portabilità delle prestazioni a sorgente singolo.

Limitazioni degli Approcci Esistenti

  1. Mancanza di Linee Guida: La letteratura manca di indicazioni su come effettivamente confrontare le prestazioni di sistemi eterogenei
  2. Unità di Benchmark non Uniforme: I benchmark tradizionali a singolo processore presentano difficoltà nel confronto tra diversi tipi di calcolo eterogeneo
  3. Strumenti di Analisi Dispersi: Gli strumenti di analisi delle prestazioni esistenti si concentrano tipicamente su un'unica architettura o su un singolo aspetto delle prestazioni

Motivazione della Ricerca

Questo articolo mira a fornire linee guida sistematiche per il confronto delle prestazioni cross-platform, in particolare in ambienti cloud computing dove gli utenti devono selezionare da una serie di architetture di nodi di calcolo e pagare di conseguenza.

Contributi Fondamentali

  1. Proposta del Paradigma di Confronto Node-to-Node: Stabilisce il singolo nodo di calcolo come unità di calcolo rilevante per studi cross-platform
  2. Sistematizzazione del Metodo di Scaling Study: Descrive in dettaglio quattro tipi di metodologie di studi di scaling node-to-node
  3. Standardizzazione dei Modelli di Visualizzazione: Propone modelli di grafici per l'analisi e il confronto delle prestazioni cross-platform
  4. Linee Guida per il Flusso di Lavoro Pratico: Fornisce un flusso di lavoro completo per configurare, eseguire e analizzare studi di scaling node-to-node
  5. Validazione mediante Casi di Studio Reali: Verifica l'efficacia del metodo attraverso molteplici casi di studio del codice MARBL

Dettagli Metodologici

Definizione del Compito

Il compito di ricerca di questo articolo è stabilire un insieme di metodi standardizzati per il confronto delle prestazioni cross-platform, con input costituiti da compiti di calcolo su diverse piattaforme e output costituiti da risultati di analisi delle prestazioni comparabili e grafici di visualizzazione.

Tipi di Studi di Scaling Node-to-Node

1. Studi di Strong Scaling

  • Definizione: Mantiene la dimensione totale del problema fissa, varia la quantità di risorse di calcolo
  • Metrica: Rapporto di accelerazione strong scaling = t_P(1)/t_P(N), dove t_P(1) è il tempo di esecuzione su singolo nodo e t_P(N) è il tempo di esecuzione su N nodi
  • Caso Ideale: Il tempo di esecuzione diminuisce linearmente con il numero di nodi (pendenza di -1 in coordinate log₂-log₂)

2. Studi di Weak Scaling

  • Definizione: Mantiene la dimensione del problema locale per ciascun nodo di calcolo fissa, aumenta la dimensione totale del problema con l'aumento del numero di nodi
  • Metrica: Efficienza weak scaling = t_P(1)/t_P(N)
  • Caso Ideale: Il tempo di esecuzione rimane invariato (pendenza di 0 in coordinate log₂-log₂)

3. Studi di Strong-Weak Scaling

  • Definizione: Visualizza simultaneamente i risultati di strong scaling e weak scaling in un singolo grafico
  • Utilizzo: Aiuta a determinare il "punto ottimale" per l'esecuzione del calcolo
  • Visualizzazione: Linee continue collegano i punti dati di strong scaling, linee tratteggiate collegano i punti dati di weak scaling

4. Studi di Throughput Scaling

  • Definizione: Confronta il throughput per nodo su risorse fisse, varia il numero di gradi di libertà nel problema
  • Metrica: Throughput = ⟨DOFs-processed⟩/compute_node × cycles/second
  • Obiettivo: Trovare il punto di saturazione delle risorse e identificare i colli di bottiglia delle prestazioni

Punti di Innovazione Tecnica

  1. Unità di Benchmark Unificata: Utilizza il nodo di calcolo come unità di confronto fondamentale, normalizzando efficacemente le differenze tra diverse architetture di nodi
  2. Visualizzazione Standardizzata: Adotta coordinate log₂-log₂, facendo sì che le prestazioni di scaling ideali si manifestino come linee rette con pendenze specifiche
  3. Analisi Cross-Platform: Confronta le prestazioni relative con lo stesso numero di nodi attraverso linee verticali, confronta il numero di nodi necessari per raggiungere prestazioni simili attraverso linee orizzontali
  4. Framework di Valutazione Integrato: Fornisce un quadro completo delle prestazioni combinando molteplici tipi di scaling

Configurazione Sperimentale

Piattaforme di Test

  1. Sierra (ATS-2): Sistema da 125 petaflop, 4.320 nodi di calcolo, ogni nodo equipaggiato con due processori POWER9 a 20 core, quattro GPU NVIDIA Volta V100 da 16GB e 256GB di memoria
  2. Astra: Sistema da 2,3 petaflop, 2.592 nodi di calcolo, ogni nodo equipaggiato con due processori Cavium ThunderX2 ARM a 28 core e 128GB di memoria
  3. CTS-1: Sistema commerciale, 1.302 nodi di calcolo, doppi processori Intel Xeon E5-2695 a 18 core, 128GB di memoria
  4. CTS-2: Sistema commerciale, 1.496 nodi di calcolo, doppi processori Intel Xeon Platinum 8480+ a 56 core, 256GB di memoria
  5. EAS-3: Sistema di accesso anticipato El Capitan, 36 nodi di calcolo, singolo processore AMD Trento a 64 core, quattro GPU AMD MI-250X da 128GB, 512GB di memoria

Codice di Test

Utilizza il codice MARBL (Multiphysics on Advanced Platforms), un codice di simulazione multifisica di prossima generazione sviluppato dal Lawrence Livermore National Laboratory, specificamente progettato per simulare fisica ad alta densità di energia (HEDP).

Strumenti del Flusso di Lavoro

  • Maestro: Per orchestrare l'esecuzione degli studi di scaling
  • Caliper e Adiak: Per annotazioni di codice e raccolta di metadati
  • Thicket: Per leggere e filtrare dati Caliper, generare grafici di scaling

Risultati Sperimentali

Caso di Studio 1: Milestone del Progetto FY20

Nel benchmark di fluidodinamica Triple-Pt 3D:

  • Prestazioni di Strong Scaling: La piattaforma GPU Sierra mostra un rapporto di accelerazione di circa 15 volte rispetto alla piattaforma CPU su singolo nodo, ma il vantaggio diminuisce gradualmente con l'aumento del numero di nodi (circa 8 volte a 8 nodi, circa 4 volte a 32 nodi)
  • Prestazioni di Weak Scaling: Astra mostra eccellente weak scaling (solo 1,49 volte di rallentamento a 2.048 nodi), Sierra mostra anche ragionevole weak scaling (1,8 volte di rallentamento)

Caso di Studio 2: Studio di Throughput Node-to-Node per Esecuzioni di Ordine Superiore

  • Limitazioni della Piattaforma CPU: CTS-1 e CTS-2 si saturano rapidamente, le curve di throughput sono relativamente piatte
  • Vantaggi della Piattaforma GPU: ATS-2 e EAS-3 realizzano throughput significativamente più elevati
  • Impatto della Capacità di Memoria: I nodi EAS-3 rispetto ad ATS-2 possono eseguire problemi di un ordine di grandezza più grande
  • Effetto dell'Ordine Polinomiale: Su tutte le piattaforme, con l'aumento dell'ordine polinomiale da lineare a quadratico a cubico, il codice realizza throughput più elevati

Caso di Studio 3: Confronto Cross-Platform di Diverse Caratteristiche di Librerie

Nel problema Shaped-Charge 3D:

  • Benefici della Condivisione del Pool di Memoria: Sulla piattaforma GPU, il codice host MARBL e la libreria di equazione di stato LEOS che condividono un pool di memoria preallocato mostrano vantaggi significativi rispetto all'utilizzo di allocazioni di memoria indipendenti su tutte le scale (miglioramenti di 2x-4x)

Caso di Studio 4: Confronto delle Prestazioni di MARBL Containerizzato

  • Perdita di Prestazioni Minima: MARBL containerizzato (cMARBL) rispetto al binario MARBL nativo mostra una perdita di prestazioni trascurabile
  • Fattibilità del Dispiegamento Cloud: Fornisce opportunità per sfruttare risorse cloud per vari carichi di lavoro MARBL

Lavori Correlati

Studi di Scaling Tradizionali

Gli studi tradizionali di strong scaling e weak scaling tipicamente utilizzano il singolo processore come benchmark, un approccio che presenta difficoltà nel confronto tra diversi tipi di calcolo eterogeneo. Il metodo node-to-node di questo articolo fornisce una base di confronto cross-platform più pratica.

Strumenti di Analisi delle Prestazioni

Gli strumenti esistenti come contatori PAPI, ARM forge, Intel VTune, NVIDIA Nsight si concentrano tipicamente su un'unica architettura. Al contrario, il paradigma Ubiquitous Performance Analysis e gli strumenti correlati (Caliper, Adiak, Hatchet, Thicket) forniscono un migliore supporto per l'analisi delle prestazioni cross-platform.

Gestione del Flusso di Lavoro

Strumenti come Maestro, Merlin, Ramble aiutano a gestire insiemi di simulazioni, ma non tutti hanno supporto integrato per l'esecuzione di simulazioni su diversi cluster e il confronto dei risultati.

Conclusioni e Discussione

Conclusioni Principali

  1. Efficacia del Confronto a Livello di Nodo: Il singolo nodo di calcolo come unità fondamentale di confronto cross-platform è ragionevole e pratico
  2. Valore della Visualizzazione Standardizzata: I modelli di grafici proposti possono visualizzare chiaramente diversi tipi di prestazioni di scaling
  3. Successo dell'Applicazione Pratica: Molteplici casi di studio reali verificano l'efficacia e la praticità del metodo

Limitazioni

  1. Costi di Comunicazione Intra-Nodo: Gli studi di scaling node-to-node incorporano alcuni costi di comunicazione intra-nodo nella misurazione iniziale a singolo nodo
  2. Elevato Carico di Lavoro Manuale: La configurazione effettiva di questi studi e il tracciamento dei dati/metadati tra esecuzioni richiedono notevole lavoro manuale
  3. Punti Dati Limitati: L'utilizzo del raffinamento uniforme per weak scaling risulta in pochi punti dati

Direzioni Future

  1. Sviluppo di Framework: Sviluppare framework che facilitino la configurazione di tali studi
  2. Esplorazione del Cloud Computing: Esplorare più problemi "what-if" utilizzando la diversità di nodi di calcolo dei cluster cloud
  3. Analisi del Consumo Energetico: Estendere al confronto cross-platform dell'utilizzo di energia/potenza

Valutazione Approfondita

Punti di Forza

  1. Forte Praticità: Il metodo proposto affronta direttamente problemi pratici affrontati dalla comunità HPC
  2. Completezza Sistematica: Copre completamente dal framework teorico ai flussi di lavoro pratici
  3. Validazione Sufficiente: Verifica l'efficacia del metodo attraverso molteplici casi di studio reali su larga scala
  4. Visualizzazione Chiara: I modelli di grafici proposti sono intuitivi e facili da comprendere, facilitando l'analisi e il confronto
  5. Supporto Strumentale: Fornisce una catena di strumenti completa

Insufficienze

  1. Profondità Teorica Limitata: Principalmente metodologia e linee guida pratiche, manca analisi teorica profonda
  2. Universalità da Verificare: Principalmente basato su casi di studio del codice MARBL, l'applicabilità ad altri tipi di applicazioni richiede ulteriore verifica
  3. Basso Grado di Automazione: Il flusso di lavoro attuale richiede ancora notevole configurazione e gestione manuale

Impatto

  1. Colma un Vuoto: Fornisce una soluzione sistematica alle linee guida mancanti per il confronto cross-platform nella comunità HPC
  2. Potenziale di Standardizzazione: I metodi e i modelli di visualizzazione proposti hanno il potenziale di diventare standard della comunità
  3. Alto Valore Pratico: Ha importanza significativa per decisioni pratiche come l'acquisizione di sistemi e la selezione di risorse cloud computing

Scenari di Applicazione

  1. Valutazione dell'Acquisizione di Sistemi: Aiuta i decisori a confrontare le prestazioni di diverse architetture di sistemi
  2. Selezione di Risorse Cloud Computing: Guida gli utenti nella selezione dei tipi di istanze di calcolo più appropriati in ambienti cloud
  3. Valutazione della Portabilità del Codice: Aiuta gli sviluppatori a valutare l'efficacia della portabilità del codice su diverse piattaforme
  4. Guida all'Ottimizzazione delle Prestazioni: Fornisce benchmark e definizione di obiettivi per il lavoro di ottimizzazione delle prestazioni

Bibliografia

Questo articolo cita 52 riferimenti correlati, coprendo molteplici aspetti inclusi studi di scaling HPC, strumenti di analisi delle prestazioni, gestione del flusso di lavoro e applicazioni correlate, fornendo una base teorica e un supporto tecnico solidi per la ricerca.


Questo articolo fornisce alla comunità HPC la guida urgentemente necessaria per il confronto delle prestazioni cross-platform, con forte valore pratico. Sebbene relativamente limitato nell'innovazione teorica, la sua metodologia sistematica e la validazione sperimentale sufficiente lo rendono un contributo importante in questo campo.