2025-11-21T09:31:15.798794

Comparing Cross-Platform Performance via Node-to-Node Scaling Studies

Weiss, Stitt, Hawkins et al.
Due to the increasing diversity of high-performance computing architectures, researchers and practitioners are increasingly interested in comparing a code's performance and scalability across different platforms. However, there is a lack of available guidance on how to actually set up and analyze such cross-platform studies. In this paper, we contend that the natural base unit of computing for such studies is a single compute node on each platform and offer guidance in setting up, running, and analyzing node-to-node scaling studies. We propose templates for presenting scaling results of these studies and provide several case studies highlighting the benefits of this approach.
academic

Comparación del Rendimiento Multiplataforma mediante Estudios de Escalabilidad Nodo a Nodo

Información Básica

  • ID del Artículo: 2510.12166
  • Título: Comparing Cross-Platform Performance via Node-to-Node Scaling Studies
  • Autores: Kenneth Weiss, Thomas M. Stitt, Daryl Hawkins, Olga Pearce, Stephanie Brink, Robert N. Rieben
  • Clasificación: cs.DC (Computación Distribuida, Paralela y en Clúster)
  • Fecha de Publicación: 15 de octubre de 2025 (preimpresión)
  • Enlace del Artículo: https://arxiv.org/abs/2510.12166

Resumen

Con el aumento de la diversidad de arquitecturas de computación de alto rendimiento, investigadores y profesionales están cada vez más interesados en comparar el rendimiento y la escalabilidad del código en diferentes plataformas. Sin embargo, existe una falta de orientación disponible sobre cómo configurar y analizar realmente tales estudios multiplataforma. Este artículo sostiene que la unidad computacional básica natural para tales estudios es el nodo de cómputo individual en cada plataforma, y proporciona orientación para configurar, ejecutar y analizar estudios de escalabilidad nodo a nodo. Presentamos plantillas para mostrar los resultados de escalabilidad de estos estudios y proporcionamos varios estudios de caso que destacan las ventajas de este enfoque.

Antecedentes de Investigación y Motivación

Contexto del Problema

  1. Crecimiento de la Diversidad Arquitectónica: Con la finalización del Exascale Computing Project (ECP) y el despliegue exitoso de las primeras máquinas exaescala (como el sistema El Capitan del Lawrence Livermore National Laboratory que alcanza 1,7 exaflops), las arquitecturas de nodos de supercomputadoras han experimentado una diversidad considerable.
  2. Desafíos en la Selección de Plataformas: En la lista Top500 de noviembre de 2024, el 29,2% de los sistemas tienen simultáneamente GPU y CPU, representando el 41,3% de la cuota de rendimiento total. Ante numerosas opciones de plataformas computacionales, no siempre es evidente para los investigadores seleccionar la plataforma adecuada bajo restricciones prácticas (como disponibilidad de clústeres y presupuestos de proyectos).
  3. Necesidad de Portabilidad de Rendimiento: Los grandes repositorios de código deben soportar simultáneamente diversas arquitecturas existentes y próximas, así como nuevas funcionalidades. Desarrollar, gestionar, probar y mantener versiones específicas de plataforma es inviable. Muchos equipos abordan este desafío utilizando bibliotecas de abstracción como RAJA, Kokkos, SYCL y OpenMP para lograr portabilidad de rendimiento de fuente única.

Limitaciones de Métodos Existentes

  1. Falta de Orientación: Existe una carencia de orientación en la literatura sobre cómo comparar realmente el rendimiento de sistemas heterogéneos
  2. Unidades de Referencia No Uniformes: Los puntos de referencia tradicionales de un solo procesador presentan dificultades al comparar entre tipos de computación heterogénea
  3. Herramientas de Análisis Dispersas: Las herramientas de análisis de rendimiento existentes típicamente se enfocan en una sola arquitectura o un único aspecto del rendimiento

Motivación de la Investigación

Este artículo tiene como objetivo proporcionar orientación sistemática para la comparación de rendimiento multiplataforma, particularmente en entornos de computación en la nube donde los usuarios deben seleccionar de una serie de arquitecturas de nodos de cómputo y pagar en consecuencia.

Contribuciones Principales

  1. Propuesta del Paradigma de Comparación Nodo a Nodo: Establece el nodo de cómputo individual como la unidad computacional relevante para estudios multiplataforma
  2. Método de Estudio de Escalabilidad Sistematizado: Describe detalladamente cuatro tipos de métodos de estudio de escalabilidad nodo a nodo
  3. Plantillas de Visualización Estandarizadas: Propone plantillas de gráficos para analizar y comparar rendimiento multiplataforma
  4. Orientación de Flujo de Trabajo Práctico: Proporciona un flujo de trabajo completo para configurar, ejecutar y analizar estudios de escalabilidad nodo a nodo
  5. Validación mediante Casos Reales: Verifica la efectividad del método a través de múltiples estudios de caso del código MARBL

Detalles de la Metodología

Definición de la Tarea

La tarea investigada en este artículo es establecer un conjunto de métodos estandarizados para la comparación de rendimiento multiplataforma, con entrada de tareas computacionales en diferentes plataformas y salida de resultados de análisis de rendimiento comparables y gráficos de visualización.

Tipos de Estudios de Escalabilidad Nodo a Nodo

1. Estudio de Escalabilidad Fuerte (Strong Scaling)

  • Definición: Mantiene el tamaño total del problema fijo mientras varía la cantidad de recursos computacionales
  • Métrica: Aceleración de escalabilidad fuerte = t_P(1)/t_P(N), donde t_P(1) es el tiempo de ejecución en un nodo y t_P(N) es el tiempo en N nodos
  • Caso Ideal: El tiempo de ejecución disminuye linealmente con el número de nodos (pendiente de -1 en coordenadas log₂-log₂)

2. Estudio de Escalabilidad Débil (Weak Scaling)

  • Definición: Mantiene el tamaño del problema local por nodo de cómputo fijo, aumentando el tamaño total del problema con el número de nodos
  • Métrica: Eficiencia de escalabilidad débil = t_P(1)/t_P(N)
  • Caso Ideal: El tiempo de ejecución permanece constante (pendiente de 0 en coordenadas log₂-log₂)

3. Estudio de Escalabilidad Fuerte-Débil (Strong-Weak Scaling)

  • Definición: Muestra simultáneamente resultados de escalabilidad fuerte y débil en un único gráfico
  • Propósito: Ayuda a determinar el "punto óptimo" para ejecutar el cálculo
  • Visualización: Líneas sólidas conectan puntos de datos de escalabilidad fuerte, líneas punteadas conectan puntos de escalabilidad débil

4. Estudio de Escalabilidad de Rendimiento (Throughput Scaling)

  • Definición: Compara el rendimiento por nodo en recursos fijos, variando el número de grados de libertad en el problema
  • Métrica: Rendimiento = ⟨DOFs-procesados⟩/nodo_computacional × ciclos/segundo
  • Objetivo: Encontrar el punto de saturación de recursos e identificar cuellos de botella de rendimiento

Puntos de Innovación Técnica

  1. Unidad de Referencia Unificada: Utiliza el nodo de cómputo como unidad básica de comparación, normalizando efectivamente las diferencias entre arquitecturas de nodos diferentes
  2. Visualización Estandarizada: Adopta coordenadas log₂-log₂, haciendo que el rendimiento de escalabilidad ideal aparezca como líneas rectas con pendientes específicas
  3. Análisis Multiplataforma: Compara rendimiento relativo en el mismo número de nodos mediante líneas verticales, y compara nodos necesarios para rendimiento similar mediante líneas horizontales
  4. Marco de Evaluación Integral: Proporciona un perfil de rendimiento completo combinando múltiples tipos de escalabilidad

Configuración Experimental

Plataformas de Prueba

  1. Sierra (ATS-2): Sistema de 125 petaflops, 4.320 nodos de cómputo, cada nodo equipado con dos procesadores POWER9 de 20 núcleos, cuatro GPU NVIDIA Volta V100 de 16GB y 256GB de memoria
  2. Astra: Sistema de 2,3 petaflops, 2.592 nodos de cómputo, cada nodo equipado con dos procesadores ARM Cavium ThunderX2 de 28 núcleos y 128GB de memoria
  3. CTS-1: Sistema comercial, 1.302 nodos de cómputo, procesadores Intel Xeon E5-2695 de doble 18 núcleos, 128GB de memoria
  4. CTS-2: Sistema comercial, 1.496 nodos de cómputo, procesadores Intel Xeon Platinum 8480+ de doble 56 núcleos, 256GB de memoria
  5. EAS-3: Sistema de acceso temprano El Capitan, 36 nodos de cómputo, procesador AMD Trento de 64 núcleos único, cuatro GPU AMD MI-250X de 128GB, 512GB de memoria

Código de Prueba

Se utiliza el código MARBL (Multiphysics on Advanced Platforms), un código de simulación multifísica de próxima generación desarrollado por Lawrence Livermore National Laboratory, específicamente diseñado para simular física de alta densidad de energía (HEDP).

Herramientas de Flujo de Trabajo

  • Maestro: Para orquestar la ejecución de estudios de escalabilidad
  • Caliper y Adiak: Para anotación de código y recopilación de metadatos
  • Thicket: Para leer y filtrar datos de Caliper, generando gráficos de escalabilidad

Resultados Experimentales

Estudio de Caso 1: Hito del Proyecto FY20

En la prueba de referencia de dinámica de fluidos Triple-Pt 3D:

  • Rendimiento de Escalabilidad Fuerte: La plataforma GPU Sierra muestra aproximadamente 15 veces de aceleración en un nodo en comparación con la plataforma CPU, pero la ventaja disminuye gradualmente con el aumento de nodos (aproximadamente 8 veces en 8 nodos, 4 veces en 32 nodos)
  • Rendimiento de Escalabilidad Débil: Astra exhibe escalabilidad débil excelente (solo 1,49 veces de desaceleración en 2.048 nodos), Sierra también muestra escalabilidad débil razonable (1,8 veces de desaceleración)

Estudio de Caso 2: Estudio de Rendimiento Nodo a Nodo para Ejecuciones de Orden Superior

  • Limitaciones de Plataforma CPU: CTS-1 y CTS-2 se saturan rápidamente, con curvas de rendimiento relativamente planas
  • Ventaja de Plataforma GPU: ATS-2 y EAS-3 logran rendimiento significativamente más alto
  • Impacto de Capacidad de Memoria: Los nodos EAS-3 pueden ejecutar problemas un orden de magnitud más grande en comparación con ATS-2
  • Efecto del Orden Polinomial: En todas las plataformas, el código logra mayor rendimiento a medida que el orden polinomial aumenta de lineal a cuadrático a cúbico

Estudio de Caso 3: Comparación Multiplataforma de Características de Diferentes Bibliotecas

En el problema Shaped-Charge 3D:

  • Beneficios del Grupo de Memoria Compartida: En plataformas GPU, el código anfitrión MARBL y la biblioteca de ecuación de estado LEOS que comparten un grupo de memoria preasignado muestran ventajas significativas en todas las escalas en comparación con usar asignación de memoria independiente (mejora de 2x-4x)

Estudio de Caso 4: Comparación de Rendimiento de MARBL Containerizado

  • Pérdida de Rendimiento Mínima: MARBL containerizado (cMARBL) en comparación con el binario MARBL nativo muestra pérdida de rendimiento negligible
  • Viabilidad de Despliegue en la Nube: Proporciona oportunidades para aprovechar recursos en la nube para diversas cargas de trabajo MARBL

Trabajo Relacionado

Estudios de Escalabilidad Tradicionales

Los estudios de escalabilidad fuerte y débil tradicionales típicamente utilizan un solo procesador como referencia, un enfoque que presenta dificultades al comparar entre tipos de computación heterogénea. El método nodo a nodo de este artículo proporciona una base de comparación multiplataforma más práctica.

Herramientas de Análisis de Rendimiento

Las herramientas existentes como contadores PAPI, ARM Forge, Intel VTune, NVIDIA Nsight, etc., típicamente se enfocan en una sola arquitectura. En comparación, el paradigma de Análisis de Rendimiento Ubicuo y herramientas relacionadas (Caliper, Adiak, Hatchet, Thicket) proporcionan mejor soporte para análisis de rendimiento multiplataforma.

Gestión de Flujos de Trabajo

Herramientas como Maestro, Merlin, Ramble ayudan a gestionar colecciones de simulaciones, pero no todas tienen soporte integrado para ejecutar simulaciones en diferentes clústeres y comparar resultados.

Conclusiones y Discusión

Conclusiones Principales

  1. Validez de la Comparación a Nivel de Nodo: El nodo de cómputo individual como unidad básica para comparación multiplataforma es razonable y práctico
  2. Valor de la Visualización Estandarizada: Las plantillas de gráficos propuestas pueden mostrar claramente diferentes tipos de rendimiento de escalabilidad
  3. Éxito de Aplicación Práctica: Múltiples casos reales verifican la efectividad y practicidad del método

Limitaciones

  1. Costos de Comunicación Dentro del Nodo: Los estudios de escalabilidad nodo a nodo incorporan algunos costos de comunicación dentro del nodo en la medición inicial de un solo nodo
  2. Gran Volumen de Trabajo Manual: Configurar realmente estos estudios y rastrear datos/metadatos entre ejecuciones requiere trabajo manual considerable
  3. Puntos de Datos Limitados: El uso de refinamiento uniforme para escalabilidad débil resulta en muy pocos puntos de datos

Direcciones Futuras

  1. Desarrollo de Marco: Desarrollar marcos que faciliten la configuración de tales estudios
  2. Exploración de Computación en la Nube: Explorar más problemas "hipotéticos" utilizando la diversidad de nodos de cómputo de clústeres en la nube
  3. Análisis de Energía: Extender a comparaciones multiplataforma de uso de energía/potencia

Evaluación Profunda

Fortalezas

  1. Practicidad Fuerte: El método propuesto aborda directamente problemas prácticos enfrentados por la comunidad HPC
  2. Completitud Sistemática: Proporciona cobertura completa desde marco teórico hasta flujo de trabajo práctico
  3. Validación Suficiente: Verifica la efectividad del método a través de múltiples estudios de caso reales a gran escala
  4. Visualización Clara: Las plantillas de gráficos propuestas son intuitivas y fáciles de entender, facilitando análisis y comparación
  5. Soporte de Herramientas: Proporciona una cadena de herramientas completa

Deficiencias

  1. Profundidad Teórica Limitada: Principalmente orientación metodológica y práctica, carece de análisis teórico profundo
  2. Aplicabilidad General Pendiente de Verificación: Basado principalmente en casos del código MARBL, la aplicabilidad a otros tipos de aplicaciones requiere verificación adicional
  3. Bajo Grado de Automatización: El flujo de trabajo actual aún requiere configuración y gestión manual considerable

Impacto

  1. Llena un Vacío: Proporciona solución sistemática para la orientación de comparación multiplataforma que falta en la comunidad HPC
  2. Potencial de Estandarización: Los métodos y plantillas de visualización propuestos tienen potencial de convertirse en estándares comunitarios
  3. Alto Valor Práctico: Tiene importancia significativa para decisiones prácticas como evaluación de compra de sistemas y selección de recursos en la nube

Escenarios Aplicables

  1. Evaluación de Compra de Sistemas: Ayuda a los tomadores de decisiones a comparar rendimiento de diferentes sistemas de arquitectura
  2. Selección de Recursos de Computación en la Nube: Guía a usuarios en seleccionar tipos de instancia de cómputo más apropiados en entornos en la nube
  3. Evaluación de Portabilidad de Código: Ayuda a desarrolladores a evaluar efectos de portabilidad de código en diferentes plataformas
  4. Orientación de Optimización de Rendimiento: Proporciona puntos de referencia y establecimiento de objetivos para trabajo de optimización de rendimiento

Referencias

Este artículo cita 52 referencias relacionadas, cubriendo múltiples aspectos incluyendo estudios de escalabilidad HPC, herramientas de análisis de rendimiento, gestión de flujos de trabajo y aplicaciones relacionadas, proporcionando base teórica y soporte técnico sólido para la investigación.


Este artículo proporciona orientación urgentemente necesaria para la comunidad HPC en comparación de rendimiento multiplataforma, con valor práctico fuerte. Aunque relativamente limitado en innovación teórica, su metodología sistemática y validación experimental suficiente lo convierten en una contribución importante en este campo.