2025-11-21T09:31:15.798794

Comparing Cross-Platform Performance via Node-to-Node Scaling Studies

Weiss, Stitt, Hawkins et al.
Due to the increasing diversity of high-performance computing architectures, researchers and practitioners are increasingly interested in comparing a code's performance and scalability across different platforms. However, there is a lack of available guidance on how to actually set up and analyze such cross-platform studies. In this paper, we contend that the natural base unit of computing for such studies is a single compute node on each platform and offer guidance in setting up, running, and analyzing node-to-node scaling studies. We propose templates for presenting scaling results of these studies and provide several case studies highlighting the benefits of this approach.
academic

Сравнение кроссплатформной производительности посредством исследований масштабирования узел-к-узлу

Основная информация

  • ID статьи: 2510.12166
  • Название: Comparing Cross-Platform Performance via Node-to-Node Scaling Studies
  • Авторы: Kenneth Weiss, Thomas M. Stitt, Daryl Hawkins, Olga Pearce, Stephanie Brink, Robert N. Rieben
  • Классификация: cs.DC (Распределённые, параллельные и кластерные вычисления)
  • Дата публикации: 15 октября 2025 г. (препринт)
  • Ссылка на статью: https://arxiv.org/abs/2510.12166

Аннотация

С увеличением разнообразия архитектур высокопроизводительных вычислений (ВПВ) исследователи и практики всё больше внимания уделяют сравнению производительности и масштабируемости кода на различных платформах. Однако отсутствуют практические рекомендации по организации и анализу таких кроссплатформных исследований. В данной работе утверждается, что естественной базовой вычислительной единицей для таких исследований является отдельный вычислительный узел на каждой платформе, и предоставляются рекомендации по организации, запуску и анализу исследований масштабирования узел-к-узлу. Авторы предлагают шаблоны для представления результатов масштабирования и приводят несколько тематических исследований, демонстрирующих преимущества данного подхода.

Контекст исследования и мотивация

Проблемный контекст

  1. Растущее разнообразие архитектур: С завершением проекта Exascale Computing Project (ECP) и успешным развёртыванием первых экзафлопных систем (например, система El Capitan в Lawrence Livermore National Laboratory с производительностью 1,7 экзафлопс) архитектуры узлов суперкомпьютеров демонстрируют значительное разнообразие.
  2. Вызовы выбора платформы: В ноябрьском рейтинге Top500 за 2024 год 29,2% систем одновременно содержат GPU и CPU, что составляет 41,3% от общей производительности. Перед лицом множества вариантов вычислительных платформ исследователям не всегда ясно, как выбрать подходящую платформу для решения задачи в условиях практических ограничений (таких как доступность кластеров и бюджет проекта).
  3. Требования к портативности производительности: Крупные кодовые базы должны поддерживать различные существующие и предстоящие архитектуры, а также новые функции. Разработка, управление, тестирование и поддержка отдельных версий кода для конкретных платформ нецелесообразны. Многие команды решают эту проблему, используя абстрактные библиотеки, такие как RAJA, Kokkos, SYCL и OpenMP, для обеспечения портативности производительности с единственным исходным кодом.

Ограничения существующих подходов

  1. Отсутствие методических рекомендаций: В литературе недостаёт руководств по практическому сравнению производительности гетерогенных систем
  2. Отсутствие унифицированных единиц измерения: Традиционные однопроцессорные тесты затруднены при сравнении между различными типами гетерогенных вычислений
  3. Разрозненные инструменты анализа: Существующие инструменты анализа производительности обычно сосредоточены на одной архитектуре или одном аспекте производительности

Мотивация исследования

Данная работа направлена на предоставление систематических рекомендаций по кроссплатформному сравнению производительности, особенно в облачных вычислительных средах, где пользователи должны выбирать из набора архитектур вычислительных узлов и платить соответственно.

Основные вклады

  1. Предложение парадигмы сравнения узел-к-узлу: Установление отдельного вычислительного узла в качестве релевантной вычислительной единицы для кроссплатформных исследований
  2. Систематизация методов исследования масштабирования: Подробное описание четырёх типов методов исследования масштабирования узел-к-узлу
  3. Стандартизированные шаблоны визуализации: Предложение шаблонов диаграмм для анализа и сравнения кроссплатформной производительности
  4. Практические рекомендации по рабочему процессу: Предоставление полного рабочего процесса для организации, запуска и анализа исследований масштабирования узел-к-узлу
  5. Проверка на реальных примерах: Валидация методики через несколько тематических исследований кода MARBL

Детальное описание методики

Определение задачи

Задача данного исследования заключается в разработке набора стандартизированных методов кроссплатформного сравнения производительности, где входными данными являются вычислительные задачи на различных платформах, а выходными данными — сравнимые результаты анализа производительности и визуализированные диаграммы.

Типы исследований масштабирования узел-к-узлу

1. Исследование сильного масштабирования (Strong Scaling)

  • Определение: Сохранение общего размера задачи фиксированным при изменении количества вычислительных ресурсов
  • Метрика: Коэффициент ускорения при сильном масштабировании = t_P(1)/t_P(N), где t_P(1) — время выполнения на одном узле, t_P(N) — время выполнения на N узлах
  • Идеальный случай: Время выполнения линейно уменьшается с количеством узлов (наклон -1 в логарифмической шкале log₂-log₂)

2. Исследование слабого масштабирования (Weak Scaling)

  • Определение: Сохранение локального размера задачи на каждом вычислительном узле фиксированным при увеличении общего размера задачи с количеством узлов
  • Метрика: Эффективность слабого масштабирования = t_P(1)/t_P(N)
  • Идеальный случай: Время выполнения остаётся неизменным (наклон 0 в логарифмической шкале log₂-log₂)

3. Исследование сильно-слабого масштабирования (Strong-Weak Scaling)

  • Определение: Одновременное представление результатов сильного и слабого масштабирования на одной диаграмме
  • Назначение: Помощь в определении «оптимальной точки» для запуска вычислений
  • Визуализация: Сплошные линии соединяют точки данных сильного масштабирования, пунктирные линии соединяют точки данных слабого масштабирования

4. Исследование масштабирования пропускной способности (Throughput Scaling)

  • Определение: Сравнение пропускной способности на узел при фиксированных ресурсах с изменением количества степеней свободы в задаче
  • Метрика: Пропускная способность = ⟨DOFs-processed⟩/compute_node × cycles/second
  • Цель: Определение точки насыщения ресурсов и выявление узких мест производительности

Технические инновации

  1. Унифицированная единица измерения: Использование вычислительного узла в качестве базовой единицы сравнения, эффективно нормализующей различия между разными архитектурами узлов
  2. Стандартизированная визуализация: Применение логарифмической шкалы log₂-log₂, в которой идеальное масштабирование представляется прямой линией с определённым наклоном
  3. Кроссплатформный анализ: Сравнение относительной производительности при одинаковом количестве узлов через вертикальные линии и сравнение количества узлов, необходимых для достижения аналогичной производительности, через горизонтальные линии
  4. Комплексная оценочная база: Предоставление полного профиля производительности путём объединения нескольких типов масштабирования

Экспериментальная установка

Тестовые платформы

  1. Sierra (ATS-2): Система мощностью 125 петафлопс, 4 320 вычислительных узлов, каждый узел оснащён двумя 20-ядерными процессорами POWER9, четырьмя GPU NVIDIA Volta V100 16GB и 256GB памяти
  2. Astra: Система мощностью 2,3 петафлопс, 2 592 вычислительных узла, каждый узел оснащён двумя 28-ядерными процессорами Cavium ThunderX2 ARM и 128GB памяти
  3. CTS-1: Коммерческая система, 1 302 вычислительных узла, двойные 18-ядерные процессоры Intel Xeon E5-2695, 128GB памяти
  4. CTS-2: Коммерческая система, 1 496 вычислительных узлов, двойные 56-ядерные процессоры Intel Xeon Platinum 8480+, 256GB памяти
  5. EAS-3: Система раннего доступа El Capitan, 36 вычислительных узлов, одиночные 64-ядерные процессоры AMD Trento, четыре GPU AMD MI-250X 128GB, 512GB памяти

Тестовый код

Использован код MARBL (Multiphysics on Advanced Platforms) — код многофизического моделирования нового поколения, разработанный Lawrence Livermore National Laboratory и специализированный для моделирования физики высокой энергетической плотности (HEDP).

Инструменты рабочего процесса

  • Maestro: Для организации запуска исследований масштабирования
  • Caliper и Adiak: Для аннотирования кода и сбора метаданных
  • Thicket: Для чтения и фильтрации данных Caliper, генерирования диаграмм масштабирования

Результаты экспериментов

Тематическое исследование 1: Вехи проекта FY20

В тесте гидродинамики Triple-Pt 3D:

  • Производительность сильного масштабирования: Платформа GPU Sierra демонстрирует примерно 15-кратное ускорение на одном узле по сравнению с платформой CPU, но преимущество постепенно уменьшается с увеличением количества узлов (примерно 8-кратное при 8 узлах, примерно 4-кратное при 32 узлах)
  • Производительность слабого масштабирования: Astra демонстрирует отличное слабое масштабирование (замедление всего в 1,49 раза при 2 048 узлах), Sierra также показывает разумное слабое масштабирование (замедление в 1,8 раза)

Тематическое исследование 2: Исследование пропускной способности узла-к-узлу для высокопорядковых операций

  • Ограничения платформ CPU: CTS-1 и CTS-2 быстро насыщаются, кривые пропускной способности относительно пологие
  • Преимущества платформ GPU: ATS-2 и EAS-3 достигают значительно более высокой пропускной способности
  • Влияние ёмкости памяти: Узлы EAS-3 могут выполнять задачи на порядок большего размера по сравнению с ATS-2
  • Эффект полиномиального порядка: На всех платформах код достигает более высокой пропускной способности с увеличением полиномиального порядка от линейного к квадратичному и кубическому

Тематическое исследование 3: Кроссплатформное сравнение различных особенностей библиотек

В задаче Shaped-Charge 3D:

  • Преимущества совместного использования пула памяти: На платформах GPU совместное использование предварительно выделенного пула памяти между хост-кодом MARBL и библиотекой уравнения состояния LEOS по сравнению с независимым выделением памяти каждой из них показывает значительные преимущества на всех масштабах (улучшение в 2-4 раза)

Тематическое исследование 4: Сравнение производительности контейнеризированного MARBL

  • Минимальные потери производительности: Контейнеризированный MARBL (cMARBL) по сравнению с исходным двоичным файлом MARBL показывает пренебрежимо малые потери производительности
  • Возможность облачного развёртывания: Предоставляет возможности использования облачных ресурсов для различных рабочих нагрузок MARBL

Связанные работы

Традиционные исследования масштабирования

Традиционные исследования сильного и слабого масштабирования обычно используют однопроцессорную систему в качестве базовой линии, что затрудняет сравнение между различными типами гетерогенных вычислений. Метод узел-к-узлу, предложенный в данной работе, обеспечивает более практичную основу для кроссплатформного сравнения.

Инструменты анализа производительности

Существующие инструменты, такие как PAPI counters, ARM forge, Intel VTune, NVIDIA Nsight, обычно сосредоточены на одной архитектуре. В сравнении с ними парадигма Ubiquitous Performance Analysis и связанные инструменты (Caliper, Adiak, Hatchet, Thicket) обеспечивают лучшую поддержку кроссплатформного анализа производительности.

Управление рабочими процессами

Инструменты, такие как Maestro, Merlin, Ramble, помогают управлять наборами моделирований, но не все имеют встроенную поддержку для запуска моделирований на различных кластерах и сравнения результатов.

Выводы и обсуждение

Основные выводы

  1. Эффективность сравнения на уровне узла: Отдельный вычислительный узел как базовая единица кроссплатформного сравнения является обоснованным и практичным подходом
  2. Ценность стандартизированной визуализации: Предложенные шаблоны диаграмм ясно демонстрируют различные типы производительности масштабирования
  3. Успех практического применения: Методика подтверждена несколькими реальными тематическими исследованиями, демонстрирующими её эффективность и практичность

Ограничения

  1. Затраты на внутриузловую коммуникацию: Исследования масштабирования узел-к-узлу включают некоторые затраты на внутриузловую коммуникацию в начальное измерение на одном узле
  2. Большой объём ручной работы: Практическая организация таких исследований и отслеживание данных/метаданных между запусками требуют значительного объёма ручной работы
  3. Ограниченное количество точек данных: Использование равномерного уточнения при слабом масштабировании приводит к небольшому количеству точек данных

Направления будущих исследований

  1. Разработка фреймворков: Создание фреймворков, облегчающих организацию таких исследований
  2. Исследование облачных вычислений: Изучение большего количества «гипотетических» задач, используя разнообразные архитектуры вычислительных узлов облачных кластеров
  3. Анализ энергопотребления: Расширение на кроссплатформное сравнение энергопотребления и использования мощности

Глубокая оценка

Преимущества

  1. Высокая практичность: Предложенная методика напрямую решает практические проблемы, стоящие перед сообществом ВПВ
  2. Полная систематичность: Охватывает всё — от теоретической базы до практического рабочего процесса
  3. Достаточная валидация: Методика проверена на нескольких реальных крупномасштабных тематических исследованиях
  4. Ясная визуализация: Предложенные шаблоны диаграмм интуитивны и удобны для анализа и сравнения
  5. Полная поддержка инструментами: Предоставлен полный набор инструментов для поддержки

Недостатки

  1. Ограниченная теоретическая глубина: Работа в основном сосредоточена на методологии и практических рекомендациях, с ограниченным глубоким теоретическим анализом
  2. Универсальность требует проверки: Исследования в основном основаны на тематических исследованиях кода MARBL, применимость к другим типам приложений требует дальнейшей проверки
  3. Низкая степень автоматизации: Текущий рабочий процесс по-прежнему требует значительного объёма ручной конфигурации и управления

Влияние

  1. Заполнение пробела: Предоставляет систематическое решение для давно отсутствовавшего в сообществе ВПВ руководства по кроссплатформному сравнению производительности
  2. Потенциал стандартизации: Предложенная методика и шаблоны визуализации имеют потенциал стать стандартом сообщества
  3. Высокая практическая ценность: Имеет важное значение для практических решений, таких как закупка систем и выбор облачных ресурсов

Сценарии применения

  1. Оценка при закупке систем: Помощь лицам, принимающим решения, в сравнении производительности систем различных архитектур
  2. Выбор облачных ресурсов: Руководство пользователей в выборе наиболее подходящих типов вычислительных экземпляров в облачной среде
  3. Оценка переноса кода: Помощь разработчикам в оценке эффективности переноса кода на различные платформы
  4. Руководство по оптимизации производительности: Предоставление базовых показателей и целевых установок для работ по оптимизации производительности

Список литературы

Работа ссылается на 52 соответствующих источника, охватывающих исследования масштабирования ВПВ, инструменты анализа производительности, управление рабочими процессами и связанные приложения, обеспечивая прочную теоретическую базу и техническую поддержку исследования.


Данная статья предоставляет давно необходимое сообществу ВПВ руководство по кроссплатформному сравнению производительности и обладает высокой практической ценностью. Хотя инновации в теоретическом плане относительно ограничены, систематическая методология и достаточная экспериментальная валидация делают её важным вкладом в данную область.