2025-11-16T01:07:11.788386

Should I Run My Cloud Benchmark on Black Friday?

Henning, Vogel, Perez-Wohlfeil et al.

Benchmarks and performance experiments are frequently conducted in cloud environments. However, their results are often treated with caution, as the presumed high variability of performance in the cloud raises concerns about reproducibility and credibility. In a recent study, we empirically quantified the impact of this variability on benchmarking results by repeatedly executing a stream processing application benchmark at different times of the day over several months. Our analysis confirms that performance variability is indeed observable at the application level, although it is less pronounced than often assumed. The larger scale of our study compared to related work allowed us to identify subtle daily and weekly performance patterns. We now extend this investigation by examining whether a major global event, such as Black Friday, affects the outcomes of performance benchmarks.

academic

Должен ли я запускать облачный бенчмарк в Чёрную пятницу?

Основная информация

ID статьи: 2510.12397
Название: Should I Run My Cloud Benchmark on Black Friday?
Авторы: Sören Henning, Adriano Vogel, Esteban Perez-Wohlfeil, Otmar Ertl, Rick Rabiser
Учреждения: Dynatrace Research, Linz, Austria; LIT CPS Lab, Johannes Kepler University Linz, Austria
Классификация: cs.SE (инженерия программного обеспечения), cs.DC (распределённые вычисления), cs.PF (анализ производительности)
Дата публикации: 14 октября 2024 г. (препринт arXiv)
Ссылка на статью: https://arxiv.org/abs/2510.12397

Аннотация

Бенчмаркинг и эксперименты по производительности в облачных средах становятся всё более распространёнными, однако результаты часто подвергаются сомнению из-за высокой вариативности облачной производительности, что влияет на воспроизводимость и надёжность. В данном исследовании путём повторного выполнения бенчмарков приложений потоковой обработки в разные периоды времени в течение нескольких месяцев эмпирически количественно оценивается влияние этой вариативности на результаты бенчмаркинга. Анализ подтверждает наличие вариативности производительности на уровне приложения, однако в меньшей степени, чем обычно предполагается. По сравнению с соответствующими работами, больший масштаб данного исследования позволяет выявить тонкие ежедневные и периодические закономерности производительности. Исследование расширено путём анализа влияния глобальных событий, таких как Чёрная пятница, на результаты бенчмаркинга производительности.

Предпосылки и мотивация исследования

Определение проблемы

По мере продолжающегося перехода организаций на облачные развёртывания бенчмаркинг и эксперименты по производительности в облачных средах стали обычной практикой в исследованиях и инженерии. Однако измерение производительности в облачных средах сталкивается со следующими вызовами:

Совместное использование ресурсов в многопользовательской среде: облачные рабочие нагрузки совместно используют базовую инфраструктуру с другими арендаторами
Абстракция оборудования: высокая степень абстракции оборудования вводит вариативность
Проблемы воспроизводимости: измерения производительности могут колебаться, что влияет на значимые сравнения между исследованиями

Значимость исследования

Надёжность облачного бенчмаркинга напрямую влияет на точность оценки производительности
Понимание закономерностей вариативности производительности имеет практическое значение для оптимизации конфигурации облачных ресурсов
Предоставляет эмпирические доказательства для лучших практик бенчмаркинга в облачных средах

Ограничения существующих подходов

Отсутствие крупномасштабных долгосрочных эмпирических исследований
Недостаточный количественный анализ вариативности производительности на уровне приложения
Недостаточное рассмотрение влияния глобальных событий на облачную производительность

Основные вклады

Крупномасштабное продольное исследование: сбор набора данных из более чем 1000 выполнений бенчмарков в течение нескольких месяцев
Выявление закономерностей производительности: обнаружение тонких, но статистически значимых ежедневных и периодических закономерностей производительности в облачных средах
Анализ влияния глобальных событий: первый количественный анализ влияния крупных событий, таких как Чёрная пятница, на производительность облачного бенчмаркинга
Количественная оценка вариативности на уровне приложения: предоставление точных измерений вариативности производительности распределённых приложений потоковой обработки в облачных средах

Подробное описание методологии

Дизайн экспериментов

Объект тестирования

Тип приложения: распределённые приложения потоковой обработки (представляющие интенсивные по данным, критичные по производительности распределённые системы)
Инструмент бенчмаркинга: открытый облачный бенчмарк потоковой обработки ShuffleBench и его реализация на Kafka Streams
Метрики производительности: пропускная способность (throughput), измеряемая методом мгновенного измерения ShuffleBench

Среда выполнения

Облачная платформа: Amazon Web Services (AWS)
Сервис: Elastic Kubernetes Service (EKS)
Конфигурация кластера: 10 узлов, использующих экземпляры m6i различных размеров
Географический регион: us-east-1 (основной), eu-central-1 (проверка)

Автоматизированное выполнение бенчмарков

Использование запланированных задач в AWS Elastic Container Service (ECS) для автоматизации:

Подготовка кластера: создание нового кластера EKS
Установка инфраструктуры: развёртывание Apache Kafka, инструментов мониторинга и фреймворка бенчмаркинга Theodolite
Выполнение бенчмарка: запуск приложения потоковой обработки и генератора нагрузки через Theodolite, работа в течение 15 минут
Повторное тестирование: каждое выполнение повторяется 3 раза
Сбор данных: сохранение результатов бенчмарков, выгрузка инфраструктуры, остановка кластера

Дизайн временного охвата

Основной период экспериментов: май–июль 2024 г., одна неделя сентября 2024 г.
Частота выполнения: один раз в 6 часов (охватывает полный суточный цикл)
Высокочастотный период: один раз в 3 часа в течение 3 недель (захватывает более тонкие ежедневные закономерности)
Эксперименты в Чёрную пятницу: дополнительные эксперименты за неделю до и после Чёрной пятницы 2024 г.

Экспериментальная установка

Метод измерения производительности

Период прогрева: отбрасывание данных измерений первых 3 минут
Окно измерения: расчёт средней пропускной способности за оставшееся время
Выход: каждое выполнение бенчмарка производит одно значение средней пропускной способности

Метрики оценки

Основная метрика: пропускная способность (записей/секунду)
Измерение вариативности: коэффициент вариации (Coefficient of Variation, CV)
Статистический анализ: доверительные интервалы (полученные методом бутстрэпа), тесты статистической значимости

Обработка данных

Временная группировка: группировка по часам, дням недели, неделям
Эталонные закономерности: установление базовых ежедневных и периодических закономерностей
Обнаружение аномалий: выявление отклонений производительности в период Чёрной пятницы

Результаты экспериментов

Общая вариативность производительности

Масштаб данных: более 1000 выполнений бенчмарков
Характеристики распределения: распределение пропускной способности показывает явную центральную тенденцию, почти симметричное в межквартильном диапазоне, но не является нормальным распределением из-за лёгкого смещения в сторону результатов с низкой пропускной способностью
Коэффициент вариации: 3,69%, находится на нижнем конце диапазона микро- и системного уровня вариативности бенчмарков, о которых сообщается в литературе
Межквартильный диапазон: 50% измерений находятся в диапазоне -2,4% до +2,3% от медианы

Ежедневные закономерности производительности

Анализ путём группировки по часам выполнения выявил:

Полуденный спад: бенчмарки, выполняемые в полдень, показывают несколько более низкую производительность
Ночные пики: наивысшая производительность достигается в глубокую ночь и ранние утренние часы
Разница в производительности: средняя разница составляет 2,15%
Статистическая значимость: закономерность статистически значима

Периодические закономерности производительности

Результаты анализа путём группировки по дням недели:

Преимущество выходных: бенчмарки, выполняемые в выходные дни, показывают производительность, немного превышающую производительность в рабочие дни
Минимум в среду: среда показывает наименьшую производительность
Максимальная вариативность: разница в средней пропускной способности от субботы к среде составляет 2,52%
Статистическая значимость: закономерность статистически значима

Долгосрочные закономерности

Вариативность между неделями: разложение по неделям выполнения показывает небольшие колебания производительности
Анализ тренда: не наблюдается явных долгосрочных закономерностей или тенденций
Ограничения сезонности: из-за того, что эксперименты охватывают только часть года, невозможно исключить возможность различий в другие периоды

Анализ влияния Чёрной пятницы

Наблюдаемые явления

Снижение производительности: заметное снижение производительности в утро Чёрной пятницы
Быстрое восстановление: производительность восстанавливается в утро субботы
Предварительный рост: три дня перед Чёрной пятницей показывают статистически значимое увеличение пропускной способности (2,3%–3,3%)
Производительность в день события: производительность в день Чёрной пятницы не отличается значимо от типичной пятницы

Возможные объяснения

Сезонные изменения: общее повышение производительности в ноябре 2024 г. по сравнению с летними месяцами, с временным снижением в Чёрную пятницу
Активное предоставление ресурсов: облачный провайдер мог активно предоставить дополнительные вычислительные ресурсы в преддверии Чёрной пятницы, повысив производительность в предыдущие дни

Связанные работы

Исследования вариативности облачной производительности

Фундаментальные исследования: Leitner и Cito (2016) о закономерностях вариативности и предсказуемости производительности в публичных облаках IaaS
Методология экспериментов: Abedi и Brecht (2017) о методах проведения воспроизводимых экспериментов в высоковариативных облачных средах
Методологические принципы: Papadopoulos и др. (2021) о методологических принципах оценки воспроизводимой производительности облачных вычислений

Сравнение вклада данной работы

Преимущество масштаба: больший масштаб данного исследования по сравнению с соответствующими работами позволяет выявить более тонкие закономерности производительности
Уровень приложения: сосредоточение на анализе производительности на уровне приложения, а не только на системном или микроуровне
Временной охват: предоставление более актуальной характеристики за более длительный период времени

Выводы и обсуждение

Основные выводы

Подтверждение вариативности: производительность бенчмарков на уровне приложения в облачных средах действительно демонстрирует явную вариативность
Умеренная степень: степень вариативности относительно невелика и становится актуальной только при целевых различиях в производительности менее 5%
Наличие закономерностей: выявлено явное влияние времени суток, дня недели и глобальных событий
Практическое воздействие: Чёрная пятница вводит небольшой, но заметный источник вариативности облачной производительности

Ограничения

Географический охват: основные эксперименты сосредоточены на регионе us-east-1
Тип приложения: сосредоточение на приложениях потоковой обработки, которые могут быть неприменимы к другим типам приложений
Временные ограничения: эксперименты охватывают только часть года, что может привести к пропуску сезонных изменений
Статистическая мощность: некоторые эффекты не достигли статистической значимости из-за перекрытия доверительных интервалов

Направления будущих исследований

Расширение типов приложений: исследование вариативности производительности других типов облачных приложений
Анализ нескольких регионов: проведение аналогичных исследований в большем количестве географических регионов
Долгосрочные тренды: проведение анализа долгосрочных тенденций производительности в течение нескольких лет
Влияние событий: исследование влияния других крупных глобальных событий на облачную производительность

Глубокая оценка

Преимущества

Строгая методология: применение крупномасштабного долгосрочного эмпирического метода исследования с полным сбором данных
Практическая значимость: результаты исследования имеют прямое руководящее значение для практики бенчмаркинга в облачных средах
Технологические инновации: первый количественный анализ влияния глобальных событий на облачный бенчмаркинг
Статистическая строгость: использование надлежащих статистических методов, включая анализ методом бутстрэпа и доверительные интервалы
Воспроизводимость: подробное описание экспериментальной установки и процесса автоматизации

Недостатки

Ограниченный охват приложений: сосредоточение только на приложениях потоковой обработки ограничивает способность к обобщению
Причинно-следственные связи: отсутствие глубокого причинно-следственного анализа наблюдаемых закономерностей производительности
Рассмотрение затрат: отсутствие обсуждения анализа затрат и выгод крупномасштабных экспериментов
Практические рекомендации: отсутствие конкретных операционных рекомендаций для практиков

Влияние

Научный вклад: предоставление важных эмпирических данных и методологических ориентиров для исследований облачной производительности
Инженерная практика: предоставление научных доказательств для выбора времени проведения бенчмаркинга в облачных средах
Разработка стандартов: возможное влияние на разработку стандартов и лучших практик бенчмаркинга облачной производительности

Применимые сценарии

Инженерия производительности: оптимизация производительности и планирование ёмкости в облачных средах
Бенчмаркинг: выбор времени для оценки производительности облачных приложений
Управление ресурсами: разработка стратегий планирования облачных ресурсов и балансировки нагрузки
Академические исследования: анализ и моделирование производительности облачных вычислений

Список литературы

В статье цитируется 8 важных источников, охватывающих ключевые области вариативности облачной производительности, методологии экспериментов, инструментов бенчмаркинга и т. д.:

Leitner & Cito (2016) — исследование закономерностей вариативности производительности в публичных облаках IaaS
Abedi & Brecht (2017) — методы проведения воспроизводимых экспериментов в облачных средах
Papadopoulos et al. (2021) — методология оценки производительности облачных вычислений
Henning & Hasselbring (2022) — методология бенчмаркинга масштабируемости облачных приложений
Horwitz (2022) — влияние трафика Чёрной пятницы на стратегии наблюдаемости
Vogel et al. (2023) — систематическое картирование производительности систем распределённой потоковой обработки
Henning et al. (2024) — инструмент бенчмаркинга ShuffleBench
Henning et al. (2025) — исследование вариативности облачной производительности приложений потоковой обработки

Резюме: это высококачественная эмпирическая исследовательская статья, которая посредством крупномасштабных экспериментов предоставляет важные сведения для бенчмаркинга в облачных средах. Методология исследования строга, результаты имеют практическое руководящее значение и представляют собой важный вклад в области инженерии облачной производительности и бенчмаркинга.