Benchmarks and performance experiments are frequently conducted in cloud environments. However, their results are often treated with caution, as the presumed high variability of performance in the cloud raises concerns about reproducibility and credibility. In a recent study, we empirically quantified the impact of this variability on benchmarking results by repeatedly executing a stream processing application benchmark at different times of the day over several months. Our analysis confirms that performance variability is indeed observable at the application level, although it is less pronounced than often assumed. The larger scale of our study compared to related work allowed us to identify subtle daily and weekly performance patterns. We now extend this investigation by examining whether a major global event, such as Black Friday, affects the outcomes of performance benchmarks.
- ID статьи: 2510.12397
- Название: Should I Run My Cloud Benchmark on Black Friday?
- Авторы: Sören Henning, Adriano Vogel, Esteban Perez-Wohlfeil, Otmar Ertl, Rick Rabiser
- Учреждения: Dynatrace Research, Linz, Austria; LIT CPS Lab, Johannes Kepler University Linz, Austria
- Классификация: cs.SE (инженерия программного обеспечения), cs.DC (распределённые вычисления), cs.PF (анализ производительности)
- Дата публикации: 14 октября 2024 г. (препринт arXiv)
- Ссылка на статью: https://arxiv.org/abs/2510.12397
Бенчмаркинг и эксперименты по производительности в облачных средах становятся всё более распространёнными, однако результаты часто подвергаются сомнению из-за высокой вариативности облачной производительности, что влияет на воспроизводимость и надёжность. В данном исследовании путём повторного выполнения бенчмарков приложений потоковой обработки в разные периоды времени в течение нескольких месяцев эмпирически количественно оценивается влияние этой вариативности на результаты бенчмаркинга. Анализ подтверждает наличие вариативности производительности на уровне приложения, однако в меньшей степени, чем обычно предполагается. По сравнению с соответствующими работами, больший масштаб данного исследования позволяет выявить тонкие ежедневные и периодические закономерности производительности. Исследование расширено путём анализа влияния глобальных событий, таких как Чёрная пятница, на результаты бенчмаркинга производительности.
По мере продолжающегося перехода организаций на облачные развёртывания бенчмаркинг и эксперименты по производительности в облачных средах стали обычной практикой в исследованиях и инженерии. Однако измерение производительности в облачных средах сталкивается со следующими вызовами:
- Совместное использование ресурсов в многопользовательской среде: облачные рабочие нагрузки совместно используют базовую инфраструктуру с другими арендаторами
- Абстракция оборудования: высокая степень абстракции оборудования вводит вариативность
- Проблемы воспроизводимости: измерения производительности могут колебаться, что влияет на значимые сравнения между исследованиями
- Надёжность облачного бенчмаркинга напрямую влияет на точность оценки производительности
- Понимание закономерностей вариативности производительности имеет практическое значение для оптимизации конфигурации облачных ресурсов
- Предоставляет эмпирические доказательства для лучших практик бенчмаркинга в облачных средах
- Отсутствие крупномасштабных долгосрочных эмпирических исследований
- Недостаточный количественный анализ вариативности производительности на уровне приложения
- Недостаточное рассмотрение влияния глобальных событий на облачную производительность
- Крупномасштабное продольное исследование: сбор набора данных из более чем 1000 выполнений бенчмарков в течение нескольких месяцев
- Выявление закономерностей производительности: обнаружение тонких, но статистически значимых ежедневных и периодических закономерностей производительности в облачных средах
- Анализ влияния глобальных событий: первый количественный анализ влияния крупных событий, таких как Чёрная пятница, на производительность облачного бенчмаркинга
- Количественная оценка вариативности на уровне приложения: предоставление точных измерений вариативности производительности распределённых приложений потоковой обработки в облачных средах
- Тип приложения: распределённые приложения потоковой обработки (представляющие интенсивные по данным, критичные по производительности распределённые системы)
- Инструмент бенчмаркинга: открытый облачный бенчмарк потоковой обработки ShuffleBench и его реализация на Kafka Streams
- Метрики производительности: пропускная способность (throughput), измеряемая методом мгновенного измерения ShuffleBench
- Облачная платформа: Amazon Web Services (AWS)
- Сервис: Elastic Kubernetes Service (EKS)
- Конфигурация кластера: 10 узлов, использующих экземпляры m6i различных размеров
- Географический регион: us-east-1 (основной), eu-central-1 (проверка)
Использование запланированных задач в AWS Elastic Container Service (ECS) для автоматизации:
- Подготовка кластера: создание нового кластера EKS
- Установка инфраструктуры: развёртывание Apache Kafka, инструментов мониторинга и фреймворка бенчмаркинга Theodolite
- Выполнение бенчмарка: запуск приложения потоковой обработки и генератора нагрузки через Theodolite, работа в течение 15 минут
- Повторное тестирование: каждое выполнение повторяется 3 раза
- Сбор данных: сохранение результатов бенчмарков, выгрузка инфраструктуры, остановка кластера
- Основной период экспериментов: май–июль 2024 г., одна неделя сентября 2024 г.
- Частота выполнения: один раз в 6 часов (охватывает полный суточный цикл)
- Высокочастотный период: один раз в 3 часа в течение 3 недель (захватывает более тонкие ежедневные закономерности)
- Эксперименты в Чёрную пятницу: дополнительные эксперименты за неделю до и после Чёрной пятницы 2024 г.
- Период прогрева: отбрасывание данных измерений первых 3 минут
- Окно измерения: расчёт средней пропускной способности за оставшееся время
- Выход: каждое выполнение бенчмарка производит одно значение средней пропускной способности
- Основная метрика: пропускная способность (записей/секунду)
- Измерение вариативности: коэффициент вариации (Coefficient of Variation, CV)
- Статистический анализ: доверительные интервалы (полученные методом бутстрэпа), тесты статистической значимости
- Временная группировка: группировка по часам, дням недели, неделям
- Эталонные закономерности: установление базовых ежедневных и периодических закономерностей
- Обнаружение аномалий: выявление отклонений производительности в период Чёрной пятницы
- Масштаб данных: более 1000 выполнений бенчмарков
- Характеристики распределения: распределение пропускной способности показывает явную центральную тенденцию, почти симметричное в межквартильном диапазоне, но не является нормальным распределением из-за лёгкого смещения в сторону результатов с низкой пропускной способностью
- Коэффициент вариации: 3,69%, находится на нижнем конце диапазона микро- и системного уровня вариативности бенчмарков, о которых сообщается в литературе
- Межквартильный диапазон: 50% измерений находятся в диапазоне -2,4% до +2,3% от медианы
Анализ путём группировки по часам выполнения выявил:
- Полуденный спад: бенчмарки, выполняемые в полдень, показывают несколько более низкую производительность
- Ночные пики: наивысшая производительность достигается в глубокую ночь и ранние утренние часы
- Разница в производительности: средняя разница составляет 2,15%
- Статистическая значимость: закономерность статистически значима
Результаты анализа путём группировки по дням недели:
- Преимущество выходных: бенчмарки, выполняемые в выходные дни, показывают производительность, немного превышающую производительность в рабочие дни
- Минимум в среду: среда показывает наименьшую производительность
- Максимальная вариативность: разница в средней пропускной способности от субботы к среде составляет 2,52%
- Статистическая значимость: закономерность статистически значима
- Вариативность между неделями: разложение по неделям выполнения показывает небольшие колебания производительности
- Анализ тренда: не наблюдается явных долгосрочных закономерностей или тенденций
- Ограничения сезонности: из-за того, что эксперименты охватывают только часть года, невозможно исключить возможность различий в другие периоды
- Снижение производительности: заметное снижение производительности в утро Чёрной пятницы
- Быстрое восстановление: производительность восстанавливается в утро субботы
- Предварительный рост: три дня перед Чёрной пятницей показывают статистически значимое увеличение пропускной способности (2,3%–3,3%)
- Производительность в день события: производительность в день Чёрной пятницы не отличается значимо от типичной пятницы
- Сезонные изменения: общее повышение производительности в ноябре 2024 г. по сравнению с летними месяцами, с временным снижением в Чёрную пятницу
- Активное предоставление ресурсов: облачный провайдер мог активно предоставить дополнительные вычислительные ресурсы в преддверии Чёрной пятницы, повысив производительность в предыдущие дни
- Фундаментальные исследования: Leitner и Cito (2016) о закономерностях вариативности и предсказуемости производительности в публичных облаках IaaS
- Методология экспериментов: Abedi и Brecht (2017) о методах проведения воспроизводимых экспериментов в высоковариативных облачных средах
- Методологические принципы: Papadopoulos и др. (2021) о методологических принципах оценки воспроизводимой производительности облачных вычислений
- Преимущество масштаба: больший масштаб данного исследования по сравнению с соответствующими работами позволяет выявить более тонкие закономерности производительности
- Уровень приложения: сосредоточение на анализе производительности на уровне приложения, а не только на системном или микроуровне
- Временной охват: предоставление более актуальной характеристики за более длительный период времени
- Подтверждение вариативности: производительность бенчмарков на уровне приложения в облачных средах действительно демонстрирует явную вариативность
- Умеренная степень: степень вариативности относительно невелика и становится актуальной только при целевых различиях в производительности менее 5%
- Наличие закономерностей: выявлено явное влияние времени суток, дня недели и глобальных событий
- Практическое воздействие: Чёрная пятница вводит небольшой, но заметный источник вариативности облачной производительности
- Географический охват: основные эксперименты сосредоточены на регионе us-east-1
- Тип приложения: сосредоточение на приложениях потоковой обработки, которые могут быть неприменимы к другим типам приложений
- Временные ограничения: эксперименты охватывают только часть года, что может привести к пропуску сезонных изменений
- Статистическая мощность: некоторые эффекты не достигли статистической значимости из-за перекрытия доверительных интервалов
- Расширение типов приложений: исследование вариативности производительности других типов облачных приложений
- Анализ нескольких регионов: проведение аналогичных исследований в большем количестве географических регионов
- Долгосрочные тренды: проведение анализа долгосрочных тенденций производительности в течение нескольких лет
- Влияние событий: исследование влияния других крупных глобальных событий на облачную производительность
- Строгая методология: применение крупномасштабного долгосрочного эмпирического метода исследования с полным сбором данных
- Практическая значимость: результаты исследования имеют прямое руководящее значение для практики бенчмаркинга в облачных средах
- Технологические инновации: первый количественный анализ влияния глобальных событий на облачный бенчмаркинг
- Статистическая строгость: использование надлежащих статистических методов, включая анализ методом бутстрэпа и доверительные интервалы
- Воспроизводимость: подробное описание экспериментальной установки и процесса автоматизации
- Ограниченный охват приложений: сосредоточение только на приложениях потоковой обработки ограничивает способность к обобщению
- Причинно-следственные связи: отсутствие глубокого причинно-следственного анализа наблюдаемых закономерностей производительности
- Рассмотрение затрат: отсутствие обсуждения анализа затрат и выгод крупномасштабных экспериментов
- Практические рекомендации: отсутствие конкретных операционных рекомендаций для практиков
- Научный вклад: предоставление важных эмпирических данных и методологических ориентиров для исследований облачной производительности
- Инженерная практика: предоставление научных доказательств для выбора времени проведения бенчмаркинга в облачных средах
- Разработка стандартов: возможное влияние на разработку стандартов и лучших практик бенчмаркинга облачной производительности
- Инженерия производительности: оптимизация производительности и планирование ёмкости в облачных средах
- Бенчмаркинг: выбор времени для оценки производительности облачных приложений
- Управление ресурсами: разработка стратегий планирования облачных ресурсов и балансировки нагрузки
- Академические исследования: анализ и моделирование производительности облачных вычислений
В статье цитируется 8 важных источников, охватывающих ключевые области вариативности облачной производительности, методологии экспериментов, инструментов бенчмаркинга и т. д.:
- Leitner & Cito (2016) — исследование закономерностей вариативности производительности в публичных облаках IaaS
- Abedi & Brecht (2017) — методы проведения воспроизводимых экспериментов в облачных средах
- Papadopoulos et al. (2021) — методология оценки производительности облачных вычислений
- Henning & Hasselbring (2022) — методология бенчмаркинга масштабируемости облачных приложений
- Horwitz (2022) — влияние трафика Чёрной пятницы на стратегии наблюдаемости
- Vogel et al. (2023) — систематическое картирование производительности систем распределённой потоковой обработки
- Henning et al. (2024) — инструмент бенчмаркинга ShuffleBench
- Henning et al. (2025) — исследование вариативности облачной производительности приложений потоковой обработки
Резюме: это высококачественная эмпирическая исследовательская статья, которая посредством крупномасштабных экспериментов предоставляет важные сведения для бенчмаркинга в облачных средах. Методология исследования строга, результаты имеют практическое руководящее значение и представляют собой важный вклад в области инженерии облачной производительности и бенчмаркинга.