2025-11-16T01:07:11.788386

Should I Run My Cloud Benchmark on Black Friday?

Henning, Vogel, Perez-Wohlfeil et al.

Benchmarks and performance experiments are frequently conducted in cloud environments. However, their results are often treated with caution, as the presumed high variability of performance in the cloud raises concerns about reproducibility and credibility. In a recent study, we empirically quantified the impact of this variability on benchmarking results by repeatedly executing a stream processing application benchmark at different times of the day over several months. Our analysis confirms that performance variability is indeed observable at the application level, although it is less pronounced than often assumed. The larger scale of our study compared to related work allowed us to identify subtle daily and weekly performance patterns. We now extend this investigation by examining whether a major global event, such as Black Friday, affects the outcomes of performance benchmarks.

academic

Should I Run My Cloud Benchmark on Black Friday?

基本信息

论文ID: 2510.12397
标题: Should I Run My Cloud Benchmark on Black Friday?
作者: Sören Henning, Adriano Vogel, Esteban Perez-Wohlfeil, Otmar Ertl, Rick Rabiser
机构: Dynatrace Research, Linz, Austria; LIT CPS Lab, Johannes Kepler University Linz, Austria
分类: cs.SE (软件工程), cs.DC (分布式计算), cs.PF (性能分析)
发表时间: 2024年10月14日 (arXiv预印本)
论文链接: https://arxiv.org/abs/2510.12397

摘要

云环境中的基准测试和性能实验日益普遍，但其结果常因云性能的高变异性而受到质疑，影响了可重现性和可信度。本研究通过在数月内不同时间重复执行流处理应用基准测试，实证量化了这种变异性对基准测试结果的影响。分析证实应用层面确实存在性能变异性，但程度比通常假设的要小。相比相关工作，本研究的更大规模使其能够识别微妙的日常和周期性性能模式。研究进一步扩展，考察了黑色星期五等全球重大事件对性能基准测试结果的影响。

研究背景与动机

问题定义

随着组织向云部署的持续转型，在云环境中进行基准测试和性能实验已成为研究和工程中的常见做法。然而，云环境的性能测量面临以下挑战：

多租户资源共享：云工作负载与其他租户共享底层基础设施
硬件抽象化：高度的硬件抽象引入了变异性
可重现性问题：性能测量可能波动，影响跨研究的有意义比较

研究重要性

云基准测试的可信度直接影响性能评估的准确性
理解性能变异性模式对优化云资源配置具有实际意义
为云环境下的基准测试最佳实践提供实证依据

现有方法局限性

缺乏大规模、长期的实证研究
对应用层面性能变异性的量化分析不足
未充分考虑全球事件对云性能的影响

核心贡献

大规模纵向研究：通过数月的重复实验，收集了超过1000次基准测试执行的数据集
性能模式识别：发现了云环境中微妙但统计显著的日常和周期性性能模式
全球事件影响分析：首次量化分析了黑色星期五等重大事件对云基准测试性能的影响
应用层面变异性量化：提供了分布式流处理应用在云环境中的性能变异性的精确测量

方法详解

实验设计

测试对象

应用类型：分布式流处理应用（代表数据密集型、性能关键的分布式系统）
基准测试工具：开源云原生流处理基准ShuffleBench及其Kafka Streams实现
性能指标：吞吐量（throughput），采用ShuffleBench的即时测量方法

执行环境

云平台：Amazon Web Services (AWS)
服务：Elastic Kubernetes Service (EKS)
集群配置：10个节点，使用不同大小的m6i实例
地理区域：us-east-1（主要），eu-central-1（验证）

自动化基准执行

使用AWS Elastic Container Service (ECS)中的调度任务实现自动化：

集群供应：创建新的EKS集群
基础设施安装：部署Apache Kafka、监控工具和Theodolite基准测试框架
基准执行：通过Theodolite启动流处理应用和负载生成器，运行15分钟
重复测试：每次执行重复3次
数据收集：存储基准测试结果，卸载基础设施，停用集群

时间跨度设计

主要实验期：2024年5月至7月，2024年9月一周
执行频率：每6小时执行一次（覆盖完整日周期）
高频期：3周内每3小时执行一次（捕获更细粒度的日常模式）
黑色星期五实验：2024年黑色星期五前后一周的额外实验

实验设置

性能测量方法

预热期：丢弃前3分钟的测量数据
测量窗口：计算剩余时间内的平均吞吐量
输出：每次基准执行产生一个平均吞吐量值

评价指标

主要指标：吞吐量（records/second）
变异性度量：变异系数（Coefficient of Variation, CV）
统计分析：置信区间（通过自助法获得）、统计显著性检验

数据处理

时间分组：按小时、星期几、周进行分组分析
参考模式：建立基线日常和周期性模式
异常检测：识别黑色星期五期间的性能偏差

实验结果

整体性能变异性

数据规模：超过1000次基准执行
分布特征：吞吐量分布显示明显的中心趋势，四分位距内几乎对称，但由于轻微偏向低吞吐量结果而非正态分布
变异系数：3.69%，位于文献报告的微观和系统级基准变异性范围的较低端
四分位距：50%的测量值在中位数的-2.4%到+2.3%范围内

日常性能模式

通过按执行时间的小时分组分析发现：

午间低谷：中午时段执行的基准测试表现出略低的性能
夜间峰值：深夜和清晨时段达到最高性能
性能差异：平均值差异为2.15%
统计显著性：模式具有统计显著性

周期性性能模式

按星期几分组的分析结果：

周末优势：周末执行的基准测试显示略高于工作日的性能
周三最低：周三表现出最低性能
最大变异：从周六到周三的平均吞吐量差异为2.52%
统计显著性：模式具有统计显著性

长期模式

周际变化：按执行周分解显示小幅性能波动
趋势分析：未观察到明显的长期模式或趋势
季节性限制：由于实验仅跨越部分年份，无法排除其他时期的差异可能性

黑色星期五影响分析

观察到的现象

性能下降：黑色星期五上午出现明显性能下降
快速恢复：周六上午性能恢复
前期提升：黑色星期五前三天表现出统计显著的吞吐量增加（2.3%到3.3%）
当日表现：黑色星期五当天与典型周五性能无显著差异

可能解释

季节性变化：2024年11月相比夏季月份的整体性能提升，黑色星期五出现临时下降
主动资源供应：云提供商可能为应对黑色星期五主动供应额外计算资源，提升了前几天的性能

相关工作

云性能变异性研究

基础研究：Leitner和Cito (2016)关于公有IaaS云性能变异性和可预测性的模式研究
实验方法论：Abedi和Brecht (2017)关于在高变异云环境中进行可重复实验的方法
方法论原则：Papadopoulos等(2021)提出的云计算可重现性能评估的方法论原则

本文贡献对比

规模优势：相比相关工作，本研究的更大规模使其能够识别更微妙的性能模式
应用层面：专注于应用层面的性能分析，而非仅限于系统或微观层面
时间跨度：提供了更长时间跨度的更新表征

结论与讨论

主要结论

变异性确认：云环境中的应用层基准性能确实表现出明显的变异性
程度适中：变异性程度相对较小，仅在目标性能差异小于5%时才变得相关
模式存在：识别出时间、星期几和全球事件的明确影响
实际影响：黑色星期五引入了小但明显的云性能变异性来源

局限性

地理范围：主要实验集中在us-east-1区域
应用类型：专注于流处理应用，可能不适用于其他类型的应用
时间限制：实验仅跨越部分年份，可能遗漏季节性变化
统计功效：某些效应由于置信区间重叠而未达到统计显著性

未来方向

扩展应用类型：研究其他类型云原生应用的性能变异性
多区域分析：在更多地理区域进行类似研究
长期趋势：进行跨年度的长期性能趋势分析
事件影响：研究其他重大全球事件对云性能的影响

深度评价

优点

方法严谨：采用大规模、长期的实证研究方法，数据收集全面
实际意义：研究结果对云环境基准测试实践具有直接指导价值
技术创新：首次量化分析全球事件对云基准测试的影响
统计严格：使用适当的统计方法，包括自助法和置信区间分析
可重现性：详细描述了实验设置和自动化流程

不足

应用范围局限：仅关注流处理应用，泛化能力有限
因果关系：对观察到的性能模式缺乏深入的因果分析
成本考量：未讨论大规模实验的成本效益分析
实用建议：缺乏针对实践者的具体操作建议

影响力

学术贡献：为云性能研究提供了重要的实证数据和方法论参考
工程实践：为云环境基准测试的时机选择提供了科学依据
标准制定：可能影响云性能基准测试标准和最佳实践的制定

适用场景

性能工程：云环境性能优化和容量规划
基准测试：云原生应用性能评估的时机选择
资源管理：云资源调度和负载均衡策略制定
学术研究：云计算性能分析和建模研究

参考文献

本文引用了8篇重要参考文献，涵盖了云性能变异性、实验方法论、基准测试工具等关键领域：

Leitner & Cito (2016) - 公有IaaS云性能变异性模式研究
Abedi & Brecht (2017) - 云环境可重复实验方法
Papadopoulos et al. (2021) - 云计算性能评估方法论
Henning & Hasselbring (2022) - 云原生应用可扩展性基准测试方法
Horwitz (2022) - 黑色星期五流量对可观测性策略的影响
Vogel et al. (2023) - 分布式流处理系统性能系统性映射
Henning et al. (2024) - ShuffleBench基准测试工具
Henning et al. (2025) - 流处理应用云性能变异性研究

总结：这是一篇高质量的实证研究论文，通过大规模实验为云环境基准测试提供了重要洞察。研究方法严谨，结果具有实际指导价值，是云性能工程和基准测试领域的重要贡献。