2025-11-16T01:07:11.788386

Should I Run My Cloud Benchmark on Black Friday?

Henning, Vogel, Perez-Wohlfeil et al.

Benchmarks and performance experiments are frequently conducted in cloud environments. However, their results are often treated with caution, as the presumed high variability of performance in the cloud raises concerns about reproducibility and credibility. In a recent study, we empirically quantified the impact of this variability on benchmarking results by repeatedly executing a stream processing application benchmark at different times of the day over several months. Our analysis confirms that performance variability is indeed observable at the application level, although it is less pronounced than often assumed. The larger scale of our study compared to related work allowed us to identify subtle daily and weekly performance patterns. We now extend this investigation by examining whether a major global event, such as Black Friday, affects the outcomes of performance benchmarks.

academic

¿Debería Ejecutar Mi Benchmark en la Nube el Black Friday?

Información Básica

ID del Artículo: 2510.12397
Título: Should I Run My Cloud Benchmark on Black Friday?
Autores: Sören Henning, Adriano Vogel, Esteban Perez-Wohlfeil, Otmar Ertl, Rick Rabiser
Instituciones: Dynatrace Research, Linz, Austria; LIT CPS Lab, Johannes Kepler University Linz, Austria
Clasificación: cs.SE (Ingeniería de Software), cs.DC (Computación Distribuida), cs.PF (Análisis de Rendimiento)
Fecha de Publicación: 14 de octubre de 2024 (preimpresión arXiv)
Enlace del Artículo: https://arxiv.org/abs/2510.12397

Resumen

Los benchmarks y experimentos de rendimiento en entornos en la nube son cada vez más comunes, pero sus resultados frecuentemente se cuestionan debido a la alta variabilidad del rendimiento en la nube, lo que afecta la reproducibilidad y confiabilidad. Este estudio cuantifica empíricamente el impacto de esta variabilidad en los resultados de benchmarks mediante la ejecución repetida de benchmarks de aplicaciones de procesamiento de flujos en diferentes momentos durante varios meses. El análisis confirma que existe variabilidad de rendimiento a nivel de aplicación, pero en menor medida de lo que típicamente se asume. Comparado con trabajos relacionados, la escala más grande de este estudio permite identificar patrones sutiles de rendimiento diarios y periódicos. El estudio se extiende además para examinar el impacto de eventos globales importantes, como el Black Friday, en los resultados de benchmarks de rendimiento.

Antecedentes y Motivación de la Investigación

Definición del Problema

Con la transformación continua de las organizaciones hacia la implementación en la nube, la realización de benchmarks y experimentos de rendimiento en entornos en la nube se ha convertido en una práctica común en investigación e ingeniería. Sin embargo, las mediciones de rendimiento en entornos en la nube enfrentan los siguientes desafíos:

Compartición de Recursos Multiinquilino: Las cargas de trabajo en la nube comparten la infraestructura subyacente con otros inquilinos
Abstracción de Hardware: El alto nivel de abstracción de hardware introduce variabilidad
Problemas de Reproducibilidad: Las mediciones de rendimiento pueden fluctuar, afectando comparaciones significativas entre investigaciones

Importancia de la Investigación

La confiabilidad de los benchmarks en la nube impacta directamente la precisión de las evaluaciones de rendimiento
Comprender los patrones de variabilidad de rendimiento tiene implicaciones prácticas para optimizar la configuración de recursos en la nube
Proporciona evidencia empírica para las mejores prácticas de benchmarking en entornos en la nube

Limitaciones de Métodos Existentes

Falta de investigaciones empíricas a gran escala y a largo plazo
Análisis cuantitativo insuficiente de la variabilidad de rendimiento a nivel de aplicación
Consideración inadecuada del impacto de eventos globales en el rendimiento en la nube

Contribuciones Principales

Estudio Longitudinal a Gran Escala: Recopilación de un conjunto de datos de más de 1000 ejecuciones de benchmarks mediante experimentos repetidos durante varios meses
Identificación de Patrones de Rendimiento: Descubrimiento de patrones sutiles pero estadísticamente significativos de rendimiento diarios y periódicos en entornos en la nube
Análisis del Impacto de Eventos Globales: Primera cuantificación del impacto de eventos importantes como el Black Friday en el rendimiento de benchmarks en la nube
Cuantificación de Variabilidad a Nivel de Aplicación: Proporciona mediciones precisas de la variabilidad de rendimiento de aplicaciones de procesamiento de flujos distribuidos en entornos en la nube

Explicación Detallada de la Metodología

Diseño Experimental

Objeto de Prueba

Tipo de Aplicación: Aplicaciones de procesamiento de flujos distribuidos (representativas de sistemas distribuidos intensivos en datos y críticos para el rendimiento)
Herramienta de Benchmark: Benchmark de procesamiento de flujos nativo en la nube de código abierto ShuffleBench e implementación de Kafka Streams
Métrica de Rendimiento: Rendimiento (throughput), utilizando el método de medición instantánea de ShuffleBench

Entorno de Ejecución

Plataforma en la Nube: Amazon Web Services (AWS)
Servicio: Elastic Kubernetes Service (EKS)
Configuración del Clúster: 10 nodos, utilizando instancias m6i de diferentes tamaños
Región Geográfica: us-east-1 (principal), eu-central-1 (validación)

Ejecución Automatizada de Benchmarks

Implementación de automatización mediante tareas programadas en AWS Elastic Container Service (ECS):

Aprovisionamiento del Clúster: Creación de nuevo clúster EKS
Instalación de Infraestructura: Despliegue de Apache Kafka, herramientas de monitoreo y framework de benchmarking Theodolite
Ejecución del Benchmark: Inicio de la aplicación de procesamiento de flujos y generador de carga a través de Theodolite, ejecución de 15 minutos
Pruebas Repetidas: Cada ejecución se repite 3 veces
Recopilación de Datos: Almacenamiento de resultados de benchmarks, descarga de infraestructura, desactivación del clúster

Diseño del Intervalo Temporal

Período Principal de Experimentos: Mayo a julio de 2024, una semana en septiembre de 2024
Frecuencia de Ejecución: Una ejecución cada 6 horas (cobertura de ciclo diario completo)
Período de Alta Frecuencia: Una ejecución cada 3 horas durante 3 semanas (captura de patrones diarios más granulares)
Experimentos de Black Friday: Experimentos adicionales una semana antes y después del Black Friday de 2024

Configuración Experimental

Método de Medición de Rendimiento

Período de Calentamiento: Descarte de datos de medición de los primeros 3 minutos
Ventana de Medición: Cálculo del rendimiento promedio en el tiempo restante
Salida: Cada ejecución de benchmark produce un valor de rendimiento promedio

Indicadores de Evaluación

Indicador Principal: Rendimiento (registros/segundo)
Medida de Variabilidad: Coeficiente de Variación (CV)
Análisis Estadístico: Intervalos de confianza (obtenidos mediante bootstrap), pruebas de significancia estadística

Procesamiento de Datos

Agrupación Temporal: Agrupación y análisis por hora, día de la semana, semana
Patrón de Referencia: Establecimiento de patrones de línea base diarios y periódicos
Detección de Anomalías: Identificación de desviaciones de rendimiento durante el Black Friday

Resultados Experimentales

Variabilidad General de Rendimiento

Escala de Datos: Más de 1000 ejecuciones de benchmarks
Características de Distribución: La distribución de rendimiento muestra una clara tendencia central, casi simétrica dentro del rango intercuartílico, pero no es normal debido a un ligero sesgo hacia resultados de menor rendimiento
Coeficiente de Variación: 3.69%, ubicado en el extremo inferior del rango de variabilidad de benchmarks micro y a nivel de sistema reportado en la literatura
Rango Intercuartílico: El 50% de las mediciones se encuentran dentro del rango de -2.4% a +2.3% de la mediana

Patrones de Rendimiento Diarios

Análisis mediante agrupación por hora de ejecución revela:

Valle Meridiano: Los benchmarks ejecutados al mediodía muestran rendimiento ligeramente más bajo
Pico Nocturno: Se alcanza el rendimiento más alto durante las horas profundas de la noche y primeras horas de la mañana
Diferencia de Rendimiento: Diferencia de valor promedio de 2.15%
Significancia Estadística: El patrón es estadísticamente significativo

Patrones de Rendimiento Periódicos

Análisis mediante agrupación por día de la semana:

Ventaja de Fin de Semana: Los benchmarks ejecutados durante el fin de semana muestran rendimiento ligeramente superior al de los días de semana
Mínimo el Miércoles: El miércoles muestra el rendimiento más bajo
Variación Máxima: Diferencia de rendimiento promedio de 2.52% de sábado a miércoles
Significancia Estadística: El patrón es estadísticamente significativo

Patrones a Largo Plazo

Variación Semanal: La descomposición por semana de ejecución muestra pequeñas fluctuaciones de rendimiento
Análisis de Tendencias: No se observan patrones o tendencias claras a largo plazo
Limitaciones Estacionales: Debido a que el experimento abarca solo parte del año, no se pueden descartar posibles diferencias en otros períodos

Análisis del Impacto del Black Friday

Fenómenos Observados

Disminución de Rendimiento: Caída notable de rendimiento en la mañana del Black Friday
Recuperación Rápida: Recuperación del rendimiento en la mañana del sábado
Mejora Previa: Los tres días anteriores al Black Friday muestran aumento estadísticamente significativo en rendimiento (2.3% a 3.3%)
Rendimiento del Día: El rendimiento del Black Friday no muestra diferencia significativa con un viernes típico

Posibles Explicaciones

Cambio Estacional: Mejora general de rendimiento en noviembre de 2024 comparado con meses de verano, con una disminución temporal durante el Black Friday
Aprovisionamiento Proactivo de Recursos: Los proveedores de nube pueden haber aprovisionado proactivamente recursos computacionales adicionales para hacer frente al Black Friday, mejorando el rendimiento en los días previos

Trabajo Relacionado

Investigación sobre Variabilidad de Rendimiento en la Nube

Investigación Fundamental: Leitner y Cito (2016) sobre patrones de variabilidad y predictibilidad de rendimiento en IaaS público
Metodología Experimental: Abedi y Brecht (2017) sobre métodos para experimentos reproducibles en entornos en la nube de alta variabilidad
Principios Metodológicos: Papadopoulos et al. (2021) sobre principios metodológicos para evaluación reproducible de rendimiento en computación en la nube

Comparación de Contribuciones del Presente Artículo

Ventaja de Escala: La escala más grande de este estudio comparado con trabajos relacionados permite identificar patrones de rendimiento más sutiles
Nivel de Aplicación: Enfoque en análisis de rendimiento a nivel de aplicación, no limitado a nivel de sistema o micro
Intervalo Temporal: Proporciona caracterización más actualizada con intervalo temporal más largo

Conclusiones y Discusión

Conclusiones Principales

Confirmación de Variabilidad: El rendimiento de benchmarks a nivel de aplicación en entornos en la nube efectivamente muestra variabilidad notable
Magnitud Moderada: El grado de variabilidad es relativamente pequeño, relevante solo cuando las diferencias de rendimiento objetivo son menores al 5%
Existencia de Patrones: Se identifican influencias claras del tiempo, día de la semana y eventos globales
Impacto Práctico: El Black Friday introduce una fuente pequeña pero evidente de variabilidad de rendimiento en la nube

Limitaciones

Alcance Geográfico: Los experimentos principales se concentran en la región us-east-1
Tipo de Aplicación: Enfoque en aplicaciones de procesamiento de flujos, posiblemente no aplicable a otros tipos de aplicaciones
Limitación Temporal: Los experimentos abarcan solo parte del año, posiblemente omitiendo cambios estacionales
Potencia Estadística: Algunos efectos no alcanzan significancia estadística debido a superposición de intervalos de confianza

Direcciones Futuras

Extensión de Tipos de Aplicación: Investigación de variabilidad de rendimiento en otros tipos de aplicaciones nativas en la nube
Análisis Multirregional: Investigaciones similares en más regiones geográficas
Tendencias a Largo Plazo: Análisis de tendencias de rendimiento a largo plazo entre años
Impacto de Eventos: Investigación del impacto de otros eventos globales importantes en el rendimiento en la nube

Evaluación Profunda

Fortalezas

Metodología Rigurosa: Adopción de método de investigación empírica a gran escala y a largo plazo, recopilación de datos integral
Significancia Práctica: Los resultados de la investigación tienen valor de orientación directa para prácticas de benchmarking en entornos en la nube
Innovación Técnica: Primera cuantificación del impacto de eventos globales en benchmarks en la nube
Rigor Estadístico: Uso de métodos estadísticos apropiados, incluyendo análisis de bootstrap e intervalos de confianza
Reproducibilidad: Descripción detallada de configuración experimental y procesos de automatización

Deficiencias

Alcance de Aplicación Limitado: Enfoque solo en aplicaciones de procesamiento de flujos, capacidad de generalización limitada
Relaciones Causales: Falta de análisis causal profundo de los patrones de rendimiento observados
Consideración de Costos: No se discute el análisis de costo-beneficio de experimentos a gran escala
Recomendaciones Prácticas: Falta de recomendaciones operativas específicas para profesionales

Impacto

Contribución Académica: Proporciona datos empíricos importantes y referencia metodológica para investigación de rendimiento en la nube
Práctica de Ingeniería: Proporciona base científica para la selección del momento de benchmarking en entornos en la nube
Establecimiento de Estándares: Puede influir en la formulación de estándares y mejores prácticas de benchmarking de rendimiento en la nube

Escenarios Aplicables

Ingeniería de Rendimiento: Optimización de rendimiento en la nube y planificación de capacidad
Benchmarking: Selección del momento para evaluación de rendimiento de aplicaciones nativas en la nube
Gestión de Recursos: Formulación de estrategias de programación de recursos en la nube y equilibrio de carga
Investigación Académica: Investigación de análisis y modelado de rendimiento en computación en la nube

Referencias Bibliográficas

Este artículo cita 8 referencias importantes que abarcan campos clave como variabilidad de rendimiento en la nube, metodología experimental y herramientas de benchmarking:

Leitner & Cito (2016) - Investigación de patrones de variabilidad de rendimiento en IaaS público
Abedi & Brecht (2017) - Métodos de experimentos reproducibles en entornos en la nube
Papadopoulos et al. (2021) - Metodología de evaluación de rendimiento en computación en la nube
Henning & Hasselbring (2022) - Método de benchmarking de escalabilidad de aplicaciones nativas en la nube
Horwitz (2022) - Impacto del tráfico del Black Friday en estrategias de observabilidad
Vogel et al. (2023) - Mapeo sistemático de rendimiento de sistemas de procesamiento de flujos distribuidos
Henning et al. (2024) - Herramienta de benchmarking ShuffleBench
Henning et al. (2025) - Investigación de variabilidad de rendimiento en la nube de aplicaciones de procesamiento de flujos

Resumen: Este es un artículo de investigación empírica de alta calidad que proporciona información importante para benchmarking en entornos en la nube mediante experimentos a gran escala. La metodología de investigación es rigurosa y los resultados tienen valor de orientación práctica, constituyendo una contribución importante en los campos de ingeniería de rendimiento en la nube y benchmarking.