2025-11-16T01:07:11.788386

Should I Run My Cloud Benchmark on Black Friday?

Henning, Vogel, Perez-Wohlfeil et al.
Benchmarks and performance experiments are frequently conducted in cloud environments. However, their results are often treated with caution, as the presumed high variability of performance in the cloud raises concerns about reproducibility and credibility. In a recent study, we empirically quantified the impact of this variability on benchmarking results by repeatedly executing a stream processing application benchmark at different times of the day over several months. Our analysis confirms that performance variability is indeed observable at the application level, although it is less pronounced than often assumed. The larger scale of our study compared to related work allowed us to identify subtle daily and weekly performance patterns. We now extend this investigation by examining whether a major global event, such as Black Friday, affects the outcomes of performance benchmarks.
academic

¿Debería Ejecutar Mi Benchmark en la Nube el Black Friday?

Información Básica

  • ID del Artículo: 2510.12397
  • Título: Should I Run My Cloud Benchmark on Black Friday?
  • Autores: Sören Henning, Adriano Vogel, Esteban Perez-Wohlfeil, Otmar Ertl, Rick Rabiser
  • Instituciones: Dynatrace Research, Linz, Austria; LIT CPS Lab, Johannes Kepler University Linz, Austria
  • Clasificación: cs.SE (Ingeniería de Software), cs.DC (Computación Distribuida), cs.PF (Análisis de Rendimiento)
  • Fecha de Publicación: 14 de octubre de 2024 (preimpresión arXiv)
  • Enlace del Artículo: https://arxiv.org/abs/2510.12397

Resumen

Los benchmarks y experimentos de rendimiento en entornos en la nube son cada vez más comunes, pero sus resultados frecuentemente se cuestionan debido a la alta variabilidad del rendimiento en la nube, lo que afecta la reproducibilidad y confiabilidad. Este estudio cuantifica empíricamente el impacto de esta variabilidad en los resultados de benchmarks mediante la ejecución repetida de benchmarks de aplicaciones de procesamiento de flujos en diferentes momentos durante varios meses. El análisis confirma que existe variabilidad de rendimiento a nivel de aplicación, pero en menor medida de lo que típicamente se asume. Comparado con trabajos relacionados, la escala más grande de este estudio permite identificar patrones sutiles de rendimiento diarios y periódicos. El estudio se extiende además para examinar el impacto de eventos globales importantes, como el Black Friday, en los resultados de benchmarks de rendimiento.

Antecedentes y Motivación de la Investigación

Definición del Problema

Con la transformación continua de las organizaciones hacia la implementación en la nube, la realización de benchmarks y experimentos de rendimiento en entornos en la nube se ha convertido en una práctica común en investigación e ingeniería. Sin embargo, las mediciones de rendimiento en entornos en la nube enfrentan los siguientes desafíos:

  1. Compartición de Recursos Multiinquilino: Las cargas de trabajo en la nube comparten la infraestructura subyacente con otros inquilinos
  2. Abstracción de Hardware: El alto nivel de abstracción de hardware introduce variabilidad
  3. Problemas de Reproducibilidad: Las mediciones de rendimiento pueden fluctuar, afectando comparaciones significativas entre investigaciones

Importancia de la Investigación

  • La confiabilidad de los benchmarks en la nube impacta directamente la precisión de las evaluaciones de rendimiento
  • Comprender los patrones de variabilidad de rendimiento tiene implicaciones prácticas para optimizar la configuración de recursos en la nube
  • Proporciona evidencia empírica para las mejores prácticas de benchmarking en entornos en la nube

Limitaciones de Métodos Existentes

  • Falta de investigaciones empíricas a gran escala y a largo plazo
  • Análisis cuantitativo insuficiente de la variabilidad de rendimiento a nivel de aplicación
  • Consideración inadecuada del impacto de eventos globales en el rendimiento en la nube

Contribuciones Principales

  1. Estudio Longitudinal a Gran Escala: Recopilación de un conjunto de datos de más de 1000 ejecuciones de benchmarks mediante experimentos repetidos durante varios meses
  2. Identificación de Patrones de Rendimiento: Descubrimiento de patrones sutiles pero estadísticamente significativos de rendimiento diarios y periódicos en entornos en la nube
  3. Análisis del Impacto de Eventos Globales: Primera cuantificación del impacto de eventos importantes como el Black Friday en el rendimiento de benchmarks en la nube
  4. Cuantificación de Variabilidad a Nivel de Aplicación: Proporciona mediciones precisas de la variabilidad de rendimiento de aplicaciones de procesamiento de flujos distribuidos en entornos en la nube

Explicación Detallada de la Metodología

Diseño Experimental

Objeto de Prueba

  • Tipo de Aplicación: Aplicaciones de procesamiento de flujos distribuidos (representativas de sistemas distribuidos intensivos en datos y críticos para el rendimiento)
  • Herramienta de Benchmark: Benchmark de procesamiento de flujos nativo en la nube de código abierto ShuffleBench e implementación de Kafka Streams
  • Métrica de Rendimiento: Rendimiento (throughput), utilizando el método de medición instantánea de ShuffleBench

Entorno de Ejecución

  • Plataforma en la Nube: Amazon Web Services (AWS)
  • Servicio: Elastic Kubernetes Service (EKS)
  • Configuración del Clúster: 10 nodos, utilizando instancias m6i de diferentes tamaños
  • Región Geográfica: us-east-1 (principal), eu-central-1 (validación)

Ejecución Automatizada de Benchmarks

Implementación de automatización mediante tareas programadas en AWS Elastic Container Service (ECS):

  1. Aprovisionamiento del Clúster: Creación de nuevo clúster EKS
  2. Instalación de Infraestructura: Despliegue de Apache Kafka, herramientas de monitoreo y framework de benchmarking Theodolite
  3. Ejecución del Benchmark: Inicio de la aplicación de procesamiento de flujos y generador de carga a través de Theodolite, ejecución de 15 minutos
  4. Pruebas Repetidas: Cada ejecución se repite 3 veces
  5. Recopilación de Datos: Almacenamiento de resultados de benchmarks, descarga de infraestructura, desactivación del clúster

Diseño del Intervalo Temporal

  • Período Principal de Experimentos: Mayo a julio de 2024, una semana en septiembre de 2024
  • Frecuencia de Ejecución: Una ejecución cada 6 horas (cobertura de ciclo diario completo)
  • Período de Alta Frecuencia: Una ejecución cada 3 horas durante 3 semanas (captura de patrones diarios más granulares)
  • Experimentos de Black Friday: Experimentos adicionales una semana antes y después del Black Friday de 2024

Configuración Experimental

Método de Medición de Rendimiento

  • Período de Calentamiento: Descarte de datos de medición de los primeros 3 minutos
  • Ventana de Medición: Cálculo del rendimiento promedio en el tiempo restante
  • Salida: Cada ejecución de benchmark produce un valor de rendimiento promedio

Indicadores de Evaluación

  • Indicador Principal: Rendimiento (registros/segundo)
  • Medida de Variabilidad: Coeficiente de Variación (CV)
  • Análisis Estadístico: Intervalos de confianza (obtenidos mediante bootstrap), pruebas de significancia estadística

Procesamiento de Datos

  • Agrupación Temporal: Agrupación y análisis por hora, día de la semana, semana
  • Patrón de Referencia: Establecimiento de patrones de línea base diarios y periódicos
  • Detección de Anomalías: Identificación de desviaciones de rendimiento durante el Black Friday

Resultados Experimentales

Variabilidad General de Rendimiento

  • Escala de Datos: Más de 1000 ejecuciones de benchmarks
  • Características de Distribución: La distribución de rendimiento muestra una clara tendencia central, casi simétrica dentro del rango intercuartílico, pero no es normal debido a un ligero sesgo hacia resultados de menor rendimiento
  • Coeficiente de Variación: 3.69%, ubicado en el extremo inferior del rango de variabilidad de benchmarks micro y a nivel de sistema reportado en la literatura
  • Rango Intercuartílico: El 50% de las mediciones se encuentran dentro del rango de -2.4% a +2.3% de la mediana

Patrones de Rendimiento Diarios

Análisis mediante agrupación por hora de ejecución revela:

  • Valle Meridiano: Los benchmarks ejecutados al mediodía muestran rendimiento ligeramente más bajo
  • Pico Nocturno: Se alcanza el rendimiento más alto durante las horas profundas de la noche y primeras horas de la mañana
  • Diferencia de Rendimiento: Diferencia de valor promedio de 2.15%
  • Significancia Estadística: El patrón es estadísticamente significativo

Patrones de Rendimiento Periódicos

Análisis mediante agrupación por día de la semana:

  • Ventaja de Fin de Semana: Los benchmarks ejecutados durante el fin de semana muestran rendimiento ligeramente superior al de los días de semana
  • Mínimo el Miércoles: El miércoles muestra el rendimiento más bajo
  • Variación Máxima: Diferencia de rendimiento promedio de 2.52% de sábado a miércoles
  • Significancia Estadística: El patrón es estadísticamente significativo

Patrones a Largo Plazo

  • Variación Semanal: La descomposición por semana de ejecución muestra pequeñas fluctuaciones de rendimiento
  • Análisis de Tendencias: No se observan patrones o tendencias claras a largo plazo
  • Limitaciones Estacionales: Debido a que el experimento abarca solo parte del año, no se pueden descartar posibles diferencias en otros períodos

Análisis del Impacto del Black Friday

Fenómenos Observados

  1. Disminución de Rendimiento: Caída notable de rendimiento en la mañana del Black Friday
  2. Recuperación Rápida: Recuperación del rendimiento en la mañana del sábado
  3. Mejora Previa: Los tres días anteriores al Black Friday muestran aumento estadísticamente significativo en rendimiento (2.3% a 3.3%)
  4. Rendimiento del Día: El rendimiento del Black Friday no muestra diferencia significativa con un viernes típico

Posibles Explicaciones

  1. Cambio Estacional: Mejora general de rendimiento en noviembre de 2024 comparado con meses de verano, con una disminución temporal durante el Black Friday
  2. Aprovisionamiento Proactivo de Recursos: Los proveedores de nube pueden haber aprovisionado proactivamente recursos computacionales adicionales para hacer frente al Black Friday, mejorando el rendimiento en los días previos

Trabajo Relacionado

Investigación sobre Variabilidad de Rendimiento en la Nube

  • Investigación Fundamental: Leitner y Cito (2016) sobre patrones de variabilidad y predictibilidad de rendimiento en IaaS público
  • Metodología Experimental: Abedi y Brecht (2017) sobre métodos para experimentos reproducibles en entornos en la nube de alta variabilidad
  • Principios Metodológicos: Papadopoulos et al. (2021) sobre principios metodológicos para evaluación reproducible de rendimiento en computación en la nube

Comparación de Contribuciones del Presente Artículo

  • Ventaja de Escala: La escala más grande de este estudio comparado con trabajos relacionados permite identificar patrones de rendimiento más sutiles
  • Nivel de Aplicación: Enfoque en análisis de rendimiento a nivel de aplicación, no limitado a nivel de sistema o micro
  • Intervalo Temporal: Proporciona caracterización más actualizada con intervalo temporal más largo

Conclusiones y Discusión

Conclusiones Principales

  1. Confirmación de Variabilidad: El rendimiento de benchmarks a nivel de aplicación en entornos en la nube efectivamente muestra variabilidad notable
  2. Magnitud Moderada: El grado de variabilidad es relativamente pequeño, relevante solo cuando las diferencias de rendimiento objetivo son menores al 5%
  3. Existencia de Patrones: Se identifican influencias claras del tiempo, día de la semana y eventos globales
  4. Impacto Práctico: El Black Friday introduce una fuente pequeña pero evidente de variabilidad de rendimiento en la nube

Limitaciones

  1. Alcance Geográfico: Los experimentos principales se concentran en la región us-east-1
  2. Tipo de Aplicación: Enfoque en aplicaciones de procesamiento de flujos, posiblemente no aplicable a otros tipos de aplicaciones
  3. Limitación Temporal: Los experimentos abarcan solo parte del año, posiblemente omitiendo cambios estacionales
  4. Potencia Estadística: Algunos efectos no alcanzan significancia estadística debido a superposición de intervalos de confianza

Direcciones Futuras

  1. Extensión de Tipos de Aplicación: Investigación de variabilidad de rendimiento en otros tipos de aplicaciones nativas en la nube
  2. Análisis Multirregional: Investigaciones similares en más regiones geográficas
  3. Tendencias a Largo Plazo: Análisis de tendencias de rendimiento a largo plazo entre años
  4. Impacto de Eventos: Investigación del impacto de otros eventos globales importantes en el rendimiento en la nube

Evaluación Profunda

Fortalezas

  1. Metodología Rigurosa: Adopción de método de investigación empírica a gran escala y a largo plazo, recopilación de datos integral
  2. Significancia Práctica: Los resultados de la investigación tienen valor de orientación directa para prácticas de benchmarking en entornos en la nube
  3. Innovación Técnica: Primera cuantificación del impacto de eventos globales en benchmarks en la nube
  4. Rigor Estadístico: Uso de métodos estadísticos apropiados, incluyendo análisis de bootstrap e intervalos de confianza
  5. Reproducibilidad: Descripción detallada de configuración experimental y procesos de automatización

Deficiencias

  1. Alcance de Aplicación Limitado: Enfoque solo en aplicaciones de procesamiento de flujos, capacidad de generalización limitada
  2. Relaciones Causales: Falta de análisis causal profundo de los patrones de rendimiento observados
  3. Consideración de Costos: No se discute el análisis de costo-beneficio de experimentos a gran escala
  4. Recomendaciones Prácticas: Falta de recomendaciones operativas específicas para profesionales

Impacto

  1. Contribución Académica: Proporciona datos empíricos importantes y referencia metodológica para investigación de rendimiento en la nube
  2. Práctica de Ingeniería: Proporciona base científica para la selección del momento de benchmarking en entornos en la nube
  3. Establecimiento de Estándares: Puede influir en la formulación de estándares y mejores prácticas de benchmarking de rendimiento en la nube

Escenarios Aplicables

  1. Ingeniería de Rendimiento: Optimización de rendimiento en la nube y planificación de capacidad
  2. Benchmarking: Selección del momento para evaluación de rendimiento de aplicaciones nativas en la nube
  3. Gestión de Recursos: Formulación de estrategias de programación de recursos en la nube y equilibrio de carga
  4. Investigación Académica: Investigación de análisis y modelado de rendimiento en computación en la nube

Referencias Bibliográficas

Este artículo cita 8 referencias importantes que abarcan campos clave como variabilidad de rendimiento en la nube, metodología experimental y herramientas de benchmarking:

  1. Leitner & Cito (2016) - Investigación de patrones de variabilidad de rendimiento en IaaS público
  2. Abedi & Brecht (2017) - Métodos de experimentos reproducibles en entornos en la nube
  3. Papadopoulos et al. (2021) - Metodología de evaluación de rendimiento en computación en la nube
  4. Henning & Hasselbring (2022) - Método de benchmarking de escalabilidad de aplicaciones nativas en la nube
  5. Horwitz (2022) - Impacto del tráfico del Black Friday en estrategias de observabilidad
  6. Vogel et al. (2023) - Mapeo sistemático de rendimiento de sistemas de procesamiento de flujos distribuidos
  7. Henning et al. (2024) - Herramienta de benchmarking ShuffleBench
  8. Henning et al. (2025) - Investigación de variabilidad de rendimiento en la nube de aplicaciones de procesamiento de flujos

Resumen: Este es un artículo de investigación empírica de alta calidad que proporciona información importante para benchmarking en entornos en la nube mediante experimentos a gran escala. La metodología de investigación es rigurosa y los resultados tienen valor de orientación práctica, constituyendo una contribución importante en los campos de ingeniería de rendimiento en la nube y benchmarking.