2025-11-16T01:07:11.788386

Should I Run My Cloud Benchmark on Black Friday?

Henning, Vogel, Perez-Wohlfeil et al.
Benchmarks and performance experiments are frequently conducted in cloud environments. However, their results are often treated with caution, as the presumed high variability of performance in the cloud raises concerns about reproducibility and credibility. In a recent study, we empirically quantified the impact of this variability on benchmarking results by repeatedly executing a stream processing application benchmark at different times of the day over several months. Our analysis confirms that performance variability is indeed observable at the application level, although it is less pronounced than often assumed. The larger scale of our study compared to related work allowed us to identify subtle daily and weekly performance patterns. We now extend this investigation by examining whether a major global event, such as Black Friday, affects the outcomes of performance benchmarks.
academic

Devrais-je exécuter mon benchmark cloud le jour du Black Friday ?

Informations de base

  • ID de l'article : 2510.12397
  • Titre : Should I Run My Cloud Benchmark on Black Friday?
  • Auteurs : Sören Henning, Adriano Vogel, Esteban Perez-Wohlfeil, Otmar Ertl, Rick Rabiser
  • Institutions : Dynatrace Research, Linz, Autriche ; LIT CPS Lab, Johannes Kepler University Linz, Autriche
  • Classification : cs.SE (Génie logiciel), cs.DC (Informatique distribuée), cs.PF (Analyse de performance)
  • Date de publication : 14 octobre 2024 (prépublication arXiv)
  • Lien de l'article : https://arxiv.org/abs/2510.12397

Résumé

Les tests de performance et les expériences de performance dans les environnements cloud deviennent de plus en plus courants, mais leurs résultats sont souvent remis en question en raison de la grande variabilité des performances du cloud, ce qui affecte la reproductibilité et la crédibilité. Cette étude quantifie empiriquement l'impact de cette variabilité sur les résultats des tests de performance en exécutant à plusieurs reprises des tests de performance d'applications de traitement de flux à différents moments sur plusieurs mois. L'analyse confirme qu'il existe effectivement une variabilité de performance au niveau applicatif, mais dans une mesure inférieure à celle généralement supposée. Comparée aux travaux connexes, l'échelle plus grande de cette étude lui permet d'identifier des modèles de performance quotidiens et périodiques subtils. L'étude s'étend davantage pour examiner l'impact d'événements mondiaux majeurs, tels que le Black Friday, sur les résultats des tests de performance de référence.

Contexte et motivation de la recherche

Définition du problème

Avec la transformation continue des organisations vers le déploiement cloud, la réalisation de tests de performance et d'expériences de performance dans les environnements cloud est devenue une pratique courante dans la recherche et l'ingénierie. Cependant, les mesures de performance dans les environnements cloud font face aux défis suivants :

  1. Partage des ressources multi-locataires : Les charges de travail cloud partagent l'infrastructure sous-jacente avec d'autres locataires
  2. Abstraction matérielle : Un haut degré d'abstraction matérielle introduit de la variabilité
  3. Problèmes de reproductibilité : Les mesures de performance peuvent fluctuer, affectant les comparaisons significatives entre les recherches

Importance de la recherche

  • La crédibilité des tests de performance cloud affecte directement l'exactitude de l'évaluation des performances
  • Comprendre les modèles de variabilité de performance a une importance pratique pour optimiser la configuration des ressources cloud
  • Fournir des preuves empiriques pour les meilleures pratiques des tests de performance dans les environnements cloud

Limitations des approches existantes

  • Manque d'études empiriques à grande échelle et à long terme
  • Analyse quantitative insuffisante de la variabilité de performance au niveau applicatif
  • Considération insuffisante de l'impact des événements mondiaux sur les performances du cloud

Contributions principales

  1. Étude longitudinale à grande échelle : Collecte d'un ensemble de données de plus de 1 000 exécutions de tests de performance sur plusieurs mois
  2. Identification des modèles de performance : Découverte de modèles de performance quotidiens et périodiques subtils mais statistiquement significatifs dans les environnements cloud
  3. Analyse de l'impact des événements mondiaux : Première quantification analytique de l'impact d'événements majeurs tels que le Black Friday sur les performances des tests de performance cloud
  4. Quantification de la variabilité au niveau applicatif : Fourniture de mesures précises de la variabilité de performance des applications de traitement de flux distribuées dans les environnements cloud

Détails méthodologiques

Conception expérimentale

Objets de test

  • Type d'application : Applications de traitement de flux distribuées (représentant des systèmes distribués intensifs en données et critiques pour les performances)
  • Outil de benchmark : Benchmark de traitement de flux cloud natif open source ShuffleBench et son implémentation Kafka Streams
  • Métriques de performance : Débit (throughput), utilisant la méthode de mesure instantanée de ShuffleBench

Environnement d'exécution

  • Plateforme cloud : Amazon Web Services (AWS)
  • Service : Elastic Kubernetes Service (EKS)
  • Configuration du cluster : 10 nœuds, utilisant des instances m6i de différentes tailles
  • Région géographique : us-east-1 (principal), eu-central-1 (validation)

Exécution automatisée des benchmarks

Automatisation réalisée via les tâches planifiées dans AWS Elastic Container Service (ECS) :

  1. Approvisionnement du cluster : Création d'un nouveau cluster EKS
  2. Installation de l'infrastructure : Déploiement d'Apache Kafka, des outils de surveillance et du framework de benchmark Theodolite
  3. Exécution du benchmark : Lancement de l'application de traitement de flux et du générateur de charge via Theodolite, exécution de 15 minutes
  4. Tests répétés : Chaque exécution répétée 3 fois
  5. Collecte de données : Stockage des résultats des tests de performance, déchargement de l'infrastructure, arrêt du cluster

Conception de l'intervalle de temps

  • Période d'expérimentation principale : Mai à juillet 2024, une semaine en septembre 2024
  • Fréquence d'exécution : Une exécution toutes les 6 heures (couvrant un cycle journalier complet)
  • Période haute fréquence : Une exécution toutes les 3 heures sur 3 semaines (capture des modèles quotidiens à granularité plus fine)
  • Expérimentation du Black Friday : Expériences supplémentaires une semaine avant et après le Black Friday 2024

Configuration expérimentale

Méthode de mesure de performance

  • Période de préchauffage : Rejet des données de mesure des 3 premières minutes
  • Fenêtre de mesure : Calcul du débit moyen pendant le temps restant
  • Résultat : Chaque exécution de benchmark produit une valeur de débit moyen

Indicateurs d'évaluation

  • Indicateur principal : Débit (enregistrements/seconde)
  • Mesure de variabilité : Coefficient de variation (CV)
  • Analyse statistique : Intervalles de confiance (obtenus par bootstrap), tests de signification statistique

Traitement des données

  • Regroupement temporel : Analyse par heure, jour de la semaine, semaine
  • Modèles de référence : Établissement de modèles de base quotidiens et périodiques
  • Détection d'anomalies : Identification des écarts de performance pendant le Black Friday

Résultats expérimentaux

Variabilité globale de performance

  • Échelle des données : Plus de 1 000 exécutions de tests de performance
  • Caractéristiques de distribution : La distribution du débit montre une tendance centrale évidente, presque symétrique dans l'intervalle interquartile, mais non normale en raison d'une légère inclinaison vers les résultats de débit inférieur
  • Coefficient de variation : 3,69 %, situé à l'extrémité inférieure de la plage de variabilité des benchmarks micro et au niveau du système rapportée dans la littérature
  • Intervalle interquartile : 50 % des mesures se situent dans une plage de -2,4 % à +2,3 % autour de la médiane

Modèles de performance quotidiens

L'analyse par regroupement des heures d'exécution révèle :

  • Creux de midi : Les tests de performance exécutés à midi affichent une performance légèrement inférieure
  • Pics nocturnes : Les performances les plus élevées sont atteintes tard la nuit et tôt le matin
  • Différence de performance : Différence de valeur moyenne de 2,15 %
  • Signification statistique : Le modèle est statistiquement significatif

Modèles de performance périodiques

Résultats de l'analyse par regroupement du jour de la semaine :

  • Avantage du week-end : Les tests de performance exécutés le week-end affichent une performance légèrement supérieure à celle des jours de semaine
  • Mercredi le plus bas : Le mercredi affiche la performance la plus basse
  • Variation maximale : Différence de débit moyen de 2,52 % du samedi au mercredi
  • Signification statistique : Le modèle est statistiquement significatif

Modèles à long terme

  • Variation hebdomadaire : La décomposition par semaine d'exécution montre de petites fluctuations de performance
  • Analyse de tendance : Aucun modèle ou tendance à long terme évident observé
  • Limitations saisonnières : En raison de l'expérimentation sur une partie seulement de l'année, les différences possibles à d'autres périodes ne peuvent pas être exclues

Analyse de l'impact du Black Friday

Phénomènes observés

  1. Baisse de performance : Baisse de performance notable le matin du Black Friday
  2. Récupération rapide : La performance se rétablit le matin du samedi
  3. Amélioration préalable : Les trois jours précédant le Black Friday affichent une augmentation statistiquement significative du débit (2,3 % à 3,3 %)
  4. Performance du jour : Le jour du Black Friday ne montre pas de différence significative par rapport à la performance d'un vendredi typique

Explications possibles

  1. Variation saisonnière : Amélioration globale de la performance en novembre 2024 par rapport aux mois d'été, avec une baisse temporaire le jour du Black Friday
  2. Approvisionnement proactif en ressources : Les fournisseurs de cloud pourraient approvisionner proactivement des ressources informatiques supplémentaires en réponse au Black Friday, améliorant les performances des jours précédents

Travaux connexes

Recherche sur la variabilité de performance du cloud

  • Recherche fondamentale : Leitner et Cito (2016) sur les modèles de variabilité et de prévisibilité des performances du cloud IaaS public
  • Méthodologie expérimentale : Abedi et Brecht (2017) sur les méthodes d'expérimentation reproductible dans les environnements cloud à haute variabilité
  • Principes méthodologiques : Papadopoulos et al. (2021) proposant des principes méthodologiques pour l'évaluation reproductible des performances en informatique cloud

Comparaison des contributions de cet article

  • Avantage d'échelle : L'échelle plus grande de cette étude par rapport aux travaux connexes lui permet d'identifier des modèles de performance plus subtils
  • Niveau applicatif : Accent mis sur l'analyse de performance au niveau applicatif, plutôt que limité aux niveaux système ou micro
  • Intervalle de temps : Fournit une caractérisation mise à jour sur un intervalle de temps plus long

Conclusions et discussion

Conclusions principales

  1. Confirmation de la variabilité : Les performances des benchmarks au niveau applicatif dans les environnements cloud présentent effectivement une variabilité notable
  2. Ampleur modérée : L'ampleur de la variabilité est relativement faible, ne devenant pertinente que lorsque les différences de performance cibles sont inférieures à 5 %
  3. Existence de modèles : Identification d'impacts clairs du temps, du jour de la semaine et des événements mondiaux
  4. Impact pratique : Le Black Friday introduit une source petite mais notable de variabilité de performance du cloud

Limitations

  1. Portée géographique : L'expérimentation principale est concentrée dans la région us-east-1
  2. Type d'application : Accent mis sur les applications de traitement de flux, peut ne pas s'appliquer à d'autres types d'applications
  3. Limite de temps : L'expérimentation ne couvre qu'une partie de l'année, pouvant omettre les variations saisonnières
  4. Puissance statistique : Certains effets n'ont pas atteint la signification statistique en raison du chevauchement des intervalles de confiance

Directions futures

  1. Extension des types d'applications : Étude de la variabilité de performance d'autres types d'applications cloud natives
  2. Analyse multi-régions : Réalisation d'études similaires dans davantage de régions géographiques
  3. Tendances à long terme : Réalisation d'analyses de tendances de performance à long terme sur plusieurs années
  4. Impact d'événements : Étude de l'impact d'autres événements mondiaux majeurs sur les performances du cloud

Évaluation approfondie

Points forts

  1. Méthodologie rigoureuse : Adoption d'une méthode de recherche empirique à grande échelle et à long terme, avec collecte de données complète
  2. Pertinence pratique : Les résultats de la recherche ont une valeur directe pour guider les pratiques de tests de performance dans les environnements cloud
  3. Innovation technique : Première quantification analytique de l'impact des événements mondiaux sur les tests de performance cloud
  4. Rigueur statistique : Utilisation de méthodes statistiques appropriées, incluant l'analyse par bootstrap et les intervalles de confiance
  5. Reproductibilité : Description détaillée de la configuration expérimentale et des processus d'automatisation

Insuffisances

  1. Portée d'application limitée : Concentration uniquement sur les applications de traitement de flux, capacité de généralisation limitée
  2. Relations causales : Manque d'analyse causale approfondie des modèles de performance observés
  3. Considérations de coûts : Absence de discussion sur l'analyse coûts-avantages des expériences à grande échelle
  4. Recommandations pratiques : Manque de recommandations opérationnelles spécifiques pour les praticiens

Impact

  1. Contribution académique : Fourniture de données empiriques importantes et de références méthodologiques pour la recherche en performance du cloud
  2. Pratique d'ingénierie : Fourniture de preuves scientifiques pour le choix du moment des tests de performance dans les environnements cloud
  3. Élaboration de normes : Influence potentielle sur l'élaboration de normes et de meilleures pratiques pour les tests de performance cloud

Scénarios d'application

  1. Ingénierie de performance : Optimisation des performances et planification de la capacité dans les environnements cloud
  2. Tests de performance : Choix du moment pour l'évaluation des performances des applications cloud natives
  3. Gestion des ressources : Élaboration de stratégies de planification et d'équilibrage de charge des ressources cloud
  4. Recherche académique : Recherche et modélisation d'analyse de performance en informatique cloud

Références bibliographiques

Cet article cite 8 références importantes couvrant les domaines clés de la variabilité de performance du cloud, de la méthodologie expérimentale et des outils de benchmark :

  1. Leitner & Cito (2016) - Étude des modèles de variabilité de performance du cloud IaaS public
  2. Abedi & Brecht (2017) - Méthodes d'expérimentation reproductible dans les environnements cloud
  3. Papadopoulos et al. (2021) - Méthodologie d'évaluation des performances en informatique cloud
  4. Henning & Hasselbring (2022) - Méthode de test de performance d'extensibilité des applications cloud natives
  5. Horwitz (2022) - Impact du trafic du Black Friday sur les stratégies d'observabilité
  6. Vogel et al. (2023) - Cartographie systématique de la performance des systèmes de traitement de flux distribués
  7. Henning et al. (2024) - Outil de benchmark ShuffleBench
  8. Henning et al. (2025) - Étude de la variabilité de performance du cloud des applications de traitement de flux

Résumé : Il s'agit d'un article de recherche empirique de haute qualité qui fournit des perspectives importantes pour les tests de performance dans les environnements cloud par le biais d'expériences à grande échelle. La méthodologie de recherche est rigoureuse et les résultats ont une valeur directe pour guider la pratique, ce qui constitue une contribution importante au domaine de l'ingénierie de performance du cloud et des tests de performance.