2025-11-16T01:07:11.788386

Should I Run My Cloud Benchmark on Black Friday?

Henning, Vogel, Perez-Wohlfeil et al.

Benchmarks and performance experiments are frequently conducted in cloud environments. However, their results are often treated with caution, as the presumed high variability of performance in the cloud raises concerns about reproducibility and credibility. In a recent study, we empirically quantified the impact of this variability on benchmarking results by repeatedly executing a stream processing application benchmark at different times of the day over several months. Our analysis confirms that performance variability is indeed observable at the application level, although it is less pronounced than often assumed. The larger scale of our study compared to related work allowed us to identify subtle daily and weekly performance patterns. We now extend this investigation by examining whether a major global event, such as Black Friday, affects the outcomes of performance benchmarks.

academic

Devrais-je exécuter mon benchmark cloud le jour du Black Friday ?

Informations de base

ID de l'article : 2510.12397
Titre : Should I Run My Cloud Benchmark on Black Friday?
Auteurs : Sören Henning, Adriano Vogel, Esteban Perez-Wohlfeil, Otmar Ertl, Rick Rabiser
Institutions : Dynatrace Research, Linz, Autriche ; LIT CPS Lab, Johannes Kepler University Linz, Autriche
Classification : cs.SE (Génie logiciel), cs.DC (Informatique distribuée), cs.PF (Analyse de performance)
Date de publication : 14 octobre 2024 (prépublication arXiv)
Lien de l'article : https://arxiv.org/abs/2510.12397

Résumé

Les tests de performance et les expériences de performance dans les environnements cloud deviennent de plus en plus courants, mais leurs résultats sont souvent remis en question en raison de la grande variabilité des performances du cloud, ce qui affecte la reproductibilité et la crédibilité. Cette étude quantifie empiriquement l'impact de cette variabilité sur les résultats des tests de performance en exécutant à plusieurs reprises des tests de performance d'applications de traitement de flux à différents moments sur plusieurs mois. L'analyse confirme qu'il existe effectivement une variabilité de performance au niveau applicatif, mais dans une mesure inférieure à celle généralement supposée. Comparée aux travaux connexes, l'échelle plus grande de cette étude lui permet d'identifier des modèles de performance quotidiens et périodiques subtils. L'étude s'étend davantage pour examiner l'impact d'événements mondiaux majeurs, tels que le Black Friday, sur les résultats des tests de performance de référence.

Contexte et motivation de la recherche

Définition du problème

Avec la transformation continue des organisations vers le déploiement cloud, la réalisation de tests de performance et d'expériences de performance dans les environnements cloud est devenue une pratique courante dans la recherche et l'ingénierie. Cependant, les mesures de performance dans les environnements cloud font face aux défis suivants :

Partage des ressources multi-locataires : Les charges de travail cloud partagent l'infrastructure sous-jacente avec d'autres locataires
Abstraction matérielle : Un haut degré d'abstraction matérielle introduit de la variabilité
Problèmes de reproductibilité : Les mesures de performance peuvent fluctuer, affectant les comparaisons significatives entre les recherches

Importance de la recherche

La crédibilité des tests de performance cloud affecte directement l'exactitude de l'évaluation des performances
Comprendre les modèles de variabilité de performance a une importance pratique pour optimiser la configuration des ressources cloud
Fournir des preuves empiriques pour les meilleures pratiques des tests de performance dans les environnements cloud

Limitations des approches existantes

Manque d'études empiriques à grande échelle et à long terme
Analyse quantitative insuffisante de la variabilité de performance au niveau applicatif
Considération insuffisante de l'impact des événements mondiaux sur les performances du cloud

Contributions principales

Étude longitudinale à grande échelle : Collecte d'un ensemble de données de plus de 1 000 exécutions de tests de performance sur plusieurs mois
Identification des modèles de performance : Découverte de modèles de performance quotidiens et périodiques subtils mais statistiquement significatifs dans les environnements cloud
Analyse de l'impact des événements mondiaux : Première quantification analytique de l'impact d'événements majeurs tels que le Black Friday sur les performances des tests de performance cloud
Quantification de la variabilité au niveau applicatif : Fourniture de mesures précises de la variabilité de performance des applications de traitement de flux distribuées dans les environnements cloud

Détails méthodologiques

Conception expérimentale

Objets de test

Type d'application : Applications de traitement de flux distribuées (représentant des systèmes distribués intensifs en données et critiques pour les performances)
Outil de benchmark : Benchmark de traitement de flux cloud natif open source ShuffleBench et son implémentation Kafka Streams
Métriques de performance : Débit (throughput), utilisant la méthode de mesure instantanée de ShuffleBench

Environnement d'exécution

Plateforme cloud : Amazon Web Services (AWS)
Service : Elastic Kubernetes Service (EKS)
Configuration du cluster : 10 nœuds, utilisant des instances m6i de différentes tailles
Région géographique : us-east-1 (principal), eu-central-1 (validation)

Exécution automatisée des benchmarks

Automatisation réalisée via les tâches planifiées dans AWS Elastic Container Service (ECS) :

Approvisionnement du cluster : Création d'un nouveau cluster EKS
Installation de l'infrastructure : Déploiement d'Apache Kafka, des outils de surveillance et du framework de benchmark Theodolite
Exécution du benchmark : Lancement de l'application de traitement de flux et du générateur de charge via Theodolite, exécution de 15 minutes
Tests répétés : Chaque exécution répétée 3 fois
Collecte de données : Stockage des résultats des tests de performance, déchargement de l'infrastructure, arrêt du cluster

Conception de l'intervalle de temps

Période d'expérimentation principale : Mai à juillet 2024, une semaine en septembre 2024
Fréquence d'exécution : Une exécution toutes les 6 heures (couvrant un cycle journalier complet)
Période haute fréquence : Une exécution toutes les 3 heures sur 3 semaines (capture des modèles quotidiens à granularité plus fine)
Expérimentation du Black Friday : Expériences supplémentaires une semaine avant et après le Black Friday 2024

Configuration expérimentale

Méthode de mesure de performance

Période de préchauffage : Rejet des données de mesure des 3 premières minutes
Fenêtre de mesure : Calcul du débit moyen pendant le temps restant
Résultat : Chaque exécution de benchmark produit une valeur de débit moyen

Indicateurs d'évaluation

Indicateur principal : Débit (enregistrements/seconde)
Mesure de variabilité : Coefficient de variation (CV)
Analyse statistique : Intervalles de confiance (obtenus par bootstrap), tests de signification statistique

Traitement des données

Regroupement temporel : Analyse par heure, jour de la semaine, semaine
Modèles de référence : Établissement de modèles de base quotidiens et périodiques
Détection d'anomalies : Identification des écarts de performance pendant le Black Friday

Résultats expérimentaux

Variabilité globale de performance

Échelle des données : Plus de 1 000 exécutions de tests de performance
Caractéristiques de distribution : La distribution du débit montre une tendance centrale évidente, presque symétrique dans l'intervalle interquartile, mais non normale en raison d'une légère inclinaison vers les résultats de débit inférieur
Coefficient de variation : 3,69 %, situé à l'extrémité inférieure de la plage de variabilité des benchmarks micro et au niveau du système rapportée dans la littérature
Intervalle interquartile : 50 % des mesures se situent dans une plage de -2,4 % à +2,3 % autour de la médiane

Modèles de performance quotidiens

L'analyse par regroupement des heures d'exécution révèle :

Creux de midi : Les tests de performance exécutés à midi affichent une performance légèrement inférieure
Pics nocturnes : Les performances les plus élevées sont atteintes tard la nuit et tôt le matin
Différence de performance : Différence de valeur moyenne de 2,15 %
Signification statistique : Le modèle est statistiquement significatif

Modèles de performance périodiques

Résultats de l'analyse par regroupement du jour de la semaine :

Avantage du week-end : Les tests de performance exécutés le week-end affichent une performance légèrement supérieure à celle des jours de semaine
Mercredi le plus bas : Le mercredi affiche la performance la plus basse
Variation maximale : Différence de débit moyen de 2,52 % du samedi au mercredi
Signification statistique : Le modèle est statistiquement significatif

Modèles à long terme

Variation hebdomadaire : La décomposition par semaine d'exécution montre de petites fluctuations de performance
Analyse de tendance : Aucun modèle ou tendance à long terme évident observé
Limitations saisonnières : En raison de l'expérimentation sur une partie seulement de l'année, les différences possibles à d'autres périodes ne peuvent pas être exclues

Analyse de l'impact du Black Friday

Phénomènes observés

Baisse de performance : Baisse de performance notable le matin du Black Friday
Récupération rapide : La performance se rétablit le matin du samedi
Amélioration préalable : Les trois jours précédant le Black Friday affichent une augmentation statistiquement significative du débit (2,3 % à 3,3 %)
Performance du jour : Le jour du Black Friday ne montre pas de différence significative par rapport à la performance d'un vendredi typique

Explications possibles

Variation saisonnière : Amélioration globale de la performance en novembre 2024 par rapport aux mois d'été, avec une baisse temporaire le jour du Black Friday
Approvisionnement proactif en ressources : Les fournisseurs de cloud pourraient approvisionner proactivement des ressources informatiques supplémentaires en réponse au Black Friday, améliorant les performances des jours précédents

Travaux connexes

Recherche sur la variabilité de performance du cloud

Recherche fondamentale : Leitner et Cito (2016) sur les modèles de variabilité et de prévisibilité des performances du cloud IaaS public
Méthodologie expérimentale : Abedi et Brecht (2017) sur les méthodes d'expérimentation reproductible dans les environnements cloud à haute variabilité
Principes méthodologiques : Papadopoulos et al. (2021) proposant des principes méthodologiques pour l'évaluation reproductible des performances en informatique cloud

Comparaison des contributions de cet article

Avantage d'échelle : L'échelle plus grande de cette étude par rapport aux travaux connexes lui permet d'identifier des modèles de performance plus subtils
Niveau applicatif : Accent mis sur l'analyse de performance au niveau applicatif, plutôt que limité aux niveaux système ou micro
Intervalle de temps : Fournit une caractérisation mise à jour sur un intervalle de temps plus long

Conclusions et discussion

Conclusions principales

Confirmation de la variabilité : Les performances des benchmarks au niveau applicatif dans les environnements cloud présentent effectivement une variabilité notable
Ampleur modérée : L'ampleur de la variabilité est relativement faible, ne devenant pertinente que lorsque les différences de performance cibles sont inférieures à 5 %
Existence de modèles : Identification d'impacts clairs du temps, du jour de la semaine et des événements mondiaux
Impact pratique : Le Black Friday introduit une source petite mais notable de variabilité de performance du cloud

Limitations

Portée géographique : L'expérimentation principale est concentrée dans la région us-east-1
Type d'application : Accent mis sur les applications de traitement de flux, peut ne pas s'appliquer à d'autres types d'applications
Limite de temps : L'expérimentation ne couvre qu'une partie de l'année, pouvant omettre les variations saisonnières
Puissance statistique : Certains effets n'ont pas atteint la signification statistique en raison du chevauchement des intervalles de confiance

Directions futures

Extension des types d'applications : Étude de la variabilité de performance d'autres types d'applications cloud natives
Analyse multi-régions : Réalisation d'études similaires dans davantage de régions géographiques
Tendances à long terme : Réalisation d'analyses de tendances de performance à long terme sur plusieurs années
Impact d'événements : Étude de l'impact d'autres événements mondiaux majeurs sur les performances du cloud

Évaluation approfondie

Points forts

Méthodologie rigoureuse : Adoption d'une méthode de recherche empirique à grande échelle et à long terme, avec collecte de données complète
Pertinence pratique : Les résultats de la recherche ont une valeur directe pour guider les pratiques de tests de performance dans les environnements cloud
Innovation technique : Première quantification analytique de l'impact des événements mondiaux sur les tests de performance cloud
Rigueur statistique : Utilisation de méthodes statistiques appropriées, incluant l'analyse par bootstrap et les intervalles de confiance
Reproductibilité : Description détaillée de la configuration expérimentale et des processus d'automatisation

Insuffisances

Portée d'application limitée : Concentration uniquement sur les applications de traitement de flux, capacité de généralisation limitée
Relations causales : Manque d'analyse causale approfondie des modèles de performance observés
Considérations de coûts : Absence de discussion sur l'analyse coûts-avantages des expériences à grande échelle
Recommandations pratiques : Manque de recommandations opérationnelles spécifiques pour les praticiens

Impact

Contribution académique : Fourniture de données empiriques importantes et de références méthodologiques pour la recherche en performance du cloud
Pratique d'ingénierie : Fourniture de preuves scientifiques pour le choix du moment des tests de performance dans les environnements cloud
Élaboration de normes : Influence potentielle sur l'élaboration de normes et de meilleures pratiques pour les tests de performance cloud

Scénarios d'application

Ingénierie de performance : Optimisation des performances et planification de la capacité dans les environnements cloud
Tests de performance : Choix du moment pour l'évaluation des performances des applications cloud natives
Gestion des ressources : Élaboration de stratégies de planification et d'équilibrage de charge des ressources cloud
Recherche académique : Recherche et modélisation d'analyse de performance en informatique cloud

Références bibliographiques

Cet article cite 8 références importantes couvrant les domaines clés de la variabilité de performance du cloud, de la méthodologie expérimentale et des outils de benchmark :

Leitner & Cito (2016) - Étude des modèles de variabilité de performance du cloud IaaS public
Abedi & Brecht (2017) - Méthodes d'expérimentation reproductible dans les environnements cloud
Papadopoulos et al. (2021) - Méthodologie d'évaluation des performances en informatique cloud
Henning & Hasselbring (2022) - Méthode de test de performance d'extensibilité des applications cloud natives
Horwitz (2022) - Impact du trafic du Black Friday sur les stratégies d'observabilité
Vogel et al. (2023) - Cartographie systématique de la performance des systèmes de traitement de flux distribués
Henning et al. (2024) - Outil de benchmark ShuffleBench
Henning et al. (2025) - Étude de la variabilité de performance du cloud des applications de traitement de flux

Résumé : Il s'agit d'un article de recherche empirique de haute qualité qui fournit des perspectives importantes pour les tests de performance dans les environnements cloud par le biais d'expériences à grande échelle. La méthodologie de recherche est rigoureuse et les résultats ont une valeur directe pour guider la pratique, ce qui constitue une contribution importante au domaine de l'ingénierie de performance du cloud et des tests de performance.