Benchmarks and performance experiments are frequently conducted in cloud environments. However, their results are often treated with caution, as the presumed high variability of performance in the cloud raises concerns about reproducibility and credibility. In a recent study, we empirically quantified the impact of this variability on benchmarking results by repeatedly executing a stream processing application benchmark at different times of the day over several months. Our analysis confirms that performance variability is indeed observable at the application level, although it is less pronounced than often assumed. The larger scale of our study compared to related work allowed us to identify subtle daily and weekly performance patterns. We now extend this investigation by examining whether a major global event, such as Black Friday, affects the outcomes of performance benchmarks.
- ID de l'article : 2510.12397
- Titre : Should I Run My Cloud Benchmark on Black Friday?
- Auteurs : Sören Henning, Adriano Vogel, Esteban Perez-Wohlfeil, Otmar Ertl, Rick Rabiser
- Institutions : Dynatrace Research, Linz, Autriche ; LIT CPS Lab, Johannes Kepler University Linz, Autriche
- Classification : cs.SE (Génie logiciel), cs.DC (Informatique distribuée), cs.PF (Analyse de performance)
- Date de publication : 14 octobre 2024 (prépublication arXiv)
- Lien de l'article : https://arxiv.org/abs/2510.12397
Les tests de performance et les expériences de performance dans les environnements cloud deviennent de plus en plus courants, mais leurs résultats sont souvent remis en question en raison de la grande variabilité des performances du cloud, ce qui affecte la reproductibilité et la crédibilité. Cette étude quantifie empiriquement l'impact de cette variabilité sur les résultats des tests de performance en exécutant à plusieurs reprises des tests de performance d'applications de traitement de flux à différents moments sur plusieurs mois. L'analyse confirme qu'il existe effectivement une variabilité de performance au niveau applicatif, mais dans une mesure inférieure à celle généralement supposée. Comparée aux travaux connexes, l'échelle plus grande de cette étude lui permet d'identifier des modèles de performance quotidiens et périodiques subtils. L'étude s'étend davantage pour examiner l'impact d'événements mondiaux majeurs, tels que le Black Friday, sur les résultats des tests de performance de référence.
Avec la transformation continue des organisations vers le déploiement cloud, la réalisation de tests de performance et d'expériences de performance dans les environnements cloud est devenue une pratique courante dans la recherche et l'ingénierie. Cependant, les mesures de performance dans les environnements cloud font face aux défis suivants :
- Partage des ressources multi-locataires : Les charges de travail cloud partagent l'infrastructure sous-jacente avec d'autres locataires
- Abstraction matérielle : Un haut degré d'abstraction matérielle introduit de la variabilité
- Problèmes de reproductibilité : Les mesures de performance peuvent fluctuer, affectant les comparaisons significatives entre les recherches
- La crédibilité des tests de performance cloud affecte directement l'exactitude de l'évaluation des performances
- Comprendre les modèles de variabilité de performance a une importance pratique pour optimiser la configuration des ressources cloud
- Fournir des preuves empiriques pour les meilleures pratiques des tests de performance dans les environnements cloud
- Manque d'études empiriques à grande échelle et à long terme
- Analyse quantitative insuffisante de la variabilité de performance au niveau applicatif
- Considération insuffisante de l'impact des événements mondiaux sur les performances du cloud
- Étude longitudinale à grande échelle : Collecte d'un ensemble de données de plus de 1 000 exécutions de tests de performance sur plusieurs mois
- Identification des modèles de performance : Découverte de modèles de performance quotidiens et périodiques subtils mais statistiquement significatifs dans les environnements cloud
- Analyse de l'impact des événements mondiaux : Première quantification analytique de l'impact d'événements majeurs tels que le Black Friday sur les performances des tests de performance cloud
- Quantification de la variabilité au niveau applicatif : Fourniture de mesures précises de la variabilité de performance des applications de traitement de flux distribuées dans les environnements cloud
- Type d'application : Applications de traitement de flux distribuées (représentant des systèmes distribués intensifs en données et critiques pour les performances)
- Outil de benchmark : Benchmark de traitement de flux cloud natif open source ShuffleBench et son implémentation Kafka Streams
- Métriques de performance : Débit (throughput), utilisant la méthode de mesure instantanée de ShuffleBench
- Plateforme cloud : Amazon Web Services (AWS)
- Service : Elastic Kubernetes Service (EKS)
- Configuration du cluster : 10 nœuds, utilisant des instances m6i de différentes tailles
- Région géographique : us-east-1 (principal), eu-central-1 (validation)
Automatisation réalisée via les tâches planifiées dans AWS Elastic Container Service (ECS) :
- Approvisionnement du cluster : Création d'un nouveau cluster EKS
- Installation de l'infrastructure : Déploiement d'Apache Kafka, des outils de surveillance et du framework de benchmark Theodolite
- Exécution du benchmark : Lancement de l'application de traitement de flux et du générateur de charge via Theodolite, exécution de 15 minutes
- Tests répétés : Chaque exécution répétée 3 fois
- Collecte de données : Stockage des résultats des tests de performance, déchargement de l'infrastructure, arrêt du cluster
- Période d'expérimentation principale : Mai à juillet 2024, une semaine en septembre 2024
- Fréquence d'exécution : Une exécution toutes les 6 heures (couvrant un cycle journalier complet)
- Période haute fréquence : Une exécution toutes les 3 heures sur 3 semaines (capture des modèles quotidiens à granularité plus fine)
- Expérimentation du Black Friday : Expériences supplémentaires une semaine avant et après le Black Friday 2024
- Période de préchauffage : Rejet des données de mesure des 3 premières minutes
- Fenêtre de mesure : Calcul du débit moyen pendant le temps restant
- Résultat : Chaque exécution de benchmark produit une valeur de débit moyen
- Indicateur principal : Débit (enregistrements/seconde)
- Mesure de variabilité : Coefficient de variation (CV)
- Analyse statistique : Intervalles de confiance (obtenus par bootstrap), tests de signification statistique
- Regroupement temporel : Analyse par heure, jour de la semaine, semaine
- Modèles de référence : Établissement de modèles de base quotidiens et périodiques
- Détection d'anomalies : Identification des écarts de performance pendant le Black Friday
- Échelle des données : Plus de 1 000 exécutions de tests de performance
- Caractéristiques de distribution : La distribution du débit montre une tendance centrale évidente, presque symétrique dans l'intervalle interquartile, mais non normale en raison d'une légère inclinaison vers les résultats de débit inférieur
- Coefficient de variation : 3,69 %, situé à l'extrémité inférieure de la plage de variabilité des benchmarks micro et au niveau du système rapportée dans la littérature
- Intervalle interquartile : 50 % des mesures se situent dans une plage de -2,4 % à +2,3 % autour de la médiane
L'analyse par regroupement des heures d'exécution révèle :
- Creux de midi : Les tests de performance exécutés à midi affichent une performance légèrement inférieure
- Pics nocturnes : Les performances les plus élevées sont atteintes tard la nuit et tôt le matin
- Différence de performance : Différence de valeur moyenne de 2,15 %
- Signification statistique : Le modèle est statistiquement significatif
Résultats de l'analyse par regroupement du jour de la semaine :
- Avantage du week-end : Les tests de performance exécutés le week-end affichent une performance légèrement supérieure à celle des jours de semaine
- Mercredi le plus bas : Le mercredi affiche la performance la plus basse
- Variation maximale : Différence de débit moyen de 2,52 % du samedi au mercredi
- Signification statistique : Le modèle est statistiquement significatif
- Variation hebdomadaire : La décomposition par semaine d'exécution montre de petites fluctuations de performance
- Analyse de tendance : Aucun modèle ou tendance à long terme évident observé
- Limitations saisonnières : En raison de l'expérimentation sur une partie seulement de l'année, les différences possibles à d'autres périodes ne peuvent pas être exclues
- Baisse de performance : Baisse de performance notable le matin du Black Friday
- Récupération rapide : La performance se rétablit le matin du samedi
- Amélioration préalable : Les trois jours précédant le Black Friday affichent une augmentation statistiquement significative du débit (2,3 % à 3,3 %)
- Performance du jour : Le jour du Black Friday ne montre pas de différence significative par rapport à la performance d'un vendredi typique
- Variation saisonnière : Amélioration globale de la performance en novembre 2024 par rapport aux mois d'été, avec une baisse temporaire le jour du Black Friday
- Approvisionnement proactif en ressources : Les fournisseurs de cloud pourraient approvisionner proactivement des ressources informatiques supplémentaires en réponse au Black Friday, améliorant les performances des jours précédents
- Recherche fondamentale : Leitner et Cito (2016) sur les modèles de variabilité et de prévisibilité des performances du cloud IaaS public
- Méthodologie expérimentale : Abedi et Brecht (2017) sur les méthodes d'expérimentation reproductible dans les environnements cloud à haute variabilité
- Principes méthodologiques : Papadopoulos et al. (2021) proposant des principes méthodologiques pour l'évaluation reproductible des performances en informatique cloud
- Avantage d'échelle : L'échelle plus grande de cette étude par rapport aux travaux connexes lui permet d'identifier des modèles de performance plus subtils
- Niveau applicatif : Accent mis sur l'analyse de performance au niveau applicatif, plutôt que limité aux niveaux système ou micro
- Intervalle de temps : Fournit une caractérisation mise à jour sur un intervalle de temps plus long
- Confirmation de la variabilité : Les performances des benchmarks au niveau applicatif dans les environnements cloud présentent effectivement une variabilité notable
- Ampleur modérée : L'ampleur de la variabilité est relativement faible, ne devenant pertinente que lorsque les différences de performance cibles sont inférieures à 5 %
- Existence de modèles : Identification d'impacts clairs du temps, du jour de la semaine et des événements mondiaux
- Impact pratique : Le Black Friday introduit une source petite mais notable de variabilité de performance du cloud
- Portée géographique : L'expérimentation principale est concentrée dans la région us-east-1
- Type d'application : Accent mis sur les applications de traitement de flux, peut ne pas s'appliquer à d'autres types d'applications
- Limite de temps : L'expérimentation ne couvre qu'une partie de l'année, pouvant omettre les variations saisonnières
- Puissance statistique : Certains effets n'ont pas atteint la signification statistique en raison du chevauchement des intervalles de confiance
- Extension des types d'applications : Étude de la variabilité de performance d'autres types d'applications cloud natives
- Analyse multi-régions : Réalisation d'études similaires dans davantage de régions géographiques
- Tendances à long terme : Réalisation d'analyses de tendances de performance à long terme sur plusieurs années
- Impact d'événements : Étude de l'impact d'autres événements mondiaux majeurs sur les performances du cloud
- Méthodologie rigoureuse : Adoption d'une méthode de recherche empirique à grande échelle et à long terme, avec collecte de données complète
- Pertinence pratique : Les résultats de la recherche ont une valeur directe pour guider les pratiques de tests de performance dans les environnements cloud
- Innovation technique : Première quantification analytique de l'impact des événements mondiaux sur les tests de performance cloud
- Rigueur statistique : Utilisation de méthodes statistiques appropriées, incluant l'analyse par bootstrap et les intervalles de confiance
- Reproductibilité : Description détaillée de la configuration expérimentale et des processus d'automatisation
- Portée d'application limitée : Concentration uniquement sur les applications de traitement de flux, capacité de généralisation limitée
- Relations causales : Manque d'analyse causale approfondie des modèles de performance observés
- Considérations de coûts : Absence de discussion sur l'analyse coûts-avantages des expériences à grande échelle
- Recommandations pratiques : Manque de recommandations opérationnelles spécifiques pour les praticiens
- Contribution académique : Fourniture de données empiriques importantes et de références méthodologiques pour la recherche en performance du cloud
- Pratique d'ingénierie : Fourniture de preuves scientifiques pour le choix du moment des tests de performance dans les environnements cloud
- Élaboration de normes : Influence potentielle sur l'élaboration de normes et de meilleures pratiques pour les tests de performance cloud
- Ingénierie de performance : Optimisation des performances et planification de la capacité dans les environnements cloud
- Tests de performance : Choix du moment pour l'évaluation des performances des applications cloud natives
- Gestion des ressources : Élaboration de stratégies de planification et d'équilibrage de charge des ressources cloud
- Recherche académique : Recherche et modélisation d'analyse de performance en informatique cloud
Cet article cite 8 références importantes couvrant les domaines clés de la variabilité de performance du cloud, de la méthodologie expérimentale et des outils de benchmark :
- Leitner & Cito (2016) - Étude des modèles de variabilité de performance du cloud IaaS public
- Abedi & Brecht (2017) - Méthodes d'expérimentation reproductible dans les environnements cloud
- Papadopoulos et al. (2021) - Méthodologie d'évaluation des performances en informatique cloud
- Henning & Hasselbring (2022) - Méthode de test de performance d'extensibilité des applications cloud natives
- Horwitz (2022) - Impact du trafic du Black Friday sur les stratégies d'observabilité
- Vogel et al. (2023) - Cartographie systématique de la performance des systèmes de traitement de flux distribués
- Henning et al. (2024) - Outil de benchmark ShuffleBench
- Henning et al. (2025) - Étude de la variabilité de performance du cloud des applications de traitement de flux
Résumé : Il s'agit d'un article de recherche empirique de haute qualité qui fournit des perspectives importantes pour les tests de performance dans les environnements cloud par le biais d'expériences à grande échelle. La méthodologie de recherche est rigoureuse et les résultats ont une valeur directe pour guider la pratique, ce qui constitue une contribution importante au domaine de l'ingénierie de performance du cloud et des tests de performance.