Benchmarks and performance experiments are frequently conducted in cloud environments. However, their results are often treated with caution, as the presumed high variability of performance in the cloud raises concerns about reproducibility and credibility. In a recent study, we empirically quantified the impact of this variability on benchmarking results by repeatedly executing a stream processing application benchmark at different times of the day over several months. Our analysis confirms that performance variability is indeed observable at the application level, although it is less pronounced than often assumed. The larger scale of our study compared to related work allowed us to identify subtle daily and weekly performance patterns. We now extend this investigation by examining whether a major global event, such as Black Friday, affects the outcomes of performance benchmarks.
- Paper-ID: 2510.12397
- Titel: Should I Run My Cloud Benchmark on Black Friday?
- Autoren: Sören Henning, Adriano Vogel, Esteban Perez-Wohlfeil, Otmar Ertl, Rick Rabiser
- Institutionen: Dynatrace Research, Linz, Österreich; LIT CPS Lab, Johannes Kepler Universität Linz, Österreich
- Klassifizierung: cs.SE (Softwaretechnik), cs.DC (Verteilte Systeme), cs.PF (Leistungsanalyse)
- Veröffentlichungsdatum: 14. Oktober 2024 (arXiv-Preprint)
- Paper-Link: https://arxiv.org/abs/2510.12397
Benchmarking und Leistungsexperimente in Cloud-Umgebungen werden zunehmend häufiger durchgeführt, doch ihre Ergebnisse werden oft aufgrund der hohen Variabilität der Cloud-Leistung in Frage gestellt, was die Reproduzierbarkeit und Glaubwürdigkeit beeinträchtigt. Diese Studie quantifiziert empirisch die Auswirkungen dieser Variabilität auf Benchmark-Ergebnisse durch wiederholte Ausführung von Stream-Processing-Anwendungs-Benchmarks über mehrere Monate hinweg zu verschiedenen Zeitpunkten. Die Analyse bestätigt, dass auf Anwendungsebene tatsächlich Leistungsvariabilität vorhanden ist, aber in geringerem Umfang als üblicherweise angenommen. Im Vergleich zu verwandten Arbeiten ermöglicht der größere Umfang dieser Studie die Identifikation subtiler täglicher und periodischer Leistungsmuster. Die Forschung wird weiter ausgedehnt, um die Auswirkungen globaler bedeutender Ereignisse wie des Black Friday auf Leistungs-Benchmark-Ergebnisse zu untersuchen.
Mit der fortlaufenden Transformation von Organisationen zur Cloud-Bereitstellung ist Benchmarking und Leistungsexperimentieren in Cloud-Umgebungen zu einer häufigen Praxis in Forschung und Ingenieurwesen geworden. Allerdings sieht sich die Leistungsmessung in Cloud-Umgebungen folgenden Herausforderungen gegenüber:
- Multi-Tenant-Ressourcenfreigabe: Cloud-Workloads teilen die zugrunde liegende Infrastruktur mit anderen Mietern
- Hardware-Abstraktion: Ein hohes Maß an Hardware-Abstraktion führt zu Variabilität
- Reproduzierungsprobleme: Leistungsmessungen können schwanken und beeinträchtigen aussagekräftige Vergleiche über Forschungsprojekte hinweg
- Die Glaubwürdigkeit von Cloud-Benchmarks beeinflusst direkt die Genauigkeit von Leistungsbewertungen
- Das Verständnis von Leistungsvariabilitätsmustern hat praktische Bedeutung für die Optimierung der Cloud-Ressourcenkonfiguration
- Bereitstellung empirischer Evidenz für Best Practices beim Benchmarking in Cloud-Umgebungen
- Mangel an großflächigen, langfristigen empirischen Studien
- Unzureichende quantitative Analyse der Leistungsvariabilität auf Anwendungsebene
- Unzureichende Berücksichtigung der Auswirkungen globaler Ereignisse auf Cloud-Leistung
- Großflächige Längsstudie: Erfassung eines Datensatzes mit über 1.000 Benchmark-Ausführungen durch mehrmonatige wiederholte Experimente
- Leistungsmuster-Identifikation: Entdeckung subtiler, aber statistisch signifikanter täglicher und periodischer Leistungsmuster in Cloud-Umgebungen
- Analyse der Auswirkungen globaler Ereignisse: Erste quantitative Analyse der Auswirkungen bedeutender Ereignisse wie des Black Friday auf Cloud-Benchmark-Leistung
- Quantifizierung der Variabilität auf Anwendungsebene: Präzise Messung der Leistungsvariabilität verteilter Stream-Processing-Anwendungen in Cloud-Umgebungen
- Anwendungstyp: Verteilte Stream-Processing-Anwendungen (repräsentativ für datenintensive, leistungskritische verteilte Systeme)
- Benchmark-Tool: Open-Source Cloud-Native Stream-Processing-Benchmark ShuffleBench und dessen Kafka Streams-Implementierung
- Leistungsmetriken: Durchsatz (Throughput), gemessen mit der Momentanmessmethode von ShuffleBench
- Cloud-Plattform: Amazon Web Services (AWS)
- Service: Elastic Kubernetes Service (EKS)
- Cluster-Konfiguration: 10 Knoten mit unterschiedlich großen m6i-Instanzen
- Geografische Region: us-east-1 (primär), eu-central-1 (Validierung)
Automatisierung durch geplante Aufgaben in AWS Elastic Container Service (ECS):
- Cluster-Bereitstellung: Erstellung eines neuen EKS-Clusters
- Infrastruktur-Installation: Bereitstellung von Apache Kafka, Monitoring-Tools und Theodolite-Benchmark-Framework
- Benchmark-Ausführung: Start der Stream-Processing-Anwendung und des Last-Generators über Theodolite, Laufzeit 15 Minuten
- Wiederholte Tests: Jede Ausführung wird 3-mal wiederholt
- Datenerfassung: Speicherung der Benchmark-Ergebnisse, Entladung der Infrastruktur, Deaktivierung des Clusters
- Hauptexperimentzeitraum: Mai bis Juli 2024, eine Woche im September 2024
- Ausführungshäufigkeit: Alle 6 Stunden (Abdeckung eines vollständigen Tageszyklus)
- Hochfrequenzphase: Alle 3 Stunden über 3 Wochen (Erfassung feiner Tagesmustern)
- Black-Friday-Experiment: Zusätzliche Experimente eine Woche vor und nach dem Black Friday 2024
- Aufwärmphase: Verwerfung der Messdaten der ersten 3 Minuten
- Messfenster: Berechnung des durchschnittlichen Durchsatzes für die verbleibende Zeit
- Ausgabe: Jede Benchmark-Ausführung erzeugt einen Durchschnittsdurchsatzwert
- Primäre Metrik: Durchsatz (Datensätze/Sekunde)
- Variabilitätsmessung: Variationskoeffizient (Coefficient of Variation, CV)
- Statistische Analyse: Konfidenzintervalle (durch Bootstrap-Methode), statistische Signifikanztests
- Zeitliche Gruppierung: Gruppierungsanalyse nach Stunde, Wochentag, Woche
- Referenzmuster: Etablierung von Baseline-Tages- und Periodenmustern
- Anomalieerkennung: Identifikation von Leistungsabweichungen während des Black Friday
- Datengröße: Über 1.000 Benchmark-Ausführungen
- Verteilungsmerkmale: Die Durchsatzverteilung zeigt einen deutlichen zentralen Trend, ist innerhalb des Interquartilsbereichs nahezu symmetrisch, folgt aber nicht der Normalverteilung aufgrund einer leichten Neigung zu niedrigeren Durchsatzergebnissen
- Variationskoeffizient: 3,69%, am unteren Ende des in der Literatur berichteten Bereichs der Mikro- und Systemebenen-Benchmark-Variabilität
- Interquartilsbereich: 50% der Messungen liegen im Bereich von -2,4% bis +2,3% um den Median
Analyse durch Gruppierung nach Ausführungszeit pro Stunde zeigt:
- Mittags-Tiefpunkt: Benchmarks, die mittags ausgeführt werden, zeigen leicht niedrigere Leistung
- Nacht-Spitzenwert: Höchste Leistung in der späten Nacht und frühen Morgenzeit
- Leistungsdifferenz: Durchschnittliche Differenz von 2,15%
- Statistische Signifikanz: Muster ist statistisch signifikant
Analyse nach Wochentag gruppiert:
- Wochenend-Vorteil: Benchmarks, die am Wochenende ausgeführt werden, zeigen leicht höhere Leistung als an Wochentagen
- Mittwoch am niedrigsten: Mittwoch zeigt die niedrigste Leistung
- Maximale Variation: Durchschnittliche Durchsatzdifferenz von Samstag bis Mittwoch beträgt 2,52%
- Statistische Signifikanz: Muster ist statistisch signifikant
- Wochenweise Variation: Zerlegung nach Ausführungswoche zeigt kleine Leistungsschwankungen
- Trendanalyse: Keine deutlichen langfristigen Muster oder Trends beobachtet
- Saisonalitätsbeschränkung: Aufgrund der Experimente über nur einen Teil des Jahres können Unterschiede in anderen Zeiträumen nicht ausgeschlossen werden
- Leistungsabfall: Deutlicher Leistungsabfall am Freitagmorgen des Black Friday
- Schnelle Erholung: Leistung erholt sich am Samstagmorgen
- Vorherige Steigerung: Die drei Tage vor dem Black Friday zeigen statistisch signifikante Durchsatzsteigerung (2,3% bis 3,3%)
- Tagesleistung: Black Friday zeigt keine signifikante Differenz zur typischen Freitagsleistung
- Saisonale Variation: Gesamtleistungssteigerung im November 2024 im Vergleich zu Sommermonaten mit temporärem Rückgang am Black Friday
- Proaktive Ressourcenbereitstellung: Cloud-Anbieter könnten zusätzliche Rechenressourcen zur Vorbereitung auf den Black Friday bereitstellen, was die Leistung in den vorherigen Tagen verbessert
- Grundlagenforschung: Leitner und Cito (2016) zur Untersuchung von Leistungsvariabilitäts- und Vorhersagemustern in öffentlichen IaaS-Clouds
- Experimentelle Methodik: Abedi und Brecht (2017) zu Methoden für wiederholbare Experimente in hochvariablen Cloud-Umgebungen
- Methodologische Prinzipien: Papadopoulos et al. (2021) zu methodologischen Prinzipien für reproduzierbare Leistungsbewertung im Cloud-Computing
- Größenvorteil: Der größere Umfang dieser Studie im Vergleich zu verwandten Arbeiten ermöglicht die Identifikation subtilerer Leistungsmuster
- Anwendungsebene: Fokus auf Leistungsanalyse auf Anwendungsebene statt nur auf System- oder Mikroebene
- Zeitspanne: Bereitstellung einer aktualisierten Charakterisierung über einen längeren Zeitraum
- Variabilitätsbestätigung: Anwendungsebenen-Benchmark-Leistung in Cloud-Umgebungen zeigt tatsächlich deutliche Variabilität
- Moderater Umfang: Das Ausmaß der Variabilität ist relativ gering und wird nur relevant, wenn Zielleistungsdifferenzen unter 5% liegen
- Musterexistenz: Klare Auswirkungen von Zeit, Wochentag und globalen Ereignissen identifiziert
- Praktische Auswirkungen: Black Friday führt zu einer kleinen, aber deutlichen Quelle von Cloud-Leistungsvariabilität
- Geografischer Umfang: Hauptexperimente konzentriert sich auf die us-east-1-Region
- Anwendungstyp: Fokus auf Stream-Processing-Anwendungen, möglicherweise nicht auf andere Anwendungstypen übertragbar
- Zeitliche Begrenzung: Experimente erstrecken sich nur über einen Teil des Jahres, könnten saisonale Veränderungen übersehen
- Statistische Aussagekraft: Einige Effekte erreichen aufgrund überlappender Konfidenzintervalle keine statistische Signifikanz
- Erweiterung der Anwendungstypen: Untersuchung der Leistungsvariabilität anderer Typen von Cloud-nativen Anwendungen
- Multi-Region-Analyse: Durchführung ähnlicher Studien in mehr geografischen Regionen
- Langfristige Trends: Durchführung von Leistungstrendanalysen über mehrere Jahre
- Ereignisauswirkungen: Untersuchung der Auswirkungen anderer bedeutender globaler Ereignisse auf Cloud-Leistung
- Strenge Methodik: Großflächige, langfristige empirische Forschungsmethode mit umfassender Datenerfassung
- Praktische Bedeutung: Forschungsergebnisse haben direkten Leitwert für Cloud-Benchmarking-Praktiken
- Technische Innovation: Erste quantitative Analyse der Auswirkungen globaler Ereignisse auf Cloud-Benchmarking
- Statistische Strenge: Verwendung angemessener statistischer Methoden, einschließlich Bootstrap-Analyse und Konfidenzintervallanalyse
- Reproduzierbarkeit: Detaillierte Beschreibung von Experimenteinrichtung und Automatisierungsprozess
- Begrenzte Anwendungsreichweite: Fokus nur auf Stream-Processing-Anwendungen, begrenzte Verallgemeinerungsfähigkeit
- Kausalbeziehungen: Mangelnde tiefgreifende Kausalanalyse der beobachteten Leistungsmuster
- Kostenüberlegungen: Keine Diskussion der Kosteneffizienz-Analyse großflächiger Experimente
- Praktische Empfehlungen: Mangel an spezifischen operativen Empfehlungen für Praktiker
- Akademischer Beitrag: Bereitstellung wichtiger empirischer Daten und methodologischer Referenzen für Cloud-Leistungsforschung
- Ingenieurpraxis: Bereitstellung wissenschaftlicher Grundlagen für die Zeitpunktwahl von Cloud-Benchmarking
- Standardisierung: Mögliche Beeinflussung der Entwicklung von Cloud-Leistungs-Benchmark-Standards und Best Practices
- Leistungstechnik: Cloud-Umgebungs-Leistungsoptimierung und Kapazitätsplanung
- Benchmarking: Zeitpunktwahl für Cloud-native Anwendungsleistungsbewertung
- Ressourcenverwaltung: Formulierung von Cloud-Ressourcenplanungs- und Lastausgleichsstrategien
- Akademische Forschung: Cloud-Computing-Leistungsanalyse und Modellierungsforschung
Dieses Paper zitiert 8 wichtige Referenzen, die wichtige Bereiche wie Cloud-Leistungsvariabilität, experimentelle Methodik und Benchmark-Tools abdecken:
- Leitner & Cito (2016) - Untersuchung von Leistungsvariabilitätsmustern in öffentlichen IaaS-Clouds
- Abedi & Brecht (2017) - Methoden für wiederholbare Experimente in Cloud-Umgebungen
- Papadopoulos et al. (2021) - Methodologie zur Leistungsbewertung im Cloud-Computing
- Henning & Hasselbring (2022) - Methoden zum Benchmarking der Skalierbarkeit von Cloud-nativen Anwendungen
- Horwitz (2022) - Auswirkungen von Black-Friday-Datenverkehr auf Observability-Strategien
- Vogel et al. (2023) - Systematische Kartierung der Leistung verteilter Stream-Processing-Systeme
- Henning et al. (2024) - ShuffleBench-Benchmark-Tool
- Henning et al. (2025) - Untersuchung der Cloud-Leistungsvariabilität von Stream-Processing-Anwendungen
Zusammenfassung: Dies ist ein hochqualitatives empirisches Forschungspapier, das durch großflächige Experimente wichtige Erkenntnisse für Cloud-Benchmarking bereitstellt. Die Forschungsmethodik ist streng, die Ergebnisse haben praktischen Leitwert und stellen einen wichtigen Beitrag zum Bereich Cloud-Leistungstechnik und Benchmarking dar.