Benchmarks and performance experiments are frequently conducted in cloud environments. However, their results are often treated with caution, as the presumed high variability of performance in the cloud raises concerns about reproducibility and credibility. In a recent study, we empirically quantified the impact of this variability on benchmarking results by repeatedly executing a stream processing application benchmark at different times of the day over several months. Our analysis confirms that performance variability is indeed observable at the application level, although it is less pronounced than often assumed. The larger scale of our study compared to related work allowed us to identify subtle daily and weekly performance patterns. We now extend this investigation by examining whether a major global event, such as Black Friday, affects the outcomes of performance benchmarks.
- ID Articolo: 2510.12397
- Titolo: Should I Run My Cloud Benchmark on Black Friday?
- Autori: Sören Henning, Adriano Vogel, Esteban Perez-Wohlfeil, Otmar Ertl, Rick Rabiser
- Istituzioni: Dynatrace Research, Linz, Austria; LIT CPS Lab, Johannes Kepler University Linz, Austria
- Classificazione: cs.SE (Ingegneria del Software), cs.DC (Calcolo Distribuito), cs.PF (Analisi delle Prestazioni)
- Data di Pubblicazione: 14 ottobre 2024 (preprint arXiv)
- Link dell'Articolo: https://arxiv.org/abs/2510.12397
I benchmark e gli esperimenti di prestazione negli ambienti cloud sono sempre più diffusi, ma i loro risultati sono spesso messi in discussione a causa dell'elevata variabilità delle prestazioni del cloud, il che incide sulla riproducibilità e sulla credibilità. Questo studio quantifica empiricamente l'impatto di tale variabilità sui risultati dei benchmark attraverso l'esecuzione ripetuta di benchmark di applicazioni di elaborazione di flussi in diversi momenti nel corso di diversi mesi. L'analisi conferma che la variabilità delle prestazioni a livello di applicazione esiste effettivamente, ma in misura minore rispetto a quanto generalmente presunto. Rispetto ai lavori correlati, la scala più ampia di questo studio consente di identificare sottili modelli di prestazione giornalieri e periodici. Lo studio si estende ulteriormente per esaminare l'impatto di eventi globali significativi, come il Black Friday, sui risultati dei benchmark di prestazione.
Con la continua trasformazione delle organizzazioni verso il cloud, i benchmark e gli esperimenti di prestazione negli ambienti cloud sono diventati una pratica comune nella ricerca e nell'ingegneria. Tuttavia, le misurazioni di prestazione negli ambienti cloud affrontano le seguenti sfide:
- Condivisione di Risorse Multi-Tenant: I carichi di lavoro cloud condividono l'infrastruttura sottostante con altri tenant
- Astrazione Hardware: L'elevato livello di astrazione hardware introduce variabilità
- Problemi di Riproducibilità: Le misurazioni di prestazione possono fluttuare, influenzando i confronti significativi tra ricerche
- L'affidabilità dei benchmark cloud influisce direttamente sull'accuratezza della valutazione delle prestazioni
- Comprendere i modelli di variabilità delle prestazioni ha un significato pratico per ottimizzare la configurazione delle risorse cloud
- Fornire prove empiriche per le migliori pratiche nei benchmark di ambienti cloud
- Mancanza di studi empirici su larga scala e a lungo termine
- Analisi quantitativa insufficiente della variabilità delle prestazioni a livello di applicazione
- Considerazione inadeguata dell'impatto degli eventi globali sulle prestazioni del cloud
- Studio Longitudinale su Larga Scala: Raccolta di un dataset di oltre 1000 esecuzioni di benchmark attraverso esperimenti ripetuti nel corso di diversi mesi
- Identificazione di Modelli di Prestazione: Scoperta di sottili ma statisticamente significativi modelli di prestazione giornalieri e periodici negli ambienti cloud
- Analisi dell'Impatto di Eventi Globali: Prima quantificazione dell'impatto di eventi significativi come il Black Friday sulle prestazioni dei benchmark cloud
- Quantificazione della Variabilità a Livello di Applicazione: Fornitura di misurazioni precise della variabilità delle prestazioni per applicazioni di elaborazione di flussi distribuiti negli ambienti cloud
- Tipo di Applicazione: Applicazioni di elaborazione di flussi distribuiti (rappresentative di sistemi distribuiti ad alta intensità di dati e critici per le prestazioni)
- Strumento di Benchmark: Benchmark cloud-native open-source ShuffleBench e la sua implementazione Kafka Streams
- Metriche di Prestazione: Throughput, misurato utilizzando il metodo di misurazione istantanea di ShuffleBench
- Piattaforma Cloud: Amazon Web Services (AWS)
- Servizio: Elastic Kubernetes Service (EKS)
- Configurazione del Cluster: 10 nodi, utilizzando istanze m6i di diverse dimensioni
- Regione Geografica: us-east-1 (principale), eu-central-1 (verifica)
Implementazione dell'automazione tramite attività pianificate in AWS Elastic Container Service (ECS):
- Provisioning del Cluster: Creazione di un nuovo cluster EKS
- Installazione dell'Infrastruttura: Distribuzione di Apache Kafka, strumenti di monitoraggio e framework di benchmark Theodolite
- Esecuzione del Benchmark: Avvio dell'applicazione di elaborazione di flussi e del generatore di carico tramite Theodolite, esecuzione per 15 minuti
- Test Ripetuti: Ogni esecuzione ripetuta 3 volte
- Raccolta Dati: Archiviazione dei risultati del benchmark, scaricamento dell'infrastruttura, disattivazione del cluster
- Periodo Sperimentale Principale: Maggio-luglio 2024, una settimana di settembre 2024
- Frequenza di Esecuzione: Una volta ogni 6 ore (copertura del ciclo giornaliero completo)
- Periodo ad Alta Frequenza: Una volta ogni 3 ore per 3 settimane (acquisizione di modelli giornalieri a granularità più fine)
- Esperimento Black Friday: Esperimenti aggiuntivi una settimana prima e dopo il Black Friday 2024
- Periodo di Riscaldamento: Scarto dei dati di misurazione dei primi 3 minuti
- Finestra di Misurazione: Calcolo del throughput medio nel tempo rimanente
- Output: Ogni esecuzione di benchmark produce un valore di throughput medio
- Metrica Principale: Throughput (record/secondo)
- Misura della Variabilità: Coefficiente di Variazione (CV)
- Analisi Statistica: Intervalli di confidenza (ottenuti tramite bootstrap), test di significatività statistica
- Raggruppamento Temporale: Raggruppamento per ora, giorno della settimana, settimana
- Modelli di Riferimento: Stabilimento di modelli di base giornalieri e periodici
- Rilevamento di Anomalie: Identificazione delle deviazioni di prestazione durante il Black Friday
- Scala dei Dati: Oltre 1000 esecuzioni di benchmark
- Caratteristiche della Distribuzione: La distribuzione del throughput mostra una chiara tendenza centrale, quasi simmetrica all'interno dell'intervallo interquartile, ma non normale a causa di una leggera inclinazione verso risultati di throughput inferiore
- Coefficiente di Variazione: 3,69%, situato nell'estremità inferiore dell'intervallo della variabilità dei benchmark micro e a livello di sistema riportato in letteratura
- Intervallo Interquartile: Il 50% delle misurazioni rientra in un intervallo da -2,4% a +2,3% rispetto alla mediana
Analisi tramite raggruppamento per ora di esecuzione rivela:
- Depressione Meridiana: I benchmark eseguiti a mezzogiorno mostrano prestazioni leggermente inferiori
- Picco Notturno: Le prestazioni più elevate si raggiungono nelle ore notturne e al mattino presto
- Differenza di Prestazione: Differenza di valore medio del 2,15%
- Significatività Statistica: Il modello è statisticamente significativo
Analisi tramite raggruppamento per giorno della settimana:
- Vantaggio nei Fine Settimana: I benchmark eseguiti nei fine settimana mostrano prestazioni leggermente superiori ai giorni feriali
- Mercoledì Più Basso: Il mercoledì mostra le prestazioni più basse
- Variazione Massima: Differenza di throughput medio dal sabato al mercoledì del 2,52%
- Significatività Statistica: Il modello è statisticamente significativo
- Variazione Settimanale: La scomposizione per settimana di esecuzione mostra piccole fluttuazioni di prestazione
- Analisi dei Trend: Nessun modello o trend a lungo termine evidente osservato
- Limitazioni di Stagionalità: A causa dell'esperimento che copre solo parte dell'anno, non è possibile escludere la possibilità di differenze in altri periodi
- Calo di Prestazione: Calo evidente di prestazione la mattina del Black Friday
- Recupero Rapido: Recupero delle prestazioni la mattina di sabato
- Miglioramento Anticipato: I tre giorni prima del Black Friday mostrano un aumento statisticamente significativo del throughput (2,3%-3,3%)
- Prestazioni nel Giorno: Il Black Friday stesso non mostra differenza significativa rispetto alle prestazioni tipiche del venerdì
- Variazione Stagionale: Miglioramento complessivo delle prestazioni a novembre 2024 rispetto ai mesi estivi, con un calo temporaneo durante il Black Friday
- Provisioning Proattivo di Risorse: I provider cloud potrebbero aver fornito proattivamente risorse di calcolo aggiuntive in previsione del Black Friday, migliorando le prestazioni nei giorni precedenti
- Ricerca Fondamentale: Leitner e Cito (2016) su modelli di variabilità e prevedibilità delle prestazioni nel cloud IaaS pubblico
- Metodologia Sperimentale: Abedi e Brecht (2017) su metodi per esperimenti ripetibili in ambienti cloud ad alta variabilità
- Principi Metodologici: Papadopoulos et al. (2021) su principi metodologici per la valutazione ripetibile delle prestazioni nel calcolo cloud
- Vantaggio di Scala: La scala più ampia di questo studio rispetto ai lavori correlati consente di identificare modelli di prestazione più sottili
- Livello di Applicazione: Focalizzazione sull'analisi delle prestazioni a livello di applicazione, piuttosto che solo a livello di sistema o micro
- Intervallo Temporale: Fornisce una caratterizzazione aggiornata su un intervallo temporale più lungo
- Conferma della Variabilità: La prestazione dei benchmark a livello di applicazione negli ambienti cloud mostra effettivamente una variabilità evidente
- Entità Moderata: L'entità della variabilità è relativamente piccola, diventando rilevante solo quando le differenze di prestazione target sono inferiori al 5%
- Esistenza di Modelli: Identificazione di effetti chiari dell'ora, del giorno della settimana e degli eventi globali
- Impatto Pratico: Il Black Friday introduce una piccola ma evidente fonte di variabilità nelle prestazioni del cloud
- Portata Geografica: L'esperimento principale è concentrato nella regione us-east-1
- Tipo di Applicazione: Focalizzazione su applicazioni di elaborazione di flussi, potrebbe non essere applicabile ad altri tipi di applicazioni
- Limitazione Temporale: L'esperimento copre solo parte dell'anno, potrebbe perdere variazioni stagionali
- Potenza Statistica: Alcuni effetti non raggiungono la significatività statistica a causa della sovrapposizione degli intervalli di confidenza
- Estensione dei Tipi di Applicazione: Ricerca sulla variabilità delle prestazioni di altri tipi di applicazioni cloud-native
- Analisi Multi-Regione: Conduzione di ricerche simili in più regioni geografiche
- Trend a Lungo Termine: Analisi dei trend di prestazione a lungo termine su più anni
- Impatto di Eventi: Ricerca sull'impatto di altri eventi globali significativi sulle prestazioni del cloud
- Metodologia Rigorosa: Adozione di un metodo di ricerca empirica su larga scala e a lungo termine, con raccolta dati completa
- Significato Pratico: I risultati della ricerca hanno valore di guida diretta per le pratiche di benchmark negli ambienti cloud
- Innovazione Tecnica: Prima quantificazione dell'impatto degli eventi globali sui benchmark cloud
- Rigore Statistico: Utilizzo di metodi statistici appropriati, inclusa l'analisi bootstrap e degli intervalli di confidenza
- Riproducibilità: Descrizione dettagliata della configurazione sperimentale e dei processi di automazione
- Limitazione dell'Ambito di Applicazione: Focalizzazione solo su applicazioni di elaborazione di flussi, capacità di generalizzazione limitata
- Relazioni Causali: Mancanza di analisi causale approfondita dei modelli di prestazione osservati
- Considerazioni di Costo: Mancanza di discussione sull'analisi costi-benefici degli esperimenti su larga scala
- Raccomandazioni Pratiche: Mancanza di raccomandazioni operative specifiche per i professionisti
- Contributo Accademico: Fornitura di dati empirici importanti e riferimenti metodologici per la ricerca sulle prestazioni del cloud
- Pratica Ingegneristica: Fornitura di prove scientifiche per la scelta del timing nei benchmark di ambienti cloud
- Definizione di Standard: Potenziale influenza sulla definizione di standard e migliori pratiche nei benchmark di prestazione del cloud
- Ingegneria delle Prestazioni: Ottimizzazione delle prestazioni e pianificazione della capacità negli ambienti cloud
- Benchmark: Scelta del timing nella valutazione delle prestazioni delle applicazioni cloud-native
- Gestione delle Risorse: Formulazione di strategie di pianificazione e bilanciamento del carico delle risorse cloud
- Ricerca Accademica: Ricerca su analisi e modellazione delle prestazioni nel calcolo cloud
Questo articolo cita 8 importanti riferimenti bibliografici che coprono campi chiave come la variabilità delle prestazioni del cloud, la metodologia sperimentale e gli strumenti di benchmark:
- Leitner & Cito (2016) - Ricerca su modelli di variabilità delle prestazioni nel cloud IaaS pubblico
- Abedi & Brecht (2017) - Metodi per esperimenti ripetibili negli ambienti cloud
- Papadopoulos et al. (2021) - Metodologia per la valutazione delle prestazioni nel calcolo cloud
- Henning & Hasselbring (2022) - Metodo di benchmark di scalabilità per applicazioni cloud-native
- Horwitz (2022) - Impatto del traffico del Black Friday sulle strategie di osservabilità
- Vogel et al. (2023) - Mappatura sistematica delle prestazioni dei sistemi di elaborazione di flussi distribuiti
- Henning et al. (2024) - Strumento di benchmark ShuffleBench
- Henning et al. (2025) - Ricerca sulla variabilità delle prestazioni cloud delle applicazioni di elaborazione di flussi
Sintesi: Questo è un articolo di ricerca empirica di alta qualità che fornisce importanti intuizioni sui benchmark negli ambienti cloud attraverso esperimenti su larga scala. La metodologia di ricerca è rigorosa e i risultati hanno valore di guida pratica, rappresentando un importante contributo nel campo dell'ingegneria delle prestazioni cloud e dei benchmark.