2025-11-16T01:07:11.788386

Should I Run My Cloud Benchmark on Black Friday?

Henning, Vogel, Perez-Wohlfeil et al.

Benchmarks and performance experiments are frequently conducted in cloud environments. However, their results are often treated with caution, as the presumed high variability of performance in the cloud raises concerns about reproducibility and credibility. In a recent study, we empirically quantified the impact of this variability on benchmarking results by repeatedly executing a stream processing application benchmark at different times of the day over several months. Our analysis confirms that performance variability is indeed observable at the application level, although it is less pronounced than often assumed. The larger scale of our study compared to related work allowed us to identify subtle daily and weekly performance patterns. We now extend this investigation by examining whether a major global event, such as Black Friday, affects the outcomes of performance benchmarks.

academic

클라우드 벤치마크를 블랙프라이데이에 실행해야 할까?

기본 정보

논문 ID: 2510.12397
제목: Should I Run My Cloud Benchmark on Black Friday?
저자: Sören Henning, Adriano Vogel, Esteban Perez-Wohlfeil, Otmar Ertl, Rick Rabiser
소속: Dynatrace Research, Linz, Austria; LIT CPS Lab, Johannes Kepler University Linz, Austria
분류: cs.SE (소프트웨어 공학), cs.DC (분산 컴퓨팅), cs.PF (성능 분석)
발표 시간: 2024년 10월 14일 (arXiv 사전인쇄본)
논문 링크: https://arxiv.org/abs/2510.12397

초록

클라우드 환경에서의 벤치마크 테스트 및 성능 실험이 점점 더 일반화되고 있지만, 그 결과는 클라우드 성능의 높은 변동성으로 인해 자주 의문을 받으며, 이는 재현성과 신뢰도에 영향을 미친다. 본 연구는 수개월에 걸쳐 서로 다른 시간에 스트림 처리 애플리케이션 벤치마크를 반복 실행함으로써 이러한 변동성이 벤치마크 결과에 미치는 영향을 실증적으로 정량화했다. 분석 결과 애플리케이션 수준에서 성능 변동성이 실제로 존재하지만, 일반적으로 가정되는 정도보다 작음을 확인했다. 관련 연구와 비교하여, 본 연구의 더 큰 규모는 미묘한 일일 및 주기적 성능 패턴을 식별할 수 있게 해준다. 연구는 더 나아가 블랙프라이데이와 같은 전 지구적 주요 이벤트가 성능 벤치마크 결과에 미치는 영향을 조사했다.

연구 배경 및 동기

문제 정의

조직이 클라우드 배포로 계속 전환함에 따라, 클라우드 환경에서 벤치마크 테스트 및 성능 실험을 수행하는 것이 연구 및 엔지니어링에서 일반적인 관행이 되었다. 그러나 클라우드 환경의 성능 측정은 다음과 같은 과제에 직면해 있다:

다중 테넌트 리소스 공유: 클라우드 워크로드가 기본 인프라를 다른 테넌트와 공유
하드웨어 추상화: 높은 수준의 하드웨어 추상화로 인한 변동성 도입
재현성 문제: 성능 측정이 변동할 수 있으며, 연구 간 의미 있는 비교에 영향

연구의 중요성

클라우드 벤치마크의 신뢰도는 성능 평가의 정확성에 직접적인 영향
성능 변동성 패턴 이해는 클라우드 리소스 구성 최적화에 실질적 의미
클라우드 환경에서의 벤치마크 테스트 모범 사례에 대한 실증적 근거 제공

기존 방법의 한계

대규모, 장기적 실증 연구 부족
애플리케이션 수준 성능 변동성의 정량적 분석 부족
전 지구적 이벤트가 클라우드 성능에 미치는 영향에 대한 충분한 고려 부족

핵심 기여

대규모 종단 연구: 수개월에 걸친 반복 실험을 통해 1,000회 이상의 벤치마크 실행 데이터셋 수집
성능 패턴 식별: 클라우드 환경에서 미묘하지만 통계적으로 유의미한 일일 및 주기적 성능 패턴 발견
전 지구적 이벤트 영향 분석: 블랙프라이데이 등 주요 이벤트가 클라우드 벤치마크 성능에 미치는 영향을 최초로 정량적 분석
애플리케이션 수준 변동성 정량화: 클라우드 환경에서 분산 스트림 처리 애플리케이션의 성능 변동성에 대한 정확한 측정 제공

방법론 상세 설명

실험 설계

테스트 대상

애플리케이션 유형: 분산 스트림 처리 애플리케이션 (데이터 집약적, 성능 중심의 분산 시스템을 대표)
벤치마크 도구: 오픈소스 클라우드 네이티브 스트림 처리 벤치마크 ShuffleBench 및 Kafka Streams 구현
성능 지표: 처리량(throughput), ShuffleBench의 즉시 측정 방법 사용

실행 환경

클라우드 플랫폼: Amazon Web Services (AWS)
서비스: Elastic Kubernetes Service (EKS)
클러스터 구성: 10개 노드, 다양한 크기의 m6i 인스턴스 사용
지리적 영역: us-east-1 (주요), eu-central-1 (검증)

자동화된 벤치마크 실행

AWS Elastic Container Service (ECS)의 스케줄 작업을 통해 자동화 구현:

클러스터 프로비저닝: 새로운 EKS 클러스터 생성
인프라 설치: Apache Kafka, 모니터링 도구 및 Theodolite 벤치마크 프레임워크 배포
벤치마크 실행: Theodolite를 통해 스트림 처리 애플리케이션 및 부하 생성기 시작, 15분 실행
반복 테스트: 각 실행마다 3회 반복
데이터 수집: 벤치마크 결과 저장, 인프라 언로드, 클러스터 중지

시간 범위 설계

주요 실험 기간: 2024년 5월~7월, 2024년 9월 1주
실행 빈도: 6시간마다 실행 (완전한 일일 주기 포함)
고빈도 기간: 3주 내 3시간마다 실행 (더 세밀한 일일 패턴 포착)
블랙프라이데이 실험: 2024년 블랙프라이데이 전후 1주의 추가 실험

실험 설정

성능 측정 방법

워밍업 기간: 처음 3분의 측정 데이터 제외
측정 윈도우: 남은 시간 동안의 평균 처리량 계산
출력: 각 벤치마크 실행마다 하나의 평균 처리량 값 생성

평가 지표

주요 지표: 처리량 (records/second)
변동성 측정: 변동 계수 (Coefficient of Variation, CV)
통계 분석: 신뢰 구간 (부트스트랩 방법으로 획득), 통계적 유의성 검정

데이터 처리

시간 그룹화: 시간, 요일, 주별로 그룹화 분석
참조 패턴: 기준 일일 및 주기적 패턴 수립
이상 탐지: 블랙프라이데이 기간 성능 편차 식별

실험 결과

전체 성능 변동성

데이터 규모: 1,000회 이상의 벤치마크 실행
분포 특성: 처리량 분포는 명확한 중심 경향을 보이며, 사분위수 범위 내에서 거의 대칭이지만, 낮은 처리량 결과로의 약간의 편향으로 인해 정규분포가 아님
변동 계수: 3.69%, 문헌에서 보고된 미시 및 시스템 수준 벤치마크 변동성 범위의 하단에 위치
사분위수 범위: 측정값의 50%가 중앙값의 -2.4%~+2.3% 범위 내