Benchmarks and performance experiments are frequently conducted in cloud environments. However, their results are often treated with caution, as the presumed high variability of performance in the cloud raises concerns about reproducibility and credibility. In a recent study, we empirically quantified the impact of this variability on benchmarking results by repeatedly executing a stream processing application benchmark at different times of the day over several months. Our analysis confirms that performance variability is indeed observable at the application level, although it is less pronounced than often assumed. The larger scale of our study compared to related work allowed us to identify subtle daily and weekly performance patterns. We now extend this investigation by examining whether a major global event, such as Black Friday, affects the outcomes of performance benchmarks.
- 논문 ID: 2510.12397
- 제목: Should I Run My Cloud Benchmark on Black Friday?
- 저자: Sören Henning, Adriano Vogel, Esteban Perez-Wohlfeil, Otmar Ertl, Rick Rabiser
- 소속: Dynatrace Research, Linz, Austria; LIT CPS Lab, Johannes Kepler University Linz, Austria
- 분류: cs.SE (소프트웨어 공학), cs.DC (분산 컴퓨팅), cs.PF (성능 분석)
- 발표 시간: 2024년 10월 14일 (arXiv 사전인쇄본)
- 논문 링크: https://arxiv.org/abs/2510.12397
클라우드 환경에서의 벤치마크 테스트 및 성능 실험이 점점 더 일반화되고 있지만, 그 결과는 클라우드 성능의 높은 변동성으로 인해 자주 의문을 받으며, 이는 재현성과 신뢰도에 영향을 미친다. 본 연구는 수개월에 걸쳐 서로 다른 시간에 스트림 처리 애플리케이션 벤치마크를 반복 실행함으로써 이러한 변동성이 벤치마크 결과에 미치는 영향을 실증적으로 정량화했다. 분석 결과 애플리케이션 수준에서 성능 변동성이 실제로 존재하지만, 일반적으로 가정되는 정도보다 작음을 확인했다. 관련 연구와 비교하여, 본 연구의 더 큰 규모는 미묘한 일일 및 주기적 성능 패턴을 식별할 수 있게 해준다. 연구는 더 나아가 블랙프라이데이와 같은 전 지구적 주요 이벤트가 성능 벤치마크 결과에 미치는 영향을 조사했다.
조직이 클라우드 배포로 계속 전환함에 따라, 클라우드 환경에서 벤치마크 테스트 및 성능 실험을 수행하는 것이 연구 및 엔지니어링에서 일반적인 관행이 되었다. 그러나 클라우드 환경의 성능 측정은 다음과 같은 과제에 직면해 있다:
- 다중 테넌트 리소스 공유: 클라우드 워크로드가 기본 인프라를 다른 테넌트와 공유
- 하드웨어 추상화: 높은 수준의 하드웨어 추상화로 인한 변동성 도입
- 재현성 문제: 성능 측정이 변동할 수 있으며, 연구 간 의미 있는 비교에 영향
- 클라우드 벤치마크의 신뢰도는 성능 평가의 정확성에 직접적인 영향
- 성능 변동성 패턴 이해는 클라우드 리소스 구성 최적화에 실질적 의미
- 클라우드 환경에서의 벤치마크 테스트 모범 사례에 대한 실증적 근거 제공
- 대규모, 장기적 실증 연구 부족
- 애플리케이션 수준 성능 변동성의 정량적 분석 부족
- 전 지구적 이벤트가 클라우드 성능에 미치는 영향에 대한 충분한 고려 부족
- 대규모 종단 연구: 수개월에 걸친 반복 실험을 통해 1,000회 이상의 벤치마크 실행 데이터셋 수집
- 성능 패턴 식별: 클라우드 환경에서 미묘하지만 통계적으로 유의미한 일일 및 주기적 성능 패턴 발견
- 전 지구적 이벤트 영향 분석: 블랙프라이데이 등 주요 이벤트가 클라우드 벤치마크 성능에 미치는 영향을 최초로 정량적 분석
- 애플리케이션 수준 변동성 정량화: 클라우드 환경에서 분산 스트림 처리 애플리케이션의 성능 변동성에 대한 정확한 측정 제공
- 애플리케이션 유형: 분산 스트림 처리 애플리케이션 (데이터 집약적, 성능 중심의 분산 시스템을 대표)
- 벤치마크 도구: 오픈소스 클라우드 네이티브 스트림 처리 벤치마크 ShuffleBench 및 Kafka Streams 구현
- 성능 지표: 처리량(throughput), ShuffleBench의 즉시 측정 방법 사용
- 클라우드 플랫폼: Amazon Web Services (AWS)
- 서비스: Elastic Kubernetes Service (EKS)
- 클러스터 구성: 10개 노드, 다양한 크기의 m6i 인스턴스 사용
- 지리적 영역: us-east-1 (주요), eu-central-1 (검증)
AWS Elastic Container Service (ECS)의 스케줄 작업을 통해 자동화 구현:
- 클러스터 프로비저닝: 새로운 EKS 클러스터 생성
- 인프라 설치: Apache Kafka, 모니터링 도구 및 Theodolite 벤치마크 프레임워크 배포
- 벤치마크 실행: Theodolite를 통해 스트림 처리 애플리케이션 및 부하 생성기 시작, 15분 실행
- 반복 테스트: 각 실행마다 3회 반복
- 데이터 수집: 벤치마크 결과 저장, 인프라 언로드, 클러스터 중지
- 주요 실험 기간: 2024년 5월~7월, 2024년 9월 1주
- 실행 빈도: 6시간마다 실행 (완전한 일일 주기 포함)
- 고빈도 기간: 3주 내 3시간마다 실행 (더 세밀한 일일 패턴 포착)
- 블랙프라이데이 실험: 2024년 블랙프라이데이 전후 1주의 추가 실험
- 워밍업 기간: 처음 3분의 측정 데이터 제외
- 측정 윈도우: 남은 시간 동안의 평균 처리량 계산
- 출력: 각 벤치마크 실행마다 하나의 평균 처리량 값 생성
- 주요 지표: 처리량 (records/second)
- 변동성 측정: 변동 계수 (Coefficient of Variation, CV)
- 통계 분석: 신뢰 구간 (부트스트랩 방법으로 획득), 통계적 유의성 검정
- 시간 그룹화: 시간, 요일, 주별로 그룹화 분석
- 참조 패턴: 기준 일일 및 주기적 패턴 수립
- 이상 탐지: 블랙프라이데이 기간 성능 편차 식별
- 데이터 규모: 1,000회 이상의 벤치마크 실행
- 분포 특성: 처리량 분포는 명확한 중심 경향을 보이며, 사분위수 범위 내에서 거의 대칭이지만, 낮은 처리량 결과로의 약간의 편향으로 인해 정규분포가 아님
- 변동 계수: 3.69%, 문헌에서 보고된 미시 및 시스템 수준 벤치마크 변동성 범위의 하단에 위치
- 사분위수 범위: 측정값의 50%가 중앙값의 -2.4%~+2.3% 범위 내
실행 시간의 시간별 그룹화 분석을 통해 발견:
- 정오 저점: 정오 시간대에 실행된 벤치마크는 약간 낮은 성능 표시
- 야간 고점: 자정과 새벽 시간대에 최고 성능 달성
- 성능 차이: 평균값 차이 2.15%
- 통계적 유의성: 패턴이 통계적으로 유의미함
요일별 그룹화 분석 결과:
- 주말 우위: 주말에 실행된 벤치마크는 평일보다 약간 높은 성능 표시
- 수요일 최저: 수요일이 가장 낮은 성능 표시
- 최대 변동: 토요일에서 수요일까지의 평균 처리량 차이 2.52%
- 통계적 유의성: 패턴이 통계적으로 유의미함
- 주간 변동: 실행 주별 분해 시 작은 성능 변동 표시
- 추세 분석: 명확한 장기 패턴이나 추세 미관찰
- 계절성 제한: 실험이 연중 일부만 진행되어 다른 기간의 차이 가능성 배제 불가
- 성능 저하: 블랙프라이데이 오전에 명확한 성능 저하 발생
- 빠른 회복: 토요일 오전에 성능 회복
- 사전 상승: 블랙프라이데이 3일 전부터 통계적으로 유의미한 처리량 증가 (2.3%~3.3%)
- 당일 성능: 블랙프라이데이 당일은 전형적인 금요일 성능과 유의미한 차이 없음
- 계절성 변화: 2024년 11월이 여름 개월 대비 전체적 성능 향상, 블랙프라이데이에 임시 저하 발생
- 사전 리소스 공급: 클라우드 제공자가 블랙프라이데이 대응을 위해 사전에 추가 컴퓨팅 리소스를 공급하여 이전 며칠간 성능 향상
- 기초 연구: Leitner와 Cito (2016)의 공개 IaaS 클라우드 성능 변동성 및 예측 가능성 패턴 연구
- 실험 방법론: Abedi와 Brecht (2017)의 높은 변동성 클라우드 환경에서의 반복 가능한 실험 방법
- 방법론 원칙: Papadopoulos 등(2021)의 클라우드 컴퓨팅 재현 가능한 성능 평가 방법론 원칙
- 규모 우위: 관련 연구 대비 본 연구의 더 큰 규모는 더 미묘한 성능 패턴 식별 가능
- 애플리케이션 수준: 시스템 또는 미시 수준이 아닌 애플리케이션 수준의 성능 분석에 초점
- 시간 범위: 더 긴 시간 범위에 대한 더 최신의 특성화 제공
- 변동성 확인: 클라우드 환경의 애플리케이션 수준 벤치마크 성능은 실제로 명확한 변동성을 나타냄
- 적절한 정도: 변동성 정도는 상대적으로 작으며, 목표 성능 차이가 5% 미만일 때만 관련성 있음
- 패턴 존재: 시간, 요일 및 전 지구적 이벤트의 명확한 영향 식별
- 실질적 영향: 블랙프라이데이는 작지만 명확한 클라우드 성능 변동성 원인 도입
- 지리적 범위: 주요 실험이 us-east-1 지역에 집중
- 애플리케이션 유형: 스트림 처리 애플리케이션에 초점, 다른 유형의 애플리케이션에는 적용 불가능할 수 있음
- 시간 제한: 실험이 연중 일부만 진행되어 계절성 변화 누락 가능
- 통계적 검정력: 일부 효과는 신뢰 구간 중복으로 인해 통계적 유의성 미달성
- 애플리케이션 유형 확장: 다른 유형의 클라우드 네이티브 애플리케이션의 성능 변동성 연구
- 다중 지역 분석: 더 많은 지리적 지역에서 유사 연구 수행
- 장기 추세: 연도 간 장기 성능 추세 분석
- 이벤트 영향: 다른 주요 전 지구적 이벤트가 클라우드 성능에 미치는 영향 연구
- 방법론의 엄밀성: 대규모, 장기적 실증 연구 방법 채택, 포괄적 데이터 수집
- 실질적 의의: 연구 결과가 클라우드 환경 벤치마크 테스트 실무에 직접적 지도 가치
- 기술 혁신: 전 지구적 이벤트가 클라우드 벤치마크 테스트에 미치는 영향을 최초로 정량적 분석
- 통계적 엄격성: 부트스트랩 방법 및 신뢰 구간 분석을 포함한 적절한 통계 방법 사용
- 재현성: 실험 설정 및 자동화 프로세스에 대한 상세한 설명
- 애플리케이션 범위 제한: 스트림 처리 애플리케이션만 초점, 일반화 능력 제한
- 인과관계: 관찰된 성능 패턴에 대한 심층적 인과 분석 부족
- 비용 고려: 대규모 실험의 비용-편익 분석 미논의
- 실무 조언: 실무자를 위한 구체적 운영 조언 부족
- 학술적 기여: 클라우드 성능 연구에 중요한 실증 데이터 및 방법론 참고 제공
- 공학 실무: 클라우드 환경 벤치마크 테스트 시기 선택에 과학적 근거 제공
- 표준 제정: 클라우드 성능 벤치마크 표준 및 모범 사례 제정에 영향 가능
- 성능 공학: 클라우드 환경 성능 최적화 및 용량 계획
- 벤치마크 테스트: 클라우드 네이티브 애플리케이션 성능 평가의 시기 선택
- 리소스 관리: 클라우드 리소스 스케줄링 및 부하 분산 전략 수립
- 학술 연구: 클라우드 컴퓨팅 성능 분석 및 모델링 연구
본 논문은 클라우드 성능 변동성, 실험 방법론, 벤치마크 도구 등 주요 분야를 포함하는 8편의 중요 참고문헌을 인용했다:
- Leitner & Cito (2016) - 공개 IaaS 클라우드 성능 변동성 패턴 연구
- Abedi & Brecht (2017) - 클라우드 환경 반복 가능한 실험 방법
- Papadopoulos et al. (2021) - 클라우드 컴퓨팅 성능 평가 방법론
- Henning & Hasselbring (2022) - 클라우드 네이티브 애플리케이션 확장성 벤치마크 방법
- Horwitz (2022) - 블랙프라이데이 트래픽이 관찰성 전략에 미치는 영향
- Vogel et al. (2023) - 분산 스트림 처리 시스템 성능 체계적 매핑
- Henning et al. (2024) - ShuffleBench 벤치마크 도구
- Henning et al. (2025) - 스트림 처리 애플리케이션 클라우드 성능 변동성 연구
요약: 이는 대규모 실험을 통해 클라우드 환경 벤치마크 테스트에 중요한 통찰력을 제공하는 고품질의 실증 연구 논문이다. 연구 방법론이 엄밀하고 결과가 실질적 지도 가치를 가지며, 클라우드 성능 공학 및 벤치마크 테스트 분야의 중요한 기여이다.