2025-11-21T14:04:16.070008

How to Evaluate Distributed Coordination Systems? -- A Survey and Analysis

Turkkan, Rodrigues, Kosar et al.

Coordination services and protocols are critical components of distributed systems and are essential for providing consistency, fault tolerance, and scalability. However, due to the lack of standard benchmarking and evaluation tools for distributed coordination services, coordination service developers/researchers either use a NoSQL standard benchmark and omit evaluating consistency, distribution, and fault tolerance; or create their own ad-hoc microbenchmarks and skip comparability with other services. In this study, we analyze and compare the evaluation mechanisms for known and widely used consensus algorithms, distributed coordination services, and distributed applications built on top of these services. We identify the most important requirements of distributed coordination service benchmarking, such as the metrics and parameters for the evaluation of the performance, scalability, availability, and consistency of these systems. Finally, we discuss why the existing benchmarks fail to address the complex requirements of distributed coordination system evaluation.

academic

분산 조정 시스템을 어떻게 평가할 것인가? -- 조사 및 분석

기본 정보

논문 ID: 2403.09445
제목: How to Evaluate Distributed Coordination Systems? -- A Survey and Analysis
저자: Bekir Turkkan (IBM Research), Elvis Rodrigues (University at Buffalo), Tevfik Kosar (University at Buffalo), Aleksey Charapko (University of New Hampshire), Ailidani Ailijiang (Microsoft), Murat Demirbas (MongoDB)
분류: cs.DC (분산 컴퓨팅)
발표 시간: arXiv 프리프린트, 2025년 10월 27일 최종 업데이트
논문 링크: https://arxiv.org/abs/2403.09445

초록

분산 조정 서비스와 프로토콜은 분산 시스템의 핵심 구성 요소이며, 일관성, 내결함성 및 확장성 제공에 필수적입니다. 그러나 표준화된 벤치마킹 및 평가 도구의 부재로 인해, 분산 조정 서비스의 개발자와 연구자들은 일관성, 분산성 및 내결함성 평가를 무시하는 NoSQL 표준 벤치마크를 사용하거나, 다른 서비스와 비교할 수 없는 자체 임시 마이크로벤치마크를 만듭니다. 본 연구는 알려진 광범위하게 사용되는 합의 알고리즘, 분산 조정 서비스 및 이러한 서비스를 기반으로 구축된 분산 애플리케이션의 평가 메커니즘을 분석하고 비교합니다. 저자들은 성능, 확장성, 가용성 및 일관성 평가의 지표 및 매개변수와 같은 분산 조정 서비스 벤치마킹의 가장 중요한 요구사항을 식별했습니다. 마지막으로, 기존 벤치마크가 분산 조정 시스템 평가의 복잡한 요구사항을 충족할 수 없는 이유를 논의합니다.

연구 배경 및 동기

1. 해결해야 할 핵심 문제

분산 조정 시스템(합의 알고리즘, 조정 서비스 및 분산 애플리케이션 포함)은 표준화된 평가 벤치마크가 부족하여 다음을 초래합니다:

불완전한 평가: 개발자들은 NoSQL 벤치마크(예: YCSB)를 사용하지만 일관성, 분산성 및 내결함성을 무시합니다
낮은 비교 가능성: 각 시스템은 사용자 정의 마이크로벤치마크를 사용하며, 서로 다른 지표와 기법을 채택하여 공정한 비교가 불가능합니다
평가 단편화: 성능, 확장성, 가용성 및 일관성을 포괄적으로 평가하기 위한 통일된 프레임워크가 없습니다

2. 문제의 중요성

실제 요구사항: 클라우드 컴퓨팅 및 빅데이터 애플리케이션(검색 엔진, 소셜 네트워크, 비디오 스트리밍, IoT)은 모두 분산 조정에 의존합니다
기술 진화: Paxos에서 Raft로, 그리고 WPaxos, SwiftPaxos 등 WAN 최적화 변형으로 계속 진화합니다
광범위한 응용: Google Spanner, Apache Kafka, Twitter Manhattan 등 핵심 시스템은 모두 조정 서비스에 의존합니다
평가 복잡성: 분산 조정 시스템은 성능, 일관성, 내결함성 및 지리적 분산 등 다차원적 특성을 동시에 고려해야 합니다

3. 기존 방법의 한계

기존 벤치마크 도구의 부족:

YCSB: 단일 클라이언트 프로세스, 데이터 액세스 중복, 액세스 지역성 등 핵심 매개변수를 지원하지 않습니다
TPC-C: 주로 트랜잭션 처리에 중점을 두며, 조정 서비스의 특정 요구사항에 부적합합니다
Jepsen: 도구 내부에 대한 깊은 이해가 필요하며, 블랙박스 테스트가 아니므로 채택이 어렵습니다
WAN 지원 부족: 대부분의 도구는 지리적으로 분산된 시나리오 평가를 지원하지 않습니다

4. 연구 동기

본 논문은 30개 이상의 분산 조정 시스템의 평가 실무를 체계적으로 조사하여 다음을 목표로 합니다:

현재 평가 실무의 공통점과 차이점 식별
분산 조정 시스템 평가의 핵심 요구사항 추출
기존 벤치마크 도구의 결함 분석
향후 표준화된 벤치마크 도구 개발을 위한 지침 제공

핵심 기여

체계적 조사: 30개 이상의 분산 조정 시스템(13개 합의 알고리즘, 10개 조정 서비스, 7개 분산 애플리케이션 포함)의 평가 실무 분석
토폴로지 분류: 6가지 실험 토폴로지 구조(평면형, 별형, 다중 별형, 계층형, 격자형, 중앙 로그형) 식별 및 정의로 시스템 아키텍처 이해를 위한 프레임워크 제공
지표 및 매개변수 체계:
- 4가지 주요 평가 지표 체계적 정리: 성능, 확장성, 가용성, 일관성
- 핵심 워크로드 매개변수 식별: 읽기/쓰기 비율, 데이터 액세스 중복, 액세스 지역성, 객체 수 및 크기 등
벤치마크 요구사항: 분산 조정 시스템 벤치마킹의 7가지 핵심 요구사항 제시:
- 유연성 및 복잡성
- WAN 시스템 지원
- 벤치마크 확장성
- 채택 용이성
- 블랙박스 테스트 능력
- 일관성 검증 능력
- 장애 주입 능력
격차 분석: 10개 이상의 기존 벤치마크 도구(YCSB, TPC-C, Jepsen, Elle 등)의 능력 및 부족점 체계적 분석
실무 지침: 연구자 및 엔지니어를 위한 분산 조정 시스템 평가의 모범 사례 및 주의사항 제공

방법론 상세 설명

작업 정의

본 논문은 새로운 기술 방법을 제시하는 것이 아니라 체계적 조사 및 분석을 수행하며, 작업은 다음을 포함합니다:

입력: 30개 이상의 분산 조정 시스템의 논문 및 평가 자료
처리: 평가 토폴로지, 지표, 매개변수, 도구 등 정보 추출
출력: 평가 실무의 체계적 요약, 요구사항 분석 및 도구 능력 비교

연구 방법

1. 시스템 선택 기준

저자들은 관련성, 시의성 및 영향력에 따라 3가지 범주의 시스템을 선택했습니다:

범주 I: 합의 알고리즘(13개)

Paxos 변형: Mencius, FPaxos, Multi-Paxos, Hybrid-Paxos, E-Paxos, M2 Paxos, WPaxos, SwiftPaxos, Omni-Paxos
기타 프로토콜: Raft, Bizur, ZAB, Hydra

범주 II: 조정 서비스(10개)

ZooKeeper, Tango, Calvin, WanKeeper, ZooNet, Boki, FlexLog, SplitFT, Fabric, Narwhal

범주 III: 분산 애플리케이션(7개)

Spanner, DistributedLog, PNUTS, COPS, CockroachDB, OceanBase, ScalarDB

2. 토폴로지 분류 프레임워크

저자들은 쿼럼 생성 방식 및 요청 처리 방식에 따라 6가지 토폴로지를 정의했습니다:

토폴로지 유형	특징	대표 시스템
평면형 토폴로지	다중 리더 또는 리더 없음, 동시 업데이트 허용	Mencius, E-Paxos
별형 토폴로지	단일 리더 프로토콜	ZooKeeper, Raft, Hybrid-Paxos
다중 별형 토폴로지	다중 쿼럼, 각각 별형, 리더 간 평면 통신	ZooNet, M2 Paxos, Spanner
계층형 토폴로지	다중 별형이지만 리더 간 계층 구조	WanKeeper
격자형 토폴로지	성능 최적화를 위해 격자 쿼럼 사용	FPaxos, WPaxos
중앙 로그 토폴로지	공유 지속성 로그가 실행 순서 기록	Tango, Boki, Calvin

3. 데이터 추출 및 분석

각 시스템의 논문에서 다음을 추출했습니다:

실험 설정: 지역 수, 서버 수, 클라이언트 수, 테스트 플랫폼, 벤치마크 도구
평가 지표: 처리량, 지연시간, 확장성, 가용성, 일관성
워크로드 매개변수: 읽기/쓰기 비율, 객체 수/크기, 데이터 액세스 중복, 액세스 지역성

실험 설정(조사 결과)

실험 토폴로지 분포

저자들은 30개 시스템의 실험 설정을 분석하여 주요 발견사항을 도출했습니다:

지리적 분산:

단일 지역 배포: 대부분의 시스템(예: Raft, Multi-Paxos, ZooKeeper)
다중 지역 배포: WAN 최적화 시스템(예: WPaxos 5개 지역 15개 서버, SwiftPaxos 13개 지역)
실제 클라우드 환경: Amazon EC2, Google Compute Engine, Alibaba ECS
제어된 환경: Emulab, DETER(네트워크 지연 제어 가능)

클러스터 규모:

소규모: 3-13개 서버(대부분의 합의 알고리즘)
중규모: 15-100개 서버(조정 서비스)
대규모: OceanBase는 1,557개 서버, 360,000개 클라이언트/서버에 도달

클라이언트 구성:

단일 클라이언트: Bizur, Omni-Paxos
다중 스레드 클라이언트: Multi-Paxos(1-20개 스레드)
분산 클라이언트: E-Paxos(50개 클라이언트), PNUTS(300개 클라이언트)

평가 지표 사용 현황

표 2의 통계에 따르면:

지표 범주	평가 시스템 수	커버리지
성능-처리량	28/30	93%
성능-지연시간	27/30	90%
확장성-서버	14/30	47%
확장성-클라이언트	8/30	27%
가용성-장애	14/30	47%
가용성-분할	5/30	17%
일관성	8/30	27%

핵심 발견:

성능 평가는 거의 보편적이지만, 일관성 평가는 심각하게 부족합니다
네트워크 분할 테스트는 노드 장애 테스트보다 훨씬 적습니다
확장성 평가는 일반적으로 서버 수에만 초점을 맞추고 지역 확장을 무시합니다

실험 결과(조사 발견)

주요 발견 1: 워크로드 매개변수 사용의 불일치

표 3의 분석에 따르면:

읽기/쓰기 비율

100% 쓰기 작업: Multi-Paxos, E-Paxos, Hybrid-Paxos(충돌 명령 중점)
0-100% 변화: ZooKeeper, WanKeeper(다양한 시나리오 표시)
고정 비율: COPS(50% 쓰기), PNUTS(10% 쓰기)
미지정: Raft, FPaxos 등 여러 시스템

문제: 서로 다른 읽기/쓰기 비율에서 성능 차이가 매우 크지만, 많은 시스템은 단일 구성만 테스트합니다

데이터 액세스 중복

100% 중복: Mencius, E-Paxos, Hybrid-Paxos(최악의 경우)
0-100% 변화: WanKeeper, Boki, FlexLog
미평가: 대부분의 단일 리더 시스템(성능 영향이 작기 때문)

핵심 통찰: 다중 리더 시스템 성능은 액세스 중복에 심각하게 의존하지만, 평가에서 자주 무시됩니다

액세스 지역성

평가 시스템: M2 Paxos(0-100%), WPaxos(70-90%), COPS(0-100%)
미평가: 대부분의 시스템
중요성: 소유권 메커니즘을 사용하는 시스템에 막대한 영향

객체 수

지정 시스템: Mencius(16-1024), M2 Paxos(1-1000), Omni-Paxos(500-50K)
대부분 미지정: 충돌률 이해를 제한합니다

객체 크기

소형 객체: 6B-1KB(CPU 집약적 워크로드)
대형 객체: 1KB-8KB(네트워크 집약적 워크로드)
변화 범위: Mencius(6B-4KB), SplitFT(128B-8KB)

주요 발견 2: 확장성 평가 방법의 다양성

워크로드 확장성:

Hybrid-Paxos, E-Paxos: 동시 클라이언트 수 증가
WPaxos: 클라이언트 속도 제한 정도 조정
대부분의 시스템: 포화 지점까지 테스트

시스템 확장성:

수평 확장: ZooKeeper(3-13개 복제본), Calvin(4-100개 복제본)
지역 확장: E-Paxos 및 Mencius(3-7개 지역)
수직 확장: M2 Paxos(CPU 성능 변화)

문제: 통일된 확장성 테스트 방법이 없어 서로 다른 시스템 비교가 어렵습니다

주요 발견 3: 일관성 평가 심각하게 부족

현재 실무:

테스트 도구: Bizur는 Serialla 사용, Multi-Paxos는 체크섬 검사 사용
Jepsen 테스트: ZooKeeper, CockroachDB(선형화 검증)
Elle 테스트: ScalarDB(엄격한 직렬화 가능성 검증)
부실성 측정: ZooNet, PNUTS, BG(하지만 강한 일관성을 증명할 수 없음)

핵심 문제:

대부분의 시스템은 "강한 일관성"을 주장하지만 정의가 모호합니다
체계적인 일관성 검증 방법이 부족합니다
부실성 측정은 선형화 또는 직렬화 가능성을 검증하기에 불충분합니다

주요 발견 4: 가용성 평가는 충돌 장애에 집중

표 4에 따르면:

장애 유형:

노드 충돌: 가장 일반적(14/30개 시스템)
네트워크 분할: 덜 일반적(5/30개 시스템)
기타 장애: 시계 드리프트, 메모리 손상 등은 거의 테스트되지 않음

장애 수:

단일 노드 장애: 대부분의 시스템
다중 노드 장애: ZooKeeper(2개 팔로워), Omni-Paxos(1-2개 노드)

테스트 방법:

장애 중 처리량 저하 측정
Spanner: 전체 지역 충돌이지만 Paxos 그룹은 여전히 사용 가능
Hybrid-Paxos: 복제본 수 증가로 가용성 향상 테스트

결론 및 논의

주요 결론

평가 실무 단편화: 30개 시스템 중 7개만 표준 벤치마크(YCSB, TPC-C, Jepsen)를 사용하며, 대부분은 사용자 정의 마이크로벤치마크를 사용합니다
지표 커버리지 불균형:
- 성능 평가는 보편적(93% 시스템)
- 일관성 평가는 부족(27% 시스템)
- 네트워크 분할 테스트는 드문(17% 시스템)
매개변수 사용의 불일치:
- 핵심 매개변수(액세스 지역성, 데이터 액세스 중복)는 자주 무시됩니다
- 표준화된 매개변수 구성이 부족합니다
- 서로 다른 시스템의 공정한 비교가 어렵습니다
기존 벤치마크 부족:
- YCSB: 분산 클라이언트, WAN 시나리오, 액세스 지역성을 지원하지 않습니다
- TPC-C: 조정 서비스를 대상으로 하지 않습니다
- Jepsen: 블랙박스가 아니며 채택이 어렵습니다
- 모든 요구사항을 충족하는 도구가 없습니다
7가지 벤치마크 요구사항:
- 유연성 및 복잡성(다차원 매개변수 조정 지원)
- WAN 시스템 지원(지리적 분산, 불균형 지연)
- 확장성(분산 부하 생성)
- 채택 용이성(블랙박스 테스트, 언어 무관)
- 성능 벤치마킹(처리량, 지연시간, 꼬리 지연시간)
- 일관성 검증(선형화, 직렬화 가능성)
- 장애 주입(충돌, 분할, 시계 드리프트)

한계

표본 커버리지: 30개 시스템을 포함하지만 일부 신흥 시스템이나 특정 영역의 조정 서비스를 놓칠 수 있습니다
시의성: 분산 시스템이 빠르게 진화하므로 새로운 평가 실무 및 도구가 계속 나타납니다
깊이 분석: 각 시스템의 평가 실무 분석은 공개 논문을 기반으로 하므로 모든 구현 세부사항을 얻을 수 없을 수 있습니다
벤치마크 도구 구현: 본 논문은 요구사항을 식별하지만 완전한 벤치마크 도구를 구현하지 않습니다
일관성 모델: 서로 다른 시스템이 주장하는 "강한 일관성"의 정의가 다르므로 통일된 평가 표준을 설정하기 어렵습니다

향후 방향

표준화된 벤치마크 도구 개발:
- 분산 클라이언트 및 WAN 시나리오 지원
- 유연한 매개변수 구성 제공
- 일관성 검증 능력 통합
- 다양한 장애 주입 지원
평가 표준 수립:
- 최소 필수 평가 지표 집합 정의
- 워크로드 매개변수 구성 표준화
- 일관성 검증 프로토콜 제정
조사 범위 확대:
- 더 많은 신흥 조정 프로토콜 포함(예: DAG 기반 합의)
- 블록체인 합의 알고리즘의 평가 실무 분석
- 엣지 컴퓨팅 시나리오의 조정 요구사항 연구
실증 연구:
- 표준 벤치마크를 사용하여 기존 시스템 재평가
- 서로 다른 매개변수가 성능에 미치는 영향 정량화
- 주장된 일관성 보장 검증
자동화된 테스트:
- 자동화된 일관성 검증 도구 개발
- 지속적 통합/지속적 배포(CI/CD) 통합
- 회귀 테스트 지원

심층 평가

장점

1. 체계성 및 포괄성

광도: 30개 시스템 포함, 20년 연구 역사 걸침(Paxos 1998 - 최신 시스템 2024)
깊이: 실험 설정, 토폴로지, 지표, 매개변수 상세 분석
분류 명확: 3계층 분류(알고리즘-서비스-애플리케이션) + 6가지 토폴로지 유형

2. 높은 실용 가치

지도 의미: 개발자에게 평가 모범 사례 제공
요구사항 명확: 7가지 벤치마크 요구사항이 실행 가능합니다
문제 지향: 기존 도구의 구체적 부족점을 명확히 지적합니다

3. 풍부한 데이터

3개 종합 표: 표 1(실험 설정), 표 2(지표 사용), 표 3(워크로드 매개변수)
정량 분석: 지표 커버리지율, 매개변수 사용 빈도
시각화: 6가지 토폴로지의 명확한 다이어그램

4. 객관적 중립성

특정 시스템이나 벤치마크 도구에 편향되지 않습니다
각 도구의 장단점을 공정하게 분석합니다
주관적 판단이 아닌 사실 기반 평가입니다

5. 학술적 엄밀성

85개 참고문헌 인용
명확한 방법론(선택 기준, 분석 프레임워크)
충분한 데이터로 뒷받침된 결론

부족점

1. 정량적 비교 부족

서로 다른 평가 방법의 성능 차이 데이터 미제공
매개변수 선택이 결과에 미치는 영향 정량화 없음
통계 분석 부족(예: 상관성, 유의성 검정)

2. 구현 검증 부족

요구사항을 충족하는 벤치마크 도구를 실제로 개발하지 않았습니다
제시된 요구사항의 실행 가능성을 실험으로 검증하지 않았습니다
원형 시스템의 평가가 없습니다

3. 일관성 평가 분석 얕음

서로 다른 일관성 모델 간 차이에 대한 논의가 충분하지 않습니다
구체적인 일관성 검증 방법론을 제공하지 않습니다
일관성 테스트의 복잡도 분석이 부족합니다

4. WAN 시나리오 분석 제한적

WAN의 중요성을 강조하지만 구체적 분석이 부족합니다
서로 다른 지리적 분산 패턴의 영향에 대한 상세 논의 없음
클라우드 간, 대륙 간 배포의 특수한 과제 미논의

5. 신흥 트렌드 커버리지 부족

블록체인 합의 알고리즘 평가 실무 미포함
엣지 컴퓨팅 시나리오의 조정 요구사항 미논의
머신러닝 시스템의 조정 평가 미포함

6. 재현성 지침 부족

상세한 실험 재현 가이드 미제공
오픈소스 데이터셋 또는 평가 스크립트 없음
평가 재현성 보장 방법에 대한 논의 없음

영향력

1. 학술적 기여

공백 채우기: 분산 조정 시스템 평가 실무의 첫 체계적 조사
이론적 가치: 평가 프레임워크 및 요구사항 체계 수립
인용 잠재력: 해당 분야 평가 방법의 참고 문헌이 될 가능성

2. 실용적 가치

공학 지침: 개발자가 적절한 평가 방법 선택 지원
벤치마크 개발: 새 벤치마크 도구의 요구사항 규격 제공
표준화 추진: 평가 표준 수립 촉진 가능성

3. 한계

구현 부재: 직접 사용 가능한 도구 미제공
검증 부족: 요구사항의 실행 가능성이 실증적으로 검증되지 않음
업데이트 필요: 빠르게 진화하는 분야는 지속적 업데이트 필요

4. 적용 범위

직접 적용: 분산 조정 시스템 연구자 및 엔지니어
간접 적용: 분산 데이터베이스, 블록체인, 클라우드 컴퓨팅 시스템 개발자
교육 가치: 분산 시스템 과정의 참고 자료로 활용 가능

적용 시나리오

1. 연구 시나리오

새 프로토콜 개발: 평가 방안 설계 시 요구사항 체크리스트 참고
시스템 비교: 적절한 지표 및 매개변수 선택으로 공정한 비교 수행
논문 작성: 표준 평가 실무 인용으로 신뢰성 강화

2. 공학 시나리오

시스템 선택: 평가 결과 및 한계 이해
성능 최적화: 성능에 영향을 미치는 핵심 매개변수 식별
장애 테스트: 포괄적인 가용성 테스트 방안 설계

3. 교육 시나리오

과정 교수: 분산 시스템 평가 방법론 소개
프로젝트 실습: 학생의 실험 및 평가 방안 설계 지도
문헌 종합: 해당 분야의 연구 현황 이해

4. 표준화 시나리오

벤치마크 개발: 요구사항 규격 문서로 활용
산업 표준: 평가 표준 제정 추진
인증 테스트: 조정 서비스의 준수성 테스트 설계

참고문헌(정선)

고전 합의 알고리즘

Lamport, L. (1998). The part-time parliament. ACM TOCS - Paxos 원본 논문
Ongaro, D. & Ousterhout, J. (2014). In search of an understandable consensus algorithm. USENIX ATC - Raft 알고리즘

조정 서비스

Hunt, P. et al. (2010). ZooKeeper: Wait-free coordination for internet-scale systems. USENIX ATC
Balakrishnan, M. et al. (2013). Tango: Distributed data structures over a shared log. SOSP

벤치마크 도구

Cooper, B.F. et al. (2010). Benchmarking cloud serving systems with YCSB. SoCC
Kingsbury, K. (2024). Jepsen tests - 일관성 테스트 프레임워크
Kingsbury, K. & Alvaro, P. (2020). Elle: Inferring Isolation Anomalies from Experimental Observations

WAN 최적화

Ailijiang, A. et al. (2017). Multileader WAN Paxos: Ruling the archipelago with fast consensus - WPaxos
Mao, Y. et al. (2008). Mencius: Building efficient replicated state machines for WANs. OSDI

분산 애플리케이션

Corbett, J.C. et al. (2013). Spanner: Google's globally distributed database. ACM TOCS

요약: 본 논문은 분산 조정 시스템 평가 분야의 중요한 종합 연구로, 현재 평가 실무의 단편화 문제를 체계적으로 드러내고 표준화된 벤치마킹의 요구사항을 제시합니다. 실제 도구 구현이 부족하지만, 향후 연구 및 공학 실무에 명확한 방향을 제공합니다. 분산 시스템 연구자 및 엔지니어에게 이 분야의 평가 방법론을 이해하기 위한 필독 문헌입니다.