Coordination services and protocols are critical components of distributed systems and are essential for providing consistency, fault tolerance, and scalability. However, due to the lack of standard benchmarking and evaluation tools for distributed coordination services, coordination service developers/researchers either use a NoSQL standard benchmark and omit evaluating consistency, distribution, and fault tolerance; or create their own ad-hoc microbenchmarks and skip comparability with other services. In this study, we analyze and compare the evaluation mechanisms for known and widely used consensus algorithms, distributed coordination services, and distributed applications built on top of these services. We identify the most important requirements of distributed coordination service benchmarking, such as the metrics and parameters for the evaluation of the performance, scalability, availability, and consistency of these systems. Finally, we discuss why the existing benchmarks fail to address the complex requirements of distributed coordination system evaluation.
- 논문 ID: 2403.09445
- 제목: How to Evaluate Distributed Coordination Systems? -- A Survey and Analysis
- 저자: Bekir Turkkan (IBM Research), Elvis Rodrigues (University at Buffalo), Tevfik Kosar (University at Buffalo), Aleksey Charapko (University of New Hampshire), Ailidani Ailijiang (Microsoft), Murat Demirbas (MongoDB)
- 분류: cs.DC (분산 컴퓨팅)
- 발표 시간: arXiv 프리프린트, 2025년 10월 27일 최종 업데이트
- 논문 링크: https://arxiv.org/abs/2403.09445
분산 조정 서비스와 프로토콜은 분산 시스템의 핵심 구성 요소이며, 일관성, 내결함성 및 확장성 제공에 필수적입니다. 그러나 표준화된 벤치마킹 및 평가 도구의 부재로 인해, 분산 조정 서비스의 개발자와 연구자들은 일관성, 분산성 및 내결함성 평가를 무시하는 NoSQL 표준 벤치마크를 사용하거나, 다른 서비스와 비교할 수 없는 자체 임시 마이크로벤치마크를 만듭니다. 본 연구는 알려진 광범위하게 사용되는 합의 알고리즘, 분산 조정 서비스 및 이러한 서비스를 기반으로 구축된 분산 애플리케이션의 평가 메커니즘을 분석하고 비교합니다. 저자들은 성능, 확장성, 가용성 및 일관성 평가의 지표 및 매개변수와 같은 분산 조정 서비스 벤치마킹의 가장 중요한 요구사항을 식별했습니다. 마지막으로, 기존 벤치마크가 분산 조정 시스템 평가의 복잡한 요구사항을 충족할 수 없는 이유를 논의합니다.
분산 조정 시스템(합의 알고리즘, 조정 서비스 및 분산 애플리케이션 포함)은 표준화된 평가 벤치마크가 부족하여 다음을 초래합니다:
- 불완전한 평가: 개발자들은 NoSQL 벤치마크(예: YCSB)를 사용하지만 일관성, 분산성 및 내결함성을 무시합니다
- 낮은 비교 가능성: 각 시스템은 사용자 정의 마이크로벤치마크를 사용하며, 서로 다른 지표와 기법을 채택하여 공정한 비교가 불가능합니다
- 평가 단편화: 성능, 확장성, 가용성 및 일관성을 포괄적으로 평가하기 위한 통일된 프레임워크가 없습니다
- 실제 요구사항: 클라우드 컴퓨팅 및 빅데이터 애플리케이션(검색 엔진, 소셜 네트워크, 비디오 스트리밍, IoT)은 모두 분산 조정에 의존합니다
- 기술 진화: Paxos에서 Raft로, 그리고 WPaxos, SwiftPaxos 등 WAN 최적화 변형으로 계속 진화합니다
- 광범위한 응용: Google Spanner, Apache Kafka, Twitter Manhattan 등 핵심 시스템은 모두 조정 서비스에 의존합니다
- 평가 복잡성: 분산 조정 시스템은 성능, 일관성, 내결함성 및 지리적 분산 등 다차원적 특성을 동시에 고려해야 합니다
기존 벤치마크 도구의 부족:
- YCSB: 단일 클라이언트 프로세스, 데이터 액세스 중복, 액세스 지역성 등 핵심 매개변수를 지원하지 않습니다
- TPC-C: 주로 트랜잭션 처리에 중점을 두며, 조정 서비스의 특정 요구사항에 부적합합니다
- Jepsen: 도구 내부에 대한 깊은 이해가 필요하며, 블랙박스 테스트가 아니므로 채택이 어렵습니다
- WAN 지원 부족: 대부분의 도구는 지리적으로 분산된 시나리오 평가를 지원하지 않습니다
본 논문은 30개 이상의 분산 조정 시스템의 평가 실무를 체계적으로 조사하여 다음을 목표로 합니다:
- 현재 평가 실무의 공통점과 차이점 식별
- 분산 조정 시스템 평가의 핵심 요구사항 추출
- 기존 벤치마크 도구의 결함 분석
- 향후 표준화된 벤치마크 도구 개발을 위한 지침 제공
- 체계적 조사: 30개 이상의 분산 조정 시스템(13개 합의 알고리즘, 10개 조정 서비스, 7개 분산 애플리케이션 포함)의 평가 실무 분석
- 토폴로지 분류: 6가지 실험 토폴로지 구조(평면형, 별형, 다중 별형, 계층형, 격자형, 중앙 로그형) 식별 및 정의로 시스템 아키텍처 이해를 위한 프레임워크 제공
- 지표 및 매개변수 체계:
- 4가지 주요 평가 지표 체계적 정리: 성능, 확장성, 가용성, 일관성
- 핵심 워크로드 매개변수 식별: 읽기/쓰기 비율, 데이터 액세스 중복, 액세스 지역성, 객체 수 및 크기 등
- 벤치마크 요구사항: 분산 조정 시스템 벤치마킹의 7가지 핵심 요구사항 제시:
- 유연성 및 복잡성
- WAN 시스템 지원
- 벤치마크 확장성
- 채택 용이성
- 블랙박스 테스트 능력
- 일관성 검증 능력
- 장애 주입 능력
- 격차 분석: 10개 이상의 기존 벤치마크 도구(YCSB, TPC-C, Jepsen, Elle 등)의 능력 및 부족점 체계적 분석
- 실무 지침: 연구자 및 엔지니어를 위한 분산 조정 시스템 평가의 모범 사례 및 주의사항 제공
본 논문은 새로운 기술 방법을 제시하는 것이 아니라 체계적 조사 및 분석을 수행하며, 작업은 다음을 포함합니다:
- 입력: 30개 이상의 분산 조정 시스템의 논문 및 평가 자료
- 처리: 평가 토폴로지, 지표, 매개변수, 도구 등 정보 추출
- 출력: 평가 실무의 체계적 요약, 요구사항 분석 및 도구 능력 비교
저자들은 관련성, 시의성 및 영향력에 따라 3가지 범주의 시스템을 선택했습니다:
범주 I: 합의 알고리즘(13개)
- Paxos 변형: Mencius, FPaxos, Multi-Paxos, Hybrid-Paxos, E-Paxos, M2 Paxos, WPaxos, SwiftPaxos, Omni-Paxos
- 기타 프로토콜: Raft, Bizur, ZAB, Hydra
범주 II: 조정 서비스(10개)
- ZooKeeper, Tango, Calvin, WanKeeper, ZooNet, Boki, FlexLog, SplitFT, Fabric, Narwhal
범주 III: 분산 애플리케이션(7개)
- Spanner, DistributedLog, PNUTS, COPS, CockroachDB, OceanBase, ScalarDB
저자들은 쿼럼 생성 방식 및 요청 처리 방식에 따라 6가지 토폴로지를 정의했습니다:
| 토폴로지 유형 | 특징 | 대표 시스템 |
|---|
| 평면형 토폴로지 | 다중 리더 또는 리더 없음, 동시 업데이트 허용 | Mencius, E-Paxos |
| 별형 토폴로지 | 단일 리더 프로토콜 | ZooKeeper, Raft, Hybrid-Paxos |
| 다중 별형 토폴로지 | 다중 쿼럼, 각각 별형, 리더 간 평면 통신 | ZooNet, M2 Paxos, Spanner |
| 계층형 토폴로지 | 다중 별형이지만 리더 간 계층 구조 | WanKeeper |
| 격자형 토폴로지 | 성능 최적화를 위해 격자 쿼럼 사용 | FPaxos, WPaxos |
| 중앙 로그 토폴로지 | 공유 지속성 로그가 실행 순서 기록 | Tango, Boki, Calvin |
각 시스템의 논문에서 다음을 추출했습니다:
- 실험 설정: 지역 수, 서버 수, 클라이언트 수, 테스트 플랫폼, 벤치마크 도구
- 평가 지표: 처리량, 지연시간, 확장성, 가용성, 일관성
- 워크로드 매개변수: 읽기/쓰기 비율, 객체 수/크기, 데이터 액세스 중복, 액세스 지역성
저자들은 30개 시스템의 실험 설정을 분석하여 주요 발견사항을 도출했습니다:
지리적 분산:
- 단일 지역 배포: 대부분의 시스템(예: Raft, Multi-Paxos, ZooKeeper)
- 다중 지역 배포: WAN 최적화 시스템(예: WPaxos 5개 지역 15개 서버, SwiftPaxos 13개 지역)
- 실제 클라우드 환경: Amazon EC2, Google Compute Engine, Alibaba ECS
- 제어된 환경: Emulab, DETER(네트워크 지연 제어 가능)
클러스터 규모:
- 소규모: 3-13개 서버(대부분의 합의 알고리즘)
- 중규모: 15-100개 서버(조정 서비스)
- 대규모: OceanBase는 1,557개 서버, 360,000개 클라이언트/서버에 도달
클라이언트 구성:
- 단일 클라이언트: Bizur, Omni-Paxos
- 다중 스레드 클라이언트: Multi-Paxos(1-20개 스레드)
- 분산 클라이언트: E-Paxos(50개 클라이언트), PNUTS(300개 클라이언트)
표 2의 통계에 따르면:
| 지표 범주 | 평가 시스템 수 | 커버리지 |
|---|
| 성능-처리량 | 28/30 | 93% |
| 성능-지연시간 | 27/30 | 90% |
| 확장성-서버 | 14/30 | 47% |
| 확장성-클라이언트 | 8/30 | 27% |
| 가용성-장애 | 14/30 | 47% |
| 가용성-분할 | 5/30 | 17% |
| 일관성 | 8/30 | 27% |
핵심 발견:
- 성능 평가는 거의 보편적이지만, 일관성 평가는 심각하게 부족합니다
- 네트워크 분할 테스트는 노드 장애 테스트보다 훨씬 적습니다
- 확장성 평가는 일반적으로 서버 수에만 초점을 맞추고 지역 확장을 무시합니다
표 3의 분석에 따르면:
- 100% 쓰기 작업: Multi-Paxos, E-Paxos, Hybrid-Paxos(충돌 명령 중점)
- 0-100% 변화: ZooKeeper, WanKeeper(다양한 시나리오 표시)
- 고정 비율: COPS(50% 쓰기), PNUTS(10% 쓰기)
- 미지정: Raft, FPaxos 등 여러 시스템
문제: 서로 다른 읽기/쓰기 비율에서 성능 차이가 매우 크지만, 많은 시스템은 단일 구성만 테스트합니다
- 100% 중복: Mencius, E-Paxos, Hybrid-Paxos(최악의 경우)
- 0-100% 변화: WanKeeper, Boki, FlexLog
- 미평가: 대부분의 단일 리더 시스템(성능 영향이 작기 때문)
핵심 통찰: 다중 리더 시스템 성능은 액세스 중복에 심각하게 의존하지만, 평가에서 자주 무시됩니다
- 평가 시스템: M2 Paxos(0-100%), WPaxos(70-90%), COPS(0-100%)
- 미평가: 대부분의 시스템
- 중요성: 소유권 메커니즘을 사용하는 시스템에 막대한 영향
- 지정 시스템: Mencius(16-1024), M2 Paxos(1-1000), Omni-Paxos(500-50K)
- 대부분 미지정: 충돌률 이해를 제한합니다
- 소형 객체: 6B-1KB(CPU 집약적 워크로드)
- 대형 객체: 1KB-8KB(네트워크 집약적 워크로드)
- 변화 범위: Mencius(6B-4KB), SplitFT(128B-8KB)
워크로드 확장성:
- Hybrid-Paxos, E-Paxos: 동시 클라이언트 수 증가
- WPaxos: 클라이언트 속도 제한 정도 조정
- 대부분의 시스템: 포화 지점까지 테스트
시스템 확장성:
- 수평 확장: ZooKeeper(3-13개 복제본), Calvin(4-100개 복제본)
- 지역 확장: E-Paxos 및 Mencius(3-7개 지역)
- 수직 확장: M2 Paxos(CPU 성능 변화)
문제: 통일된 확장성 테스트 방법이 없어 서로 다른 시스템 비교가 어렵습니다
현재 실무:
- 테스트 도구: Bizur는 Serialla 사용, Multi-Paxos는 체크섬 검사 사용
- Jepsen 테스트: ZooKeeper, CockroachDB(선형화 검증)
- Elle 테스트: ScalarDB(엄격한 직렬화 가능성 검증)
- 부실성 측정: ZooNet, PNUTS, BG(하지만 강한 일관성을 증명할 수 없음)
핵심 문제:
- 대부분의 시스템은 "강한 일관성"을 주장하지만 정의가 모호합니다
- 체계적인 일관성 검증 방법이 부족합니다
- 부실성 측정은 선형화 또는 직렬화 가능성을 검증하기에 불충분합니다
표 4에 따르면:
장애 유형:
- 노드 충돌: 가장 일반적(14/30개 시스템)
- 네트워크 분할: 덜 일반적(5/30개 시스템)
- 기타 장애: 시계 드리프트, 메모리 손상 등은 거의 테스트되지 않음
장애 수:
- 단일 노드 장애: 대부분의 시스템
- 다중 노드 장애: ZooKeeper(2개 팔로워), Omni-Paxos(1-2개 노드)
테스트 방법:
- 장애 중 처리량 저하 측정
- Spanner: 전체 지역 충돌이지만 Paxos 그룹은 여전히 사용 가능
- Hybrid-Paxos: 복제본 수 증가로 가용성 향상 테스트
NoSQL 데이터베이스 벤치마크:
- YCSB (2010): 가장 인기 있는 NoSQL 벤치마크이지만 분산 클라이언트 및 WAN 시나리오를 지원하지 않습니다
- YCSB+T (2014): 트랜잭션 지원을 추가했지만 여전히 단일 프로세스입니다
- YCSB++ (2011): 분산 클라이언트를 지원하지만 ZooKeeper 동기화에 의존하며 WAN에 부적합합니다
애플리케이션 특정 벤치마크:
- BG (2013): 소셜 네트워크 워크로드이지만 충돌을 피하기 위해 잠금을 사용합니다
- TPC-C (1992): 트랜잭션 처리 표준이지만 조정 서비스를 대상으로 하지 않습니다
- HiBench (2010): Hadoop 벤치마크이지만 조정 시스템에 부적합합니다
빅데이터 벤치마크:
- BigDataBench (2014): 다양한 빅데이터 워크로드를 포함합니다
- 하지만 모두 조정 서비스의 특정 요구사항(일관성, 내결함성, 지리적 분산) 평가에 부적합합니다
Jepsen (2013-현재):
- 강력한 일관성 테스트 프레임워크
- 선형화 위반 감지 가능
- 하지만 도구에 대한 깊은 이해가 필요하며, 블랙박스 테스트가 아닙니다
Elle (2020):
- Jepsen 기반, 더 효율적인 격리 수준 감지
- 트랜잭션 의존성 그래프를 구축하여 위반 순환 식별
- 여전히 사용자 정의 워크로드가 필요합니다
기타 테스트 도구:
- Serialla: Bizur가 사용하는 엄격한 직렬화 가능성 테스트
- UPB (2013): 가용성 벤치마크이지만 YCSB 기반입니다
클라우드 서비스 평가:
- 탄력성 평가, 컴퓨팅 능력, 비용 효율성 분석
- 하지만 조정 서비스를 대상으로 하지 않습니다
파일 시스템 및 데이터 웨어하우스:
- 분산 파일 시스템 벤치마킹
- 데이터 웨어하우스 쿼리 성능 평가
- 조정 시스템 요구사항과 다릅니다
조정 서비스 종합:
- 알고리즘 비교(Paxos 변형)
- 서비스 특성 분석
- 본 논문의 독특한 점: 평가 실무 및 벤치마킹 요구사항의 첫 체계적 분석
- 평가 실무 단편화: 30개 시스템 중 7개만 표준 벤치마크(YCSB, TPC-C, Jepsen)를 사용하며, 대부분은 사용자 정의 마이크로벤치마크를 사용합니다
- 지표 커버리지 불균형:
- 성능 평가는 보편적(93% 시스템)
- 일관성 평가는 부족(27% 시스템)
- 네트워크 분할 테스트는 드문(17% 시스템)
- 매개변수 사용의 불일치:
- 핵심 매개변수(액세스 지역성, 데이터 액세스 중복)는 자주 무시됩니다
- 표준화된 매개변수 구성이 부족합니다
- 서로 다른 시스템의 공정한 비교가 어렵습니다
- 기존 벤치마크 부족:
- YCSB: 분산 클라이언트, WAN 시나리오, 액세스 지역성을 지원하지 않습니다
- TPC-C: 조정 서비스를 대상으로 하지 않습니다
- Jepsen: 블랙박스가 아니며 채택이 어렵습니다
- 모든 요구사항을 충족하는 도구가 없습니다
- 7가지 벤치마크 요구사항:
- 유연성 및 복잡성(다차원 매개변수 조정 지원)
- WAN 시스템 지원(지리적 분산, 불균형 지연)
- 확장성(분산 부하 생성)
- 채택 용이성(블랙박스 테스트, 언어 무관)
- 성능 벤치마킹(처리량, 지연시간, 꼬리 지연시간)
- 일관성 검증(선형화, 직렬화 가능성)
- 장애 주입(충돌, 분할, 시계 드리프트)
- 표본 커버리지: 30개 시스템을 포함하지만 일부 신흥 시스템이나 특정 영역의 조정 서비스를 놓칠 수 있습니다
- 시의성: 분산 시스템이 빠르게 진화하므로 새로운 평가 실무 및 도구가 계속 나타납니다
- 깊이 분석: 각 시스템의 평가 실무 분석은 공개 논문을 기반으로 하므로 모든 구현 세부사항을 얻을 수 없을 수 있습니다
- 벤치마크 도구 구현: 본 논문은 요구사항을 식별하지만 완전한 벤치마크 도구를 구현하지 않습니다
- 일관성 모델: 서로 다른 시스템이 주장하는 "강한 일관성"의 정의가 다르므로 통일된 평가 표준을 설정하기 어렵습니다
- 표준화된 벤치마크 도구 개발:
- 분산 클라이언트 및 WAN 시나리오 지원
- 유연한 매개변수 구성 제공
- 일관성 검증 능력 통합
- 다양한 장애 주입 지원
- 평가 표준 수립:
- 최소 필수 평가 지표 집합 정의
- 워크로드 매개변수 구성 표준화
- 일관성 검증 프로토콜 제정
- 조사 범위 확대:
- 더 많은 신흥 조정 프로토콜 포함(예: DAG 기반 합의)
- 블록체인 합의 알고리즘의 평가 실무 분석
- 엣지 컴퓨팅 시나리오의 조정 요구사항 연구
- 실증 연구:
- 표준 벤치마크를 사용하여 기존 시스템 재평가
- 서로 다른 매개변수가 성능에 미치는 영향 정량화
- 주장된 일관성 보장 검증
- 자동화된 테스트:
- 자동화된 일관성 검증 도구 개발
- 지속적 통합/지속적 배포(CI/CD) 통합
- 회귀 테스트 지원
- 광도: 30개 시스템 포함, 20년 연구 역사 걸침(Paxos 1998 - 최신 시스템 2024)
- 깊이: 실험 설정, 토폴로지, 지표, 매개변수 상세 분석
- 분류 명확: 3계층 분류(알고리즘-서비스-애플리케이션) + 6가지 토폴로지 유형
- 지도 의미: 개발자에게 평가 모범 사례 제공
- 요구사항 명확: 7가지 벤치마크 요구사항이 실행 가능합니다
- 문제 지향: 기존 도구의 구체적 부족점을 명확히 지적합니다
- 3개 종합 표: 표 1(실험 설정), 표 2(지표 사용), 표 3(워크로드 매개변수)
- 정량 분석: 지표 커버리지율, 매개변수 사용 빈도
- 시각화: 6가지 토폴로지의 명확한 다이어그램
- 특정 시스템이나 벤치마크 도구에 편향되지 않습니다
- 각 도구의 장단점을 공정하게 분석합니다
- 주관적 판단이 아닌 사실 기반 평가입니다
- 85개 참고문헌 인용
- 명확한 방법론(선택 기준, 분석 프레임워크)
- 충분한 데이터로 뒷받침된 결론
- 서로 다른 평가 방법의 성능 차이 데이터 미제공
- 매개변수 선택이 결과에 미치는 영향 정량화 없음
- 통계 분석 부족(예: 상관성, 유의성 검정)
- 요구사항을 충족하는 벤치마크 도구를 실제로 개발하지 않았습니다
- 제시된 요구사항의 실행 가능성을 실험으로 검증하지 않았습니다
- 원형 시스템의 평가가 없습니다
- 서로 다른 일관성 모델 간 차이에 대한 논의가 충분하지 않습니다
- 구체적인 일관성 검증 방법론을 제공하지 않습니다
- 일관성 테스트의 복잡도 분석이 부족합니다
- WAN의 중요성을 강조하지만 구체적 분석이 부족합니다
- 서로 다른 지리적 분산 패턴의 영향에 대한 상세 논의 없음
- 클라우드 간, 대륙 간 배포의 특수한 과제 미논의
- 블록체인 합의 알고리즘 평가 실무 미포함
- 엣지 컴퓨팅 시나리오의 조정 요구사항 미논의
- 머신러닝 시스템의 조정 평가 미포함
- 상세한 실험 재현 가이드 미제공
- 오픈소스 데이터셋 또는 평가 스크립트 없음
- 평가 재현성 보장 방법에 대한 논의 없음
- 공백 채우기: 분산 조정 시스템 평가 실무의 첫 체계적 조사
- 이론적 가치: 평가 프레임워크 및 요구사항 체계 수립
- 인용 잠재력: 해당 분야 평가 방법의 참고 문헌이 될 가능성
- 공학 지침: 개발자가 적절한 평가 방법 선택 지원
- 벤치마크 개발: 새 벤치마크 도구의 요구사항 규격 제공
- 표준화 추진: 평가 표준 수립 촉진 가능성
- 구현 부재: 직접 사용 가능한 도구 미제공
- 검증 부족: 요구사항의 실행 가능성이 실증적으로 검증되지 않음
- 업데이트 필요: 빠르게 진화하는 분야는 지속적 업데이트 필요
- 직접 적용: 분산 조정 시스템 연구자 및 엔지니어
- 간접 적용: 분산 데이터베이스, 블록체인, 클라우드 컴퓨팅 시스템 개발자
- 교육 가치: 분산 시스템 과정의 참고 자료로 활용 가능
- 새 프로토콜 개발: 평가 방안 설계 시 요구사항 체크리스트 참고
- 시스템 비교: 적절한 지표 및 매개변수 선택으로 공정한 비교 수행
- 논문 작성: 표준 평가 실무 인용으로 신뢰성 강화
- 시스템 선택: 평가 결과 및 한계 이해
- 성능 최적화: 성능에 영향을 미치는 핵심 매개변수 식별
- 장애 테스트: 포괄적인 가용성 테스트 방안 설계
- 과정 교수: 분산 시스템 평가 방법론 소개
- 프로젝트 실습: 학생의 실험 및 평가 방안 설계 지도
- 문헌 종합: 해당 분야의 연구 현황 이해
- 벤치마크 개발: 요구사항 규격 문서로 활용
- 산업 표준: 평가 표준 제정 추진
- 인증 테스트: 조정 서비스의 준수성 테스트 설계
- Lamport, L. (1998). The part-time parliament. ACM TOCS - Paxos 원본 논문
- Ongaro, D. & Ousterhout, J. (2014). In search of an understandable consensus algorithm. USENIX ATC - Raft 알고리즘
- Hunt, P. et al. (2010). ZooKeeper: Wait-free coordination for internet-scale systems. USENIX ATC
- Balakrishnan, M. et al. (2013). Tango: Distributed data structures over a shared log. SOSP
- Cooper, B.F. et al. (2010). Benchmarking cloud serving systems with YCSB. SoCC
- Kingsbury, K. (2024). Jepsen tests - 일관성 테스트 프레임워크
- Kingsbury, K. & Alvaro, P. (2020). Elle: Inferring Isolation Anomalies from Experimental Observations
- Ailijiang, A. et al. (2017). Multileader WAN Paxos: Ruling the archipelago with fast consensus - WPaxos
- Mao, Y. et al. (2008). Mencius: Building efficient replicated state machines for WANs. OSDI
- Corbett, J.C. et al. (2013). Spanner: Google's globally distributed database. ACM TOCS
요약: 본 논문은 분산 조정 시스템 평가 분야의 중요한 종합 연구로, 현재 평가 실무의 단편화 문제를 체계적으로 드러내고 표준화된 벤치마킹의 요구사항을 제시합니다. 실제 도구 구현이 부족하지만, 향후 연구 및 공학 실무에 명확한 방향을 제공합니다. 분산 시스템 연구자 및 엔지니어에게 이 분야의 평가 방법론을 이해하기 위한 필독 문헌입니다.