Efficiently serving embedding-based recommendation (EMR) models remains a significant challenge due to their increasingly large memory requirements. Today's practice splits the model across many monolithic servers, where a mix of GPUs, CPUs, and DRAM is provisioned in fixed proportions. This approach leads to suboptimal resource utilization and increased costs. Disaggregating embedding operations from neural network inference is a promising solution but raises novel networking challenges. In this paper, we discuss the design of FlexEMR for optimized EMR disaggregation. FlexEMR proposes two sets of techniques to tackle the networking challenges: Leveraging the temporal and spatial locality of embedding lookups to reduce data movement over the network, and designing an optimized multi-threaded RDMA engine for concurrent lookup subrequests. We outline the design space for each technique and present initial results from our early prototype.
- 논문 ID: 2410.12794
- 제목: A Disaggregation Approach to Embedding Recommendation Systems
- 저자: Yibo Huang, Zhenning Yang, Jiarong Xing, Yi Dai, Yiming Qiu, Dingming Wu, Fan Lai, Ang Chen
- 분류: cs.IR cs.AI
- 발표 시간/학회: arXiv 2024 (진행 중인 연구)
- 논문 링크: https://arxiv.org/abs/2410.12794
임베딩 기반 추천(EMR) 모델의 효율적인 서빙은 증가하는 메모리 요구사항으로 인해 여전히 중대한 과제입니다. 현재의 접근 방식은 모델을 여러 단일형 서버에 배포하며, GPU, CPU, DRAM이 고정된 비율로 구성됩니다. 이러한 방식은 차선의 리소스 활용률과 증가된 비용을 초래합니다. 임베딩 연산을 신경망 추론에서 분리하는 것은 유망한 해결책이지만 새로운 네트워크 과제를 제시합니다. 본 논문은 EMR 분리 최적화를 위한 FlexEMR의 설계를 논의합니다. FlexEMR은 네트워크 과제를 해결하기 위해 두 가지 기술 세트를 제안합니다: 임베딩 조회의 시간적 및 공간적 지역성을 활용하여 네트워크상의 데이터 이동을 감소시키고, 동시 조회 부요청을 위한 최적화된 다중 스레드 RDMA 엔진을 설계합니다.
- 막대한 메모리 요구사항: 프로덕션급 EMR 모델의 임베딩 테이블은 TB 규모에 도달(예: Meta에서 사용하는 50TB DLRM 모델)하며, 모델 매개변수의 99% 이상을 차지합니다
- 경직된 리소스 구성: 기존 단일형 서버는 GPU, CPU, DRAM을 고정된 비율로 구성하여 다양한 모델 및 시기의 리소스 요구사항 변화에 적응할 수 없습니다
- 낮은 비용 효율성: 고정된 리소스 구성은 리소스 낭비를 초래하며, 연구에 따르면 최대 23.1%의 비용 낭비를 야기할 수 있습니다
- EMR 모델은 프로덕션 데이터 센터의 AI 추론 주기에서 지배적입니다(예: Meta의 데이터 센터)
- 전자상거래, 검색 엔진, 단편 비디오 서비스 등 인터넷 핵심 비즈니스에 광범위하게 적용됩니다
- 메모리 병목 현상은 EMR 모델 배포의 주요 제한 요소가 되었습니다
- 단일형 서버 아키텍처: 리소스가 고정된 비율로 구성되어 독립적인 확장이 어렵습니다
- GPU 메모리 경합: 임베딩 캐시와 신경망 계산이 제한된 GPU 메모리를 놓고 경쟁합니다
- 불충분한 네트워크 최적화: 기존 RDMA 시스템은 EMR 분리 시나리오에 최적화되지 않았습니다
- FlexEMR 분리 아키텍처 제안: 임베딩 저장소와 신경망 계산을 완전히 독립적인 서버로 분리합니다
- 지역성 강화 최적화 설계: 시간적 및 공간적 지역성을 활용하여 네트워크 데이터 전송을 감소시킵니다
- 다중 스레드 RDMA 엔진 개발: EMR 시나리오에 최적화된 동시 조회 엔진입니다
- 자적응형 캐싱 전략 구현: GPU 메모리 경합을 피하기 위해 캐시 크기를 동적으로 조정합니다
- 계층형 풀링 메커니즘 제안: 일부 풀링 연산을 임베딩 서버로 푸시다운합니다
입력: 분류 특성(희소)과 연속 특성(조밀)을 포함하는 사용자 쿼리
출력: 후보 항목의 상위-K 순위 결과
제약: 서비스 수준 목표(SLO)를 만족하면서 총 소유 비용(TCO)을 최소화합니다
FlexEMR은 분리식 아키텍처를 채택하며, 주요 구성 요소는 다음과 같습니다:
- Ranker 노드: GPU 장착, 신경망 추론 계산 담당
- 임베딩 서버: CPU 및 대용량 메모리 장착, 임베딩 테이블 저장 및 조회 요청 처리
- 고속 네트워크: RDMA 등의 기술을 통해 두 유형의 노드를 연결합니다
1. 자적응형 임베딩 캐시(§3.1.1)
- 동적 부하 모니터링: 슬라이딩 윈도우 알고리즘을 사용하여 작업 큐 크기를 모니터링합니다
- 메모리 할당 전략: NN 계산 요구사항에 따라 캐시 크기를 동적으로 조정합니다
- 비동기 데이터 교환: 핫 임베딩의 스왑 인/아웃 연산을 투명하게 수행합니다
2. 계층형 임베딩 풀링(§3.1.2)
- 공간적 지역성 활용: 동일한 임베딩 서버의 여러 벡터를 식별합니다
- 분산 풀링: 임베딩 서버는 로컬 풀링을 수행하고, Ranker는 글로벌 풀링을 수행합니다
- 라우팅 테이블 최적화: 범위 기반 라우팅 테이블이 메모리 점유를 감소시킵니다
3. 다중 스레드 RDMA 엔진(§3.2)
- 매핑 인식 설계: RNIC 병렬 처리 단위 간의 경합을 제거합니다
- 연결 동적 마이그레이션: 편향된 접근 패턴에 대한 부하 분산에 대응합니다
- 신용 흐름 제어: QoS 기반의 빠른 신용 제어 채널입니다
- 전통적 방법: 고정 크기 GPU 캐시, NN 계산과 메모리 경합
- FlexEMR: 동적 캐시 크기 조정, 지연 시간과 처리량 균형
- 전통적 방법: 모든 임베딩 벡터를 Ranker로 전송하여 풀링 수행
- FlexEMR: 임베딩 서버 CPU 리소스를 활용한 사전 집계
- 전통적 방법: 다중 스레드가 RNIC 리소스를 놓고 경합하여 성능 62% 저하
- FlexEMR: 일대일 매핑으로 경합 제거, 성능 2.3배 향상
- MLPerf 프레임워크: 표준화된 추천 시스템 벤치마크 테스트
- Meta 프로덕션 트레이스: Meta에서 공개한 프로덕션급 임베딩 조회 궤적
- RMC2 모델: 성능 평가용 대표 추천 모델
- 처리량: 초당 처리된 요청 수(rps)
- 지연 시간: 중앙값 및 P99 지연 시간 포함
- GPU 메모리 활용률: 최대 지원 배치 처리 크기
- 네트워크 전송 효율: 데이터 전송량 및 대역폭 활용률
- 하드웨어 구성: Intel Xeon 서버(32코어, 128GB 메모리), Nvidia A100 GPU(80GB)
- 네트워크: 100Gbps Mellanox RDMA NIC
- 비교 방법: 단일 스레드 RDMA 기준선, 고정 캐시 전략
- RDMA 매핑 인식 구현을 위해 리소스 도메인 기능 사용
- 슬라이딩 윈도우 크기는 워크로드에 따라 동적으로 조정
- 신용 흐름 제어는 연결 수준 QoS 기반으로 구현됩니다
1. GPU 메모리 경합 분석(그림 7)
- 캐시 없음: 최대 배치 처리 크기 약 2000
- 대형 캐시(75GB): 최대 배치 처리 크기 약 500으로 감소
- FlexEMR 자적응형 캐시: 지연 시간 이점을 유지하면서 높은 처리량 유지
2. 다중 스레드 RDMA 성능(그림 8 좌측)
- 기준선 방법: 스레드 수 증가에 따라 성능 저하
- FlexEMR: 8개 RDMA 엔진 시 처리량 2.3배 향상, 15M rps 달성
3. 신용 흐름 제어 효과(그림 8 우측)
- 중앙값 지연 시간: FlexEMR이 기준선 대비 약 35% 감소
- P99 지연 시간: 꼬리 지연 시간 성능 현저히 개선
논문은 각 구성 요소의 독립적 기여를 보여줍니다:
- 매핑 인식 다중 스레드: RNIC 리소스 경합 문제 해결
- 자적응형 캐시: 메모리 사용과 성능 균형
- 계층형 풀링: 네트워크 전송 오버헤드 감소
- 메모리 경합이 핵심 병목: GPU 캐시와 NN 계산 간의 메모리 경합이 성능에 크게 영향을 미칩니다
- 네트워크 최적화 효과 현저함: 최적화된 RDMA 엔진은 동시 조회 성능을 대폭 향상시킬 수 있습니다
- 지역성 활용이 효과적: 시간적 및 공간적 지역성의 활용이 네트워크 오버헤드를 효과적으로 감소시킵니다
- GPU 중심 방법: EMR을 범용 심층 학습 모델로 취급하며 주로 GPU 리소스 사용
- 캐시 최적화: 조회 연산 가속을 위한 다양한 임베딩 캐싱 메커니즘
- 전용 하드웨어: FPGA 등 전용 하드웨어를 통한 추천 시스템 가속
- 압축 및 분할: 임베딩 테이블 압축 및 분할 최적화 기술
- 체계적 분리 방안: 최초의 포괄적 EMR 분리 아키텍처 설계
- 네트워크 최적화 중점: 분리로 인한 네트워크 과제를 심층적으로 해결
- 동적 적응 능력: DisaggRec의 정적 리소스 할당과 비교하여 동적 최적화 제공
- EMR 분리 아키텍처는 리소스 활용률과 비용 효율성을 크게 향상시킬 수 있습니다
- 지역성 인식 최적화는 네트워크 오버헤드를 효과적으로 감소시킬 수 있습니다
- 맞춤형 RDMA 최적화는 분리 아키텍처 성능에 필수적입니다
- 자적응형 전략이 정적 구성보다 동적 워크로드에 더 적합합니다
- 원형 단계: 현재 초기 원형 단계이며 대규모 배포 검증이 부족합니다
- 네트워크 의존성: 성능이 고속 네트워크에 크게 의존하여 인프라 비용 증가
- 복잡성 증가: 분리 아키텍처는 시스템 복잡성과 운영 난이도를 증가시킵니다
- 지연 시간 오버헤드: 네트워크 통신은 필연적으로 지연 시간을 증가시킵니다
- 다른 모델로 확장: LLM, 다중 모달 모델, MoE 등에 적용
- 더 지능형 스케줄링: 더 정교한 리소스 스케줄링 알고리즘 개발
- 하드웨어 협력 설계: 네트워크 하드웨어 제조업체와 협력하여 최적화
- 장애 허용 메커니즘: 시스템 견고성 및 장애 복구 능력 강화
- 정확한 문제 식별: EMR 서빙의 핵심 과제 및 병목 현상을 정확히 식별합니다
- 합리적 방안 설계: 분리 아키텍처 설계는 데이터 센터 분리화 추세에 부합합니다
- 효과적 기술 혁신: 여러 기술 혁신 포인트가 실험 검증으로 뒷받침됩니다
- 높은 실용 가치: 프로덕션 환경의 중요한 문제를 해결합니다
- 제한된 평가 범위: 소규모 환경에서만 테스트되었으며 대규모 검증이 부족합니다
- 불충분한 비용 분석: 상세한 비용-편익 분석이 제공되지 않습니다
- 장애 처리 누락: 분리 아키텍처의 장애 처리 메커니즘이 충분히 논의되지 않았습니다
- 기존 시스템 통합: 기존 추천 시스템과의 통합에 대한 논의가 부족합니다
- 학술 기여: EMR 시스템 분리를 위한 포괄적 기술 프레임워크 제공
- 산업 가치: 대규모 추천 시스템 배포에 중요한 지도 가치
- 기술 추진: AI 서빙에서 분리식 아키텍처 적용 추진
- 표준화 잠재력: EMR 분리 배포의 참고 표준이 될 수 있습니다
- 대규모 추천 시스템: Meta, 알리바바 등 대형 인터넷 기업에 적합
- 리소스 제약 환경: 리소스 활용률 최적화가 필요한 데이터 센터
- 동적 부하 시나리오: 워크로드 변화가 큰 추천 서비스
- 비용 민감 애플리케이션: TCO에 엄격한 요구사항이 있는 상업 시나리오
논문은 61개의 관련 문헌을 인용하며, 주요 내용은 다음을 포함합니다:
- EMR 시스템 최적화 관련 연구(AdaEmbed, RecSSD 등)
- 분리식 시스템 아키텍처 연구(LegoOS, DxPU 등)
- RDMA 네트워크 최적화 기술(FaRM, Aeolus 등)
- 추천 시스템 벤치마크 테스트(MLPerf, Meta DLRM 데이터 세트 등)
종합 평가: 이는 EMR 서빙의 실제 과제에 대해 혁신적인 분리 아키텍처 솔루션을 제안하는 고품질의 시스템 연구 논문입니다. 현재 원형 단계이지만, 기술 방안은 매우 높은 실용 가치와 확산 잠재력을 가지고 있으며, 추천 시스템 기반 시설의 발전에 중요한 의미를 가집니다.