2025-11-13T13:37:11.114102

Exploring Distributed Vector Databases Performance on HPC Platforms: A Study with Qdrant

Ockerman, Gueroudji, Oh et al.

Vector databases have rapidly grown in popularity, enabling efficient similarity search over data such as text, images, and video. They now play a central role in modern AI workflows, aiding large language models by grounding model outputs in external literature through retrieval-augmented generation. Despite their importance, little is known about the performance characteristics of vector databases in high-performance computing (HPC) systems that drive large-scale science. This work presents an empirical study of distributed vector database performance on the Polaris supercomputer in the Argonne Leadership Computing Facility. We construct a realistic biological-text workload from BV-BRC and generate embeddings from the peS2o corpus using Qwen3-Embedding-4B. We select Qdrant to evaluate insertion, index construction, and query latency with up to 32 workers. Informed by practical lessons from our experience, this work takes a first step toward characterizing vector database performance on HPC platforms to guide future research and optimization.

academic

HPC 플랫폼에서 분산 벡터 데이터베이스 성능 탐색: Qdrant를 이용한 연구

기본 정보

논문 ID: 2509.12384
제목: Exploring Distributed Vector Databases Performance on HPC Platforms: A Study with Qdrant
저자: Seth Ockerman, Amal Gueroudji, Song Young Oh, Robert Underwood, Nicholas Chia, Kyle Chard, Robert Ross, Shivaram Venkataraman
분류: cs.DC cs.DB
발표 시간/학회: SC'25 Workshop Frontiers in Generative AI for HPC Science and Engineering: Foundations, Challenges, and Opportunities
논문 링크: https://arxiv.org/abs/2509.12384

초록

벡터 데이터베이스는 현대 AI 워크플로우에서 핵심적인 역할을 수행하며, 특히 검색 증강 생성(RAG) 시스템에서 대규모 언어 모델의 출력을 외부 문헌과 연결하여 모델 성능을 향상시킵니다. 벡터 데이터베이스가 AI 애플리케이션에서 점점 더 중요해지고 있음에도 불구하고, 고성능 컴퓨팅(HPC) 시스템에서의 성능 특성에 대한 이해는 부족합니다. 본 연구는 아르곤 국립연구소의 Polaris 슈퍼컴퓨터에서 분산 벡터 데이터베이스 Qdrant에 대한 실증 연구를 수행했으며, BV-BRC 기반의 실제 생물학 텍스트 워크로드를 구축하고, Qwen3-Embedding-4B 모델을 사용하여 임베딩 벡터를 생성했으며, 최대 32개의 워커 노드에서 삽입, 인덱스 구축 및 쿼리 성능을 평가했습니다.

연구 배경 및 동기

문제 정의

핵심 문제: 벡터 데이터베이스의 HPC 환경에서의 성능 특성에 대한 심층적 연구 부족. 기존 연구는 주로 단일 GPU 또는 소규모 환경에 집중
중요성: 대규모 과학 계산이 점점 더 HPC 시스템에서 실행되고 있으며, 벡터 데이터베이스는 HPC 환경의 고유한 특성(전용 상호연결, 병렬 파일 시스템, 깊은 메모리 계층 구조, 이질적 하드웨어 아키텍처)에 적응해야 함
기존 한계:
- HPC 환경을 위한 벡터 데이터베이스 성능 평가 부족
- 기존 연구는 주로 기능적 특성 비교에 집중하며 실증적 성능 평가 부족
- 과학 워크로드와 상용 애플리케이션 간 현저한 차이

연구 동기

AI 시스템이 과학 연구에 광범위하게 적용되고 있으며, 특히 RAG 기술의 확산으로 인해, HPC 아키텍처에서 벡터 데이터베이스의 성능 특성을 이해하는 것은 시스템 설계, 성능 최적화 및 향후 연구에 중요한 지침을 제공합니다.

핵심 기여

최초의 HPC 환경 평가: Polaris 슈퍼컴퓨터에서 Qdrant 분산 성능을 평가하고, 최대 32개의 워커 노드(8개 계산 노드에 걸쳐)에서 삽입, 인덱스 구축 및 쿼리 성능 테스트
실제 과학 워크로드: BV-BRC 생물학 데이터 및 peS2o 과학 텍스트 코퍼스 기반의 실제 워크로드 구축
성능 특성 분석: HPC 플랫폼에서 벡터 데이터베이스 성능 특성에 대한 최초의 체계적 분석 제공
공개 데이터셋: 향후 연구를 위해 과학 임베딩 데이터셋 및 쿼리 워크로드 공개
실무 지침: 배포 경험을 바탕으로 한 실용적 권장사항 및 향후 연구 방향 제시

방법론 상세 설명

작업 정의

본 연구는 다음을 포함하는 엔드-투-엔드 생물학 RAG 워크플로우를 구축했습니다:

입력: BV-BRC의 22,723개 게놈 관련 용어
처리: 각 용어를 peS2o 데이터셋(800만 편의 전문 논문)에서 검색하여 관련 데이터 발견
출력: RAG 시스템에 컨텍스트 정보를 제공하는 검색 결과

시스템 아키텍처

분산 벡터 데이터베이스 아키텍처

논문은 두 가지 주요 분산 아키텍처를 비교했습니다:

상태 저장 아키텍처(Qdrant 채택):
- 각 워커 노드는 상태(인덱스 또는 데이터)를 저장하고 계산을 담당
- 워커 노드는 데이터셋의 일부를 "소유"하고 담당
- 쿼리는 모든 워커 노드에 브로드캐스트되며, 각 노드는 ANN 검색을 실행한 후 결과를 집계
상태 비저장 아키텍처(계산-저장소 분리):
- 워커 노드는 계산을 실행하지만 데이터를 지속적으로 저장하지 않음
- 데이터는 독립적인 지속 저장소 계층에 저장
- 필요할 때 데이터를 캐시 계층으로 로드

실험 플랫폼 구성

하드웨어: Polaris 슈퍼컴퓨터
- 각 계산 노드: 2.8 GHz AMD EPYC Milan 7543P 32코어 CPU
- 메모리: 512 GB DDR4 RAM
- GPU: 4개의 NVIDIA A100 GPU
- 상호연결: HPE Slingshot 11, Dragonfly 토폴로지
소프트웨어: Qdrant 벡터 데이터베이스, HNSW 인덱스 사용

기술 혁신 포인트

적응형 임베딩 생성 파이프라인:
- 사용자 매개변수 기반의 배치 처리 전략
- 다중 프로세스 병렬 처리로 GPU 리소스 완전 활용
- OOM 오류 시 자동 다운그레이드 메커니즘
성능 튜닝 방법:
- 배치 크기 및 동시 요청 수의 체계적 튜닝
- 데이터 삽입 최적화를 위한 비동기 클라이언트 구현
- 클라이언트-서버 통신 최적화를 위한 다중 프로세스 할당 전략

실험 설정

데이터셋

BV-BRC 생물학 데이터: 22,723개 게놈 관련 용어
peS2o 과학 텍스트 코퍼스: 8,293,485편의 전문 학술 논문
임베딩 모델: Qwen3-Embedding-4B(단일 40GB GPU에 적합)

평가 지표

임베딩 생성 시간: 모델 로드, I/O, 추론 시간
데이터 삽입 시간: 다양한 배치 크기 및 동시성 수준에서의 삽입 성능
인덱스 구축 시간: HNSW 인덱스 구축의 확장성
쿼리 지연: 다양한 데이터셋 크기 및 워커 노드 수에서의 쿼리 성능

실험 구성

워커 노드 수: 1, 4, 8, 16, 32개
데이터 분포: 각 워커 노드는 약 80GB/#Workers의 데이터 담당
클라이언트 구성: 각 Qdrant 워커 노드에 하나의 클라이언트 할당, 모든 클라이언트는 단일 계산 노드에서 실행
배포 전략: 머신당 4개의 Qdrant 워커 노드

실험 결과

임베딩 생성 성능

단계	평균 시간(초)	비율
모델 로드	28.17	1.2%
I/O	7.49	0.3%
추론	2381.97	98.5%

주요 발견: 모델 추론이 전체 실행 시간을 지배하며, 배치 처리 휴리스틱이 메모리 오류를 성공적으로 방지했고, 0.10% 미만의 논문만 순차 처리 필요.

데이터 삽입 성능

매개변수 튜닝 결과

최적 배치 크기: 32(468초에서 381초로 최적화)
최적 동시 요청 수: 2(367초로 추가 최적화)
확장성 성능:

워커 노드 수	1	4	8	16	32
삽입 시간	8.22h	2.11h	1.14h	35.92m	21.67m

주요 발견:

CPU 바운드 배치 변환이 asyncio의 동시성 효과 제한
다중 프로세스가 단일 클라이언트 병렬 데이터 삽입에 asyncio보다 더 적합
데이터 삽입 속도가 대규모 HPC 워크로드의 병목이 될 수 있음

인덱스 구축 성능

최대 가속비: 단일 노드 대비 32개 워커 노드에서 21.32배 가속
확장성 제한: 1개에서 4개 워커 노드로 증가할 때 1.27배 가속만 달성
리소스 활용: 단일 워커 노드는 이미 CPU 용량의 90-97% 사용

주요 발견: CPU 포화 인덱스 구축에 대해 노드당 여러 Qdrant 워커 노드 배포는 불필요하며, GPU 가속이 더 효과적일 수 있음.

쿼리 성능

매개변수 튜닝

최적 쿼리 배치 크기: 16(139초에서 73초로 최적화)
최적 동시 배치 요청 수: 2

확장성 분석

데이터셋 크기 임계값: 데이터셋이 최소 30GB에 도달할 때만 워커 노드 수 증가가 이점을 보임
최대 가속비: 3.57배(충분히 큰 데이터셋에서)
통신 오버헤드: 4개 워커 노드를 초과하면, 클러스터 크기 추가 증가는 한계 개선만 제공

주요 발견: 쿼리 실행 모델의 통신 오버헤드가 소규모 데이터셋에서 병렬화 이점을 초과하며, 클러스터는 데이터 크기에 따라 자동으로 확장할 수 있어야 함.

시스템	병렬 읽기/쓰기	계산-저장소 분리	부하 분산	자동 확장	GPU 인덱스	GPU ANN
Vespa	✓	✓	✓	✓	✗	✗
Vald	✓	✗	✓	✓	✓	✓
Weaviate	✓	✗	✓	✓	✓	✓
Qdrant	✓	✗	✓	✓	✓	✗
Milvus	✓	✓	✓	✓	✓	✓

결론 및 토론

주요 결론

임베딩 생성 최적화 초점: HPC 계산 노드 메모리에 적합한 데이터셋의 경우, I/O나 모델 로드보다 모델 추론 효율성 향상을 우선시해야 함
데이터 삽입 병목: Qdrant의 비동기 방법은 데이터 업로드에서 CPU 바운드 작업으로 제한되며, 다중 프로세스가 단일 클라이언트 병렬화에 더 적합할 수 있음
인덱스 구축 리소스 활용: 단일 워커 노드만으로도 CPU를 포화시킬 수 있으며, GPU 가속이 다중 워커 노드 효율성을 향상시킬 수 있음
쿼리 성능 임계값: 충분히 큰 데이터셋에서만 워커 노드 수 증가가 쿼리 실행 시간을 효과적으로 감소시킬 수 있음

한계

단일 시스템 평가: Qdrant 하나의 시스템만 평가했으며 시스템 간 비교 부족
CPU 제한 평가: 주로 CPU 인덱스 구축에 집중하며 GPU 구현에 대한 심층 평가 부족
변동성 분석 부족: 실행 시간 변동성 및 재현성에 대한 관심 부족
워크로드 한계: 주로 생물학 워크로드 기반이며 다른 과학 분야를 대표하지 못할 수 있음

향후 방향

다중 시스템 비교 연구: 다양한 HPC 플랫폼에서 포괄적인 다중 시스템 평가 수행
GPU 가속 최적화: GPU 가속 인덱스 구축 및 쿼리의 성능에 대한 심층 연구
자동 확장: 데이터 크기 및 워크로드 특성에 따라 자동으로 확장할 수 있는 시스템 개발
과학 워크로드 특화: 다양한 과학 분야의 특정 요구사항에 맞게 벡터 데이터베이스 최적화

심층 평가

장점

개척적 연구: HPC 환경에서 벡터 데이터베이스의 성능을 최초로 체계적으로 평가하여 중요한 연구 공백 해소
실제 워크로드: 실제 생물학 데이터 및 과학 문헌을 사용하여 워크로드를 구축하여 실제 의미 있음
포괄적 성능 분석: 임베딩 생성에서 쿼리까지 완전한 워크플로우 성능 평가 포함
실용적 가치: 구체적인 구성 권장사항 및 성능 튜닝 전략 제공
공개 데이터: 데이터셋 공개로 분야 발전 촉진

부족한 점

시스템 범위 제한: Qdrant 하나의 시스템만 평가하여 횡단적 비교 부족
이론적 분석 부족: 주로 실험 관찰에 기반하며 심층적 이론 분석 부족
확장성 제한: 최대 테스트 규모가 32개 워커 노드로 대규모 HPC 시스템에는 부족할 수 있음
GPU 활용 불충분: 주로 CPU 성능에 집중하여 GPU 가속 잠재력을 충분히 탐색하지 못함

영향력

학술 기여: HPC 환경에서 벡터 데이터베이스 연구의 기초 마련
실무 지침: HPC 센터 및 과학 계산 사용자에게 중요한 배포 참고 자료 제공
표준 설정: HPC 환경에서 벡터 데이터베이스 성능 평가의 벤치마크 방법 확립
향후 연구 방향: 심층적 연구가 필요한 여러 방향 명확화

적용 시나리오

대규모 과학 계산: HPC 환경에서 벡터 데이터베이스 배포가 필요한 과학 연구 프로젝트에 적용
생물정보학: 특히 게놈학 및 생의학 연구의 문헌 검색 및 지식 발견에 적용
RAG 시스템 배포: HPC 환경에서 대규모 RAG 시스템 배포를 위한 성능 참고 자료 제공
시스템 최적화: 벡터 데이터베이스 공급업체가 HPC 환경 성능 최적화를 위한 지침 제공

참고문헌

본 연구는 52편의 관련 문헌을 인용했으며, 주로 다음을 포함합니다:

벡터 데이터베이스 시스템 및 알고리즘
고성능 컴퓨팅 플랫폼 및 아키텍처
임베딩 모델 및 RAG 기술
관련 성능 평가 연구

종합 평가: 이는 분산 벡터 데이터베이스의 HPC 환경에서의 성능 특성을 최초로 체계적으로 평가한 개척적 의미의 연구 논문입니다. 연구 방법은 과학적이고 엄밀하며, 실험 설계는 합리적이고, 결과는 중요한 실용적 가치를 가집니다. 일부 한계가 있지만, 이 신흥 연구 분야에 중요한 기초를 마련했으며, 과학 계산에서 벡터 데이터베이스의 응용 촉진에 중요한 의미를 가집니다.