Vector databases have rapidly grown in popularity, enabling efficient similarity search over data such as text, images, and video. They now play a central role in modern AI workflows, aiding large language models by grounding model outputs in external literature through retrieval-augmented generation. Despite their importance, little is known about the performance characteristics of vector databases in high-performance computing (HPC) systems that drive large-scale science. This work presents an empirical study of distributed vector database performance on the Polaris supercomputer in the Argonne Leadership Computing Facility. We construct a realistic biological-text workload from BV-BRC and generate embeddings from the peS2o corpus using Qwen3-Embedding-4B. We select Qdrant to evaluate insertion, index construction, and query latency with up to 32 workers. Informed by practical lessons from our experience, this work takes a first step toward characterizing vector database performance on HPC platforms to guide future research and optimization.
- 논문 ID: 2509.12384
- 제목: Exploring Distributed Vector Databases Performance on HPC Platforms: A Study with Qdrant
- 저자: Seth Ockerman, Amal Gueroudji, Song Young Oh, Robert Underwood, Nicholas Chia, Kyle Chard, Robert Ross, Shivaram Venkataraman
- 분류: cs.DC cs.DB
- 발표 시간/학회: SC'25 Workshop Frontiers in Generative AI for HPC Science and Engineering: Foundations, Challenges, and Opportunities
- 논문 링크: https://arxiv.org/abs/2509.12384
벡터 데이터베이스는 현대 AI 워크플로우에서 핵심적인 역할을 수행하며, 특히 검색 증강 생성(RAG) 시스템에서 대규모 언어 모델의 출력을 외부 문헌과 연결하여 모델 성능을 향상시킵니다. 벡터 데이터베이스가 AI 애플리케이션에서 점점 더 중요해지고 있음에도 불구하고, 고성능 컴퓨팅(HPC) 시스템에서의 성능 특성에 대한 이해는 부족합니다. 본 연구는 아르곤 국립연구소의 Polaris 슈퍼컴퓨터에서 분산 벡터 데이터베이스 Qdrant에 대한 실증 연구를 수행했으며, BV-BRC 기반의 실제 생물학 텍스트 워크로드를 구축하고, Qwen3-Embedding-4B 모델을 사용하여 임베딩 벡터를 생성했으며, 최대 32개의 워커 노드에서 삽입, 인덱스 구축 및 쿼리 성능을 평가했습니다.
- 핵심 문제: 벡터 데이터베이스의 HPC 환경에서의 성능 특성에 대한 심층적 연구 부족. 기존 연구는 주로 단일 GPU 또는 소규모 환경에 집중
- 중요성: 대규모 과학 계산이 점점 더 HPC 시스템에서 실행되고 있으며, 벡터 데이터베이스는 HPC 환경의 고유한 특성(전용 상호연결, 병렬 파일 시스템, 깊은 메모리 계층 구조, 이질적 하드웨어 아키텍처)에 적응해야 함
- 기존 한계:
- HPC 환경을 위한 벡터 데이터베이스 성능 평가 부족
- 기존 연구는 주로 기능적 특성 비교에 집중하며 실증적 성능 평가 부족
- 과학 워크로드와 상용 애플리케이션 간 현저한 차이
AI 시스템이 과학 연구에 광범위하게 적용되고 있으며, 특히 RAG 기술의 확산으로 인해, HPC 아키텍처에서 벡터 데이터베이스의 성능 특성을 이해하는 것은 시스템 설계, 성능 최적화 및 향후 연구에 중요한 지침을 제공합니다.
- 최초의 HPC 환경 평가: Polaris 슈퍼컴퓨터에서 Qdrant 분산 성능을 평가하고, 최대 32개의 워커 노드(8개 계산 노드에 걸쳐)에서 삽입, 인덱스 구축 및 쿼리 성능 테스트
- 실제 과학 워크로드: BV-BRC 생물학 데이터 및 peS2o 과학 텍스트 코퍼스 기반의 실제 워크로드 구축
- 성능 특성 분석: HPC 플랫폼에서 벡터 데이터베이스 성능 특성에 대한 최초의 체계적 분석 제공
- 공개 데이터셋: 향후 연구를 위해 과학 임베딩 데이터셋 및 쿼리 워크로드 공개
- 실무 지침: 배포 경험을 바탕으로 한 실용적 권장사항 및 향후 연구 방향 제시
본 연구는 다음을 포함하는 엔드-투-엔드 생물학 RAG 워크플로우를 구축했습니다:
- 입력: BV-BRC의 22,723개 게놈 관련 용어
- 처리: 각 용어를 peS2o 데이터셋(800만 편의 전문 논문)에서 검색하여 관련 데이터 발견
- 출력: RAG 시스템에 컨텍스트 정보를 제공하는 검색 결과
논문은 두 가지 주요 분산 아키텍처를 비교했습니다:
- 상태 저장 아키텍처(Qdrant 채택):
- 각 워커 노드는 상태(인덱스 또는 데이터)를 저장하고 계산을 담당
- 워커 노드는 데이터셋의 일부를 "소유"하고 담당
- 쿼리는 모든 워커 노드에 브로드캐스트되며, 각 노드는 ANN 검색을 실행한 후 결과를 집계
- 상태 비저장 아키텍처(계산-저장소 분리):
- 워커 노드는 계산을 실행하지만 데이터를 지속적으로 저장하지 않음
- 데이터는 독립적인 지속 저장소 계층에 저장
- 필요할 때 데이터를 캐시 계층으로 로드
- 하드웨어: Polaris 슈퍼컴퓨터
- 각 계산 노드: 2.8 GHz AMD EPYC Milan 7543P 32코어 CPU
- 메모리: 512 GB DDR4 RAM
- GPU: 4개의 NVIDIA A100 GPU
- 상호연결: HPE Slingshot 11, Dragonfly 토폴로지
- 소프트웨어: Qdrant 벡터 데이터베이스, HNSW 인덱스 사용
- 적응형 임베딩 생성 파이프라인:
- 사용자 매개변수 기반의 배치 처리 전략
- 다중 프로세스 병렬 처리로 GPU 리소스 완전 활용
- OOM 오류 시 자동 다운그레이드 메커니즘
- 성능 튜닝 방법:
- 배치 크기 및 동시 요청 수의 체계적 튜닝
- 데이터 삽입 최적화를 위한 비동기 클라이언트 구현
- 클라이언트-서버 통신 최적화를 위한 다중 프로세스 할당 전략
- BV-BRC 생물학 데이터: 22,723개 게놈 관련 용어
- peS2o 과학 텍스트 코퍼스: 8,293,485편의 전문 학술 논문
- 임베딩 모델: Qwen3-Embedding-4B(단일 40GB GPU에 적합)
- 임베딩 생성 시간: 모델 로드, I/O, 추론 시간
- 데이터 삽입 시간: 다양한 배치 크기 및 동시성 수준에서의 삽입 성능
- 인덱스 구축 시간: HNSW 인덱스 구축의 확장성
- 쿼리 지연: 다양한 데이터셋 크기 및 워커 노드 수에서의 쿼리 성능
- 워커 노드 수: 1, 4, 8, 16, 32개
- 데이터 분포: 각 워커 노드는 약 80GB/#Workers의 데이터 담당
- 클라이언트 구성: 각 Qdrant 워커 노드에 하나의 클라이언트 할당, 모든 클라이언트는 단일 계산 노드에서 실행
- 배포 전략: 머신당 4개의 Qdrant 워커 노드
| 단계 | 평균 시간(초) | 비율 |
|---|
| 모델 로드 | 28.17 | 1.2% |
| I/O | 7.49 | 0.3% |
| 추론 | 2381.97 | 98.5% |
주요 발견: 모델 추론이 전체 실행 시간을 지배하며, 배치 처리 휴리스틱이 메모리 오류를 성공적으로 방지했고, 0.10% 미만의 논문만 순차 처리 필요.
- 최적 배치 크기: 32(468초에서 381초로 최적화)
- 최적 동시 요청 수: 2(367초로 추가 최적화)
- 확장성 성능:
| 워커 노드 수 | 1 | 4 | 8 | 16 | 32 |
|---|
| 삽입 시간 | 8.22h | 2.11h | 1.14h | 35.92m | 21.67m |
주요 발견:
- CPU 바운드 배치 변환이 asyncio의 동시성 효과 제한
- 다중 프로세스가 단일 클라이언트 병렬 데이터 삽입에 asyncio보다 더 적합
- 데이터 삽입 속도가 대규모 HPC 워크로드의 병목이 될 수 있음
- 최대 가속비: 단일 노드 대비 32개 워커 노드에서 21.32배 가속
- 확장성 제한: 1개에서 4개 워커 노드로 증가할 때 1.27배 가속만 달성
- 리소스 활용: 단일 워커 노드는 이미 CPU 용량의 90-97% 사용
주요 발견: CPU 포화 인덱스 구축에 대해 노드당 여러 Qdrant 워커 노드 배포는 불필요하며, GPU 가속이 더 효과적일 수 있음.
- 최적 쿼리 배치 크기: 16(139초에서 73초로 최적화)
- 최적 동시 배치 요청 수: 2
- 데이터셋 크기 임계값: 데이터셋이 최소 30GB에 도달할 때만 워커 노드 수 증가가 이점을 보임
- 최대 가속비: 3.57배(충분히 큰 데이터셋에서)
- 통신 오버헤드: 4개 워커 노드를 초과하면, 클러스터 크기 추가 증가는 한계 개선만 제공
주요 발견: 쿼리 실행 모델의 통신 오버헤드가 소규모 데이터셋에서 병렬화 이점을 초과하며, 클러스터는 데이터 크기에 따라 자동으로 확장할 수 있어야 함.
| 시스템 | 병렬 읽기/쓰기 | 계산-저장소 분리 | 부하 분산 | 자동 확장 | GPU 인덱스 | GPU ANN |
|---|
| Vespa | ✓ | ✓ | ✓ | ✓ | ✗ | ✗ |
| Vald | ✓ | ✗ | ✓ | ✓ | ✓ | ✓ |
| Weaviate | ✓ | ✗ | ✓ | ✓ | ✓ | ✓ |
| Qdrant | ✓ | ✗ | ✓ | ✓ | ✓ | ✗ |
| Milvus | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
- 기존 조사는 주로 기능적 특성 비교에 집중하며 실증적 성능 평가 부족
- Shen 등은 단일 GPU RAG에서 다양한 인덱스 유형을 평가했지만 분산 시스템이나 HPC 환경은 다루지 않음
- HPC 환경을 위한 벡터 데이터베이스 성능 연구 부족
- 임베딩 생성 최적화 초점: HPC 계산 노드 메모리에 적합한 데이터셋의 경우, I/O나 모델 로드보다 모델 추론 효율성 향상을 우선시해야 함
- 데이터 삽입 병목: Qdrant의 비동기 방법은 데이터 업로드에서 CPU 바운드 작업으로 제한되며, 다중 프로세스가 단일 클라이언트 병렬화에 더 적합할 수 있음
- 인덱스 구축 리소스 활용: 단일 워커 노드만으로도 CPU를 포화시킬 수 있으며, GPU 가속이 다중 워커 노드 효율성을 향상시킬 수 있음
- 쿼리 성능 임계값: 충분히 큰 데이터셋에서만 워커 노드 수 증가가 쿼리 실행 시간을 효과적으로 감소시킬 수 있음
- 단일 시스템 평가: Qdrant 하나의 시스템만 평가했으며 시스템 간 비교 부족
- CPU 제한 평가: 주로 CPU 인덱스 구축에 집중하며 GPU 구현에 대한 심층 평가 부족
- 변동성 분석 부족: 실행 시간 변동성 및 재현성에 대한 관심 부족
- 워크로드 한계: 주로 생물학 워크로드 기반이며 다른 과학 분야를 대표하지 못할 수 있음
- 다중 시스템 비교 연구: 다양한 HPC 플랫폼에서 포괄적인 다중 시스템 평가 수행
- GPU 가속 최적화: GPU 가속 인덱스 구축 및 쿼리의 성능에 대한 심층 연구
- 자동 확장: 데이터 크기 및 워크로드 특성에 따라 자동으로 확장할 수 있는 시스템 개발
- 과학 워크로드 특화: 다양한 과학 분야의 특정 요구사항에 맞게 벡터 데이터베이스 최적화
- 개척적 연구: HPC 환경에서 벡터 데이터베이스의 성능을 최초로 체계적으로 평가하여 중요한 연구 공백 해소
- 실제 워크로드: 실제 생물학 데이터 및 과학 문헌을 사용하여 워크로드를 구축하여 실제 의미 있음
- 포괄적 성능 분석: 임베딩 생성에서 쿼리까지 완전한 워크플로우 성능 평가 포함
- 실용적 가치: 구체적인 구성 권장사항 및 성능 튜닝 전략 제공
- 공개 데이터: 데이터셋 공개로 분야 발전 촉진
- 시스템 범위 제한: Qdrant 하나의 시스템만 평가하여 횡단적 비교 부족
- 이론적 분석 부족: 주로 실험 관찰에 기반하며 심층적 이론 분석 부족
- 확장성 제한: 최대 테스트 규모가 32개 워커 노드로 대규모 HPC 시스템에는 부족할 수 있음
- GPU 활용 불충분: 주로 CPU 성능에 집중하여 GPU 가속 잠재력을 충분히 탐색하지 못함
- 학술 기여: HPC 환경에서 벡터 데이터베이스 연구의 기초 마련
- 실무 지침: HPC 센터 및 과학 계산 사용자에게 중요한 배포 참고 자료 제공
- 표준 설정: HPC 환경에서 벡터 데이터베이스 성능 평가의 벤치마크 방법 확립
- 향후 연구 방향: 심층적 연구가 필요한 여러 방향 명확화
- 대규모 과학 계산: HPC 환경에서 벡터 데이터베이스 배포가 필요한 과학 연구 프로젝트에 적용
- 생물정보학: 특히 게놈학 및 생의학 연구의 문헌 검색 및 지식 발견에 적용
- RAG 시스템 배포: HPC 환경에서 대규모 RAG 시스템 배포를 위한 성능 참고 자료 제공
- 시스템 최적화: 벡터 데이터베이스 공급업체가 HPC 환경 성능 최적화를 위한 지침 제공
본 연구는 52편의 관련 문헌을 인용했으며, 주로 다음을 포함합니다:
- 벡터 데이터베이스 시스템 및 알고리즘
- 고성능 컴퓨팅 플랫폼 및 아키텍처
- 임베딩 모델 및 RAG 기술
- 관련 성능 평가 연구
종합 평가: 이는 분산 벡터 데이터베이스의 HPC 환경에서의 성능 특성을 최초로 체계적으로 평가한 개척적 의미의 연구 논문입니다. 연구 방법은 과학적이고 엄밀하며, 실험 설계는 합리적이고, 결과는 중요한 실용적 가치를 가집니다. 일부 한계가 있지만, 이 신흥 연구 분야에 중요한 기초를 마련했으며, 과학 계산에서 벡터 데이터베이스의 응용 촉진에 중요한 의미를 가집니다.