2025-11-13T13:37:11.114102

Exploring Distributed Vector Databases Performance on HPC Platforms: A Study with Qdrant

Ockerman, Gueroudji, Oh et al.
Vector databases have rapidly grown in popularity, enabling efficient similarity search over data such as text, images, and video. They now play a central role in modern AI workflows, aiding large language models by grounding model outputs in external literature through retrieval-augmented generation. Despite their importance, little is known about the performance characteristics of vector databases in high-performance computing (HPC) systems that drive large-scale science. This work presents an empirical study of distributed vector database performance on the Polaris supercomputer in the Argonne Leadership Computing Facility. We construct a realistic biological-text workload from BV-BRC and generate embeddings from the peS2o corpus using Qwen3-Embedding-4B. We select Qdrant to evaluate insertion, index construction, and query latency with up to 32 workers. Informed by practical lessons from our experience, this work takes a first step toward characterizing vector database performance on HPC platforms to guide future research and optimization.
academic

Exploring Distributed Vector Databases Performance on HPC Platforms: A Study with Qdrant

基本信息

  • 论文ID: 2509.12384
  • 标题: Exploring Distributed Vector Databases Performance on HPC Platforms: A Study with Qdrant
  • 作者: Seth Ockerman, Amal Gueroudji, Song Young Oh, Robert Underwood, Nicholas Chia, Kyle Chard, Robert Ross, Shivaram Venkataraman
  • 分类: cs.DC cs.DB
  • 发表时间/会议: SC'25 Workshop Frontiers in Generative AI for HPC Science and Engineering: Foundations, Challenges, and Opportunities
  • 论文链接: https://arxiv.org/abs/2509.12384

摘要

向量数据库在现代AI工作流中扮演着核心角色,特别是在检索增强生成(RAG)系统中,通过将大语言模型输出与外部文献关联来提升模型性能。尽管向量数据库在AI应用中日益重要,但对其在高性能计算(HPC)系统中的性能特征了解甚少。本研究在阿贡国家实验室的Polaris超级计算机上对分布式向量数据库Qdrant进行了实证研究,构建了基于BV-BRC的真实生物文本工作负载,使用Qwen3-Embedding-4B模型生成嵌入向量,评估了最多32个工作节点下的插入、索引构建和查询性能。

研究背景与动机

问题定义

  1. 核心问题:向量数据库在HPC环境中的性能特征缺乏深入研究,现有研究主要集中在单GPU或小规模环境
  2. 重要性:大规模科学计算越来越多地在HPC系统上执行,向量数据库必须适应HPC环境的独特特征(专用互连、并行文件系统、深度内存层次结构、异构硬件架构)
  3. 现有局限性
    • 缺乏针对HPC环境的向量数据库性能评估
    • 现有研究主要关注功能特性比较,缺乏实证性能评估
    • 科学工作负载与商业应用存在显著差异

研究动机

随着AI系统在科学研究中的广泛应用,特别是RAG技术的普及,理解向量数据库在HPC架构上的性能表现对于系统设计、性能优化和未来研究具有重要指导意义。

核心贡献

  1. 首次HPC环境评估:在Polaris超级计算机上评估了Qdrant分布式性能,测试了最多32个工作节点(跨8个计算节点)的插入、索引构建和查询性能
  2. 实际科学工作负载:构建了基于BV-BRC生物数据和peS2o科学文本语料库的真实工作负载
  3. 性能特征分析:提供了向量数据库在HPC平台上性能特征的首次系统性分析
  4. 开放数据集:发布了科学嵌入数据集和查询工作负载供未来研究使用
  5. 实践指导:基于部署经验提供了实用建议和未来研究方向

方法详解

任务定义

本研究构建了一个端到端的生物学RAG工作流,包括:

  • 输入:BV-BRC中的22,723个基因组相关术语
  • 处理:使用每个术语在peS2o数据集(800万篇全文论文)中搜索相关数据
  • 输出:为RAG系统提供上下文信息的检索结果

系统架构

分布式向量数据库架构

论文比较了两种主要的分布式架构:

  1. 有状态架构(Qdrant采用)
    • 每个工作节点存储状态(索引或数据)并负责计算
    • 工作节点既"拥有"又负责数据集的一部分
    • 查询广播到所有工作节点,各节点执行ANN搜索后聚合结果
  2. 无状态架构(计算存储分离)
    • 工作节点执行计算但不持久存储数据
    • 数据存储在独立的持久存储层
    • 需要时将数据加载到缓存层

实验平台配置

  • 硬件:Polaris超级计算机
    • 每个计算节点:2.8 GHz AMD EPYC Milan 7543P 32核CPU
    • 内存:512 GB DDR4 RAM
    • GPU:4个NVIDIA A100 GPU
    • 互连:HPE Slingshot 11,Dragonfly拓扑
  • 软件:Qdrant向量数据库,使用HNSW索引

技术创新点

  1. 自适应嵌入生成管道
    • 基于用户参数的批处理策略
    • 多进程并行处理,充分利用GPU资源
    • OOM错误时的自动降级机制
  2. 性能调优方法
    • 批大小和并发请求数的系统性调优
    • 异步客户端实现优化数据插入
    • 多进程分配策略优化客户端-服务器通信

实验设置

数据集

  1. BV-BRC生物数据:22,723个基因组相关术语
  2. peS2o科学文本语料库:8,293,485篇全文学术论文
  3. 嵌入模型:Qwen3-Embedding-4B(适合单个40GB GPU)

评价指标

  • 嵌入生成时间:模型加载、I/O、推理时间
  • 数据插入时间:不同批大小和并发度下的插入性能
  • 索引构建时间:HNSW索引构建的扩展性
  • 查询延迟:不同数据集大小和工作节点数下的查询性能

实验配置

  • 工作节点数:1, 4, 8, 16, 32个
  • 数据分布:每个工作节点负责约80GB/#Workers的数据
  • 客户端配置:每个Qdrant工作节点分配一个客户端,所有客户端运行在单个计算节点
  • 部署策略:每台机器4个Qdrant工作节点

实验结果

嵌入生成性能

阶段平均时间(秒)占比
模型加载28.171.2%
I/O7.490.3%
推理2381.9798.5%

关键发现:模型推理主导整体运行时间,批处理启发式成功防止了内存错误,仅有不到0.10%的论文需要顺序处理。

数据插入性能

参数调优结果

  • 最优批大小:32(从468s优化到381s)
  • 最优并发请求数:2(进一步优化到367s)
  • 扩展性能
工作节点数1481632
插入时间8.22h2.11h1.14h35.92m21.67m

关键发现

  1. CPU绑定的批处理转换限制了asyncio的并发效果
  2. 多进程比asyncio更适合单客户端并行数据插入
  3. 数据插入速率可能成为大规模HPC工作负载的瓶颈

索引构建性能

  • 最大加速比:32个工作节点相对单节点达到21.32×加速
  • 扩展性限制:从1到4个工作节点仅获得1.27×加速
  • 资源利用:单个工作节点已使用90-97%的CPU容量

关键发现:每个节点部署多个Qdrant工作节点对CPU饱和的索引构建是不必要的,GPU加速可能更有效。

查询性能

参数调优

  • 最优查询批大小:16(从139s优化到73s)
  • 最优并发批请求数:2

扩展性分析

  • 数据集大小阈值:只有当数据集达到至少30GB时,增加工作节点数才开始显示收益
  • 最大加速比:3.57×(在足够大的数据集上)
  • 通信开销:超过4个工作节点后,进一步增加集群大小仅带来边际改善

关键发现:查询执行模型中的通信开销在小数据集上超过了并行化收益,集群应能根据数据大小自适应扩展。

相关工作

向量数据库系统比较

系统并行读写计算存储分离负载均衡自动扩展GPU索引GPU ANN
Vespa
Vald
Weaviate
Qdrant
Milvus

研究现状

  • 现有调研主要关注功能特性比较,缺乏实证性能评估
  • Shen等人评估了单GPU RAG中的多种索引类型,但未涉及分布式系统或HPC环境
  • 缺乏针对HPC环境的向量数据库性能研究

结论与讨论

主要结论

  1. 嵌入生成优化重点:对于适合HPC计算节点内存的数据集,应优先提升模型推理效率而非I/O或模型加载
  2. 数据插入瓶颈:Qdrant的异步方法在数据上传中受CPU绑定任务限制,多进程可能更适合单客户端并行
  3. 索引构建资源利用:单个工作节点即可饱和CPU,GPU加速可能提高多工作节点效益
  4. 查询性能阈值:只有在足够大的数据集上,增加工作节点数才能有效减少查询运行时间

局限性

  1. 单系统评估:仅评估了Qdrant一个系统,缺乏跨系统比较
  2. CPU限制评估:主要关注CPU索引构建,未深入评估GPU实现
  3. 变异性分析不足:未关注运行时变异性和可重现性
  4. 工作负载局限:主要基于生物学工作负载,可能不代表其他科学领域

未来方向

  1. 多系统比较研究:在不同HPC平台上进行综合的多系统评估
  2. GPU加速优化:深入研究GPU加速索引构建和查询的性能
  3. 自适应扩展:开发能根据数据大小和工作负载特征自适应扩展的系统
  4. 科学工作负载特化:针对不同科学领域的特定需求优化向量数据库

深度评价

优点

  1. 开创性研究:首次系统性地评估了向量数据库在HPC环境中的性能,填补了重要研究空白
  2. 实际工作负载:使用真实的生物学数据和科学文献构建工作负载,具有实际意义
  3. 全面性能分析:涵盖了从嵌入生成到查询的完整工作流性能评估
  4. 实用价值:提供了具体的配置建议和性能调优策略
  5. 开放数据:发布数据集促进了领域发展

不足

  1. 系统覆盖有限:仅评估Qdrant一个系统,缺乏横向比较
  2. 理论分析不足:主要基于实验观察,缺乏深入的理论分析
  3. 扩展性限制:最大测试规模为32个工作节点,对于大型HPC系统可能不够
  4. GPU利用不充分:主要关注CPU性能,未充分探索GPU加速潜力

影响力

  1. 学术贡献:为HPC环境下的向量数据库研究奠定了基础
  2. 实践指导:为HPC中心和科学计算用户提供了重要的部署参考
  3. 标准设立:建立了HPC环境下向量数据库性能评估的基准方法
  4. 未来研究方向:明确了多个值得深入研究的方向

适用场景

  1. 大规模科学计算:适用于需要在HPC环境中部署向量数据库的科学研究项目
  2. 生物信息学:特别适用于基因组学和生物医学研究中的文献检索和知识发现
  3. RAG系统部署:为在HPC环境中部署大规模RAG系统提供性能参考
  4. 系统优化:为向量数据库厂商优化HPC环境性能提供指导

参考文献

本研究引用了52篇相关文献,主要涵盖:

  • 向量数据库系统和算法
  • 高性能计算平台和架构
  • 嵌入模型和RAG技术
  • 相关性能评估研究

总体评价:这是一篇具有开创性意义的研究论文,首次系统性地评估了分布式向量数据库在HPC环境中的性能特征。研究方法科学严谨,实验设计合理,结果具有重要的实用价值。尽管存在一些局限性,但为这一新兴研究领域奠定了重要基础,对推动向量数据库在科学计算中的应用具有重要意义。