Vector databases have rapidly grown in popularity, enabling efficient similarity search over data such as text, images, and video. They now play a central role in modern AI workflows, aiding large language models by grounding model outputs in external literature through retrieval-augmented generation. Despite their importance, little is known about the performance characteristics of vector databases in high-performance computing (HPC) systems that drive large-scale science. This work presents an empirical study of distributed vector database performance on the Polaris supercomputer in the Argonne Leadership Computing Facility. We construct a realistic biological-text workload from BV-BRC and generate embeddings from the peS2o corpus using Qwen3-Embedding-4B. We select Qdrant to evaluate insertion, index construction, and query latency with up to 32 workers. Informed by practical lessons from our experience, this work takes a first step toward characterizing vector database performance on HPC platforms to guide future research and optimization.
academic- 论文ID: 2509.12384
- 标题: Exploring Distributed Vector Databases Performance on HPC Platforms: A Study with Qdrant
- 作者: Seth Ockerman, Amal Gueroudji, Song Young Oh, Robert Underwood, Nicholas Chia, Kyle Chard, Robert Ross, Shivaram Venkataraman
- 分类: cs.DC cs.DB
- 发表时间/会议: SC'25 Workshop Frontiers in Generative AI for HPC Science and Engineering: Foundations, Challenges, and Opportunities
- 论文链接: https://arxiv.org/abs/2509.12384
向量数据库在现代AI工作流中扮演着核心角色,特别是在检索增强生成(RAG)系统中,通过将大语言模型输出与外部文献关联来提升模型性能。尽管向量数据库在AI应用中日益重要,但对其在高性能计算(HPC)系统中的性能特征了解甚少。本研究在阿贡国家实验室的Polaris超级计算机上对分布式向量数据库Qdrant进行了实证研究,构建了基于BV-BRC的真实生物文本工作负载,使用Qwen3-Embedding-4B模型生成嵌入向量,评估了最多32个工作节点下的插入、索引构建和查询性能。
- 核心问题:向量数据库在HPC环境中的性能特征缺乏深入研究,现有研究主要集中在单GPU或小规模环境
- 重要性:大规模科学计算越来越多地在HPC系统上执行,向量数据库必须适应HPC环境的独特特征(专用互连、并行文件系统、深度内存层次结构、异构硬件架构)
- 现有局限性:
- 缺乏针对HPC环境的向量数据库性能评估
- 现有研究主要关注功能特性比较,缺乏实证性能评估
- 科学工作负载与商业应用存在显著差异
随着AI系统在科学研究中的广泛应用,特别是RAG技术的普及,理解向量数据库在HPC架构上的性能表现对于系统设计、性能优化和未来研究具有重要指导意义。
- 首次HPC环境评估:在Polaris超级计算机上评估了Qdrant分布式性能,测试了最多32个工作节点(跨8个计算节点)的插入、索引构建和查询性能
- 实际科学工作负载:构建了基于BV-BRC生物数据和peS2o科学文本语料库的真实工作负载
- 性能特征分析:提供了向量数据库在HPC平台上性能特征的首次系统性分析
- 开放数据集:发布了科学嵌入数据集和查询工作负载供未来研究使用
- 实践指导:基于部署经验提供了实用建议和未来研究方向
本研究构建了一个端到端的生物学RAG工作流,包括:
- 输入:BV-BRC中的22,723个基因组相关术语
- 处理:使用每个术语在peS2o数据集(800万篇全文论文)中搜索相关数据
- 输出:为RAG系统提供上下文信息的检索结果
论文比较了两种主要的分布式架构:
- 有状态架构(Qdrant采用):
- 每个工作节点存储状态(索引或数据)并负责计算
- 工作节点既"拥有"又负责数据集的一部分
- 查询广播到所有工作节点,各节点执行ANN搜索后聚合结果
- 无状态架构(计算存储分离):
- 工作节点执行计算但不持久存储数据
- 数据存储在独立的持久存储层
- 需要时将数据加载到缓存层
- 硬件:Polaris超级计算机
- 每个计算节点:2.8 GHz AMD EPYC Milan 7543P 32核CPU
- 内存:512 GB DDR4 RAM
- GPU:4个NVIDIA A100 GPU
- 互连:HPE Slingshot 11,Dragonfly拓扑
- 软件:Qdrant向量数据库,使用HNSW索引
- 自适应嵌入生成管道:
- 基于用户参数的批处理策略
- 多进程并行处理,充分利用GPU资源
- OOM错误时的自动降级机制
- 性能调优方法:
- 批大小和并发请求数的系统性调优
- 异步客户端实现优化数据插入
- 多进程分配策略优化客户端-服务器通信
- BV-BRC生物数据:22,723个基因组相关术语
- peS2o科学文本语料库:8,293,485篇全文学术论文
- 嵌入模型:Qwen3-Embedding-4B(适合单个40GB GPU)
- 嵌入生成时间:模型加载、I/O、推理时间
- 数据插入时间:不同批大小和并发度下的插入性能
- 索引构建时间:HNSW索引构建的扩展性
- 查询延迟:不同数据集大小和工作节点数下的查询性能
- 工作节点数:1, 4, 8, 16, 32个
- 数据分布:每个工作节点负责约80GB/#Workers的数据
- 客户端配置:每个Qdrant工作节点分配一个客户端,所有客户端运行在单个计算节点
- 部署策略:每台机器4个Qdrant工作节点
| 阶段 | 平均时间(秒) | 占比 |
|---|
| 模型加载 | 28.17 | 1.2% |
| I/O | 7.49 | 0.3% |
| 推理 | 2381.97 | 98.5% |
关键发现:模型推理主导整体运行时间,批处理启发式成功防止了内存错误,仅有不到0.10%的论文需要顺序处理。
- 最优批大小:32(从468s优化到381s)
- 最优并发请求数:2(进一步优化到367s)
- 扩展性能:
| 工作节点数 | 1 | 4 | 8 | 16 | 32 |
|---|
| 插入时间 | 8.22h | 2.11h | 1.14h | 35.92m | 21.67m |
关键发现:
- CPU绑定的批处理转换限制了asyncio的并发效果
- 多进程比asyncio更适合单客户端并行数据插入
- 数据插入速率可能成为大规模HPC工作负载的瓶颈
- 最大加速比:32个工作节点相对单节点达到21.32×加速
- 扩展性限制:从1到4个工作节点仅获得1.27×加速
- 资源利用:单个工作节点已使用90-97%的CPU容量
关键发现:每个节点部署多个Qdrant工作节点对CPU饱和的索引构建是不必要的,GPU加速可能更有效。
- 最优查询批大小:16(从139s优化到73s)
- 最优并发批请求数:2
- 数据集大小阈值:只有当数据集达到至少30GB时,增加工作节点数才开始显示收益
- 最大加速比:3.57×(在足够大的数据集上)
- 通信开销:超过4个工作节点后,进一步增加集群大小仅带来边际改善
关键发现:查询执行模型中的通信开销在小数据集上超过了并行化收益,集群应能根据数据大小自适应扩展。
| 系统 | 并行读写 | 计算存储分离 | 负载均衡 | 自动扩展 | GPU索引 | GPU ANN |
|---|
| Vespa | ✓ | ✓ | ✓ | ✓ | ✗ | ✗ |
| Vald | ✓ | ✗ | ✓ | ✓ | ✓ | ✓ |
| Weaviate | ✓ | ✗ | ✓ | ✓ | ✓ | ✓ |
| Qdrant | ✓ | ✗ | ✓ | ✓ | ✓ | ✗ |
| Milvus | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
- 现有调研主要关注功能特性比较,缺乏实证性能评估
- Shen等人评估了单GPU RAG中的多种索引类型,但未涉及分布式系统或HPC环境
- 缺乏针对HPC环境的向量数据库性能研究
- 嵌入生成优化重点:对于适合HPC计算节点内存的数据集,应优先提升模型推理效率而非I/O或模型加载
- 数据插入瓶颈:Qdrant的异步方法在数据上传中受CPU绑定任务限制,多进程可能更适合单客户端并行
- 索引构建资源利用:单个工作节点即可饱和CPU,GPU加速可能提高多工作节点效益
- 查询性能阈值:只有在足够大的数据集上,增加工作节点数才能有效减少查询运行时间
- 单系统评估:仅评估了Qdrant一个系统,缺乏跨系统比较
- CPU限制评估:主要关注CPU索引构建,未深入评估GPU实现
- 变异性分析不足:未关注运行时变异性和可重现性
- 工作负载局限:主要基于生物学工作负载,可能不代表其他科学领域
- 多系统比较研究:在不同HPC平台上进行综合的多系统评估
- GPU加速优化:深入研究GPU加速索引构建和查询的性能
- 自适应扩展:开发能根据数据大小和工作负载特征自适应扩展的系统
- 科学工作负载特化:针对不同科学领域的特定需求优化向量数据库
- 开创性研究:首次系统性地评估了向量数据库在HPC环境中的性能,填补了重要研究空白
- 实际工作负载:使用真实的生物学数据和科学文献构建工作负载,具有实际意义
- 全面性能分析:涵盖了从嵌入生成到查询的完整工作流性能评估
- 实用价值:提供了具体的配置建议和性能调优策略
- 开放数据:发布数据集促进了领域发展
- 系统覆盖有限:仅评估Qdrant一个系统,缺乏横向比较
- 理论分析不足:主要基于实验观察,缺乏深入的理论分析
- 扩展性限制:最大测试规模为32个工作节点,对于大型HPC系统可能不够
- GPU利用不充分:主要关注CPU性能,未充分探索GPU加速潜力
- 学术贡献:为HPC环境下的向量数据库研究奠定了基础
- 实践指导:为HPC中心和科学计算用户提供了重要的部署参考
- 标准设立:建立了HPC环境下向量数据库性能评估的基准方法
- 未来研究方向:明确了多个值得深入研究的方向
- 大规模科学计算:适用于需要在HPC环境中部署向量数据库的科学研究项目
- 生物信息学:特别适用于基因组学和生物医学研究中的文献检索和知识发现
- RAG系统部署:为在HPC环境中部署大规模RAG系统提供性能参考
- 系统优化:为向量数据库厂商优化HPC环境性能提供指导
本研究引用了52篇相关文献,主要涵盖:
- 向量数据库系统和算法
- 高性能计算平台和架构
- 嵌入模型和RAG技术
- 相关性能评估研究
总体评价:这是一篇具有开创性意义的研究论文,首次系统性地评估了分布式向量数据库在HPC环境中的性能特征。研究方法科学严谨,实验设计合理,结果具有重要的实用价值。尽管存在一些局限性,但为这一新兴研究领域奠定了重要基础,对推动向量数据库在科学计算中的应用具有重要意义。