Vector databases have rapidly grown in popularity, enabling efficient similarity search over data such as text, images, and video. They now play a central role in modern AI workflows, aiding large language models by grounding model outputs in external literature through retrieval-augmented generation. Despite their importance, little is known about the performance characteristics of vector databases in high-performance computing (HPC) systems that drive large-scale science. This work presents an empirical study of distributed vector database performance on the Polaris supercomputer in the Argonne Leadership Computing Facility. We construct a realistic biological-text workload from BV-BRC and generate embeddings from the peS2o corpus using Qwen3-Embedding-4B. We select Qdrant to evaluate insertion, index construction, and query latency with up to 32 workers. Informed by practical lessons from our experience, this work takes a first step toward characterizing vector database performance on HPC platforms to guide future research and optimization.
- 論文ID: 2509.12384
- タイトル: Exploring Distributed Vector Databases Performance on HPC Platforms: A Study with Qdrant
- 著者: Seth Ockerman, Amal Gueroudji, Song Young Oh, Robert Underwood, Nicholas Chia, Kyle Chard, Robert Ross, Shivaram Venkataraman
- 分類: cs.DC cs.DB
- 発表時期/会議: SC'25 Workshop Frontiers in Generative AI for HPC Science and Engineering: Foundations, Challenges, and Opportunities
- 論文リンク: https://arxiv.org/abs/2509.12384
ベクトルデータベースは現代的なAIワークフロー、特に検索拡張生成(RAG)システムにおいて中核的な役割を果たしており、大規模言語モデルの出力を外部文献と関連付けることでモデル性能を向上させています。ベクトルデータベースがAIアプリケーションにおいて重要性を増す一方で、高性能計算(HPC)システムにおけるその性能特性についての理解は限定的です。本研究は、アルゴンヌ国立研究所の Polaris スーパーコンピュータ上で、分散ベクトルデータベース Qdrant の実証研究を実施しました。BV-BRC に基づく実際の生物学的テキストワークロードを構築し、Qwen3-Embedding-4B モデルを使用して埋め込みベクトルを生成し、最大32個のワーカーノードにおける挿入、インデックス構築、およびクエリ性能を評価しました。
- 中心的課題:HPC環境におけるベクトルデータベースの性能特性に関する深入りした研究が不足しており、既存研究は主に単一GPU または小規模環境に集中しています
- 重要性:大規模科学計算がますますHPCシステム上で実行されるようになり、ベクトルデータベースは HPC 環境の独特な特性(専用相互接続、並列ファイルシステム、深いメモリ階層構造、異種ハードウェアアーキテクチャ)に適応する必要があります
- 既存の制限:
- HPC環境向けのベクトルデータベース性能評価が不足している
- 既存研究は主に機能特性の比較に焦点を当てており、実証的性能評価が不足している
- 科学的ワークロードと商用アプリケーション間に顕著な相違がある
AI システムが科学研究に広く応用されるようになり、特に RAG 技術の普及に伴い、HPC アーキテクチャ上でのベクトルデータベースの性能表現を理解することは、システム設計、性能最適化、および将来の研究に対して重要な指導意義を持ちます。
- 初の HPC 環境評価:Polaris スーパーコンピュータ上で Qdrant の分散性能を評価し、最大32個のワーカーノード(8つの計算ノードにまたがる)における挿入、インデックス構築、およびクエリ性能をテストしました
- 実際の科学的ワークロード:BV-BRC 生物学的データと peS2o 科学テキストコーパスに基づく実際のワークロードを構築しました
- 性能特性分析:HPC プラットフォーム上でのベクトルデータベース性能特性の初の体系的分析を提供しました
- オープンデータセット:将来の研究のために科学的埋め込みデータセットとクエリワークロードを公開しました
- 実践的ガイダンス:デプロイメント経験に基づいた実用的な推奨事項と将来の研究方向を提供しました
本研究は、以下を含むエンドツーエンドの生物学的 RAG ワークフローを構築しました:
- 入力:BV-BRC における22,723個のゲノム関連用語
- 処理:各用語を peS2o データセット(800万件の全文論文)で検索して関連データを取得
- 出力:RAG システムに文脈情報を提供する検索結果
論文は2つの主要な分散アーキテクチャを比較しました:
- ステートフルアーキテクチャ(Qdrant が採用):
- 各ワーカーノードは状態(インデックスまたはデータ)を保存し、計算を担当します
- ワーカーノードはデータセットの一部を「所有」し、その処理を担当します
- クエリはすべてのワーカーノードにブロードキャストされ、各ノードが ANN 検索を実行した後、結果を集約します
- ステートレスアーキテクチャ(計算ストレージ分離):
- ワーカーノードは計算を実行しますが、データを永続的に保存しません
- データは独立した永続ストレージ層に保存されます
- 必要に応じてデータをキャッシュ層に読み込みます
- ハードウェア:Polaris スーパーコンピュータ
- 各計算ノード:2.8 GHz AMD EPYC Milan 7543P 32コア CPU
- メモリ:512 GB DDR4 RAM
- GPU:4個の NVIDIA A100 GPU
- 相互接続:HPE Slingshot 11、Dragonfly トポロジー
- ソフトウェア:Qdrant ベクトルデータベース、HNSW インデックスを使用
- 適応的埋め込み生成パイプライン:
- ユーザーパラメータに基づくバッチ処理戦略
- マルチプロセス並列処理により GPU リソースを最大限に活用
- OOM エラー時の自動ダウングレードメカニズム
- 性能チューニング方法:
- バッチサイズと並行リクエスト数の体系的チューニング
- 非同期クライアント実装によるデータ挿入の最適化
- マルチプロセス割り当て戦略によるクライアント-サーバー通信の最適化
- BV-BRC 生物学的データ:22,723個のゲノム関連用語
- peS2o 科学テキストコーパス:8,293,485件の全文学術論文
- 埋め込みモデル:Qwen3-Embedding-4B(単一の40GB GPU に適合)
- 埋め込み生成時間:モデル読み込み、I/O、推論時間
- データ挿入時間:異なるバッチサイズと並行度での挿入性能
- インデックス構築時間:HNSW インデックス構築のスケーラビリティ
- クエリレイテンシ:異なるデータセットサイズとワーカーノード数でのクエリ性能
- ワーカーノード数:1、4、8、16、32個
- データ分布:各ワーカーノードは約80GB/#Workers のデータを担当
- クライアント構成:各 Qdrant ワーカーノードに1つのクライアントを割り当て、すべてのクライアントは単一の計算ノード上で実行
- デプロイメント戦略:マシンあたり4つの Qdrant ワーカーノード
| ステージ | 平均時間(秒) | 割合 |
|---|
| モデル読み込み | 28.17 | 1.2% |
| I/O | 7.49 | 0.3% |
| 推論 | 2381.97 | 98.5% |
主要な発見:モデル推論が全体実行時間を支配し、バッチ処理ヒューリスティックはメモリエラーを効果的に防止し、0.10% 未満の論文のみが順序処理を必要としました。
- 最適バッチサイズ:32(468秒から381秒に最適化)
- 最適並行リクエスト数:2(さらに367秒に最適化)
- スケーラビリティ性能:
| ワーカーノード数 | 1 | 4 | 8 | 16 | 32 |
|---|
| 挿入時間 | 8.22h | 2.11h | 1.14h | 35.92m | 21.67m |
主要な発見:
- CPU バウンドなバッチ処理変換が asyncio の並行性効果を制限しました
- マルチプロセスは単一クライアント並列データ挿入に asyncio より適しています
- データ挿入速度は大規模 HPC ワークロードのボトルネックになる可能性があります
- 最大加速比:32個のワーカーノードで単一ノード比較で21.32倍の加速を達成
- スケーラビリティ制限:1から4個のワーカーノードへの増加で1.27倍の加速のみを取得
- リソース利用:単一ワーカーノードは既に CPU 容量の90~97% を使用
主要な発見:ノードあたり複数の Qdrant ワーカーノードのデプロイメントは CPU 飽和インデックス構築には不要であり、GPU 加速がより効果的である可能性があります。
- 最適クエリバッチサイズ:16(139秒から73秒に最適化)
- 最適並行バッチリクエスト数:2
- データセットサイズ閾値:データセットが少なくとも30GB に達した場合にのみ、ワーカーノード数の増加が利益を示し始めます
- 最大加速比:3.57倍(十分に大きなデータセット上で)
- 通信オーバーヘッド:4個を超えるワーカーノード後、クラスタサイズのさらなる増加は限定的な改善のみをもたらします
主要な発見:クエリ実行モデルの通信オーバーヘッドは小さなデータセット上での並列化利益を超過し、クラスタはデータサイズに基づいて適応的にスケーリングできるべきです。
| システム | 並列読み書き | 計算ストレージ分離 | 負荷分散 | 自動スケーリング | GPU インデックス | GPU ANN |
|---|
| Vespa | ✓ | ✓ | ✓ | ✓ | ✗ | ✗ |
| Vald | ✓ | ✗ | ✓ | ✓ | ✓ | ✓ |
| Weaviate | ✓ | ✗ | ✓ | ✓ | ✓ | ✓ |
| Qdrant | ✓ | ✗ | ✓ | ✓ | ✓ | ✗ |
| Milvus | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
- 既存の調査は主に機能特性の比較に焦点を当てており、実証的性能評価が不足しています
- Shen らは単一 GPU RAG における複数のインデックスタイプを評価しましたが、分散システムまたは HPC 環境には関与していません
- HPC 環境向けのベクトルデータベース性能研究が不足しています
- 埋め込み生成最適化の焦点:HPC 計算ノードメモリに適合するデータセットの場合、I/O またはモデル読み込みではなく、モデル推論効率の向上を優先すべきです
- データ挿入ボトルネック:Qdrant の非同期方法はデータアップロード中に CPU バウンドタスクによって制限され、マルチプロセスが単一クライアント並列化に適している可能性があります
- インデックス構築リソース利用:単一ワーカーノードで既に CPU を飽和させることができ、GPU 加速は複数ワーカーノードの効果を向上させる可能性があります
- クエリ性能閾値:十分に大きなデータセット上でのみ、ワーカーノード数の増加がクエリ実行時間を効果的に削減できます
- 単一システム評価:Qdrant のみを評価し、システム間の比較が不足しています
- CPU 制限評価:主に CPU インデックス構築に焦点を当てており、GPU 実装の深入りした評価が不足しています
- 変動性分析の不足:実行時の変動性と再現性に注目していません
- ワークロード制限:主に生物学的ワークロードに基づいており、他の科学分野を代表していない可能性があります
- 複数システム比較研究:異なる HPC プラットフォーム上での包括的な複数システム評価
- GPU 加速最適化:GPU 加速インデックス構築とクエリの性能に関する深入りした研究
- 適応的スケーリング:データサイズとワークロード特性に基づいて適応的にスケーリングできるシステムの開発
- 科学的ワークロード特化:異なる科学分野の特定のニーズに合わせたベクトルデータベースの最適化
- 開拓的研究:HPC 環境におけるベクトルデータベースの性能を初めて体系的に評価し、重要な研究ギャップを埋めました
- 実際のワークロード:実際の生物学的データと科学文献を使用してワークロードを構築し、実用的意義を持ちます
- 包括的性能分析:埋め込み生成からクエリまでの完全なワークフロー性能評価をカバーしています
- 実用的価値:具体的な構成推奨事項と性能チューニング戦略を提供しました
- オープンデータ:データセット公開により分野の発展を促進しました
- システムカバレッジの限定:Qdrant のみを評価し、横断的な比較が不足しています
- 理論的分析の不足:主に実験的観察に基づいており、深入りした理論的分析が不足しています
- スケーラビリティ制限:最大テスト規模は32個のワーカーノードであり、大規模 HPC システムには不十分である可能性があります
- GPU 利用の不十分:主に CPU 性能に焦点を当てており、GPU 加速の可能性を十分に探索していません
- 学術的貢献:HPC 環境におけるベクトルデータベース研究の基礎を確立しました
- 実践的ガイダンス:HPC センターと科学計算ユーザーに重要なデプロイメント参考を提供しました
- 標準設定:HPC 環境におけるベクトルデータベース性能評価のベンチマーク方法を確立しました
- 将来の研究方向:複数の深入りした研究価値のある方向を明確にしました
- 大規模科学計算:HPC 環境でベクトルデータベースをデプロイする必要がある科学研究プロジェクトに適用可能
- 生物情報学:ゲノミクスと生物医学研究における文献検索と知識発見に特に適用可能
- RAG システムデプロイメント:HPC 環境での大規模 RAG システムデプロイメントの性能参考を提供
- システム最適化:ベクトルデータベースベンダーが HPC 環境性能を最適化するためのガイダンスを提供
本研究は52件の関連文献を引用しており、主に以下をカバーしています:
- ベクトルデータベースシステムとアルゴリズム
- 高性能計算プラットフォームとアーキテクチャ
- 埋め込みモデルと RAG 技術
- 関連性能評価研究
総合評価:これは開拓的意義を持つ研究論文であり、分散ベクトルデータベースの HPC 環境における性能特性を初めて体系的に評価しました。研究方法は科学的で厳密であり、実験設計は合理的で、結果は重要な実用的価値を持ちます。いくつかの制限事項がありますが、この新興研究分野に重要な基礎を確立し、科学計算におけるベクトルデータベースの応用推進に重要な意義を持ちます。