2025-11-13T13:37:11.114102

Exploring Distributed Vector Databases Performance on HPC Platforms: A Study with Qdrant

Ockerman, Gueroudji, Oh et al.

Vector databases have rapidly grown in popularity, enabling efficient similarity search over data such as text, images, and video. They now play a central role in modern AI workflows, aiding large language models by grounding model outputs in external literature through retrieval-augmented generation. Despite their importance, little is known about the performance characteristics of vector databases in high-performance computing (HPC) systems that drive large-scale science. This work presents an empirical study of distributed vector database performance on the Polaris supercomputer in the Argonne Leadership Computing Facility. We construct a realistic biological-text workload from BV-BRC and generate embeddings from the peS2o corpus using Qwen3-Embedding-4B. We select Qdrant to evaluate insertion, index construction, and query latency with up to 32 workers. Informed by practical lessons from our experience, this work takes a first step toward characterizing vector database performance on HPC platforms to guide future research and optimization.

academic

HPC プラットフォーム上の分散ベクトルデータベース性能の探索：Qdrant を用いた研究

基本情報

論文ID: 2509.12384
タイトル: Exploring Distributed Vector Databases Performance on HPC Platforms: A Study with Qdrant
著者: Seth Ockerman, Amal Gueroudji, Song Young Oh, Robert Underwood, Nicholas Chia, Kyle Chard, Robert Ross, Shivaram Venkataraman
分類: cs.DC cs.DB
発表時期/会議: SC'25 Workshop Frontiers in Generative AI for HPC Science and Engineering: Foundations, Challenges, and Opportunities
論文リンク: https://arxiv.org/abs/2509.12384

要約

ベクトルデータベースは現代的なAIワークフロー、特に検索拡張生成（RAG）システムにおいて中核的な役割を果たしており、大規模言語モデルの出力を外部文献と関連付けることでモデル性能を向上させています。ベクトルデータベースがAIアプリケーションにおいて重要性を増す一方で、高性能計算（HPC）システムにおけるその性能特性についての理解は限定的です。本研究は、アルゴンヌ国立研究所の Polaris スーパーコンピュータ上で、分散ベクトルデータベース Qdrant の実証研究を実施しました。BV-BRC に基づく実際の生物学的テキストワークロードを構築し、Qwen3-Embedding-4B モデルを使用して埋め込みベクトルを生成し、最大32個のワーカーノードにおける挿入、インデックス構築、およびクエリ性能を評価しました。

研究背景と動機

問題定義

中心的課題：HPC環境におけるベクトルデータベースの性能特性に関する深入りした研究が不足しており、既存研究は主に単一GPU または小規模環境に集中しています
重要性：大規模科学計算がますますHPCシステム上で実行されるようになり、ベクトルデータベースは HPC 環境の独特な特性（専用相互接続、並列ファイルシステム、深いメモリ階層構造、異種ハードウェアアーキテクチャ）に適応する必要があります
既存の制限：
- HPC環境向けのベクトルデータベース性能評価が不足している
- 既存研究は主に機能特性の比較に焦点を当てており、実証的性能評価が不足している
- 科学的ワークロードと商用アプリケーション間に顕著な相違がある

研究動機

AI システムが科学研究に広く応用されるようになり、特に RAG 技術の普及に伴い、HPC アーキテクチャ上でのベクトルデータベースの性能表現を理解することは、システム設計、性能最適化、および将来の研究に対して重要な指導意義を持ちます。

核心的貢献

初の HPC 環境評価：Polaris スーパーコンピュータ上で Qdrant の分散性能を評価し、最大32個のワーカーノード（8つの計算ノードにまたがる）における挿入、インデックス構築、およびクエリ性能をテストしました
実際の科学的ワークロード：BV-BRC 生物学的データと peS2o 科学テキストコーパスに基づく実際のワークロードを構築しました
性能特性分析：HPC プラットフォーム上でのベクトルデータベース性能特性の初の体系的分析を提供しました
オープンデータセット：将来の研究のために科学的埋め込みデータセットとクエリワークロードを公開しました
実践的ガイダンス：デプロイメント経験に基づいた実用的な推奨事項と将来の研究方向を提供しました

方法論の詳細

タスク定義

本研究は、以下を含むエンドツーエンドの生物学的 RAG ワークフローを構築しました：

入力：BV-BRC における22,723個のゲノム関連用語
処理：各用語を peS2o データセット（800万件の全文論文）で検索して関連データを取得
出力：RAG システムに文脈情報を提供する検索結果

システムアーキテクチャ

分散ベクトルデータベースアーキテクチャ

論文は2つの主要な分散アーキテクチャを比較しました：

ステートフルアーキテクチャ（Qdrant が採用）：
- 各ワーカーノードは状態（インデックスまたはデータ）を保存し、計算を担当します
- ワーカーノードはデータセットの一部を「所有」し、その処理を担当します
- クエリはすべてのワーカーノードにブロードキャストされ、各ノードが ANN 検索を実行した後、結果を集約します
ステートレスアーキテクチャ（計算ストレージ分離）：
- ワーカーノードは計算を実行しますが、データを永続的に保存しません
- データは独立した永続ストレージ層に保存されます
- 必要に応じてデータをキャッシュ層に読み込みます

実験プラットフォーム構成

ハードウェア：Polaris スーパーコンピュータ
- 各計算ノード：2.8 GHz AMD EPYC Milan 7543P 32コア CPU
- メモリ：512 GB DDR4 RAM
- GPU：4個の NVIDIA A100 GPU
- 相互接続：HPE Slingshot 11、Dragonfly トポロジー
ソフトウェア：Qdrant ベクトルデータベース、HNSW インデックスを使用

技術的革新点

適応的埋め込み生成パイプライン：
- ユーザーパラメータに基づくバッチ処理戦略
- マルチプロセス並列処理により GPU リソースを最大限に活用
- OOM エラー時の自動ダウングレードメカニズム
性能チューニング方法：
- バッチサイズと並行リクエスト数の体系的チューニング
- 非同期クライアント実装によるデータ挿入の最適化
- マルチプロセス割り当て戦略によるクライアント-サーバー通信の最適化

実験設定

データセット

BV-BRC 生物学的データ：22,723個のゲノム関連用語
peS2o 科学テキストコーパス：8,293,485件の全文学術論文
埋め込みモデル：Qwen3-Embedding-4B（単一の40GB GPU に適合）

評価指標

埋め込み生成時間：モデル読み込み、I/O、推論時間
データ挿入時間：異なるバッチサイズと並行度での挿入性能
インデックス構築時間：HNSW インデックス構築のスケーラビリティ
クエリレイテンシ：異なるデータセットサイズとワーカーノード数でのクエリ性能

実験構成

ワーカーノード数：1、4、8、16、32個
データ分布：各ワーカーノードは約80GB/#Workers のデータを担当
クライアント構成：各 Qdrant ワーカーノードに1つのクライアントを割り当て、すべてのクライアントは単一の計算ノード上で実行
デプロイメント戦略：マシンあたり4つの Qdrant ワーカーノード

実験結果

埋め込み生成性能

ステージ	平均時間（秒）	割合
モデル読み込み	28.17	1.2%
I/O	7.49	0.3%
推論	2381.97	98.5%

主要な発見：モデル推論が全体実行時間を支配し、バッチ処理ヒューリスティックはメモリエラーを効果的に防止し、0.10% 未満の論文のみが順序処理を必要としました。

データ挿入性能

パラメータチューニング結果

最適バッチサイズ：32（468秒から381秒に最適化）
最適並行リクエスト数：2（さらに367秒に最適化）
スケーラビリティ性能：

ワーカーノード数	1	4	8	16	32
挿入時間	8.22h	2.11h	1.14h	35.92m	21.67m

主要な発見：

CPU バウンドなバッチ処理変換が asyncio の並行性効果を制限しました
マルチプロセスは単一クライアント並列データ挿入に asyncio より適しています
データ挿入速度は大規模 HPC ワークロードのボトルネックになる可能性があります

インデックス構築性能

最大加速比：32個のワーカーノードで単一ノード比較で21.32倍の加速を達成
スケーラビリティ制限：1から4個のワーカーノードへの増加で1.27倍の加速のみを取得
リソース利用：単一ワーカーノードは既に CPU 容量の90～97% を使用

主要な発見：ノードあたり複数の Qdrant ワーカーノードのデプロイメントは CPU 飽和インデックス構築には不要であり、GPU 加速がより効果的である可能性があります。

クエリ性能

パラメータチューニング

最適クエリバッチサイズ：16（139秒から73秒に最適化）
最適並行バッチリクエスト数：2

スケーラビリティ分析

データセットサイズ閾値：データセットが少なくとも30GB に達した場合にのみ、ワーカーノード数の増加が利益を示し始めます
最大加速比：3.57倍（十分に大きなデータセット上で）
通信オーバーヘッド：4個を超えるワーカーノード後、クラスタサイズのさらなる増加は限定的な改善のみをもたらします

主要な発見：クエリ実行モデルの通信オーバーヘッドは小さなデータセット上での並列化利益を超過し、クラスタはデータサイズに基づいて適応的にスケーリングできるべきです。

システム	並列読み書き	計算ストレージ分離	負荷分散	自動スケーリング	GPU インデックス	GPU ANN
Vespa	✓	✓	✓	✓	✗	✗
Vald	✓	✗	✓	✓	✓	✓
Weaviate	✓	✗	✓	✓	✓	✓
Qdrant	✓	✗	✓	✓	✓	✗
Milvus	✓	✓	✓	✓	✓	✓

結論と考察

主要な結論

埋め込み生成最適化の焦点：HPC 計算ノードメモリに適合するデータセットの場合、I/O またはモデル読み込みではなく、モデル推論効率の向上を優先すべきです
データ挿入ボトルネック：Qdrant の非同期方法はデータアップロード中に CPU バウンドタスクによって制限され、マルチプロセスが単一クライアント並列化に適している可能性があります
インデックス構築リソース利用：単一ワーカーノードで既に CPU を飽和させることができ、GPU 加速は複数ワーカーノードの効果を向上させる可能性があります
クエリ性能閾値：十分に大きなデータセット上でのみ、ワーカーノード数の増加がクエリ実行時間を効果的に削減できます

制限事項

単一システム評価：Qdrant のみを評価し、システム間の比較が不足しています
CPU 制限評価：主に CPU インデックス構築に焦点を当てており、GPU 実装の深入りした評価が不足しています
変動性分析の不足：実行時の変動性と再現性に注目していません
ワークロード制限：主に生物学的ワークロードに基づいており、他の科学分野を代表していない可能性があります

将来の方向

複数システム比較研究：異なる HPC プラットフォーム上での包括的な複数システム評価
GPU 加速最適化：GPU 加速インデックス構築とクエリの性能に関する深入りした研究
適応的スケーリング：データサイズとワークロード特性に基づいて適応的にスケーリングできるシステムの開発
科学的ワークロード特化：異なる科学分野の特定のニーズに合わせたベクトルデータベースの最適化

深い評価

利点

開拓的研究：HPC 環境におけるベクトルデータベースの性能を初めて体系的に評価し、重要な研究ギャップを埋めました
実際のワークロード：実際の生物学的データと科学文献を使用してワークロードを構築し、実用的意義を持ちます
包括的性能分析：埋め込み生成からクエリまでの完全なワークフロー性能評価をカバーしています
実用的価値：具体的な構成推奨事項と性能チューニング戦略を提供しました
オープンデータ：データセット公開により分野の発展を促進しました

不足

システムカバレッジの限定：Qdrant のみを評価し、横断的な比較が不足しています
理論的分析の不足：主に実験的観察に基づいており、深入りした理論的分析が不足しています
スケーラビリティ制限：最大テスト規模は32個のワーカーノードであり、大規模 HPC システムには不十分である可能性があります
GPU 利用の不十分：主に CPU 性能に焦点を当てており、GPU 加速の可能性を十分に探索していません

影響力

学術的貢献：HPC 環境におけるベクトルデータベース研究の基礎を確立しました
実践的ガイダンス：HPC センターと科学計算ユーザーに重要なデプロイメント参考を提供しました
標準設定：HPC 環境におけるベクトルデータベース性能評価のベンチマーク方法を確立しました
将来の研究方向：複数の深入りした研究価値のある方向を明確にしました

適用シナリオ

大規模科学計算：HPC 環境でベクトルデータベースをデプロイする必要がある科学研究プロジェクトに適用可能
生物情報学：ゲノミクスと生物医学研究における文献検索と知識発見に特に適用可能
RAG システムデプロイメント：HPC 環境での大規模 RAG システムデプロイメントの性能参考を提供
システム最適化：ベクトルデータベースベンダーが HPC 環境性能を最適化するためのガイダンスを提供

参考文献

本研究は52件の関連文献を引用しており、主に以下をカバーしています：

ベクトルデータベースシステムとアルゴリズム
高性能計算プラットフォームとアーキテクチャ
埋め込みモデルと RAG 技術
関連性能評価研究

総合評価：これは開拓的意義を持つ研究論文であり、分散ベクトルデータベースの HPC 環境における性能特性を初めて体系的に評価しました。研究方法は科学的で厳密であり、実験設計は合理的で、結果は重要な実用的価値を持ちます。いくつかの制限事項がありますが、この新興研究分野に重要な基礎を確立し、科学計算におけるベクトルデータベースの応用推進に重要な意義を持ちます。