2025-11-13T13:37:11.114102

Exploring Distributed Vector Databases Performance on HPC Platforms: A Study with Qdrant

Ockerman, Gueroudji, Oh et al.

Vector databases have rapidly grown in popularity, enabling efficient similarity search over data such as text, images, and video. They now play a central role in modern AI workflows, aiding large language models by grounding model outputs in external literature through retrieval-augmented generation. Despite their importance, little is known about the performance characteristics of vector databases in high-performance computing (HPC) systems that drive large-scale science. This work presents an empirical study of distributed vector database performance on the Polaris supercomputer in the Argonne Leadership Computing Facility. We construct a realistic biological-text workload from BV-BRC and generate embeddings from the peS2o corpus using Qwen3-Embedding-4B. We select Qdrant to evaluate insertion, index construction, and query latency with up to 32 workers. Informed by practical lessons from our experience, this work takes a first step toward characterizing vector database performance on HPC platforms to guide future research and optimization.

academic

Exploration des Performances des Bases de Données Vectorielles Distribuées sur Plateformes HPC : Une Étude avec Qdrant

Informations Fondamentales

ID de l'article : 2509.12384
Titre : Exploring Distributed Vector Databases Performance on HPC Platforms: A Study with Qdrant
Auteurs : Seth Ockerman, Amal Gueroudji, Song Young Oh, Robert Underwood, Nicholas Chia, Kyle Chard, Robert Ross, Shivaram Venkataraman
Classification : cs.DC cs.DB
Date de publication/Conférence : SC'25 Workshop Frontiers in Generative AI for HPC Science and Engineering: Foundations, Challenges, and Opportunities
Lien de l'article : https://arxiv.org/abs/2509.12384

Résumé

Les bases de données vectorielles jouent un rôle central dans les flux de travail modernes de l'IA, en particulier dans les systèmes de génération augmentée par récupération (RAG), qui améliorent les performances des modèles en associant les résultats des grands modèles de langage à la littérature externe. Bien que les bases de données vectorielles deviennent de plus en plus importantes dans les applications d'IA, les caractéristiques de performance dans les systèmes de calcul haute performance (HPC) restent peu comprises. Cette étude menée sur le supercalculateur Polaris du Laboratoire national d'Argonne évalue empiriquement la base de données vectorielle distribuée Qdrant, en construisant une charge de travail textuelle biologique réaliste basée sur BV-BRC, en générant des vecteurs d'intégration avec le modèle Qwen3-Embedding-4B, et en évaluant les performances d'insertion, de construction d'index et de requête sur jusqu'à 32 nœuds de travail.

Contexte et Motivation de la Recherche

Définition du Problème

Problème central : Les caractéristiques de performance des bases de données vectorielles dans les environnements HPC manquent d'études approfondies, les recherches existantes se concentrant principalement sur les environnements mono-GPU ou à petite échelle
Importance : Le calcul scientifique à grande échelle s'exécute de plus en plus sur les systèmes HPC, et les bases de données vectorielles doivent s'adapter aux caractéristiques uniques des environnements HPC (interconnexions dédiées, systèmes de fichiers parallèles, hiérarchies mémoire profondes, architectures matérielles hétérogènes)
Limitations existantes :
- Absence d'évaluation des performances des bases de données vectorielles adaptées aux environnements HPC
- Les recherches existantes se concentrent principalement sur les comparaisons de caractéristiques fonctionnelles, manquant d'évaluations de performance empiriques
- Différences significatives entre les charges de travail scientifiques et les applications commerciales

Motivation de la Recherche

Avec l'application généralisée des systèmes d'IA dans la recherche scientifique, en particulier la popularité de la technologie RAG, la compréhension des performances des bases de données vectorielles sur l'architecture HPC est d'une importance capitale pour la conception des systèmes, l'optimisation des performances et les recherches futures.

Contributions Principales

Première évaluation en environnement HPC : Évaluation des performances distribuées de Qdrant sur le supercalculateur Polaris, testant l'insertion, la construction d'index et les performances de requête sur jusqu'à 32 nœuds de travail (répartis sur 8 nœuds de calcul)
Charges de travail scientifiques réelles : Construction de charges de travail réalistes basées sur les données biologiques BV-BRC et le corpus de texte scientifique peS2o
Analyse des caractéristiques de performance : Première analyse systématique des caractéristiques de performance des bases de données vectorielles sur les plateformes HPC
Ensemble de données ouvert : Publication d'un ensemble de données d'intégration scientifique et de charges de travail de requête pour les recherches futures
Orientations pratiques : Fourniture de recommandations pratiques et de directions de recherche futures basées sur l'expérience de déploiement

Détails Méthodologiques

Définition des Tâches

Cette étude construit un flux de travail RAG biologique de bout en bout, comprenant :

Entrée : 22 723 termes liés aux génomes dans BV-BRC
Traitement : Utilisation de chaque terme pour rechercher les données pertinentes dans l'ensemble de données peS2o (8 millions d'articles en texte intégral)
Sortie : Résultats de récupération fournissant des informations contextuelles pour le système RAG

Architecture du Système

Architecture de Base de Données Vectorielle Distribuée

L'article compare deux architectures distribuées principales :

Architecture avec état (adoptée par Qdrant) :
- Chaque nœud de travail stocke l'état (index ou données) et est responsable du calcul
- Les nœuds de travail « possèdent » et sont responsables d'une partie de l'ensemble de données
- Les requêtes sont diffusées à tous les nœuds de travail, chaque nœud exécutant une recherche ANN avant agrégation des résultats
Architecture sans état (séparation calcul-stockage) :
- Les nœuds de travail exécutent le calcul mais ne stockent pas les données de manière persistante
- Les données sont stockées dans une couche de stockage persistant indépendante
- Les données sont chargées dans la couche de cache selon les besoins

Configuration de la Plateforme Expérimentale

Matériel : Supercalculateur Polaris
- Par nœud de calcul : CPU AMD EPYC Milan 7543P 32 cœurs à 2,8 GHz
- Mémoire : 512 Go de RAM DDR4
- GPU : 4 GPU NVIDIA A100
- Interconnexion : HPE Slingshot 11, topologie Dragonfly
Logiciel : Base de données vectorielle Qdrant, utilisant l'index HNSW

Points d'Innovation Technique

Pipeline de génération d'intégration adaptatif :
- Stratégie de traitement par lot basée sur les paramètres utilisateur
- Traitement parallèle multi-processus, utilisant pleinement les ressources GPU
- Mécanisme de dégradation automatique en cas d'erreur OOM
Méthodes d'optimisation des performances :
- Optimisation systématique de la taille des lots et du nombre de requêtes concurrentes
- Implémentation de client asynchrone optimisant l'insertion de données
- Stratégie d'allocation multi-processus optimisant la communication client-serveur

Configuration Expérimentale

Ensemble de Données

Données biologiques BV-BRC : 22 723 termes liés aux génomes
Corpus de texte scientifique peS2o : 8 293 485 articles académiques en texte intégral
Modèle d'intégration : Qwen3-Embedding-4B (adapté à un seul GPU de 40 Go)

Métriques d'Évaluation

Temps de génération d'intégration : Chargement du modèle, E/S, temps d'inférence
Temps d'insertion de données : Performance d'insertion sous différentes tailles de lot et degrés de concurrence
Temps de construction d'index : Extensibilité de la construction d'index HNSW
Latence de requête : Performance de requête sous différentes tailles d'ensemble de données et nombres de nœuds de travail

Configuration Expérimentale

Nombre de nœuds de travail : 1, 4, 8, 16, 32
Distribution des données : Chaque nœud de travail responsable d'environ 80 Go/#Workers de données
Configuration client : Un client alloué par nœud de travail Qdrant, tous les clients s'exécutant sur un seul nœud de calcul
Stratégie de déploiement : 4 nœuds de travail Qdrant par machine

Résultats Expérimentaux

Performance de Génération d'Intégration

Étape	Temps moyen (secondes)	Proportion
Chargement du modèle	28,17	1,2%
E/S	7,49	0,3%
Inférence	2381,97	98,5%

Résultats clés : L'inférence du modèle domine le temps d'exécution global, l'heuristique de traitement par lot a prévenu avec succès les erreurs de mémoire, moins de 0,10 % des articles nécessitant un traitement séquentiel.

Performance d'Insertion de Données

Résultats d'Optimisation des Paramètres

Taille de lot optimale : 32 (optimisée de 468 s à 381 s)
Nombre optimal de requêtes concurrentes : 2 (optimisé davantage à 367 s)
Performance d'extensibilité :

Nombre de nœuds de travail	1	4	8	16	32
Temps d'insertion	8,22h	2,11h	1,14h	35,92m	21,67m

Résultats clés :

La conversion de traitement par lot liée au CPU limite l'effet de concurrence d'asyncio
Le multi-processus est plus adapté que asyncio pour l'insertion parallèle de données par client unique
Le débit d'insertion de données pourrait devenir un goulot d'étranglement pour les charges de travail HPC à grande échelle

Performance de Construction d'Index

Accélération maximale : 21,32× sur 32 nœuds de travail par rapport au nœud unique
Limites d'extensibilité : Seulement 1,27× d'accélération de 1 à 4 nœuds de travail
Utilisation des ressources : Chaque nœud de travail utilise déjà 90-97 % de la capacité CPU

Résultats clés : Le déploiement de plusieurs nœuds de travail Qdrant par nœud est inutile pour la construction d'index saturée en CPU, l'accélération GPU pourrait être plus efficace.

Performance de Requête

Optimisation des Paramètres

Taille de lot de requête optimale : 16 (optimisée de 139 s à 73 s)
Nombre optimal de requêtes de lot concurrentes : 2

Analyse d'Extensibilité

Seuil de taille d'ensemble de données : L'augmentation du nombre de nœuds de travail ne commence à montrer des avantages que lorsque l'ensemble de données atteint au moins 30 Go
Accélération maximale : 3,57× (sur des ensembles de données suffisamment grands)
Surcharge de communication : Au-delà de 4 nœuds de travail, l'augmentation supplémentaire de la taille du cluster n'apporte que des améliorations marginales

Résultats clés : La surcharge de communication dans le modèle d'exécution des requêtes dépasse les avantages de la parallélisation sur les petits ensembles de données, le cluster devrait pouvoir s'étendre de manière adaptative en fonction de la taille des données.

Travaux Connexes

Comparaison des Systèmes de Base de Données Vectorielle

Système	Lecture-écriture parallèle	Séparation calcul-stockage	Équilibrage de charge	Extensibilité automatique	Index GPU	ANN GPU
Vespa	✓	✓	✓	✓	✗	✗
Vald	✓	✗	✓	✓	✓	✓
Weaviate	✓	✗	✓	✓	✓	✓
Qdrant	✓	✗	✓	✓	✓	✗
Milvus	✓	✓	✓	✓	✓	✓

État de la Recherche

Les enquêtes existantes se concentrent principalement sur les comparaisons de caractéristiques fonctionnelles, manquant d'évaluations de performance empiriques
Shen et al. ont évalué plusieurs types d'index dans RAG mono-GPU, mais n'ont pas abordé les systèmes distribués ou les environnements HPC
Absence de recherche sur les performances des bases de données vectorielles dans les environnements HPC

Conclusions et Discussion

Conclusions Principales

Points prioritaires d'optimisation de la génération d'intégration : Pour les ensembles de données adaptés à la mémoire des nœuds de calcul HPC, il faut donner la priorité à l'amélioration de l'efficacité de l'inférence du modèle plutôt qu'à l'E/S ou au chargement du modèle
Goulot d'étranglement d'insertion de données : L'approche asynchrone de Qdrant est limitée par les tâches liées au CPU lors du téléchargement de données, le multi-processus pourrait être plus adapté pour la parallélisation par client unique
Utilisation des ressources de construction d'index : Un seul nœud de travail peut saturer le CPU, l'accélération GPU pourrait améliorer les avantages des nœuds multiples
Seuil de performance de requête : L'augmentation du nombre de nœuds de travail ne réduit efficacement le temps d'exécution des requêtes que sur des ensembles de données suffisamment grands

Limitations

Évaluation d'un seul système : Seul Qdrant a été évalué, manquant de comparaisons entre systèmes
Évaluation limitée au CPU : Principalement axée sur la construction d'index CPU, évaluation insuffisante des implémentations GPU
Analyse insuffisante de la variabilité : Pas de focus sur la variabilité d'exécution et la reproductibilité
Limitations des charges de travail : Principalement basées sur des charges de travail biologiques, pouvant ne pas représenter d'autres domaines scientifiques

Directions Futures

Études comparatives multi-systèmes : Évaluations synthétiques multi-systèmes sur différentes plateformes HPC
Optimisation d'accélération GPU : Recherche approfondie sur les performances de construction d'index et de requête accélérées par GPU
Extensibilité adaptative : Développement de systèmes capables de s'étendre de manière adaptative en fonction de la taille des données et des caractéristiques des charges de travail
Spécialisation des charges de travail scientifiques : Optimisation des bases de données vectorielles pour les besoins spécifiques de différents domaines scientifiques

Évaluation Approfondie

Points Forts

Recherche pionnière : Première évaluation systématique des performances des bases de données vectorielles dans les environnements HPC, comblant une lacune de recherche importante
Charges de travail réalistes : Utilisation de données biologiques réelles et de littérature scientifique pour construire des charges de travail, ayant une valeur pratique
Analyse de performance complète : Couverture de l'évaluation de performance du flux de travail complet, de la génération d'intégration aux requêtes
Valeur pratique : Fourniture de recommandations de configuration spécifiques et de stratégies d'optimisation des performances
Données ouvertes : Publication d'ensembles de données promouvant le développement du domaine

Insuffisances

Couverture système limitée : Seul Qdrant a été évalué, manquant de comparaisons transversales
Analyse théorique insuffisante : Principalement basée sur des observations expérimentales, manquant d'analyse théorique approfondie
Limites d'extensibilité : Taille de test maximale de 32 nœuds de travail, potentiellement insuffisante pour les grands systèmes HPC
Utilisation insuffisante du GPU : Principalement axée sur les performances CPU, exploration insuffisante du potentiel d'accélération GPU

Impact

Contribution académique : Établissement des fondations pour la recherche sur les bases de données vectorielles dans les environnements HPC
Orientations pratiques : Fourniture de références de déploiement importantes pour les centres HPC et les utilisateurs de calcul scientifique
Établissement de normes : Établissement de méthodes de référence pour l'évaluation des performances des bases de données vectorielles dans les environnements HPC
Directions de recherche futures : Clarification de plusieurs directions dignes d'une recherche approfondie

Scénarios Applicables

Calcul scientifique à grande échelle : Applicable aux projets de recherche scientifique nécessitant le déploiement de bases de données vectorielles dans les environnements HPC
Bioinformatique : Particulièrement applicable à la récupération de littérature et à la découverte de connaissances dans la génomique et la recherche biomédicale
Déploiement de systèmes RAG : Fourniture de références de performance pour le déploiement de systèmes RAG à grande échelle dans les environnements HPC
Optimisation des systèmes : Fourniture d'orientations pour les fournisseurs de bases de données vectorielles optimisant les performances dans les environnements HPC

Références

Cette étude cite 52 articles connexes, couvrant principalement :

Systèmes et algorithmes de bases de données vectorielles
Plateformes et architectures de calcul haute performance
Modèles d'intégration et technologie RAG
Recherches d'évaluation de performance connexes

Évaluation globale : Cet article de recherche est d'une importance pionnière, évaluant systématiquement pour la première fois les caractéristiques de performance des bases de données vectorielles distribuées dans les environnements HPC. La méthodologie de recherche est scientifiquement rigoureuse, la conception expérimentale est raisonnable, et les résultats ont une valeur pratique importante. Bien que présentant certaines limitations, il établit des fondations importantes pour ce nouveau domaine de recherche émergent et a une importance significative pour promouvoir l'application des bases de données vectorielles dans le calcul scientifique.