Vector databases have rapidly grown in popularity, enabling efficient similarity search over data such as text, images, and video. They now play a central role in modern AI workflows, aiding large language models by grounding model outputs in external literature through retrieval-augmented generation. Despite their importance, little is known about the performance characteristics of vector databases in high-performance computing (HPC) systems that drive large-scale science. This work presents an empirical study of distributed vector database performance on the Polaris supercomputer in the Argonne Leadership Computing Facility. We construct a realistic biological-text workload from BV-BRC and generate embeddings from the peS2o corpus using Qwen3-Embedding-4B. We select Qdrant to evaluate insertion, index construction, and query latency with up to 32 workers. Informed by practical lessons from our experience, this work takes a first step toward characterizing vector database performance on HPC platforms to guide future research and optimization.
- ID de l'article : 2509.12384
- Titre : Exploring Distributed Vector Databases Performance on HPC Platforms: A Study with Qdrant
- Auteurs : Seth Ockerman, Amal Gueroudji, Song Young Oh, Robert Underwood, Nicholas Chia, Kyle Chard, Robert Ross, Shivaram Venkataraman
- Classification : cs.DC cs.DB
- Date de publication/Conférence : SC'25 Workshop Frontiers in Generative AI for HPC Science and Engineering: Foundations, Challenges, and Opportunities
- Lien de l'article : https://arxiv.org/abs/2509.12384
Les bases de données vectorielles jouent un rôle central dans les flux de travail modernes de l'IA, en particulier dans les systèmes de génération augmentée par récupération (RAG), qui améliorent les performances des modèles en associant les résultats des grands modèles de langage à la littérature externe. Bien que les bases de données vectorielles deviennent de plus en plus importantes dans les applications d'IA, les caractéristiques de performance dans les systèmes de calcul haute performance (HPC) restent peu comprises. Cette étude menée sur le supercalculateur Polaris du Laboratoire national d'Argonne évalue empiriquement la base de données vectorielle distribuée Qdrant, en construisant une charge de travail textuelle biologique réaliste basée sur BV-BRC, en générant des vecteurs d'intégration avec le modèle Qwen3-Embedding-4B, et en évaluant les performances d'insertion, de construction d'index et de requête sur jusqu'à 32 nœuds de travail.
- Problème central : Les caractéristiques de performance des bases de données vectorielles dans les environnements HPC manquent d'études approfondies, les recherches existantes se concentrant principalement sur les environnements mono-GPU ou à petite échelle
- Importance : Le calcul scientifique à grande échelle s'exécute de plus en plus sur les systèmes HPC, et les bases de données vectorielles doivent s'adapter aux caractéristiques uniques des environnements HPC (interconnexions dédiées, systèmes de fichiers parallèles, hiérarchies mémoire profondes, architectures matérielles hétérogènes)
- Limitations existantes :
- Absence d'évaluation des performances des bases de données vectorielles adaptées aux environnements HPC
- Les recherches existantes se concentrent principalement sur les comparaisons de caractéristiques fonctionnelles, manquant d'évaluations de performance empiriques
- Différences significatives entre les charges de travail scientifiques et les applications commerciales
Avec l'application généralisée des systèmes d'IA dans la recherche scientifique, en particulier la popularité de la technologie RAG, la compréhension des performances des bases de données vectorielles sur l'architecture HPC est d'une importance capitale pour la conception des systèmes, l'optimisation des performances et les recherches futures.
- Première évaluation en environnement HPC : Évaluation des performances distribuées de Qdrant sur le supercalculateur Polaris, testant l'insertion, la construction d'index et les performances de requête sur jusqu'à 32 nœuds de travail (répartis sur 8 nœuds de calcul)
- Charges de travail scientifiques réelles : Construction de charges de travail réalistes basées sur les données biologiques BV-BRC et le corpus de texte scientifique peS2o
- Analyse des caractéristiques de performance : Première analyse systématique des caractéristiques de performance des bases de données vectorielles sur les plateformes HPC
- Ensemble de données ouvert : Publication d'un ensemble de données d'intégration scientifique et de charges de travail de requête pour les recherches futures
- Orientations pratiques : Fourniture de recommandations pratiques et de directions de recherche futures basées sur l'expérience de déploiement
Cette étude construit un flux de travail RAG biologique de bout en bout, comprenant :
- Entrée : 22 723 termes liés aux génomes dans BV-BRC
- Traitement : Utilisation de chaque terme pour rechercher les données pertinentes dans l'ensemble de données peS2o (8 millions d'articles en texte intégral)
- Sortie : Résultats de récupération fournissant des informations contextuelles pour le système RAG
L'article compare deux architectures distribuées principales :
- Architecture avec état (adoptée par Qdrant) :
- Chaque nœud de travail stocke l'état (index ou données) et est responsable du calcul
- Les nœuds de travail « possèdent » et sont responsables d'une partie de l'ensemble de données
- Les requêtes sont diffusées à tous les nœuds de travail, chaque nœud exécutant une recherche ANN avant agrégation des résultats
- Architecture sans état (séparation calcul-stockage) :
- Les nœuds de travail exécutent le calcul mais ne stockent pas les données de manière persistante
- Les données sont stockées dans une couche de stockage persistant indépendante
- Les données sont chargées dans la couche de cache selon les besoins
- Matériel : Supercalculateur Polaris
- Par nœud de calcul : CPU AMD EPYC Milan 7543P 32 cœurs à 2,8 GHz
- Mémoire : 512 Go de RAM DDR4
- GPU : 4 GPU NVIDIA A100
- Interconnexion : HPE Slingshot 11, topologie Dragonfly
- Logiciel : Base de données vectorielle Qdrant, utilisant l'index HNSW
- Pipeline de génération d'intégration adaptatif :
- Stratégie de traitement par lot basée sur les paramètres utilisateur
- Traitement parallèle multi-processus, utilisant pleinement les ressources GPU
- Mécanisme de dégradation automatique en cas d'erreur OOM
- Méthodes d'optimisation des performances :
- Optimisation systématique de la taille des lots et du nombre de requêtes concurrentes
- Implémentation de client asynchrone optimisant l'insertion de données
- Stratégie d'allocation multi-processus optimisant la communication client-serveur
- Données biologiques BV-BRC : 22 723 termes liés aux génomes
- Corpus de texte scientifique peS2o : 8 293 485 articles académiques en texte intégral
- Modèle d'intégration : Qwen3-Embedding-4B (adapté à un seul GPU de 40 Go)
- Temps de génération d'intégration : Chargement du modèle, E/S, temps d'inférence
- Temps d'insertion de données : Performance d'insertion sous différentes tailles de lot et degrés de concurrence
- Temps de construction d'index : Extensibilité de la construction d'index HNSW
- Latence de requête : Performance de requête sous différentes tailles d'ensemble de données et nombres de nœuds de travail
- Nombre de nœuds de travail : 1, 4, 8, 16, 32
- Distribution des données : Chaque nœud de travail responsable d'environ 80 Go/#Workers de données
- Configuration client : Un client alloué par nœud de travail Qdrant, tous les clients s'exécutant sur un seul nœud de calcul
- Stratégie de déploiement : 4 nœuds de travail Qdrant par machine
| Étape | Temps moyen (secondes) | Proportion |
|---|
| Chargement du modèle | 28,17 | 1,2% |
| E/S | 7,49 | 0,3% |
| Inférence | 2381,97 | 98,5% |
Résultats clés : L'inférence du modèle domine le temps d'exécution global, l'heuristique de traitement par lot a prévenu avec succès les erreurs de mémoire, moins de 0,10 % des articles nécessitant un traitement séquentiel.
- Taille de lot optimale : 32 (optimisée de 468 s à 381 s)
- Nombre optimal de requêtes concurrentes : 2 (optimisé davantage à 367 s)
- Performance d'extensibilité :
| Nombre de nœuds de travail | 1 | 4 | 8 | 16 | 32 |
|---|
| Temps d'insertion | 8,22h | 2,11h | 1,14h | 35,92m | 21,67m |
Résultats clés :
- La conversion de traitement par lot liée au CPU limite l'effet de concurrence d'asyncio
- Le multi-processus est plus adapté que asyncio pour l'insertion parallèle de données par client unique
- Le débit d'insertion de données pourrait devenir un goulot d'étranglement pour les charges de travail HPC à grande échelle
- Accélération maximale : 21,32× sur 32 nœuds de travail par rapport au nœud unique
- Limites d'extensibilité : Seulement 1,27× d'accélération de 1 à 4 nœuds de travail
- Utilisation des ressources : Chaque nœud de travail utilise déjà 90-97 % de la capacité CPU
Résultats clés : Le déploiement de plusieurs nœuds de travail Qdrant par nœud est inutile pour la construction d'index saturée en CPU, l'accélération GPU pourrait être plus efficace.
- Taille de lot de requête optimale : 16 (optimisée de 139 s à 73 s)
- Nombre optimal de requêtes de lot concurrentes : 2
- Seuil de taille d'ensemble de données : L'augmentation du nombre de nœuds de travail ne commence à montrer des avantages que lorsque l'ensemble de données atteint au moins 30 Go
- Accélération maximale : 3,57× (sur des ensembles de données suffisamment grands)
- Surcharge de communication : Au-delà de 4 nœuds de travail, l'augmentation supplémentaire de la taille du cluster n'apporte que des améliorations marginales
Résultats clés : La surcharge de communication dans le modèle d'exécution des requêtes dépasse les avantages de la parallélisation sur les petits ensembles de données, le cluster devrait pouvoir s'étendre de manière adaptative en fonction de la taille des données.
| Système | Lecture-écriture parallèle | Séparation calcul-stockage | Équilibrage de charge | Extensibilité automatique | Index GPU | ANN GPU |
|---|
| Vespa | ✓ | ✓ | ✓ | ✓ | ✗ | ✗ |
| Vald | ✓ | ✗ | ✓ | ✓ | ✓ | ✓ |
| Weaviate | ✓ | ✗ | ✓ | ✓ | ✓ | ✓ |
| Qdrant | ✓ | ✗ | ✓ | ✓ | ✓ | ✗ |
| Milvus | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
- Les enquêtes existantes se concentrent principalement sur les comparaisons de caractéristiques fonctionnelles, manquant d'évaluations de performance empiriques
- Shen et al. ont évalué plusieurs types d'index dans RAG mono-GPU, mais n'ont pas abordé les systèmes distribués ou les environnements HPC
- Absence de recherche sur les performances des bases de données vectorielles dans les environnements HPC
- Points prioritaires d'optimisation de la génération d'intégration : Pour les ensembles de données adaptés à la mémoire des nœuds de calcul HPC, il faut donner la priorité à l'amélioration de l'efficacité de l'inférence du modèle plutôt qu'à l'E/S ou au chargement du modèle
- Goulot d'étranglement d'insertion de données : L'approche asynchrone de Qdrant est limitée par les tâches liées au CPU lors du téléchargement de données, le multi-processus pourrait être plus adapté pour la parallélisation par client unique
- Utilisation des ressources de construction d'index : Un seul nœud de travail peut saturer le CPU, l'accélération GPU pourrait améliorer les avantages des nœuds multiples
- Seuil de performance de requête : L'augmentation du nombre de nœuds de travail ne réduit efficacement le temps d'exécution des requêtes que sur des ensembles de données suffisamment grands
- Évaluation d'un seul système : Seul Qdrant a été évalué, manquant de comparaisons entre systèmes
- Évaluation limitée au CPU : Principalement axée sur la construction d'index CPU, évaluation insuffisante des implémentations GPU
- Analyse insuffisante de la variabilité : Pas de focus sur la variabilité d'exécution et la reproductibilité
- Limitations des charges de travail : Principalement basées sur des charges de travail biologiques, pouvant ne pas représenter d'autres domaines scientifiques
- Études comparatives multi-systèmes : Évaluations synthétiques multi-systèmes sur différentes plateformes HPC
- Optimisation d'accélération GPU : Recherche approfondie sur les performances de construction d'index et de requête accélérées par GPU
- Extensibilité adaptative : Développement de systèmes capables de s'étendre de manière adaptative en fonction de la taille des données et des caractéristiques des charges de travail
- Spécialisation des charges de travail scientifiques : Optimisation des bases de données vectorielles pour les besoins spécifiques de différents domaines scientifiques
- Recherche pionnière : Première évaluation systématique des performances des bases de données vectorielles dans les environnements HPC, comblant une lacune de recherche importante
- Charges de travail réalistes : Utilisation de données biologiques réelles et de littérature scientifique pour construire des charges de travail, ayant une valeur pratique
- Analyse de performance complète : Couverture de l'évaluation de performance du flux de travail complet, de la génération d'intégration aux requêtes
- Valeur pratique : Fourniture de recommandations de configuration spécifiques et de stratégies d'optimisation des performances
- Données ouvertes : Publication d'ensembles de données promouvant le développement du domaine
- Couverture système limitée : Seul Qdrant a été évalué, manquant de comparaisons transversales
- Analyse théorique insuffisante : Principalement basée sur des observations expérimentales, manquant d'analyse théorique approfondie
- Limites d'extensibilité : Taille de test maximale de 32 nœuds de travail, potentiellement insuffisante pour les grands systèmes HPC
- Utilisation insuffisante du GPU : Principalement axée sur les performances CPU, exploration insuffisante du potentiel d'accélération GPU
- Contribution académique : Établissement des fondations pour la recherche sur les bases de données vectorielles dans les environnements HPC
- Orientations pratiques : Fourniture de références de déploiement importantes pour les centres HPC et les utilisateurs de calcul scientifique
- Établissement de normes : Établissement de méthodes de référence pour l'évaluation des performances des bases de données vectorielles dans les environnements HPC
- Directions de recherche futures : Clarification de plusieurs directions dignes d'une recherche approfondie
- Calcul scientifique à grande échelle : Applicable aux projets de recherche scientifique nécessitant le déploiement de bases de données vectorielles dans les environnements HPC
- Bioinformatique : Particulièrement applicable à la récupération de littérature et à la découverte de connaissances dans la génomique et la recherche biomédicale
- Déploiement de systèmes RAG : Fourniture de références de performance pour le déploiement de systèmes RAG à grande échelle dans les environnements HPC
- Optimisation des systèmes : Fourniture d'orientations pour les fournisseurs de bases de données vectorielles optimisant les performances dans les environnements HPC
Cette étude cite 52 articles connexes, couvrant principalement :
- Systèmes et algorithmes de bases de données vectorielles
- Plateformes et architectures de calcul haute performance
- Modèles d'intégration et technologie RAG
- Recherches d'évaluation de performance connexes
Évaluation globale : Cet article de recherche est d'une importance pionnière, évaluant systématiquement pour la première fois les caractéristiques de performance des bases de données vectorielles distribuées dans les environnements HPC. La méthodologie de recherche est scientifiquement rigoureuse, la conception expérimentale est raisonnable, et les résultats ont une valeur pratique importante. Bien que présentant certaines limitations, il établit des fondations importantes pour ce nouveau domaine de recherche émergent et a une importance significative pour promouvoir l'application des bases de données vectorielles dans le calcul scientifique.