Vector databases have rapidly grown in popularity, enabling efficient similarity search over data such as text, images, and video. They now play a central role in modern AI workflows, aiding large language models by grounding model outputs in external literature through retrieval-augmented generation. Despite their importance, little is known about the performance characteristics of vector databases in high-performance computing (HPC) systems that drive large-scale science. This work presents an empirical study of distributed vector database performance on the Polaris supercomputer in the Argonne Leadership Computing Facility. We construct a realistic biological-text workload from BV-BRC and generate embeddings from the peS2o corpus using Qwen3-Embedding-4B. We select Qdrant to evaluate insertion, index construction, and query latency with up to 32 workers. Informed by practical lessons from our experience, this work takes a first step toward characterizing vector database performance on HPC platforms to guide future research and optimization.
- ID del Artículo: 2509.12384
- Título: Exploring Distributed Vector Databases Performance on HPC Platforms: A Study with Qdrant
- Autores: Seth Ockerman, Amal Gueroudji, Song Young Oh, Robert Underwood, Nicholas Chia, Kyle Chard, Robert Ross, Shivaram Venkataraman
- Clasificación: cs.DC cs.DB
- Fecha de Publicación/Conferencia: SC'25 Workshop Frontiers in Generative AI for HPC Science and Engineering: Foundations, Challenges, and Opportunities
- Enlace del Artículo: https://arxiv.org/abs/2509.12384
Las bases de datos vectoriales desempeñan un papel central en los flujos de trabajo modernos de IA, particularmente en sistemas de generación aumentada por recuperación (RAG), que mejoran el rendimiento del modelo asociando las salidas de modelos de lenguaje grande con literatura externa. Aunque las bases de datos vectoriales son cada vez más importantes en aplicaciones de IA, se sabe poco sobre sus características de rendimiento en sistemas de computación de alto rendimiento (HPC). Este estudio realiza una evaluación empírica de la base de datos vectorial distribuida Qdrant en la supercomputadora Polaris del Laboratorio Nacional de Argonne, construyendo cargas de trabajo reales de texto biológico basadas en BV-BRC, generando vectores de incrustación utilizando el modelo Qwen3-Embedding-4B, y evaluando el rendimiento de inserción, construcción de índices y consultas en hasta 32 nodos de trabajo.
- Problema Central: Las características de rendimiento de las bases de datos vectoriales en entornos HPC carecen de investigación profunda, siendo la investigación existente principalmente concentrada en entornos de GPU única o pequeña escala
- Importancia: La computación científica a gran escala se ejecuta cada vez más en sistemas HPC, por lo que las bases de datos vectoriales deben adaptarse a las características únicas del entorno HPC (interconexiones dedicadas, sistemas de archivos paralelos, jerarquía profunda de memoria, arquitectura de hardware heterogéneo)
- Limitaciones Existentes:
- Falta de evaluación de rendimiento de bases de datos vectoriales específicamente para entornos HPC
- La investigación existente se enfoca principalmente en comparaciones de características funcionales, careciendo de evaluación de rendimiento empírica
- Diferencias significativas entre cargas de trabajo científicas y aplicaciones comerciales
Con la aplicación generalizada de sistemas de IA en investigación científica, particularmente la proliferación de la tecnología RAG, comprender el rendimiento de las bases de datos vectoriales en arquitecturas HPC es de importancia crítica para el diseño de sistemas, optimización de rendimiento e investigación futura.
- Primera Evaluación en Entorno HPC: Evaluación del rendimiento distribuido de Qdrant en la supercomputadora Polaris, probando el rendimiento de inserción, construcción de índices y consultas en hasta 32 nodos de trabajo (distribuidos en 8 nodos de computación)
- Cargas de Trabajo Científicas Reales: Construcción de cargas de trabajo reales basadas en datos biológicos de BV-BRC y corpus de texto científico peS2o
- Análisis de Características de Rendimiento: Proporciona el primer análisis sistemático de las características de rendimiento de bases de datos vectoriales en plataformas HPC
- Conjunto de Datos Abierto: Publicación de conjunto de datos de incrustaciones científicas y cargas de trabajo de consultas para investigación futura
- Orientación Práctica: Proporciona recomendaciones prácticas y direcciones de investigación futura basadas en experiencia de implementación
Este estudio construye un flujo de trabajo RAG biológico de extremo a extremo que incluye:
- Entrada: 22,723 términos relacionados con genomas en BV-BRC
- Procesamiento: Búsqueda de datos relacionados para cada término en el conjunto de datos peS2o (8 millones de artículos de texto completo)
- Salida: Resultados de recuperación que proporcionan información contextual para el sistema RAG
El artículo compara dos arquitecturas distribuidas principales:
- Arquitectura con Estado (adoptada por Qdrant):
- Cada nodo de trabajo almacena estado (índice o datos) y es responsable de la computación
- Los nodos de trabajo tanto "poseen" como son responsables de una parte del conjunto de datos
- Las consultas se transmiten a todos los nodos de trabajo, cada nodo ejecuta búsqueda ANN y agrega resultados
- Arquitectura sin Estado (separación computación-almacenamiento):
- Los nodos de trabajo ejecutan computación pero no almacenan datos de forma persistente
- Los datos se almacenan en una capa de almacenamiento persistente independiente
- Los datos se cargan en la capa de caché cuando es necesario
- Hardware: Supercomputadora Polaris
- Por nodo de computación: CPU AMD EPYC Milan 7543P de 32 núcleos a 2.8 GHz
- Memoria: 512 GB RAM DDR4
- GPU: 4 GPU NVIDIA A100
- Interconexión: HPE Slingshot 11, topología Dragonfly
- Software: Base de datos vectorial Qdrant, utilizando índice HNSW
- Canalización de Generación de Incrustaciones Adaptativa:
- Estrategia de procesamiento por lotes basada en parámetros del usuario
- Procesamiento paralelo multiproceso, utilizando plenamente recursos GPU
- Mecanismo de degradación automática en caso de errores OOM
- Métodos de Optimización de Rendimiento:
- Optimización sistemática de tamaño de lote y número de solicitudes concurrentes
- Implementación de cliente asincrónico optimizando inserción de datos
- Estrategia de asignación multiproceso optimizando comunicación cliente-servidor
- Datos Biológicos BV-BRC: 22,723 términos relacionados con genomas
- Corpus de Texto Científico peS2o: 8,293,485 artículos académicos de texto completo
- Modelo de Incrustación: Qwen3-Embedding-4B (adecuado para GPU única de 40GB)
- Tiempo de Generación de Incrustaciones: Carga de modelo, I/O, tiempo de inferencia
- Tiempo de Inserción de Datos: Rendimiento de inserción bajo diferentes tamaños de lote y grados de concurrencia
- Tiempo de Construcción de Índices: Escalabilidad de construcción de índices HNSW
- Latencia de Consultas: Rendimiento de consultas bajo diferentes tamaños de conjunto de datos y números de nodos de trabajo
- Número de Nodos de Trabajo: 1, 4, 8, 16, 32
- Distribución de Datos: Cada nodo de trabajo responsable de aproximadamente 80GB/#Workers de datos
- Configuración de Cliente: Un cliente asignado por nodo de trabajo Qdrant, todos los clientes ejecutándose en un nodo de computación único
- Estrategia de Implementación: 4 nodos de trabajo Qdrant por máquina
| Fase | Tiempo Promedio (segundos) | Proporción |
|---|
| Carga de Modelo | 28.17 | 1.2% |
| I/O | 7.49 | 0.3% |
| Inferencia | 2381.97 | 98.5% |
Hallazgos Clave: La inferencia del modelo domina el tiempo de ejecución general, la heurística de procesamiento por lotes previno exitosamente errores de memoria, con menos del 0.10% de artículos requiriendo procesamiento secuencial.
- Tamaño de Lote Óptimo: 32 (optimizado de 468s a 381s)
- Número Óptimo de Solicitudes Concurrentes: 2 (optimizado adicionalmente a 367s)
- Rendimiento de Escalabilidad:
| Número de Nodos de Trabajo | 1 | 4 | 8 | 16 | 32 |
|---|
| Tiempo de Inserción | 8.22h | 2.11h | 1.14h | 35.92m | 21.67m |
Hallazgos Clave:
- La transformación de procesamiento por lotes vinculada a CPU limita el efecto de concurrencia de asyncio
- Multiproceso es más adecuado que asyncio para inserción de datos paralela de cliente único
- La velocidad de inserción de datos podría convertirse en un cuello de botella para cargas de trabajo HPC a gran escala
- Aceleración Máxima: 21.32× con 32 nodos de trabajo relativo a nodo único
- Limitaciones de Escalabilidad: Solo 1.27× aceleración de 1 a 4 nodos de trabajo
- Utilización de Recursos: Nodo de trabajo único ya utilizando 90-97% de capacidad CPU
Hallazgos Clave: Implementar múltiples nodos de trabajo Qdrant por máquina es innecesario para construcción de índices saturada de CPU, la aceleración GPU podría ser más efectiva.
- Tamaño de Lote de Consulta Óptimo: 16 (optimizado de 139s a 73s)
- Número Óptimo de Solicitudes de Lote Concurrentes: 2
- Umbral de Tamaño de Conjunto de Datos: Solo cuando el conjunto de datos alcanza al menos 30GB, aumentar el número de nodos de trabajo comienza a mostrar beneficios
- Aceleración Máxima: 3.57× (en conjuntos de datos suficientemente grandes)
- Sobrecarga de Comunicación: Más allá de 4 nodos de trabajo, aumentar adicionalmente el tamaño del clúster solo proporciona mejoras marginales
Hallazgos Clave: La sobrecarga de comunicación en el modelo de ejecución de consultas supera los beneficios de paralelización en conjuntos de datos pequeños, los clústeres deberían poder escalar adaptativamente según el tamaño de datos.
| Sistema | Lectura/Escritura Paralela | Separación Computación-Almacenamiento | Equilibrio de Carga | Escalado Automático | Índice GPU | ANN GPU |
|---|
| Vespa | ✓ | ✓ | ✓ | ✓ | ✗ | ✗ |
| Vald | ✓ | ✗ | ✓ | ✓ | ✓ | ✓ |
| Weaviate | ✓ | ✗ | ✓ | ✓ | ✓ | ✓ |
| Qdrant | ✓ | ✗ | ✓ | ✓ | ✓ | ✗ |
| Milvus | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
- Las encuestas existentes se enfocaban principalmente en comparaciones de características funcionales, careciendo de evaluación de rendimiento empírica
- Shen et al. evaluaron múltiples tipos de índices en RAG de GPU única, pero no involucraron sistemas distribuidos o entornos HPC
- Falta de investigación de rendimiento de bases de datos vectoriales específicamente para entornos HPC
- Enfoque de Optimización de Generación de Incrustaciones: Para conjuntos de datos que caben en la memoria de nodos de computación HPC, debe priorizarse mejorar la eficiencia de inferencia del modelo sobre I/O o carga de modelo
- Cuello de Botella de Inserción de Datos: El método asincrónico de Qdrant está limitado por tareas vinculadas a CPU en carga de datos, multiproceso podría ser más adecuado para paralelización de cliente único
- Utilización de Recursos de Construcción de Índices: Un nodo de trabajo único ya puede saturar CPU, la aceleración GPU podría mejorar los beneficios de múltiples nodos de trabajo
- Umbral de Rendimiento de Consultas: Solo en conjuntos de datos suficientemente grandes, aumentar el número de nodos de trabajo puede reducir efectivamente el tiempo de ejecución de consultas
- Evaluación de Sistema Único: Solo evaluó un sistema Qdrant, careciendo de comparación entre sistemas
- Evaluación Limitada de CPU: Se enfocó principalmente en construcción de índices de CPU, sin evaluación profunda de implementaciones GPU
- Análisis de Variabilidad Insuficiente: No se enfocó en variabilidad de tiempo de ejecución y reproducibilidad
- Limitaciones de Carga de Trabajo: Principalmente basado en cargas de trabajo biológicas, podría no representar otros campos científicos
- Investigación de Comparación Multi-Sistema: Evaluación integral de múltiples sistemas en diferentes plataformas HPC
- Optimización de Aceleración GPU: Investigación profunda del rendimiento de construcción de índices y consultas aceleradas por GPU
- Escalado Adaptativo: Desarrollo de sistemas que puedan escalar adaptativamente según tamaño de datos y características de carga de trabajo
- Especialización de Carga de Trabajo Científica: Optimización de bases de datos vectoriales para necesidades específicas de diferentes campos científicos
- Investigación Pionera: Primera evaluación sistemática del rendimiento de bases de datos vectoriales en entornos HPC, llenando un vacío de investigación importante
- Cargas de Trabajo Reales: Uso de datos biológicos reales y literatura científica para construir cargas de trabajo, con significado práctico
- Análisis de Rendimiento Integral: Cubre evaluación de rendimiento de flujo de trabajo completo desde generación de incrustaciones hasta consultas
- Valor Práctico: Proporciona recomendaciones de configuración específicas y estrategias de optimización de rendimiento
- Datos Abiertos: Publicación de conjunto de datos promoviendo desarrollo del campo
- Cobertura de Sistema Limitada: Solo evaluó un sistema Qdrant, careciendo de comparación horizontal
- Análisis Teórico Insuficiente: Principalmente basado en observaciones experimentales, careciendo de análisis teórico profundo
- Limitaciones de Escala de Extensión: Escala máxima de prueba de 32 nodos de trabajo, posiblemente insuficiente para sistemas HPC grandes
- Utilización GPU Insuficiente: Se enfocó principalmente en rendimiento de CPU, sin exploración suficiente del potencial de aceleración GPU
- Contribución Académica: Establece la base para investigación de bases de datos vectoriales en entornos HPC
- Orientación Práctica: Proporciona referencia de implementación importante para centros HPC y usuarios de computación científica
- Establecimiento de Estándares: Establece método de referencia para evaluación de rendimiento de bases de datos vectoriales en entornos HPC
- Direcciones de Investigación Futura: Clarifica múltiples direcciones que merecen investigación profunda
- Computación Científica a Gran Escala: Aplicable a proyectos de investigación científica que requieren implementación de bases de datos vectoriales en entornos HPC
- Bioinformática: Particularmente aplicable a investigación genómica y biomédica en recuperación de literatura y descubrimiento de conocimiento
- Implementación de Sistemas RAG: Proporciona referencia de rendimiento para implementación de sistemas RAG a gran escala en entornos HPC
- Optimización de Sistemas: Proporciona orientación para que proveedores de bases de datos vectoriales optimicen rendimiento en entornos HPC
Este estudio cita 52 referencias relacionadas, cubriendo principalmente:
- Sistemas y algoritmos de bases de datos vectoriales
- Plataformas y arquitecturas de computación de alto rendimiento
- Modelos de incrustación y tecnología RAG
- Investigación de evaluación de rendimiento relacionada
Evaluación General: Este es un artículo de investigación de significado pionero que evalúa sistemáticamente por primera vez las características de rendimiento de bases de datos vectoriales distribuidas en entornos HPC. La metodología de investigación es científicamente rigurosa, el diseño experimental es razonable, y los resultados tienen valor práctico importante. Aunque existen algunas limitaciones, establece una base importante para este nuevo campo de investigación emergente y tiene significado importante para promover la aplicación de bases de datos vectoriales en computación científica.