2025-11-13T13:37:11.114102

Exploring Distributed Vector Databases Performance on HPC Platforms: A Study with Qdrant

Ockerman, Gueroudji, Oh et al.

Vector databases have rapidly grown in popularity, enabling efficient similarity search over data such as text, images, and video. They now play a central role in modern AI workflows, aiding large language models by grounding model outputs in external literature through retrieval-augmented generation. Despite their importance, little is known about the performance characteristics of vector databases in high-performance computing (HPC) systems that drive large-scale science. This work presents an empirical study of distributed vector database performance on the Polaris supercomputer in the Argonne Leadership Computing Facility. We construct a realistic biological-text workload from BV-BRC and generate embeddings from the peS2o corpus using Qwen3-Embedding-4B. We select Qdrant to evaluate insertion, index construction, and query latency with up to 32 workers. Informed by practical lessons from our experience, this work takes a first step toward characterizing vector database performance on HPC platforms to guide future research and optimization.

academic

Explorando el Rendimiento de Bases de Datos Vectoriales Distribuidas en Plataformas HPC: Un Estudio con Qdrant

Información Básica

ID del Artículo: 2509.12384
Título: Exploring Distributed Vector Databases Performance on HPC Platforms: A Study with Qdrant
Autores: Seth Ockerman, Amal Gueroudji, Song Young Oh, Robert Underwood, Nicholas Chia, Kyle Chard, Robert Ross, Shivaram Venkataraman
Clasificación: cs.DC cs.DB
Fecha de Publicación/Conferencia: SC'25 Workshop Frontiers in Generative AI for HPC Science and Engineering: Foundations, Challenges, and Opportunities
Enlace del Artículo: https://arxiv.org/abs/2509.12384

Resumen

Las bases de datos vectoriales desempeñan un papel central en los flujos de trabajo modernos de IA, particularmente en sistemas de generación aumentada por recuperación (RAG), que mejoran el rendimiento del modelo asociando las salidas de modelos de lenguaje grande con literatura externa. Aunque las bases de datos vectoriales son cada vez más importantes en aplicaciones de IA, se sabe poco sobre sus características de rendimiento en sistemas de computación de alto rendimiento (HPC). Este estudio realiza una evaluación empírica de la base de datos vectorial distribuida Qdrant en la supercomputadora Polaris del Laboratorio Nacional de Argonne, construyendo cargas de trabajo reales de texto biológico basadas en BV-BRC, generando vectores de incrustación utilizando el modelo Qwen3-Embedding-4B, y evaluando el rendimiento de inserción, construcción de índices y consultas en hasta 32 nodos de trabajo.

Antecedentes y Motivación de la Investigación

Definición del Problema

Problema Central: Las características de rendimiento de las bases de datos vectoriales en entornos HPC carecen de investigación profunda, siendo la investigación existente principalmente concentrada en entornos de GPU única o pequeña escala
Importancia: La computación científica a gran escala se ejecuta cada vez más en sistemas HPC, por lo que las bases de datos vectoriales deben adaptarse a las características únicas del entorno HPC (interconexiones dedicadas, sistemas de archivos paralelos, jerarquía profunda de memoria, arquitectura de hardware heterogéneo)
Limitaciones Existentes:
- Falta de evaluación de rendimiento de bases de datos vectoriales específicamente para entornos HPC
- La investigación existente se enfoca principalmente en comparaciones de características funcionales, careciendo de evaluación de rendimiento empírica
- Diferencias significativas entre cargas de trabajo científicas y aplicaciones comerciales

Motivación de la Investigación

Con la aplicación generalizada de sistemas de IA en investigación científica, particularmente la proliferación de la tecnología RAG, comprender el rendimiento de las bases de datos vectoriales en arquitecturas HPC es de importancia crítica para el diseño de sistemas, optimización de rendimiento e investigación futura.

Contribuciones Principales

Primera Evaluación en Entorno HPC: Evaluación del rendimiento distribuido de Qdrant en la supercomputadora Polaris, probando el rendimiento de inserción, construcción de índices y consultas en hasta 32 nodos de trabajo (distribuidos en 8 nodos de computación)
Cargas de Trabajo Científicas Reales: Construcción de cargas de trabajo reales basadas en datos biológicos de BV-BRC y corpus de texto científico peS2o
Análisis de Características de Rendimiento: Proporciona el primer análisis sistemático de las características de rendimiento de bases de datos vectoriales en plataformas HPC
Conjunto de Datos Abierto: Publicación de conjunto de datos de incrustaciones científicas y cargas de trabajo de consultas para investigación futura
Orientación Práctica: Proporciona recomendaciones prácticas y direcciones de investigación futura basadas en experiencia de implementación

Explicación Detallada de la Metodología

Definición de Tareas

Este estudio construye un flujo de trabajo RAG biológico de extremo a extremo que incluye:

Entrada: 22,723 términos relacionados con genomas en BV-BRC
Procesamiento: Búsqueda de datos relacionados para cada término en el conjunto de datos peS2o (8 millones de artículos de texto completo)
Salida: Resultados de recuperación que proporcionan información contextual para el sistema RAG

Arquitectura del Sistema

Arquitectura de Base de Datos Vectorial Distribuida

El artículo compara dos arquitecturas distribuidas principales:

Arquitectura con Estado (adoptada por Qdrant):
- Cada nodo de trabajo almacena estado (índice o datos) y es responsable de la computación
- Los nodos de trabajo tanto "poseen" como son responsables de una parte del conjunto de datos
- Las consultas se transmiten a todos los nodos de trabajo, cada nodo ejecuta búsqueda ANN y agrega resultados
Arquitectura sin Estado (separación computación-almacenamiento):
- Los nodos de trabajo ejecutan computación pero no almacenan datos de forma persistente
- Los datos se almacenan en una capa de almacenamiento persistente independiente
- Los datos se cargan en la capa de caché cuando es necesario

Configuración de la Plataforma Experimental

Hardware: Supercomputadora Polaris
- Por nodo de computación: CPU AMD EPYC Milan 7543P de 32 núcleos a 2.8 GHz
- Memoria: 512 GB RAM DDR4
- GPU: 4 GPU NVIDIA A100
- Interconexión: HPE Slingshot 11, topología Dragonfly
Software: Base de datos vectorial Qdrant, utilizando índice HNSW

Puntos de Innovación Técnica

Canalización de Generación de Incrustaciones Adaptativa:
- Estrategia de procesamiento por lotes basada en parámetros del usuario
- Procesamiento paralelo multiproceso, utilizando plenamente recursos GPU
- Mecanismo de degradación automática en caso de errores OOM
Métodos de Optimización de Rendimiento:
- Optimización sistemática de tamaño de lote y número de solicitudes concurrentes
- Implementación de cliente asincrónico optimizando inserción de datos
- Estrategia de asignación multiproceso optimizando comunicación cliente-servidor

Configuración Experimental

Conjunto de Datos

Datos Biológicos BV-BRC: 22,723 términos relacionados con genomas
Corpus de Texto Científico peS2o: 8,293,485 artículos académicos de texto completo
Modelo de Incrustación: Qwen3-Embedding-4B (adecuado para GPU única de 40GB)

Métricas de Evaluación

Tiempo de Generación de Incrustaciones: Carga de modelo, I/O, tiempo de inferencia
Tiempo de Inserción de Datos: Rendimiento de inserción bajo diferentes tamaños de lote y grados de concurrencia
Tiempo de Construcción de Índices: Escalabilidad de construcción de índices HNSW
Latencia de Consultas: Rendimiento de consultas bajo diferentes tamaños de conjunto de datos y números de nodos de trabajo

Configuración Experimental

Número de Nodos de Trabajo: 1, 4, 8, 16, 32
Distribución de Datos: Cada nodo de trabajo responsable de aproximadamente 80GB/#Workers de datos
Configuración de Cliente: Un cliente asignado por nodo de trabajo Qdrant, todos los clientes ejecutándose en un nodo de computación único
Estrategia de Implementación: 4 nodos de trabajo Qdrant por máquina

Resultados Experimentales

Rendimiento de Generación de Incrustaciones

Fase	Tiempo Promedio (segundos)	Proporción
Carga de Modelo	28.17	1.2%
I/O	7.49	0.3%
Inferencia	2381.97	98.5%

Hallazgos Clave: La inferencia del modelo domina el tiempo de ejecución general, la heurística de procesamiento por lotes previno exitosamente errores de memoria, con menos del 0.10% de artículos requiriendo procesamiento secuencial.

Rendimiento de Inserción de Datos

Resultados de Optimización de Parámetros

Tamaño de Lote Óptimo: 32 (optimizado de 468s a 381s)
Número Óptimo de Solicitudes Concurrentes: 2 (optimizado adicionalmente a 367s)
Rendimiento de Escalabilidad:

Número de Nodos de Trabajo	1	4	8	16	32
Tiempo de Inserción	8.22h	2.11h	1.14h	35.92m	21.67m

Hallazgos Clave:

La transformación de procesamiento por lotes vinculada a CPU limita el efecto de concurrencia de asyncio
Multiproceso es más adecuado que asyncio para inserción de datos paralela de cliente único
La velocidad de inserción de datos podría convertirse en un cuello de botella para cargas de trabajo HPC a gran escala

Rendimiento de Construcción de Índices

Aceleración Máxima: 21.32× con 32 nodos de trabajo relativo a nodo único
Limitaciones de Escalabilidad: Solo 1.27× aceleración de 1 a 4 nodos de trabajo
Utilización de Recursos: Nodo de trabajo único ya utilizando 90-97% de capacidad CPU

Hallazgos Clave: Implementar múltiples nodos de trabajo Qdrant por máquina es innecesario para construcción de índices saturada de CPU, la aceleración GPU podría ser más efectiva.

Rendimiento de Consultas

Optimización de Parámetros

Tamaño de Lote de Consulta Óptimo: 16 (optimizado de 139s a 73s)
Número Óptimo de Solicitudes de Lote Concurrentes: 2

Análisis de Escalabilidad

Umbral de Tamaño de Conjunto de Datos: Solo cuando el conjunto de datos alcanza al menos 30GB, aumentar el número de nodos de trabajo comienza a mostrar beneficios
Aceleración Máxima: 3.57× (en conjuntos de datos suficientemente grandes)
Sobrecarga de Comunicación: Más allá de 4 nodos de trabajo, aumentar adicionalmente el tamaño del clúster solo proporciona mejoras marginales

Hallazgos Clave: La sobrecarga de comunicación en el modelo de ejecución de consultas supera los beneficios de paralelización en conjuntos de datos pequeños, los clústeres deberían poder escalar adaptativamente según el tamaño de datos.

Trabajo Relacionado

Comparación de Sistemas de Bases de Datos Vectoriales

Sistema	Lectura/Escritura Paralela	Separación Computación-Almacenamiento	Equilibrio de Carga	Escalado Automático	Índice GPU	ANN GPU
Vespa	✓	✓	✓	✓	✗	✗
Vald	✓	✗	✓	✓	✓	✓
Weaviate	✓	✗	✓	✓	✓	✓
Qdrant	✓	✗	✓	✓	✓	✗
Milvus	✓	✓	✓	✓	✓	✓

Estado de la Investigación

Las encuestas existentes se enfocaban principalmente en comparaciones de características funcionales, careciendo de evaluación de rendimiento empírica
Shen et al. evaluaron múltiples tipos de índices en RAG de GPU única, pero no involucraron sistemas distribuidos o entornos HPC
Falta de investigación de rendimiento de bases de datos vectoriales específicamente para entornos HPC

Conclusiones y Discusión

Conclusiones Principales

Enfoque de Optimización de Generación de Incrustaciones: Para conjuntos de datos que caben en la memoria de nodos de computación HPC, debe priorizarse mejorar la eficiencia de inferencia del modelo sobre I/O o carga de modelo
Cuello de Botella de Inserción de Datos: El método asincrónico de Qdrant está limitado por tareas vinculadas a CPU en carga de datos, multiproceso podría ser más adecuado para paralelización de cliente único
Utilización de Recursos de Construcción de Índices: Un nodo de trabajo único ya puede saturar CPU, la aceleración GPU podría mejorar los beneficios de múltiples nodos de trabajo
Umbral de Rendimiento de Consultas: Solo en conjuntos de datos suficientemente grandes, aumentar el número de nodos de trabajo puede reducir efectivamente el tiempo de ejecución de consultas

Limitaciones

Evaluación de Sistema Único: Solo evaluó un sistema Qdrant, careciendo de comparación entre sistemas
Evaluación Limitada de CPU: Se enfocó principalmente en construcción de índices de CPU, sin evaluación profunda de implementaciones GPU
Análisis de Variabilidad Insuficiente: No se enfocó en variabilidad de tiempo de ejecución y reproducibilidad
Limitaciones de Carga de Trabajo: Principalmente basado en cargas de trabajo biológicas, podría no representar otros campos científicos

Direcciones Futuras

Investigación de Comparación Multi-Sistema: Evaluación integral de múltiples sistemas en diferentes plataformas HPC
Optimización de Aceleración GPU: Investigación profunda del rendimiento de construcción de índices y consultas aceleradas por GPU
Escalado Adaptativo: Desarrollo de sistemas que puedan escalar adaptativamente según tamaño de datos y características de carga de trabajo
Especialización de Carga de Trabajo Científica: Optimización de bases de datos vectoriales para necesidades específicas de diferentes campos científicos

Evaluación Profunda

Fortalezas

Investigación Pionera: Primera evaluación sistemática del rendimiento de bases de datos vectoriales en entornos HPC, llenando un vacío de investigación importante
Cargas de Trabajo Reales: Uso de datos biológicos reales y literatura científica para construir cargas de trabajo, con significado práctico
Análisis de Rendimiento Integral: Cubre evaluación de rendimiento de flujo de trabajo completo desde generación de incrustaciones hasta consultas
Valor Práctico: Proporciona recomendaciones de configuración específicas y estrategias de optimización de rendimiento
Datos Abiertos: Publicación de conjunto de datos promoviendo desarrollo del campo

Deficiencias

Cobertura de Sistema Limitada: Solo evaluó un sistema Qdrant, careciendo de comparación horizontal
Análisis Teórico Insuficiente: Principalmente basado en observaciones experimentales, careciendo de análisis teórico profundo
Limitaciones de Escala de Extensión: Escala máxima de prueba de 32 nodos de trabajo, posiblemente insuficiente para sistemas HPC grandes
Utilización GPU Insuficiente: Se enfocó principalmente en rendimiento de CPU, sin exploración suficiente del potencial de aceleración GPU

Impacto

Contribución Académica: Establece la base para investigación de bases de datos vectoriales en entornos HPC
Orientación Práctica: Proporciona referencia de implementación importante para centros HPC y usuarios de computación científica
Establecimiento de Estándares: Establece método de referencia para evaluación de rendimiento de bases de datos vectoriales en entornos HPC
Direcciones de Investigación Futura: Clarifica múltiples direcciones que merecen investigación profunda

Escenarios Aplicables

Computación Científica a Gran Escala: Aplicable a proyectos de investigación científica que requieren implementación de bases de datos vectoriales en entornos HPC
Bioinformática: Particularmente aplicable a investigación genómica y biomédica en recuperación de literatura y descubrimiento de conocimiento
Implementación de Sistemas RAG: Proporciona referencia de rendimiento para implementación de sistemas RAG a gran escala en entornos HPC
Optimización de Sistemas: Proporciona orientación para que proveedores de bases de datos vectoriales optimicen rendimiento en entornos HPC

Referencias

Este estudio cita 52 referencias relacionadas, cubriendo principalmente:

Sistemas y algoritmos de bases de datos vectoriales
Plataformas y arquitecturas de computación de alto rendimiento
Modelos de incrustación y tecnología RAG
Investigación de evaluación de rendimiento relacionada

Evaluación General: Este es un artículo de investigación de significado pionero que evalúa sistemáticamente por primera vez las características de rendimiento de bases de datos vectoriales distribuidas en entornos HPC. La metodología de investigación es científicamente rigurosa, el diseño experimental es razonable, y los resultados tienen valor práctico importante. Aunque existen algunas limitaciones, establece una base importante para este nuevo campo de investigación emergente y tiene significado importante para promover la aplicación de bases de datos vectoriales en computación científica.