Vector databases have rapidly grown in popularity, enabling efficient similarity search over data such as text, images, and video. They now play a central role in modern AI workflows, aiding large language models by grounding model outputs in external literature through retrieval-augmented generation. Despite their importance, little is known about the performance characteristics of vector databases in high-performance computing (HPC) systems that drive large-scale science. This work presents an empirical study of distributed vector database performance on the Polaris supercomputer in the Argonne Leadership Computing Facility. We construct a realistic biological-text workload from BV-BRC and generate embeddings from the peS2o corpus using Qwen3-Embedding-4B. We select Qdrant to evaluate insertion, index construction, and query latency with up to 32 workers. Informed by practical lessons from our experience, this work takes a first step toward characterizing vector database performance on HPC platforms to guide future research and optimization.
- ID статьи: 2509.12384
- Название: Exploring Distributed Vector Databases Performance on HPC Platforms: A Study with Qdrant
- Авторы: Seth Ockerman, Amal Gueroudji, Song Young Oh, Robert Underwood, Nicholas Chia, Kyle Chard, Robert Ross, Shivaram Venkataraman
- Классификация: cs.DC cs.DB
- Время публикации/конференция: SC'25 Workshop Frontiers in Generative AI for HPC Science and Engineering: Foundations, Challenges, and Opportunities
- Ссылка на статью: https://arxiv.org/abs/2509.12384
Векторные базы данных играют центральную роль в современных рабочих процессах искусственного интеллекта, особенно в системах поиска с дополнением поколения (RAG), которые улучшают производительность модели путём связи выходных данных больших языковых моделей с внешней литературой. Несмотря на растущую важность векторных баз данных в приложениях ИИ, характеристики их производительности на системах высокопроизводительных вычислений (HPC) изучены недостаточно. В данном исследовании проведено эмпирическое исследование распределённой векторной базы данных Qdrant на суперкомпьютере Polaris в Аргоннской национальной лаборатории с использованием реальной рабочей нагрузки биологических текстов на основе BV-BRC, генерированием векторов встраивания с помощью модели Qwen3-Embedding-4B и оценкой производительности вставки, построения индекса и запросов на до 32 рабочих узлов.
- Основная проблема: Характеристики производительности векторных баз данных в HPC-среде недостаточно изучены; существующие исследования сосредоточены главным образом на однопроцессорных или маломасштабных средах
- Значимость: Крупномасштабные научные вычисления всё чаще выполняются на HPC-системах, и векторные базы данных должны адаптироваться к уникальным характеристикам HPC-среды (специализированные межсоединения, параллельные файловые системы, глубокая иерархия памяти, гетерогенная архитектура оборудования)
- Существующие ограничения:
- Отсутствие оценки производительности векторных баз данных для HPC-среды
- Существующие исследования сосредоточены на сравнении функциональных характеристик без эмпирической оценки производительности
- Значительные различия между научными рабочими нагрузками и коммерческими приложениями
С широким применением систем ИИ в научных исследованиях, особенно распространением технологии RAG, понимание производительности векторных баз данных на архитектуре HPC имеет важное значение для проектирования систем, оптимизации производительности и будущих исследований.
- Первая оценка в HPC-среде: Оценена распределённая производительность Qdrant на суперкомпьютере Polaris с тестированием производительности вставки, построения индекса и запросов на до 32 рабочих узлов (на 8 вычислительных узлах)
- Реальные научные рабочие нагрузки: Построены реальные рабочие нагрузки на основе биологических данных BV-BRC и корпуса научных текстов peS2o
- Анализ характеристик производительности: Предоставлен первый систематический анализ характеристик производительности векторных баз данных на HPC-платформах
- Открытые наборы данных: Опубликованы наборы данных научных встраиваний и рабочие нагрузки запросов для будущих исследований
- Практические рекомендации: На основе опыта развёртывания предоставлены практические рекомендации и направления будущих исследований
В данном исследовании построен сквозной рабочий процесс биологического RAG, включающий:
- Входные данные: 22 723 термина, связанные с геномом из BV-BRC
- Обработка: Использование поиска каждого термина в наборе данных peS2o (8 миллионов полнотекстовых статей) для поиска соответствующих данных
- Выходные данные: Результаты поиска, предоставляющие контекстную информацию для системы RAG
В статье сравниваются две основные распределённые архитектуры:
- Архитектура с состоянием (используется Qdrant):
- Каждый рабочий узел хранит состояние (индекс или данные) и отвечает за вычисления
- Рабочие узлы одновременно "владеют" и отвечают за часть набора данных
- Запросы транслируются на все рабочие узлы, каждый узел выполняет поиск ANN и затем результаты агрегируются
- Архитектура без состояния (разделение вычислений и хранилища):
- Рабочие узлы выполняют вычисления, но не сохраняют данные постоянно
- Данные хранятся на независимом уровне постоянного хранилища
- Данные загружаются в кэш-уровень при необходимости
- Оборудование: Суперкомпьютер Polaris
- Каждый вычислительный узел: 32-ядерный процессор AMD EPYC Milan 7543P с частотой 2,8 ГГц
- Память: 512 ГБ DDR4 RAM
- GPU: 4 графических процессора NVIDIA A100
- Межсоединение: HPE Slingshot 11, топология Dragonfly
- Программное обеспечение: Векторная база данных Qdrant с индексом HNSW
- Адаптивный конвейер генерации встраиваний:
- Стратегия пакетной обработки на основе параметров пользователя
- Параллельная обработка с несколькими процессами для полного использования ресурсов GPU
- Механизм автоматического понижения при ошибках OOM
- Методы оптимизации производительности:
- Систематическая оптимизация размера пакета и количества одновременных запросов
- Асинхронная реализация клиента для оптимизации вставки данных
- Стратегия распределения нескольких процессов для оптимизации связи клиент-сервер
- Биологические данные BV-BRC: 22 723 термина, связанные с геномом
- Корпус научных текстов peS2o: 8 293 485 полнотекстовых научных статей
- Модель встраивания: Qwen3-Embedding-4B (подходит для одного 40GB GPU)
- Время генерации встраиваний: Загрузка модели, I/O, время вывода
- Время вставки данных: Производительность вставки при различных размерах пакетов и степенях параллелизма
- Время построения индекса: Масштабируемость построения индекса HNSW
- Задержка запроса: Производительность запроса при различных размерах наборов данных и количестве рабочих узлов
- Количество рабочих узлов: 1, 4, 8, 16, 32
- Распределение данных: Каждый рабочий узел отвечает за примерно 80GB/#Workers данных
- Конфигурация клиента: Один клиент выделен для каждого рабочего узла Qdrant, все клиенты работают на одном вычислительном узле
- Стратегия развёртывания: 4 рабочих узла Qdrant на машину
| Этап | Среднее время (сек) | Доля |
|---|
| Загрузка модели | 28,17 | 1,2% |
| I/O | 7,49 | 0,3% |
| Вывод | 2381,97 | 98,5% |
Ключевые выводы: Вывод модели доминирует в общем времени выполнения, эвристика пакетной обработки успешно предотвращает ошибки памяти, менее 0,10% статей требуют последовательной обработки.
- Оптимальный размер пакета: 32 (оптимизация с 468 сек до 381 сек)
- Оптимальное количество одновременных запросов: 2 (дальнейшая оптимизация до 367 сек)
- Производительность масштабирования:
| Количество рабочих узлов | 1 | 4 | 8 | 16 | 32 |
|---|
| Время вставки | 8,22ч | 2,11ч | 1,14ч | 35,92м | 21,67м |
Ключевые выводы:
- Преобразование пакетной обработки, связанное с CPU, ограничивает эффект параллелизма asyncio
- Многопроцессность более подходит для параллельной вставки данных одного клиента, чем asyncio
- Скорость вставки данных может стать узким местом для крупномасштабных HPC-рабочих нагрузок
- Максимальное ускорение: 21,32× на 32 рабочих узлах относительно одного узла
- Ограничения масштабирования: От 1 к 4 рабочим узлам получено только 1,27× ускорение
- Использование ресурсов: Один рабочий узел уже использует 90-97% ёмкости CPU
Ключевые выводы: Развёртывание нескольких рабочих узлов Qdrant на узел не требуется для построения индекса, связанного с CPU, ускорение GPU может быть более эффективным.
- Оптимальный размер пакета запроса: 16 (оптимизация с 139 сек до 73 сек)
- Оптимальное количество одновременных пакетных запросов: 2
- Пороговое значение размера набора данных: Увеличение количества рабочих узлов начинает показывать выгоду только при размере набора данных не менее 30 ГБ
- Максимальное ускорение: 3,57× (на достаточно больших наборах данных)
- Накладные расходы на связь: После 4 рабочих узлов дальнейшее увеличение размера кластера приносит только предельные улучшения
Ключевые выводы: Накладные расходы на связь в модели выполнения запроса превышают выгоду от параллелизации на малых наборах данных, кластер должен адаптивно масштабироваться в зависимости от размера данных.
| Система | Параллельное чтение/запись | Разделение вычислений и хранилища | Балансировка нагрузки | Автоматическое масштабирование | GPU-индекс | GPU ANN |
|---|
| Vespa | ✓ | ✓ | ✓ | ✓ | ✗ | ✗ |
| Vald | ✓ | ✗ | ✓ | ✓ | ✓ | ✓ |
| Weaviate | ✓ | ✗ | ✓ | ✓ | ✓ | ✓ |
| Qdrant | ✓ | ✗ | ✓ | ✓ | ✓ | ✗ |
| Milvus | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
- Существующие обзоры сосредоточены на сравнении функциональных характеристик без эмпирической оценки производительности
- Shen и др. оценили различные типы индексов в однопроцессорном RAG, но не рассматривали распределённые системы или HPC-среду
- Отсутствуют исследования производительности векторных баз данных в HPC-среде
- Приоритеты оптимизации генерации встраиваний: Для наборов данных, подходящих для памяти вычислительного узла HPC, следует отдать приоритет повышению эффективности вывода модели перед I/O или загрузкой модели
- Узкое место вставки данных: Асинхронный метод Qdrant ограничен задачами, связанными с CPU, при загрузке данных; многопроцессность может быть более подходящей для параллельной вставки одного клиента
- Использование ресурсов при построении индекса: Один рабочий узел может насытить CPU, ускорение GPU может повысить эффективность нескольких рабочих узлов
- Пороговое значение производительности запроса: Увеличение количества рабочих узлов может эффективно сократить время выполнения запроса только на достаточно больших наборах данных
- Оценка одной системы: Оценена только система Qdrant, отсутствует сравнение между системами
- Ограниченная оценка CPU: Основное внимание уделено построению индекса на CPU, недостаточное изучение реализации GPU
- Недостаточный анализ вариативности: Не рассмотрена вариативность времени выполнения и воспроизводимость
- Ограничения рабочей нагрузки: Рабочие нагрузки в основном основаны на биологических приложениях и могут не представлять другие научные области
- Сравнительные исследования нескольких систем: Комплексная оценка нескольких систем на различных HPC-платформах
- Оптимизация ускорения GPU: Углубленное исследование производительности построения индекса с ускорением GPU и выполнения запросов
- Адаптивное масштабирование: Разработка систем, которые адаптивно масштабируются в зависимости от размера данных и характеристик рабочей нагрузки
- Специализация для научных рабочих нагрузок: Оптимизация векторных баз данных для конкретных требований различных научных областей
- Новаторское исследование: Первое систематическое исследование производительности векторных баз данных в HPC-среде, заполняющее важный пробел в исследованиях
- Реальные рабочие нагрузки: Использование реальных биологических данных и научной литературы для построения рабочих нагрузок с практической значимостью
- Комплексный анализ производительности: Охватывает полный рабочий процесс от генерации встраиваний до выполнения запросов
- Практическая ценность: Предоставляет конкретные рекомендации по конфигурации и стратегии оптимизации производительности
- Открытые данные: Публикация наборов данных способствует развитию области
- Ограниченное охватывание систем: Оценена только система Qdrant, отсутствует горизонтальное сравнение
- Недостаточный теоретический анализ: В основном основано на экспериментальных наблюдениях без глубокого теоретического анализа
- Ограничения масштабируемости: Максимальный размер тестирования составляет 32 рабочих узла, что может быть недостаточно для крупных HPC-систем
- Недостаточное использование GPU: Основное внимание уделено производительности CPU, недостаточное исследование потенциала ускорения GPU
- Академический вклад: Закладывает основу для исследований векторных баз данных в HPC-среде
- Практическое руководство: Предоставляет важные рекомендации по развёртыванию для HPC-центров и пользователей научных вычислений
- Установление стандартов: Устанавливает эталонные методы оценки производительности векторных баз данных в HPC-среде
- Направления будущих исследований: Определяет несколько направлений, достойных углубленного исследования
- Крупномасштабные научные вычисления: Применимо к научным исследовательским проектам, требующим развёртывания векторных баз данных в HPC-среде
- Биоинформатика: Особенно применимо к геномике и биомедицинским исследованиям в области поиска литературы и обнаружения знаний
- Развёртывание систем RAG: Предоставляет рекомендации по производительности для развёртывания крупномасштабных систем RAG в HPC-среде
- Оптимизация систем: Предоставляет руководство для производителей векторных баз данных по оптимизации производительности в HPC-среде
В данном исследовании цитируется 52 соответствующих источника, охватывающих в основном:
- Системы и алгоритмы векторных баз данных
- Платформы и архитектуры высокопроизводительных вычислений
- Модели встраивания и технология RAG
- Соответствующие исследования оценки производительности
Общая оценка: Это новаторская исследовательская работа, которая впервые систематически оценивает характеристики производительности распределённых векторных баз данных в HPC-среде. Методология исследования научна и строга, экспериментальный дизайн разумен, а результаты имеют важную практическую ценность. Несмотря на некоторые ограничения, работа закладывает важную основу для этой новой области исследований и имеет важное значение для продвижения применения векторных баз данных в научных вычислениях.