2025-11-13T13:37:11.114102

Exploring Distributed Vector Databases Performance on HPC Platforms: A Study with Qdrant

Ockerman, Gueroudji, Oh et al.

Vector databases have rapidly grown in popularity, enabling efficient similarity search over data such as text, images, and video. They now play a central role in modern AI workflows, aiding large language models by grounding model outputs in external literature through retrieval-augmented generation. Despite their importance, little is known about the performance characteristics of vector databases in high-performance computing (HPC) systems that drive large-scale science. This work presents an empirical study of distributed vector database performance on the Polaris supercomputer in the Argonne Leadership Computing Facility. We construct a realistic biological-text workload from BV-BRC and generate embeddings from the peS2o corpus using Qwen3-Embedding-4B. We select Qdrant to evaluate insertion, index construction, and query latency with up to 32 workers. Informed by practical lessons from our experience, this work takes a first step toward characterizing vector database performance on HPC platforms to guide future research and optimization.

academic

Исследование производительности распределённых векторных баз данных на HPC-платформах: Исследование с использованием Qdrant

Основная информация

ID статьи: 2509.12384
Название: Exploring Distributed Vector Databases Performance on HPC Platforms: A Study with Qdrant
Авторы: Seth Ockerman, Amal Gueroudji, Song Young Oh, Robert Underwood, Nicholas Chia, Kyle Chard, Robert Ross, Shivaram Venkataraman
Классификация: cs.DC cs.DB
Время публикации/конференция: SC'25 Workshop Frontiers in Generative AI for HPC Science and Engineering: Foundations, Challenges, and Opportunities
Ссылка на статью: https://arxiv.org/abs/2509.12384

Аннотация

Векторные базы данных играют центральную роль в современных рабочих процессах искусственного интеллекта, особенно в системах поиска с дополнением поколения (RAG), которые улучшают производительность модели путём связи выходных данных больших языковых моделей с внешней литературой. Несмотря на растущую важность векторных баз данных в приложениях ИИ, характеристики их производительности на системах высокопроизводительных вычислений (HPC) изучены недостаточно. В данном исследовании проведено эмпирическое исследование распределённой векторной базы данных Qdrant на суперкомпьютере Polaris в Аргоннской национальной лаборатории с использованием реальной рабочей нагрузки биологических текстов на основе BV-BRC, генерированием векторов встраивания с помощью модели Qwen3-Embedding-4B и оценкой производительности вставки, построения индекса и запросов на до 32 рабочих узлов.

Исследовательский контекст и мотивация

Определение проблемы

Основная проблема: Характеристики производительности векторных баз данных в HPC-среде недостаточно изучены; существующие исследования сосредоточены главным образом на однопроцессорных или маломасштабных средах
Значимость: Крупномасштабные научные вычисления всё чаще выполняются на HPC-системах, и векторные базы данных должны адаптироваться к уникальным характеристикам HPC-среды (специализированные межсоединения, параллельные файловые системы, глубокая иерархия памяти, гетерогенная архитектура оборудования)
Существующие ограничения:
- Отсутствие оценки производительности векторных баз данных для HPC-среды
- Существующие исследования сосредоточены на сравнении функциональных характеристик без эмпирической оценки производительности
- Значительные различия между научными рабочими нагрузками и коммерческими приложениями

Исследовательская мотивация

С широким применением систем ИИ в научных исследованиях, особенно распространением технологии RAG, понимание производительности векторных баз данных на архитектуре HPC имеет важное значение для проектирования систем, оптимизации производительности и будущих исследований.

Основные вклады

Первая оценка в HPC-среде: Оценена распределённая производительность Qdrant на суперкомпьютере Polaris с тестированием производительности вставки, построения индекса и запросов на до 32 рабочих узлов (на 8 вычислительных узлах)
Реальные научные рабочие нагрузки: Построены реальные рабочие нагрузки на основе биологических данных BV-BRC и корпуса научных текстов peS2o
Анализ характеристик производительности: Предоставлен первый систематический анализ характеристик производительности векторных баз данных на HPC-платформах
Открытые наборы данных: Опубликованы наборы данных научных встраиваний и рабочие нагрузки запросов для будущих исследований
Практические рекомендации: На основе опыта развёртывания предоставлены практические рекомендации и направления будущих исследований

Подробное описание методологии

Определение задачи

В данном исследовании построен сквозной рабочий процесс биологического RAG, включающий:

Входные данные: 22 723 термина, связанные с геномом из BV-BRC
Обработка: Использование поиска каждого термина в наборе данных peS2o (8 миллионов полнотекстовых статей) для поиска соответствующих данных
Выходные данные: Результаты поиска, предоставляющие контекстную информацию для системы RAG

Архитектура системы

Архитектура распределённой векторной базы данных

В статье сравниваются две основные распределённые архитектуры:

Архитектура с состоянием (используется Qdrant):
- Каждый рабочий узел хранит состояние (индекс или данные) и отвечает за вычисления
- Рабочие узлы одновременно "владеют" и отвечают за часть набора данных
- Запросы транслируются на все рабочие узлы, каждый узел выполняет поиск ANN и затем результаты агрегируются
Архитектура без состояния (разделение вычислений и хранилища):
- Рабочие узлы выполняют вычисления, но не сохраняют данные постоянно
- Данные хранятся на независимом уровне постоянного хранилища
- Данные загружаются в кэш-уровень при необходимости

Конфигурация экспериментальной платформы

Оборудование: Суперкомпьютер Polaris
- Каждый вычислительный узел: 32-ядерный процессор AMD EPYC Milan 7543P с частотой 2,8 ГГц
- Память: 512 ГБ DDR4 RAM
- GPU: 4 графических процессора NVIDIA A100
- Межсоединение: HPE Slingshot 11, топология Dragonfly
Программное обеспечение: Векторная база данных Qdrant с индексом HNSW

Технические инновации

Адаптивный конвейер генерации встраиваний:
- Стратегия пакетной обработки на основе параметров пользователя
- Параллельная обработка с несколькими процессами для полного использования ресурсов GPU
- Механизм автоматического понижения при ошибках OOM
Методы оптимизации производительности:
- Систематическая оптимизация размера пакета и количества одновременных запросов
- Асинхронная реализация клиента для оптимизации вставки данных
- Стратегия распределения нескольких процессов для оптимизации связи клиент-сервер

Экспериментальная установка

Наборы данных

Биологические данные BV-BRC: 22 723 термина, связанные с геномом
Корпус научных текстов peS2o: 8 293 485 полнотекстовых научных статей
Модель встраивания: Qwen3-Embedding-4B (подходит для одного 40GB GPU)

Метрики оценки

Время генерации встраиваний: Загрузка модели, I/O, время вывода
Время вставки данных: Производительность вставки при различных размерах пакетов и степенях параллелизма
Время построения индекса: Масштабируемость построения индекса HNSW
Задержка запроса: Производительность запроса при различных размерах наборов данных и количестве рабочих узлов

Конфигурация экспериментов

Количество рабочих узлов: 1, 4, 8, 16, 32
Распределение данных: Каждый рабочий узел отвечает за примерно 80GB/#Workers данных
Конфигурация клиента: Один клиент выделен для каждого рабочего узла Qdrant, все клиенты работают на одном вычислительном узле
Стратегия развёртывания: 4 рабочих узла Qdrant на машину

Результаты экспериментов

Производительность генерации встраиваний

Этап	Среднее время (сек)	Доля
Загрузка модели	28,17	1,2%
I/O	7,49	0,3%
Вывод	2381,97	98,5%

Ключевые выводы: Вывод модели доминирует в общем времени выполнения, эвристика пакетной обработки успешно предотвращает ошибки памяти, менее 0,10% статей требуют последовательной обработки.

Производительность вставки данных

Результаты оптимизации параметров

Оптимальный размер пакета: 32 (оптимизация с 468 сек до 381 сек)
Оптимальное количество одновременных запросов: 2 (дальнейшая оптимизация до 367 сек)
Производительность масштабирования:

Количество рабочих узлов	1	4	8	16	32
Время вставки	8,22ч	2,11ч	1,14ч	35,92м	21,67м

Ключевые выводы:

Преобразование пакетной обработки, связанное с CPU, ограничивает эффект параллелизма asyncio
Многопроцессность более подходит для параллельной вставки данных одного клиента, чем asyncio
Скорость вставки данных может стать узким местом для крупномасштабных HPC-рабочих нагрузок

Производительность построения индекса

Максимальное ускорение: 21,32× на 32 рабочих узлах относительно одного узла
Ограничения масштабирования: От 1 к 4 рабочим узлам получено только 1,27× ускорение
Использование ресурсов: Один рабочий узел уже использует 90-97% ёмкости CPU

Ключевые выводы: Развёртывание нескольких рабочих узлов Qdrant на узел не требуется для построения индекса, связанного с CPU, ускорение GPU может быть более эффективным.

Производительность запроса

Оптимизация параметров

Оптимальный размер пакета запроса: 16 (оптимизация с 139 сек до 73 сек)
Оптимальное количество одновременных пакетных запросов: 2

Анализ масштабируемости

Пороговое значение размера набора данных: Увеличение количества рабочих узлов начинает показывать выгоду только при размере набора данных не менее 30 ГБ
Максимальное ускорение: 3,57× (на достаточно больших наборах данных)
Накладные расходы на связь: После 4 рабочих узлов дальнейшее увеличение размера кластера приносит только предельные улучшения

Ключевые выводы: Накладные расходы на связь в модели выполнения запроса превышают выгоду от параллелизации на малых наборах данных, кластер должен адаптивно масштабироваться в зависимости от размера данных.

Связанные работы

Сравнение систем векторных баз данных

Система	Параллельное чтение/запись	Разделение вычислений и хранилища	Балансировка нагрузки	Автоматическое масштабирование	GPU-индекс	GPU ANN
Vespa	✓	✓	✓	✓	✗	✗
Vald	✓	✗	✓	✓	✓	✓
Weaviate	✓	✗	✓	✓	✓	✓
Qdrant	✓	✗	✓	✓	✓	✗
Milvus	✓	✓	✓	✓	✓	✓

Состояние исследований

Существующие обзоры сосредоточены на сравнении функциональных характеристик без эмпирической оценки производительности
Shen и др. оценили различные типы индексов в однопроцессорном RAG, но не рассматривали распределённые системы или HPC-среду
Отсутствуют исследования производительности векторных баз данных в HPC-среде

Выводы и обсуждение

Основные выводы

Приоритеты оптимизации генерации встраиваний: Для наборов данных, подходящих для памяти вычислительного узла HPC, следует отдать приоритет повышению эффективности вывода модели перед I/O или загрузкой модели
Узкое место вставки данных: Асинхронный метод Qdrant ограничен задачами, связанными с CPU, при загрузке данных; многопроцессность может быть более подходящей для параллельной вставки одного клиента
Использование ресурсов при построении индекса: Один рабочий узел может насытить CPU, ускорение GPU может повысить эффективность нескольких рабочих узлов
Пороговое значение производительности запроса: Увеличение количества рабочих узлов может эффективно сократить время выполнения запроса только на достаточно больших наборах данных

Ограничения

Оценка одной системы: Оценена только система Qdrant, отсутствует сравнение между системами
Ограниченная оценка CPU: Основное внимание уделено построению индекса на CPU, недостаточное изучение реализации GPU
Недостаточный анализ вариативности: Не рассмотрена вариативность времени выполнения и воспроизводимость
Ограничения рабочей нагрузки: Рабочие нагрузки в основном основаны на биологических приложениях и могут не представлять другие научные области

Направления будущих исследований

Сравнительные исследования нескольких систем: Комплексная оценка нескольких систем на различных HPC-платформах
Оптимизация ускорения GPU: Углубленное исследование производительности построения индекса с ускорением GPU и выполнения запросов
Адаптивное масштабирование: Разработка систем, которые адаптивно масштабируются в зависимости от размера данных и характеристик рабочей нагрузки
Специализация для научных рабочих нагрузок: Оптимизация векторных баз данных для конкретных требований различных научных областей

Глубокая оценка

Преимущества

Новаторское исследование: Первое систематическое исследование производительности векторных баз данных в HPC-среде, заполняющее важный пробел в исследованиях
Реальные рабочие нагрузки: Использование реальных биологических данных и научной литературы для построения рабочих нагрузок с практической значимостью
Комплексный анализ производительности: Охватывает полный рабочий процесс от генерации встраиваний до выполнения запросов
Практическая ценность: Предоставляет конкретные рекомендации по конфигурации и стратегии оптимизации производительности
Открытые данные: Публикация наборов данных способствует развитию области

Недостатки

Ограниченное охватывание систем: Оценена только система Qdrant, отсутствует горизонтальное сравнение
Недостаточный теоретический анализ: В основном основано на экспериментальных наблюдениях без глубокого теоретического анализа
Ограничения масштабируемости: Максимальный размер тестирования составляет 32 рабочих узла, что может быть недостаточно для крупных HPC-систем
Недостаточное использование GPU: Основное внимание уделено производительности CPU, недостаточное исследование потенциала ускорения GPU

Влияние

Академический вклад: Закладывает основу для исследований векторных баз данных в HPC-среде
Практическое руководство: Предоставляет важные рекомендации по развёртыванию для HPC-центров и пользователей научных вычислений
Установление стандартов: Устанавливает эталонные методы оценки производительности векторных баз данных в HPC-среде
Направления будущих исследований: Определяет несколько направлений, достойных углубленного исследования

Применимые сценарии

Крупномасштабные научные вычисления: Применимо к научным исследовательским проектам, требующим развёртывания векторных баз данных в HPC-среде
Биоинформатика: Особенно применимо к геномике и биомедицинским исследованиям в области поиска литературы и обнаружения знаний
Развёртывание систем RAG: Предоставляет рекомендации по производительности для развёртывания крупномасштабных систем RAG в HPC-среде
Оптимизация систем: Предоставляет руководство для производителей векторных баз данных по оптимизации производительности в HPC-среде

Список литературы

В данном исследовании цитируется 52 соответствующих источника, охватывающих в основном:

Системы и алгоритмы векторных баз данных
Платформы и архитектуры высокопроизводительных вычислений
Модели встраивания и технология RAG
Соответствующие исследования оценки производительности

Общая оценка: Это новаторская исследовательская работа, которая впервые систематически оценивает характеристики производительности распределённых векторных баз данных в HPC-среде. Методология исследования научна и строга, экспериментальный дизайн разумен, а результаты имеют важную практическую ценность. Несмотря на некоторые ограничения, работа закладывает важную основу для этой новой области исследований и имеет важное значение для продвижения применения векторных баз данных в научных вычислениях.