2025-11-13T13:37:11.114102

Exploring Distributed Vector Databases Performance on HPC Platforms: A Study with Qdrant

Ockerman, Gueroudji, Oh et al.
Vector databases have rapidly grown in popularity, enabling efficient similarity search over data such as text, images, and video. They now play a central role in modern AI workflows, aiding large language models by grounding model outputs in external literature through retrieval-augmented generation. Despite their importance, little is known about the performance characteristics of vector databases in high-performance computing (HPC) systems that drive large-scale science. This work presents an empirical study of distributed vector database performance on the Polaris supercomputer in the Argonne Leadership Computing Facility. We construct a realistic biological-text workload from BV-BRC and generate embeddings from the peS2o corpus using Qwen3-Embedding-4B. We select Qdrant to evaluate insertion, index construction, and query latency with up to 32 workers. Informed by practical lessons from our experience, this work takes a first step toward characterizing vector database performance on HPC platforms to guide future research and optimization.
academic

Исследование производительности распределённых векторных баз данных на HPC-платформах: Исследование с использованием Qdrant

Основная информация

  • ID статьи: 2509.12384
  • Название: Exploring Distributed Vector Databases Performance on HPC Platforms: A Study with Qdrant
  • Авторы: Seth Ockerman, Amal Gueroudji, Song Young Oh, Robert Underwood, Nicholas Chia, Kyle Chard, Robert Ross, Shivaram Venkataraman
  • Классификация: cs.DC cs.DB
  • Время публикации/конференция: SC'25 Workshop Frontiers in Generative AI for HPC Science and Engineering: Foundations, Challenges, and Opportunities
  • Ссылка на статью: https://arxiv.org/abs/2509.12384

Аннотация

Векторные базы данных играют центральную роль в современных рабочих процессах искусственного интеллекта, особенно в системах поиска с дополнением поколения (RAG), которые улучшают производительность модели путём связи выходных данных больших языковых моделей с внешней литературой. Несмотря на растущую важность векторных баз данных в приложениях ИИ, характеристики их производительности на системах высокопроизводительных вычислений (HPC) изучены недостаточно. В данном исследовании проведено эмпирическое исследование распределённой векторной базы данных Qdrant на суперкомпьютере Polaris в Аргоннской национальной лаборатории с использованием реальной рабочей нагрузки биологических текстов на основе BV-BRC, генерированием векторов встраивания с помощью модели Qwen3-Embedding-4B и оценкой производительности вставки, построения индекса и запросов на до 32 рабочих узлов.

Исследовательский контекст и мотивация

Определение проблемы

  1. Основная проблема: Характеристики производительности векторных баз данных в HPC-среде недостаточно изучены; существующие исследования сосредоточены главным образом на однопроцессорных или маломасштабных средах
  2. Значимость: Крупномасштабные научные вычисления всё чаще выполняются на HPC-системах, и векторные базы данных должны адаптироваться к уникальным характеристикам HPC-среды (специализированные межсоединения, параллельные файловые системы, глубокая иерархия памяти, гетерогенная архитектура оборудования)
  3. Существующие ограничения:
    • Отсутствие оценки производительности векторных баз данных для HPC-среды
    • Существующие исследования сосредоточены на сравнении функциональных характеристик без эмпирической оценки производительности
    • Значительные различия между научными рабочими нагрузками и коммерческими приложениями

Исследовательская мотивация

С широким применением систем ИИ в научных исследованиях, особенно распространением технологии RAG, понимание производительности векторных баз данных на архитектуре HPC имеет важное значение для проектирования систем, оптимизации производительности и будущих исследований.

Основные вклады

  1. Первая оценка в HPC-среде: Оценена распределённая производительность Qdrant на суперкомпьютере Polaris с тестированием производительности вставки, построения индекса и запросов на до 32 рабочих узлов (на 8 вычислительных узлах)
  2. Реальные научные рабочие нагрузки: Построены реальные рабочие нагрузки на основе биологических данных BV-BRC и корпуса научных текстов peS2o
  3. Анализ характеристик производительности: Предоставлен первый систематический анализ характеристик производительности векторных баз данных на HPC-платформах
  4. Открытые наборы данных: Опубликованы наборы данных научных встраиваний и рабочие нагрузки запросов для будущих исследований
  5. Практические рекомендации: На основе опыта развёртывания предоставлены практические рекомендации и направления будущих исследований

Подробное описание методологии

Определение задачи

В данном исследовании построен сквозной рабочий процесс биологического RAG, включающий:

  • Входные данные: 22 723 термина, связанные с геномом из BV-BRC
  • Обработка: Использование поиска каждого термина в наборе данных peS2o (8 миллионов полнотекстовых статей) для поиска соответствующих данных
  • Выходные данные: Результаты поиска, предоставляющие контекстную информацию для системы RAG

Архитектура системы

Архитектура распределённой векторной базы данных

В статье сравниваются две основные распределённые архитектуры:

  1. Архитектура с состоянием (используется Qdrant):
    • Каждый рабочий узел хранит состояние (индекс или данные) и отвечает за вычисления
    • Рабочие узлы одновременно "владеют" и отвечают за часть набора данных
    • Запросы транслируются на все рабочие узлы, каждый узел выполняет поиск ANN и затем результаты агрегируются
  2. Архитектура без состояния (разделение вычислений и хранилища):
    • Рабочие узлы выполняют вычисления, но не сохраняют данные постоянно
    • Данные хранятся на независимом уровне постоянного хранилища
    • Данные загружаются в кэш-уровень при необходимости

Конфигурация экспериментальной платформы

  • Оборудование: Суперкомпьютер Polaris
    • Каждый вычислительный узел: 32-ядерный процессор AMD EPYC Milan 7543P с частотой 2,8 ГГц
    • Память: 512 ГБ DDR4 RAM
    • GPU: 4 графических процессора NVIDIA A100
    • Межсоединение: HPE Slingshot 11, топология Dragonfly
  • Программное обеспечение: Векторная база данных Qdrant с индексом HNSW

Технические инновации

  1. Адаптивный конвейер генерации встраиваний:
    • Стратегия пакетной обработки на основе параметров пользователя
    • Параллельная обработка с несколькими процессами для полного использования ресурсов GPU
    • Механизм автоматического понижения при ошибках OOM
  2. Методы оптимизации производительности:
    • Систематическая оптимизация размера пакета и количества одновременных запросов
    • Асинхронная реализация клиента для оптимизации вставки данных
    • Стратегия распределения нескольких процессов для оптимизации связи клиент-сервер

Экспериментальная установка

Наборы данных

  1. Биологические данные BV-BRC: 22 723 термина, связанные с геномом
  2. Корпус научных текстов peS2o: 8 293 485 полнотекстовых научных статей
  3. Модель встраивания: Qwen3-Embedding-4B (подходит для одного 40GB GPU)

Метрики оценки

  • Время генерации встраиваний: Загрузка модели, I/O, время вывода
  • Время вставки данных: Производительность вставки при различных размерах пакетов и степенях параллелизма
  • Время построения индекса: Масштабируемость построения индекса HNSW
  • Задержка запроса: Производительность запроса при различных размерах наборов данных и количестве рабочих узлов

Конфигурация экспериментов

  • Количество рабочих узлов: 1, 4, 8, 16, 32
  • Распределение данных: Каждый рабочий узел отвечает за примерно 80GB/#Workers данных
  • Конфигурация клиента: Один клиент выделен для каждого рабочего узла Qdrant, все клиенты работают на одном вычислительном узле
  • Стратегия развёртывания: 4 рабочих узла Qdrant на машину

Результаты экспериментов

Производительность генерации встраиваний

ЭтапСреднее время (сек)Доля
Загрузка модели28,171,2%
I/O7,490,3%
Вывод2381,9798,5%

Ключевые выводы: Вывод модели доминирует в общем времени выполнения, эвристика пакетной обработки успешно предотвращает ошибки памяти, менее 0,10% статей требуют последовательной обработки.

Производительность вставки данных

Результаты оптимизации параметров

  • Оптимальный размер пакета: 32 (оптимизация с 468 сек до 381 сек)
  • Оптимальное количество одновременных запросов: 2 (дальнейшая оптимизация до 367 сек)
  • Производительность масштабирования:
Количество рабочих узлов1481632
Время вставки8,22ч2,11ч1,14ч35,92м21,67м

Ключевые выводы:

  1. Преобразование пакетной обработки, связанное с CPU, ограничивает эффект параллелизма asyncio
  2. Многопроцессность более подходит для параллельной вставки данных одного клиента, чем asyncio
  3. Скорость вставки данных может стать узким местом для крупномасштабных HPC-рабочих нагрузок

Производительность построения индекса

  • Максимальное ускорение: 21,32× на 32 рабочих узлах относительно одного узла
  • Ограничения масштабирования: От 1 к 4 рабочим узлам получено только 1,27× ускорение
  • Использование ресурсов: Один рабочий узел уже использует 90-97% ёмкости CPU

Ключевые выводы: Развёртывание нескольких рабочих узлов Qdrant на узел не требуется для построения индекса, связанного с CPU, ускорение GPU может быть более эффективным.

Производительность запроса

Оптимизация параметров

  • Оптимальный размер пакета запроса: 16 (оптимизация с 139 сек до 73 сек)
  • Оптимальное количество одновременных пакетных запросов: 2

Анализ масштабируемости

  • Пороговое значение размера набора данных: Увеличение количества рабочих узлов начинает показывать выгоду только при размере набора данных не менее 30 ГБ
  • Максимальное ускорение: 3,57× (на достаточно больших наборах данных)
  • Накладные расходы на связь: После 4 рабочих узлов дальнейшее увеличение размера кластера приносит только предельные улучшения

Ключевые выводы: Накладные расходы на связь в модели выполнения запроса превышают выгоду от параллелизации на малых наборах данных, кластер должен адаптивно масштабироваться в зависимости от размера данных.

Связанные работы

Сравнение систем векторных баз данных

СистемаПараллельное чтение/записьРазделение вычислений и хранилищаБалансировка нагрузкиАвтоматическое масштабированиеGPU-индексGPU ANN
Vespa
Vald
Weaviate
Qdrant
Milvus

Состояние исследований

  • Существующие обзоры сосредоточены на сравнении функциональных характеристик без эмпирической оценки производительности
  • Shen и др. оценили различные типы индексов в однопроцессорном RAG, но не рассматривали распределённые системы или HPC-среду
  • Отсутствуют исследования производительности векторных баз данных в HPC-среде

Выводы и обсуждение

Основные выводы

  1. Приоритеты оптимизации генерации встраиваний: Для наборов данных, подходящих для памяти вычислительного узла HPC, следует отдать приоритет повышению эффективности вывода модели перед I/O или загрузкой модели
  2. Узкое место вставки данных: Асинхронный метод Qdrant ограничен задачами, связанными с CPU, при загрузке данных; многопроцессность может быть более подходящей для параллельной вставки одного клиента
  3. Использование ресурсов при построении индекса: Один рабочий узел может насытить CPU, ускорение GPU может повысить эффективность нескольких рабочих узлов
  4. Пороговое значение производительности запроса: Увеличение количества рабочих узлов может эффективно сократить время выполнения запроса только на достаточно больших наборах данных

Ограничения

  1. Оценка одной системы: Оценена только система Qdrant, отсутствует сравнение между системами
  2. Ограниченная оценка CPU: Основное внимание уделено построению индекса на CPU, недостаточное изучение реализации GPU
  3. Недостаточный анализ вариативности: Не рассмотрена вариативность времени выполнения и воспроизводимость
  4. Ограничения рабочей нагрузки: Рабочие нагрузки в основном основаны на биологических приложениях и могут не представлять другие научные области

Направления будущих исследований

  1. Сравнительные исследования нескольких систем: Комплексная оценка нескольких систем на различных HPC-платформах
  2. Оптимизация ускорения GPU: Углубленное исследование производительности построения индекса с ускорением GPU и выполнения запросов
  3. Адаптивное масштабирование: Разработка систем, которые адаптивно масштабируются в зависимости от размера данных и характеристик рабочей нагрузки
  4. Специализация для научных рабочих нагрузок: Оптимизация векторных баз данных для конкретных требований различных научных областей

Глубокая оценка

Преимущества

  1. Новаторское исследование: Первое систематическое исследование производительности векторных баз данных в HPC-среде, заполняющее важный пробел в исследованиях
  2. Реальные рабочие нагрузки: Использование реальных биологических данных и научной литературы для построения рабочих нагрузок с практической значимостью
  3. Комплексный анализ производительности: Охватывает полный рабочий процесс от генерации встраиваний до выполнения запросов
  4. Практическая ценность: Предоставляет конкретные рекомендации по конфигурации и стратегии оптимизации производительности
  5. Открытые данные: Публикация наборов данных способствует развитию области

Недостатки

  1. Ограниченное охватывание систем: Оценена только система Qdrant, отсутствует горизонтальное сравнение
  2. Недостаточный теоретический анализ: В основном основано на экспериментальных наблюдениях без глубокого теоретического анализа
  3. Ограничения масштабируемости: Максимальный размер тестирования составляет 32 рабочих узла, что может быть недостаточно для крупных HPC-систем
  4. Недостаточное использование GPU: Основное внимание уделено производительности CPU, недостаточное исследование потенциала ускорения GPU

Влияние

  1. Академический вклад: Закладывает основу для исследований векторных баз данных в HPC-среде
  2. Практическое руководство: Предоставляет важные рекомендации по развёртыванию для HPC-центров и пользователей научных вычислений
  3. Установление стандартов: Устанавливает эталонные методы оценки производительности векторных баз данных в HPC-среде
  4. Направления будущих исследований: Определяет несколько направлений, достойных углубленного исследования

Применимые сценарии

  1. Крупномасштабные научные вычисления: Применимо к научным исследовательским проектам, требующим развёртывания векторных баз данных в HPC-среде
  2. Биоинформатика: Особенно применимо к геномике и биомедицинским исследованиям в области поиска литературы и обнаружения знаний
  3. Развёртывание систем RAG: Предоставляет рекомендации по производительности для развёртывания крупномасштабных систем RAG в HPC-среде
  4. Оптимизация систем: Предоставляет руководство для производителей векторных баз данных по оптимизации производительности в HPC-среде

Список литературы

В данном исследовании цитируется 52 соответствующих источника, охватывающих в основном:

  • Системы и алгоритмы векторных баз данных
  • Платформы и архитектуры высокопроизводительных вычислений
  • Модели встраивания и технология RAG
  • Соответствующие исследования оценки производительности

Общая оценка: Это новаторская исследовательская работа, которая впервые систематически оценивает характеристики производительности распределённых векторных баз данных в HPC-среде. Методология исследования научна и строга, экспериментальный дизайн разумен, а результаты имеют важную практическую ценность. Несмотря на некоторые ограничения, работа закладывает важную основу для этой новой области исследований и имеет важное значение для продвижения применения векторных баз данных в научных вычислениях.