2025-11-13T13:37:11.114102

Exploring Distributed Vector Databases Performance on HPC Platforms: A Study with Qdrant

Ockerman, Gueroudji, Oh et al.

Vector databases have rapidly grown in popularity, enabling efficient similarity search over data such as text, images, and video. They now play a central role in modern AI workflows, aiding large language models by grounding model outputs in external literature through retrieval-augmented generation. Despite their importance, little is known about the performance characteristics of vector databases in high-performance computing (HPC) systems that drive large-scale science. This work presents an empirical study of distributed vector database performance on the Polaris supercomputer in the Argonne Leadership Computing Facility. We construct a realistic biological-text workload from BV-BRC and generate embeddings from the peS2o corpus using Qwen3-Embedding-4B. We select Qdrant to evaluate insertion, index construction, and query latency with up to 32 workers. Informed by practical lessons from our experience, this work takes a first step toward characterizing vector database performance on HPC platforms to guide future research and optimization.

academic

Erforschung der Leistung verteilter Vektordatenbanken auf HPC-Plattformen: Eine Studie mit Qdrant

Grundlegende Informationen

Papier-ID: 2509.12384
Titel: Exploring Distributed Vector Databases Performance on HPC Platforms: A Study with Qdrant
Autoren: Seth Ockerman, Amal Gueroudji, Song Young Oh, Robert Underwood, Nicholas Chia, Kyle Chard, Robert Ross, Shivaram Venkataraman
Klassifizierung: cs.DC cs.DB
Veröffentlichungszeit/Konferenz: SC'25 Workshop Frontiers in Generative AI for HPC Science and Engineering: Foundations, Challenges, and Opportunities
Papierlink: https://arxiv.org/abs/2509.12384

Zusammenfassung

Vektordatenbanken spielen eine zentrale Rolle in modernen KI-Workflows, insbesondere in Retrieval-Augmented-Generation-(RAG-)Systemen, die die Leistung großer Sprachmodelle durch die Verknüpfung ihrer Ausgaben mit externen Literaturquellen verbessern. Obwohl Vektordatenbanken in KI-Anwendungen zunehmend an Bedeutung gewinnen, ist wenig über ihre Leistungsmerkmale in Hochleistungsrechensystemen (HPC) bekannt. Diese Studie führt eine empirische Untersuchung der verteilten Vektordatenbank Qdrant auf dem Polaris-Supercomputer des Argonne National Laboratory durch, konstruiert echte biologische Textarbeitslasten basierend auf BV-BRC, generiert Einbettungsvektoren mit dem Qwen3-Embedding-4B-Modell und bewertet die Einfügungs-, Indexaufbau- und Abfrageleistung bei bis zu 32 Arbeitsknoten.

Forschungshintergrund und Motivation

Problemdefinition

Kernproblem: Leistungsmerkmale von Vektordatenbanken in HPC-Umgebungen sind unzureichend erforscht; bestehende Forschungen konzentrieren sich hauptsächlich auf Single-GPU- oder kleinere Umgebungen
Bedeutung: Großflächige wissenschaftliche Berechnungen werden zunehmend auf HPC-Systemen ausgeführt; Vektordatenbanken müssen sich an die einzigartigen Merkmale von HPC-Umgebungen anpassen (dedizierte Verbindungen, parallele Dateisysteme, tiefe Speicherhierarchien, heterogene Hardwarearchitekturen)
Bestehende Einschränkungen:
- Mangel an Leistungsbewertungen von Vektordatenbanken für HPC-Umgebungen
- Bestehende Forschungen konzentrieren sich hauptsächlich auf funktionale Eigenschaftsvergleiche, nicht auf empirische Leistungsbewertungen
- Erhebliche Unterschiede zwischen wissenschaftlichen Arbeitslasten und kommerziellen Anwendungen

Forschungsmotivation

Mit der weit verbreiteten Anwendung von KI-Systemen in der wissenschaftlichen Forschung, insbesondere der Verbreitung von RAG-Technologie, ist das Verständnis der Leistung von Vektordatenbanken auf HPC-Architekturen von großer Bedeutung für Systemdesign, Leistungsoptimierung und zukünftige Forschung.

Kernbeiträge

Erste HPC-Umgebungsbewertung: Bewertung der verteilten Leistung von Qdrant auf dem Polaris-Supercomputer mit Tests von Einfügungs-, Indexaufbau- und Abfrageleistung bei bis zu 32 Arbeitsknoten (über 8 Rechenknoten)
Echte wissenschaftliche Arbeitslasten: Konstruktion echter Arbeitslasten basierend auf BV-BRC-Biodaten und dem peS2o-Wissenschaftstextkorpus
Leistungsmerkmalsanalyse: Erste systematische Analyse von Leistungsmerkmalen von Vektordatenbanken auf HPC-Plattformen
Offene Datensätze: Veröffentlichung von wissenschaftlichen Einbettungsdatensätzen und Abfrageworkloads für zukünftige Forschung
Praktische Anleitung: Bereitstellung praktischer Empfehlungen und zukünftiger Forschungsrichtungen basierend auf Bereitstellungserfahrungen

Methodische Details

Aufgabendefinition

Diese Studie konstruiert einen End-to-End-Biologie-RAG-Workflow, der Folgendes umfasst:

Eingabe: 22.723 genomische Fachbegriffe aus BV-BRC
Verarbeitung: Suche nach relevanten Daten für jeden Begriff im peS2o-Datensatz (8 Millionen vollständige Texte von Fachzeitschriften)
Ausgabe: Abfrageergebnisse, die Kontextinformationen für RAG-Systeme bereitstellen

Systemarchitektur

Verteilte Vektordatenbankarchitektur

Das Papier vergleicht zwei Hauptarchitekturen für verteilte Systeme:

Zustandsbehaftete Architektur (von Qdrant verwendet):
- Jeder Arbeitsknoten speichert Zustand (Index oder Daten) und führt Berechnungen durch
- Arbeitsknoten „besitzen" und verwalten einen Teil des Datensatzes
- Abfragen werden an alle Arbeitsknoten übertragen; jeder Knoten führt ANN-Suche durch und aggregiert Ergebnisse
Zustandslose Architektur (Trennung von Berechnung und Speicherung):
- Arbeitsknoten führen Berechnungen durch, speichern Daten aber nicht dauerhaft
- Daten werden in einer unabhängigen persistenten Speicherschicht gespeichert
- Daten werden bei Bedarf in die Cacheschicht geladen

Experimentelle Plattformkonfiguration

Hardware: Polaris-Supercomputer
- Jeder Rechenknoten: 2,8 GHz AMD EPYC Milan 7543P 32-Kern-CPU
- Speicher: 512 GB DDR4 RAM
- GPU: 4 NVIDIA A100 GPUs
- Verbindung: HPE Slingshot 11, Dragonfly-Topologie
Software: Qdrant-Vektordatenbank mit HNSW-Index

Technische Innovationen

Adaptive Einbettungsgenerierungs-Pipeline:
- Batch-Strategie basierend auf Benutzerparametern
- Parallele Mehrprozess-Verarbeitung zur vollständigen GPU-Ressourcennutzung
- Automatischer Fallback-Mechanismus bei OOM-Fehlern
Leistungsoptimierungsmethoden:
- Systematische Optimierung von Batch-Größe und Anzahl gleichzeitiger Anfragen
- Asynchrone Client-Implementierung zur Optimierung der Dateneinfügung
- Mehrprozess-Zuweisungsstrategie zur Optimierung der Client-Server-Kommunikation

Experimentelle Einrichtung

Datensätze

BV-BRC-Biodaten: 22.723 genomische Fachbegriffe
peS2o-Wissenschaftstextkorpus: 8.293.485 vollständige akademische Fachzeitschriften
Einbettungsmodell: Qwen3-Embedding-4B (geeignet für einzelne 40GB GPU)

Bewertungsmetriken

Einbettungsgenerierungszeit: Modellladung, I/O, Inferenzzeit
Dateneinfügungszeit: Einfügungsleistung bei verschiedenen Batch-Größen und Parallelitätsgraden
Indexaufbauzeit: Skalierbarkeit des HNSW-Indexaufbaus
Abfrageverzögerung: Abfrageleistung bei verschiedenen Datensatzgrößen und Anzahl von Arbeitsknoten

Experimentelle Konfiguration

Anzahl der Arbeitsknoten: 1, 4, 8, 16, 32
Datenverteilung: Jeder Arbeitsknoten verwaltet etwa 80GB/#Workers Daten
Client-Konfiguration: Ein Client pro Qdrant-Arbeitsknoten; alle Clients laufen auf einem einzelnen Rechenknoten
Bereitstellungsstrategie: 4 Qdrant-Arbeitsknoten pro Maschine

Experimentelle Ergebnisse

Einbettungsgenerierungsleistung

Phase	Durchschnittliche Zeit (Sekunden)	Anteil
Modellladung	28,17	1,2%
I/O	7,49	0,3%
Inferenz	2381,97	98,5%

Wichtigste Erkenntnisse: Modellschlussfolgerung dominiert die Gesamtlaufzeit; Batch-Processing-Heuristiken verhindern erfolgreich Speicherfehler; weniger als 0,10% der Fachzeitschriften erfordern sequenzielle Verarbeitung.

Dateneinfügungsleistung

Parametrierungsoptimierungsergebnisse

Optimale Batch-Größe: 32 (Optimierung von 468s auf 381s)
Optimale Anzahl gleichzeitiger Anfragen: 2 (weitere Optimierung auf 367s)
Skalierungsleistung:

Anzahl der Arbeitsknoten	1	4	8	16	32
Einfügungszeit	8,22h	2,11h	1,14h	35,92m	21,67m

Wichtigste Erkenntnisse:

CPU-gebundene Batch-Verarbeitung begrenzt die Parallelitätseffekte von asyncio
Mehrprozess-Verarbeitung ist besser geeignet als asyncio für parallele Dateneinfügung mit einzelnem Client
Dateneinfügungsrate könnte ein Engpass für großflächige HPC-Arbeitslasten darstellen

Indexaufbauleistung

Maximale Beschleunigung: 21,32× für 32 Arbeitsknoten im Vergleich zu einem einzelnen Knoten
Skalierungsbegrenzungen: Nur 1,27× Beschleunigung von 1 zu 4 Arbeitsknoten
Ressourcennutzung: Einzelne Arbeitsknoten nutzen bereits 90-97% der CPU-Kapazität

Wichtigste Erkenntnisse: Die Bereitstellung mehrerer Qdrant-Arbeitsknoten pro Knoten ist für CPU-gesättigte Indexaufbau unnötig; GPU-Beschleunigung könnte effektiver sein.

Abfrageleistung

Parametrierungsoptimierung

Optimale Abfrage-Batch-Größe: 16 (Optimierung von 139s auf 73s)
Optimale Anzahl gleichzeitiger Batch-Anfragen: 2

Skalierungsanalyse

Datensatzgrößen-Schwellenwert: Nur wenn der Datensatz mindestens 30GB erreicht, zeigt eine Erhöhung der Anzahl von Arbeitsknoten Vorteile
Maximale Beschleunigung: 3,57× (bei ausreichend großem Datensatz)
Kommunikationsaufwand: Über 4 Arbeitsknoten hinaus bringt eine weitere Erhöhung der Clustergröße nur marginale Verbesserungen

Wichtigste Erkenntnisse: Kommunikationsaufwand im Abfrageausführungsmodell überwiegt Parallelisierungsvorteile bei kleinen Datensätzen; Cluster sollten sich adaptiv basierend auf Datengröße skalieren können.

System	Paralleles Lesen/Schreiben	Trennung von Berechnung und Speicherung	Lastverteilung	Automatische Skalierung	GPU-Index	GPU ANN
Vespa	✓	✓	✓	✓	✗	✗
Vald	✓	✗	✓	✓	✓	✓
Weaviate	✓	✗	✓	✓	✓	✓
Qdrant	✓	✗	✓	✓	✓	✗
Milvus	✓	✓	✓	✓	✓	✓

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Optimierungsschwerpunkt der Einbettungsgenerierung: Für Datensätze, die in den Speicher von HPC-Rechenknoten passen, sollte die Verbesserung der Modellschlussfolgerungseffizienz Vorrang vor I/O oder Modellladung haben
Dateneinfügungsengpass: Qdrants asynchrone Methode wird durch CPU-gebundene Aufgaben bei der Datenübertragung begrenzt; Mehrprozess-Verarbeitung könnte für parallele Einfügung mit einzelnem Client besser geeignet sein
Ressourcennutzung beim Indexaufbau: Ein einzelner Arbeitsknoten kann die CPU bereits sättigen; GPU-Beschleunigung könnte die Vorteile mehrerer Arbeitsknoten erhöhen
Abfrageleistungs-Schwellenwert: Nur bei ausreichend großen Datensätzen kann eine Erhöhung der Anzahl von Arbeitsknoten die Abfragelaufzeit effektiv reduzieren

Einschränkungen

Bewertung eines einzelnen Systems: Nur Qdrant wurde bewertet; Vergleiche zwischen Systemen fehlen
Bewertung von CPU-Einschränkungen: Hauptsächlich auf CPU-Indexaufbau konzentriert; GPU-Implementierungen wurden nicht gründlich bewertet
Unzureichende Variabilitätsanalyse: Laufzeitvariabilität und Reproduzierbarkeit wurden nicht berücksichtigt
Arbeitslasten-Einschränkungen: Hauptsächlich auf biologische Arbeitslasten basierend; möglicherweise nicht repräsentativ für andere wissenschaftliche Bereiche

Zukünftige Richtungen

Vergleichende Mehrystem-Forschung: Umfassende Bewertung mehrerer Systeme auf verschiedenen HPC-Plattformen
GPU-Beschleunigungsoptimierung: Tiefgehende Untersuchung der Leistung von GPU-beschleunigtem Indexaufbau und Abfragen
Adaptive Skalierung: Entwicklung von Systemen, die sich adaptiv basierend auf Datengröße und Arbeitslasten-Merkmalen skalieren können
Spezialisierung auf wissenschaftliche Arbeitslasten: Optimierung von Vektordatenbanken für spezifische Anforderungen verschiedener wissenschaftlicher Bereiche

Tiefgreifende Bewertung

Stärken

Bahnbrechende Forschung: Erste systematische Bewertung der Leistung von Vektordatenbanken in HPC-Umgebungen; füllt eine wichtige Forschungslücke
Echte Arbeitslasten: Verwendung echter biologischer Daten und wissenschaftlicher Literatur zur Konstruktion von Arbeitslasten mit praktischer Bedeutung
Umfassende Leistungsanalyse: Abdeckung der gesamten Arbeitsablauf-Leistungsbewertung von der Einbettungsgenerierung bis zur Abfrage
Praktischer Wert: Bereitstellung spezifischer Konfigurationsempfehlungen und Leistungsoptimierungsstrategien
Offene Daten: Veröffentlichung von Datensätzen fördert die Entwicklung des Bereichs

Schwächen

Begrenzte Systemabdeckung: Nur Qdrant wurde bewertet; horizontale Vergleiche fehlen
Unzureichende theoretische Analyse: Hauptsächlich auf experimentellen Beobachtungen basierend; tiefgehende theoretische Analyse fehlt
Skalierungsbegrenzungen: Maximale Testgröße von 32 Arbeitsknoten; möglicherweise unzureichend für große HPC-Systeme
Unzureichende GPU-Nutzung: Hauptsächlich auf CPU-Leistung konzentriert; GPU-Beschleunigungspotenzial nicht vollständig erforscht

Auswirkungen

Akademischer Beitrag: Legt den Grundstein für Forschung zu Vektordatenbanken in HPC-Umgebungen
Praktische Anleitung: Bietet wichtige Bereitstellungsreferenzen für HPC-Zentren und Benutzer wissenschaftlicher Berechnungen
Standardsetzung: Etabliert Benchmark-Methoden für die Leistungsbewertung von Vektordatenbanken in HPC-Umgebungen
Zukünftige Forschungsrichtungen: Identifiziert mehrere Richtungen für tiefgehende Forschung

Anwendungsszenarien

Großflächige wissenschaftliche Berechnungen: Geeignet für wissenschaftliche Forschungsprojekte, die Vektordatenbanken in HPC-Umgebungen bereitstellen müssen
Bioinformatik: Besonders geeignet für Genomik und biomedizinische Forschung mit Literaturrecherche und Wissensentdeckung
RAG-Systembereitstellung: Bietet Leistungsreferenzen für die Bereitstellung großflächiger RAG-Systeme in HPC-Umgebungen
Systemoptimierung: Bietet Anleitung für Vektordatenbankenhersteller zur Optimierung der Leistung in HPC-Umgebungen

Literaturverzeichnis

Diese Studie zitiert 52 relevante Literaturquellen, die hauptsächlich Folgendes abdecken:

Vektordatenbankensysteme und Algorithmen
Hochleistungsrechner-Plattformen und Architekturen
Einbettungsmodelle und RAG-Technologie
Verwandte Leistungsbewertungsforschung

Gesamtbewertung: Dies ist ein bahnbrechendes Forschungspapier, das erstmals systematisch die Leistungsmerkmale verteilter Vektordatenbanken in HPC-Umgebungen bewertet. Die Forschungsmethodik ist wissenschaftlich rigoros, das Experimentaldesign ist angemessen, und die Ergebnisse haben wichtigen praktischen Wert. Obwohl es einige Einschränkungen gibt, legt es einen wichtigen Grundstein für diesen aufstrebenden Forschungsbereich und hat wichtige Bedeutung für die Förderung der Anwendung von Vektordatenbanken in wissenschaftlichen Berechnungen.