Vector databases have rapidly grown in popularity, enabling efficient similarity search over data such as text, images, and video. They now play a central role in modern AI workflows, aiding large language models by grounding model outputs in external literature through retrieval-augmented generation. Despite their importance, little is known about the performance characteristics of vector databases in high-performance computing (HPC) systems that drive large-scale science. This work presents an empirical study of distributed vector database performance on the Polaris supercomputer in the Argonne Leadership Computing Facility. We construct a realistic biological-text workload from BV-BRC and generate embeddings from the peS2o corpus using Qwen3-Embedding-4B. We select Qdrant to evaluate insertion, index construction, and query latency with up to 32 workers. Informed by practical lessons from our experience, this work takes a first step toward characterizing vector database performance on HPC platforms to guide future research and optimization.
- Papier-ID: 2509.12384
- Titel: Exploring Distributed Vector Databases Performance on HPC Platforms: A Study with Qdrant
- Autoren: Seth Ockerman, Amal Gueroudji, Song Young Oh, Robert Underwood, Nicholas Chia, Kyle Chard, Robert Ross, Shivaram Venkataraman
- Klassifizierung: cs.DC cs.DB
- Veröffentlichungszeit/Konferenz: SC'25 Workshop Frontiers in Generative AI for HPC Science and Engineering: Foundations, Challenges, and Opportunities
- Papierlink: https://arxiv.org/abs/2509.12384
Vektordatenbanken spielen eine zentrale Rolle in modernen KI-Workflows, insbesondere in Retrieval-Augmented-Generation-(RAG-)Systemen, die die Leistung großer Sprachmodelle durch die Verknüpfung ihrer Ausgaben mit externen Literaturquellen verbessern. Obwohl Vektordatenbanken in KI-Anwendungen zunehmend an Bedeutung gewinnen, ist wenig über ihre Leistungsmerkmale in Hochleistungsrechensystemen (HPC) bekannt. Diese Studie führt eine empirische Untersuchung der verteilten Vektordatenbank Qdrant auf dem Polaris-Supercomputer des Argonne National Laboratory durch, konstruiert echte biologische Textarbeitslasten basierend auf BV-BRC, generiert Einbettungsvektoren mit dem Qwen3-Embedding-4B-Modell und bewertet die Einfügungs-, Indexaufbau- und Abfrageleistung bei bis zu 32 Arbeitsknoten.
- Kernproblem: Leistungsmerkmale von Vektordatenbanken in HPC-Umgebungen sind unzureichend erforscht; bestehende Forschungen konzentrieren sich hauptsächlich auf Single-GPU- oder kleinere Umgebungen
- Bedeutung: Großflächige wissenschaftliche Berechnungen werden zunehmend auf HPC-Systemen ausgeführt; Vektordatenbanken müssen sich an die einzigartigen Merkmale von HPC-Umgebungen anpassen (dedizierte Verbindungen, parallele Dateisysteme, tiefe Speicherhierarchien, heterogene Hardwarearchitekturen)
- Bestehende Einschränkungen:
- Mangel an Leistungsbewertungen von Vektordatenbanken für HPC-Umgebungen
- Bestehende Forschungen konzentrieren sich hauptsächlich auf funktionale Eigenschaftsvergleiche, nicht auf empirische Leistungsbewertungen
- Erhebliche Unterschiede zwischen wissenschaftlichen Arbeitslasten und kommerziellen Anwendungen
Mit der weit verbreiteten Anwendung von KI-Systemen in der wissenschaftlichen Forschung, insbesondere der Verbreitung von RAG-Technologie, ist das Verständnis der Leistung von Vektordatenbanken auf HPC-Architekturen von großer Bedeutung für Systemdesign, Leistungsoptimierung und zukünftige Forschung.
- Erste HPC-Umgebungsbewertung: Bewertung der verteilten Leistung von Qdrant auf dem Polaris-Supercomputer mit Tests von Einfügungs-, Indexaufbau- und Abfrageleistung bei bis zu 32 Arbeitsknoten (über 8 Rechenknoten)
- Echte wissenschaftliche Arbeitslasten: Konstruktion echter Arbeitslasten basierend auf BV-BRC-Biodaten und dem peS2o-Wissenschaftstextkorpus
- Leistungsmerkmalsanalyse: Erste systematische Analyse von Leistungsmerkmalen von Vektordatenbanken auf HPC-Plattformen
- Offene Datensätze: Veröffentlichung von wissenschaftlichen Einbettungsdatensätzen und Abfrageworkloads für zukünftige Forschung
- Praktische Anleitung: Bereitstellung praktischer Empfehlungen und zukünftiger Forschungsrichtungen basierend auf Bereitstellungserfahrungen
Diese Studie konstruiert einen End-to-End-Biologie-RAG-Workflow, der Folgendes umfasst:
- Eingabe: 22.723 genomische Fachbegriffe aus BV-BRC
- Verarbeitung: Suche nach relevanten Daten für jeden Begriff im peS2o-Datensatz (8 Millionen vollständige Texte von Fachzeitschriften)
- Ausgabe: Abfrageergebnisse, die Kontextinformationen für RAG-Systeme bereitstellen
Das Papier vergleicht zwei Hauptarchitekturen für verteilte Systeme:
- Zustandsbehaftete Architektur (von Qdrant verwendet):
- Jeder Arbeitsknoten speichert Zustand (Index oder Daten) und führt Berechnungen durch
- Arbeitsknoten „besitzen" und verwalten einen Teil des Datensatzes
- Abfragen werden an alle Arbeitsknoten übertragen; jeder Knoten führt ANN-Suche durch und aggregiert Ergebnisse
- Zustandslose Architektur (Trennung von Berechnung und Speicherung):
- Arbeitsknoten führen Berechnungen durch, speichern Daten aber nicht dauerhaft
- Daten werden in einer unabhängigen persistenten Speicherschicht gespeichert
- Daten werden bei Bedarf in die Cacheschicht geladen
- Hardware: Polaris-Supercomputer
- Jeder Rechenknoten: 2,8 GHz AMD EPYC Milan 7543P 32-Kern-CPU
- Speicher: 512 GB DDR4 RAM
- GPU: 4 NVIDIA A100 GPUs
- Verbindung: HPE Slingshot 11, Dragonfly-Topologie
- Software: Qdrant-Vektordatenbank mit HNSW-Index
- Adaptive Einbettungsgenerierungs-Pipeline:
- Batch-Strategie basierend auf Benutzerparametern
- Parallele Mehrprozess-Verarbeitung zur vollständigen GPU-Ressourcennutzung
- Automatischer Fallback-Mechanismus bei OOM-Fehlern
- Leistungsoptimierungsmethoden:
- Systematische Optimierung von Batch-Größe und Anzahl gleichzeitiger Anfragen
- Asynchrone Client-Implementierung zur Optimierung der Dateneinfügung
- Mehrprozess-Zuweisungsstrategie zur Optimierung der Client-Server-Kommunikation
- BV-BRC-Biodaten: 22.723 genomische Fachbegriffe
- peS2o-Wissenschaftstextkorpus: 8.293.485 vollständige akademische Fachzeitschriften
- Einbettungsmodell: Qwen3-Embedding-4B (geeignet für einzelne 40GB GPU)
- Einbettungsgenerierungszeit: Modellladung, I/O, Inferenzzeit
- Dateneinfügungszeit: Einfügungsleistung bei verschiedenen Batch-Größen und Parallelitätsgraden
- Indexaufbauzeit: Skalierbarkeit des HNSW-Indexaufbaus
- Abfrageverzögerung: Abfrageleistung bei verschiedenen Datensatzgrößen und Anzahl von Arbeitsknoten
- Anzahl der Arbeitsknoten: 1, 4, 8, 16, 32
- Datenverteilung: Jeder Arbeitsknoten verwaltet etwa 80GB/#Workers Daten
- Client-Konfiguration: Ein Client pro Qdrant-Arbeitsknoten; alle Clients laufen auf einem einzelnen Rechenknoten
- Bereitstellungsstrategie: 4 Qdrant-Arbeitsknoten pro Maschine
| Phase | Durchschnittliche Zeit (Sekunden) | Anteil |
|---|
| Modellladung | 28,17 | 1,2% |
| I/O | 7,49 | 0,3% |
| Inferenz | 2381,97 | 98,5% |
Wichtigste Erkenntnisse: Modellschlussfolgerung dominiert die Gesamtlaufzeit; Batch-Processing-Heuristiken verhindern erfolgreich Speicherfehler; weniger als 0,10% der Fachzeitschriften erfordern sequenzielle Verarbeitung.
- Optimale Batch-Größe: 32 (Optimierung von 468s auf 381s)
- Optimale Anzahl gleichzeitiger Anfragen: 2 (weitere Optimierung auf 367s)
- Skalierungsleistung:
| Anzahl der Arbeitsknoten | 1 | 4 | 8 | 16 | 32 |
|---|
| Einfügungszeit | 8,22h | 2,11h | 1,14h | 35,92m | 21,67m |
Wichtigste Erkenntnisse:
- CPU-gebundene Batch-Verarbeitung begrenzt die Parallelitätseffekte von asyncio
- Mehrprozess-Verarbeitung ist besser geeignet als asyncio für parallele Dateneinfügung mit einzelnem Client
- Dateneinfügungsrate könnte ein Engpass für großflächige HPC-Arbeitslasten darstellen
- Maximale Beschleunigung: 21,32× für 32 Arbeitsknoten im Vergleich zu einem einzelnen Knoten
- Skalierungsbegrenzungen: Nur 1,27× Beschleunigung von 1 zu 4 Arbeitsknoten
- Ressourcennutzung: Einzelne Arbeitsknoten nutzen bereits 90-97% der CPU-Kapazität
Wichtigste Erkenntnisse: Die Bereitstellung mehrerer Qdrant-Arbeitsknoten pro Knoten ist für CPU-gesättigte Indexaufbau unnötig; GPU-Beschleunigung könnte effektiver sein.
- Optimale Abfrage-Batch-Größe: 16 (Optimierung von 139s auf 73s)
- Optimale Anzahl gleichzeitiger Batch-Anfragen: 2
- Datensatzgrößen-Schwellenwert: Nur wenn der Datensatz mindestens 30GB erreicht, zeigt eine Erhöhung der Anzahl von Arbeitsknoten Vorteile
- Maximale Beschleunigung: 3,57× (bei ausreichend großem Datensatz)
- Kommunikationsaufwand: Über 4 Arbeitsknoten hinaus bringt eine weitere Erhöhung der Clustergröße nur marginale Verbesserungen
Wichtigste Erkenntnisse: Kommunikationsaufwand im Abfrageausführungsmodell überwiegt Parallelisierungsvorteile bei kleinen Datensätzen; Cluster sollten sich adaptiv basierend auf Datengröße skalieren können.
| System | Paralleles Lesen/Schreiben | Trennung von Berechnung und Speicherung | Lastverteilung | Automatische Skalierung | GPU-Index | GPU ANN |
|---|
| Vespa | ✓ | ✓ | ✓ | ✓ | ✗ | ✗ |
| Vald | ✓ | ✗ | ✓ | ✓ | ✓ | ✓ |
| Weaviate | ✓ | ✗ | ✓ | ✓ | ✓ | ✓ |
| Qdrant | ✓ | ✗ | ✓ | ✓ | ✓ | ✗ |
| Milvus | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
- Bestehende Umfragen konzentrieren sich hauptsächlich auf funktionale Eigenschaftsvergleiche, nicht auf empirische Leistungsbewertungen
- Shen et al. bewerteten verschiedene Indextypen in Single-GPU-RAG, befassten sich aber nicht mit verteilten Systemen oder HPC-Umgebungen
- Mangel an Forschungen zur Leistung von Vektordatenbanken in HPC-Umgebungen
- Optimierungsschwerpunkt der Einbettungsgenerierung: Für Datensätze, die in den Speicher von HPC-Rechenknoten passen, sollte die Verbesserung der Modellschlussfolgerungseffizienz Vorrang vor I/O oder Modellladung haben
- Dateneinfügungsengpass: Qdrants asynchrone Methode wird durch CPU-gebundene Aufgaben bei der Datenübertragung begrenzt; Mehrprozess-Verarbeitung könnte für parallele Einfügung mit einzelnem Client besser geeignet sein
- Ressourcennutzung beim Indexaufbau: Ein einzelner Arbeitsknoten kann die CPU bereits sättigen; GPU-Beschleunigung könnte die Vorteile mehrerer Arbeitsknoten erhöhen
- Abfrageleistungs-Schwellenwert: Nur bei ausreichend großen Datensätzen kann eine Erhöhung der Anzahl von Arbeitsknoten die Abfragelaufzeit effektiv reduzieren
- Bewertung eines einzelnen Systems: Nur Qdrant wurde bewertet; Vergleiche zwischen Systemen fehlen
- Bewertung von CPU-Einschränkungen: Hauptsächlich auf CPU-Indexaufbau konzentriert; GPU-Implementierungen wurden nicht gründlich bewertet
- Unzureichende Variabilitätsanalyse: Laufzeitvariabilität und Reproduzierbarkeit wurden nicht berücksichtigt
- Arbeitslasten-Einschränkungen: Hauptsächlich auf biologische Arbeitslasten basierend; möglicherweise nicht repräsentativ für andere wissenschaftliche Bereiche
- Vergleichende Mehrystem-Forschung: Umfassende Bewertung mehrerer Systeme auf verschiedenen HPC-Plattformen
- GPU-Beschleunigungsoptimierung: Tiefgehende Untersuchung der Leistung von GPU-beschleunigtem Indexaufbau und Abfragen
- Adaptive Skalierung: Entwicklung von Systemen, die sich adaptiv basierend auf Datengröße und Arbeitslasten-Merkmalen skalieren können
- Spezialisierung auf wissenschaftliche Arbeitslasten: Optimierung von Vektordatenbanken für spezifische Anforderungen verschiedener wissenschaftlicher Bereiche
- Bahnbrechende Forschung: Erste systematische Bewertung der Leistung von Vektordatenbanken in HPC-Umgebungen; füllt eine wichtige Forschungslücke
- Echte Arbeitslasten: Verwendung echter biologischer Daten und wissenschaftlicher Literatur zur Konstruktion von Arbeitslasten mit praktischer Bedeutung
- Umfassende Leistungsanalyse: Abdeckung der gesamten Arbeitsablauf-Leistungsbewertung von der Einbettungsgenerierung bis zur Abfrage
- Praktischer Wert: Bereitstellung spezifischer Konfigurationsempfehlungen und Leistungsoptimierungsstrategien
- Offene Daten: Veröffentlichung von Datensätzen fördert die Entwicklung des Bereichs
- Begrenzte Systemabdeckung: Nur Qdrant wurde bewertet; horizontale Vergleiche fehlen
- Unzureichende theoretische Analyse: Hauptsächlich auf experimentellen Beobachtungen basierend; tiefgehende theoretische Analyse fehlt
- Skalierungsbegrenzungen: Maximale Testgröße von 32 Arbeitsknoten; möglicherweise unzureichend für große HPC-Systeme
- Unzureichende GPU-Nutzung: Hauptsächlich auf CPU-Leistung konzentriert; GPU-Beschleunigungspotenzial nicht vollständig erforscht
- Akademischer Beitrag: Legt den Grundstein für Forschung zu Vektordatenbanken in HPC-Umgebungen
- Praktische Anleitung: Bietet wichtige Bereitstellungsreferenzen für HPC-Zentren und Benutzer wissenschaftlicher Berechnungen
- Standardsetzung: Etabliert Benchmark-Methoden für die Leistungsbewertung von Vektordatenbanken in HPC-Umgebungen
- Zukünftige Forschungsrichtungen: Identifiziert mehrere Richtungen für tiefgehende Forschung
- Großflächige wissenschaftliche Berechnungen: Geeignet für wissenschaftliche Forschungsprojekte, die Vektordatenbanken in HPC-Umgebungen bereitstellen müssen
- Bioinformatik: Besonders geeignet für Genomik und biomedizinische Forschung mit Literaturrecherche und Wissensentdeckung
- RAG-Systembereitstellung: Bietet Leistungsreferenzen für die Bereitstellung großflächiger RAG-Systeme in HPC-Umgebungen
- Systemoptimierung: Bietet Anleitung für Vektordatenbankenhersteller zur Optimierung der Leistung in HPC-Umgebungen
Diese Studie zitiert 52 relevante Literaturquellen, die hauptsächlich Folgendes abdecken:
- Vektordatenbankensysteme und Algorithmen
- Hochleistungsrechner-Plattformen und Architekturen
- Einbettungsmodelle und RAG-Technologie
- Verwandte Leistungsbewertungsforschung
Gesamtbewertung: Dies ist ein bahnbrechendes Forschungspapier, das erstmals systematisch die Leistungsmerkmale verteilter Vektordatenbanken in HPC-Umgebungen bewertet. Die Forschungsmethodik ist wissenschaftlich rigoros, das Experimentaldesign ist angemessen, und die Ergebnisse haben wichtigen praktischen Wert. Obwohl es einige Einschränkungen gibt, legt es einen wichtigen Grundstein für diesen aufstrebenden Forschungsbereich und hat wichtige Bedeutung für die Förderung der Anwendung von Vektordatenbanken in wissenschaftlichen Berechnungen.