Vector databases have rapidly grown in popularity, enabling efficient similarity search over data such as text, images, and video. They now play a central role in modern AI workflows, aiding large language models by grounding model outputs in external literature through retrieval-augmented generation. Despite their importance, little is known about the performance characteristics of vector databases in high-performance computing (HPC) systems that drive large-scale science. This work presents an empirical study of distributed vector database performance on the Polaris supercomputer in the Argonne Leadership Computing Facility. We construct a realistic biological-text workload from BV-BRC and generate embeddings from the peS2o corpus using Qwen3-Embedding-4B. We select Qdrant to evaluate insertion, index construction, and query latency with up to 32 workers. Informed by practical lessons from our experience, this work takes a first step toward characterizing vector database performance on HPC platforms to guide future research and optimization.
- ID Articolo: 2509.12384
- Titolo: Exploring Distributed Vector Databases Performance on HPC Platforms: A Study with Qdrant
- Autori: Seth Ockerman, Amal Gueroudji, Song Young Oh, Robert Underwood, Nicholas Chia, Kyle Chard, Robert Ross, Shivaram Venkataraman
- Classificazione: cs.DC cs.DB
- Data di Pubblicazione/Conferenza: SC'25 Workshop Frontiers in Generative AI for HPC Science and Engineering: Foundations, Challenges, and Opportunities
- Link Articolo: https://arxiv.org/abs/2509.12384
I database vettoriali svolgono un ruolo centrale nei moderni flussi di lavoro dell'IA, in particolare nei sistemi di generazione aumentata da recupero (RAG), migliorando le prestazioni del modello associando gli output dei modelli linguistici di grandi dimensioni a letteratura esterna. Nonostante l'importanza crescente dei database vettoriali nelle applicazioni di IA, le caratteristiche prestazionali nei sistemi di calcolo ad alte prestazioni (HPC) rimangono poco studiate. Questo studio conduce una ricerca empirica sul database vettoriale distribuito Qdrant sul supercomputer Polaris del Laboratorio Nazionale di Argonne, costruendo carichi di lavoro biologici realistici basati su BV-BRC, generando vettori di embedding utilizzando il modello Qwen3-Embedding-4B, e valutando le prestazioni di inserimento, costruzione di indici e query su un massimo di 32 nodi di lavoro.
- Problema Centrale: Le caratteristiche prestazionali dei database vettoriali negli ambienti HPC mancano di ricerca approfondita, con la ricerca esistente principalmente concentrata su ambienti single-GPU o su piccola scala
- Importanza: Il calcolo scientifico su larga scala viene sempre più eseguito su sistemi HPC, e i database vettoriali devono adattarsi alle caratteristiche uniche dell'ambiente HPC (interconnessioni dedicate, file system paralleli, gerarchie di memoria profonde, architetture hardware eterogenee)
- Limitazioni Esistenti:
- Mancanza di valutazione delle prestazioni dei database vettoriali specificamente per ambienti HPC
- La ricerca esistente si concentra principalmente su confronti di caratteristiche funzionali, mancando di valutazioni prestazionali empiriche
- Differenze significative tra carichi di lavoro scientifici e applicazioni commerciali
Con l'ampia applicazione dei sistemi di IA nella ricerca scientifica, in particolare la diffusione della tecnologia RAG, comprendere le prestazioni dei database vettoriali su architetture HPC è di importanza cruciale per la progettazione dei sistemi, l'ottimizzazione delle prestazioni e la ricerca futura.
- Prima Valutazione in Ambiente HPC: Valutazione delle prestazioni distribuite di Qdrant sul supercomputer Polaris, testando prestazioni di inserimento, costruzione di indici e query su un massimo di 32 nodi di lavoro (distribuiti su 8 nodi di calcolo)
- Carichi di Lavoro Scientifici Reali: Costruzione di carichi di lavoro realistici basati su dati biologici BV-BRC e corpus di testi scientifici peS2o
- Analisi delle Caratteristiche Prestazionali: Fornisce la prima analisi sistematica delle caratteristiche prestazionali dei database vettoriali su piattaforme HPC
- Dataset Aperto: Rilascio di dataset di embedding scientifici e carichi di lavoro di query per ricerche future
- Guida Pratica: Fornisce raccomandazioni pratiche basate su esperienze di distribuzione e direzioni di ricerca future
Questo studio costruisce un flusso di lavoro RAG biologico end-to-end, che include:
- Input: 22.723 termini correlati ai genomi in BV-BRC
- Elaborazione: Utilizzo di ogni termine per cercare dati correlati nel dataset peS2o (8 milioni di articoli a testo completo)
- Output: Risultati di recupero che forniscono informazioni di contesto per il sistema RAG
L'articolo confronta due principali architetture distribuite:
- Architettura Stateful (adottata da Qdrant):
- Ogni nodo di lavoro memorizza lo stato (indice o dati) ed è responsabile del calcolo
- I nodi di lavoro sia "possiedono" che sono responsabili di una parte del dataset
- Le query vengono trasmesse a tutti i nodi di lavoro, che eseguono la ricerca ANN e aggregano i risultati
- Architettura Stateless (separazione calcolo-archiviazione):
- I nodi di lavoro eseguono il calcolo ma non mantengono l'archiviazione persistente dei dati
- I dati sono memorizzati in un livello di archiviazione persistente indipendente
- I dati vengono caricati nel livello cache quando necessario
- Hardware: Supercomputer Polaris
- Per ogni nodo di calcolo: CPU AMD EPYC Milan 7543P a 32 core da 2,8 GHz
- Memoria: 512 GB RAM DDR4
- GPU: 4 GPU NVIDIA A100
- Interconnessione: HPE Slingshot 11, topologia Dragonfly
- Software: Database vettoriale Qdrant, utilizzo di indice HNSW
- Pipeline di Generazione di Embedding Adattiva:
- Strategia di batch processing basata su parametri utente
- Elaborazione parallela multi-processo, sfruttamento completo delle risorse GPU
- Meccanismo di downgrade automatico in caso di errori OOM
- Metodi di Ottimizzazione delle Prestazioni:
- Ottimizzazione sistematica della dimensione del batch e del numero di richieste concorrenti
- Implementazione client asincrona per ottimizzare l'inserimento dei dati
- Strategia di allocazione multi-processo per ottimizzare la comunicazione client-server
- Dati Biologici BV-BRC: 22.723 termini correlati ai genomi
- Corpus di Testi Scientifici peS2o: 8.293.485 articoli accademici a testo completo
- Modello di Embedding: Qwen3-Embedding-4B (adatto a una singola GPU da 40GB)
- Tempo di Generazione di Embedding: Caricamento del modello, I/O, tempo di inferenza
- Tempo di Inserimento dei Dati: Prestazioni di inserimento con diverse dimensioni di batch e gradi di concorrenza
- Tempo di Costruzione dell'Indice: Scalabilità della costruzione dell'indice HNSW
- Latenza di Query: Prestazioni di query con diverse dimensioni di dataset e numeri di nodi di lavoro
- Numero di Nodi di Lavoro: 1, 4, 8, 16, 32
- Distribuzione dei Dati: Ogni nodo di lavoro è responsabile di circa 80GB/#Workers di dati
- Configurazione Client: Un client allocato per ogni nodo di lavoro Qdrant, con tutti i client in esecuzione su un singolo nodo di calcolo
- Strategia di Distribuzione: 4 nodi di lavoro Qdrant per macchina
| Fase | Tempo Medio (secondi) | Percentuale |
|---|
| Caricamento del Modello | 28,17 | 1,2% |
| I/O | 7,49 | 0,3% |
| Inferenza | 2381,97 | 98,5% |
Scoperte Chiave: L'inferenza del modello domina il tempo di esecuzione complessivo, l'euristica di batch processing ha prevenuto con successo errori di memoria, con meno dello 0,10% dei documenti che richiedono elaborazione sequenziale.
- Dimensione Batch Ottimale: 32 (ottimizzazione da 468s a 381s)
- Numero Ottimale di Richieste Concorrenti: 2 (ulteriore ottimizzazione a 367s)
- Prestazioni di Scalabilità:
| Numero di Nodi di Lavoro | 1 | 4 | 8 | 16 | 32 |
|---|
| Tempo di Inserimento | 8,22h | 2,11h | 1,14h | 35,92m | 21,67m |
Scoperte Chiave:
- La trasformazione del batch vincolata dalla CPU limita l'effetto di concorrenza di asyncio
- Il multi-processing è più adatto di asyncio per l'inserimento parallelo di dati a singolo client
- La velocità di inserimento dei dati potrebbe diventare un collo di bottiglia per carichi di lavoro HPC su larga scala
- Accelerazione Massima: 21,32× su 32 nodi di lavoro rispetto a un singolo nodo
- Limitazioni di Scalabilità: Solo 1,27× di accelerazione da 1 a 4 nodi di lavoro
- Utilizzo delle Risorse: Un singolo nodo di lavoro utilizza già il 90-97% della capacità CPU
Scoperte Chiave: La distribuzione di più nodi di lavoro Qdrant per macchina è non necessaria per la costruzione dell'indice vincolata dalla CPU, l'accelerazione GPU potrebbe essere più efficace.
- Dimensione Batch di Query Ottimale: 16 (ottimizzazione da 139s a 73s)
- Numero Ottimale di Richieste di Batch Concorrenti: 2
- Soglia di Dimensione del Dataset: Solo quando il dataset raggiunge almeno 30GB, l'aumento del numero di nodi di lavoro inizia a mostrare benefici
- Accelerazione Massima: 3,57× (su dataset sufficientemente grandi)
- Overhead di Comunicazione: Oltre 4 nodi di lavoro, l'ulteriore aumento della dimensione del cluster porta solo miglioramenti marginali
Scoperte Chiave: L'overhead di comunicazione nel modello di esecuzione delle query supera i benefici della parallelizzazione su dataset piccoli, il cluster dovrebbe essere in grado di scalare adattivamente in base alla dimensione dei dati.
| Sistema | Lettura/Scrittura Parallela | Separazione Calcolo-Archiviazione | Bilanciamento del Carico | Scalabilità Automatica | Indice GPU | ANN GPU |
|---|
| Vespa | ✓ | ✓ | ✓ | ✓ | ✗ | ✗ |
| Vald | ✓ | ✗ | ✓ | ✓ | ✓ | ✓ |
| Weaviate | ✓ | ✗ | ✓ | ✓ | ✓ | ✓ |
| Qdrant | ✓ | ✗ | ✓ | ✓ | ✓ | ✗ |
| Milvus | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
- I sondaggi esistenti si concentrano principalmente su confronti di caratteristiche funzionali, mancando di valutazioni prestazionali empiriche
- Shen et al. hanno valutato vari tipi di indici in RAG single-GPU, ma non hanno affrontato sistemi distribuiti o ambienti HPC
- Mancanza di ricerca sulle prestazioni dei database vettoriali in ambienti HPC
- Punto Focale dell'Ottimizzazione della Generazione di Embedding: Per dataset che si adattano alla memoria dei nodi di calcolo HPC, dovrebbe essere data priorità al miglioramento dell'efficienza dell'inferenza del modello rispetto a I/O o caricamento del modello
- Collo di Bottiglia dell'Inserimento dei Dati: L'approccio asincrono di Qdrant è limitato da compiti vincolati dalla CPU nell'upload dei dati, il multi-processing potrebbe essere più adatto per il parallelismo single-client
- Utilizzo delle Risorse nella Costruzione dell'Indice: Un singolo nodo di lavoro può già saturare la CPU, l'accelerazione GPU potrebbe aumentare i benefici di più nodi di lavoro
- Soglia di Prestazioni di Query: Solo su dataset sufficientemente grandi, l'aumento del numero di nodi di lavoro può ridurre efficacemente il tempo di esecuzione delle query
- Valutazione di un Singolo Sistema: Solo Qdrant è stato valutato, mancano confronti tra sistemi
- Valutazione Limitata della CPU: Principalmente focalizzato sulla costruzione dell'indice CPU, valutazione insufficiente delle implementazioni GPU
- Analisi di Variabilità Insufficiente: Mancanza di attenzione alla variabilità di runtime e riproducibilità
- Limitazioni del Carico di Lavoro: Principalmente basato su carichi di lavoro biologici, potrebbe non rappresentare altri campi scientifici
- Ricerca Comparativa Multi-Sistema: Valutazione comparativa completa di più sistemi su diverse piattaforme HPC
- Ottimizzazione dell'Accelerazione GPU: Ricerca approfondita sulle prestazioni dell'accelerazione GPU nella costruzione dell'indice e nell'esecuzione delle query
- Scalabilità Adattiva: Sviluppo di sistemi che possono scalare adattivamente in base alle dimensioni dei dati e alle caratteristiche del carico di lavoro
- Specializzazione per Carichi di Lavoro Scientifici: Ottimizzazione dei database vettoriali per esigenze specifiche di diversi campi scientifici
- Ricerca Pionerisitca: Prima valutazione sistematica delle prestazioni dei database vettoriali in ambienti HPC, colmando un importante vuoto di ricerca
- Carichi di Lavoro Reali: Utilizzo di dati biologici reali e letteratura scientifica per costruire carichi di lavoro con significato pratico
- Analisi Prestazionale Completa: Copertura della valutazione prestazionale dell'intero flusso di lavoro dalla generazione di embedding alle query
- Valore Pratico: Fornisce raccomandazioni di configurazione specifiche e strategie di ottimizzazione delle prestazioni
- Dati Aperti: Il rilascio di dataset promuove lo sviluppo del campo
- Copertura di Sistemi Limitata: Solo Qdrant è stato valutato, mancano confronti trasversali
- Analisi Teorica Insufficiente: Principalmente basato su osservazioni sperimentali, mancanza di analisi teorica approfondita
- Limitazioni di Scalabilità: La scala massima testata è di 32 nodi di lavoro, potrebbe essere insufficiente per sistemi HPC di grandi dimensioni
- Utilizzo Insufficiente della GPU: Principalmente focalizzato sulle prestazioni della CPU, esplorazione insufficiente del potenziale di accelerazione GPU
- Contributo Accademico: Pone le basi per la ricerca sui database vettoriali in ambienti HPC
- Guida Pratica: Fornisce importanti riferimenti di distribuzione per centri HPC e utenti di calcolo scientifico
- Stabilimento di Standard: Stabilisce metodi di benchmark per la valutazione delle prestazioni dei database vettoriali in ambienti HPC
- Direzioni di Ricerca Future: Identifica chiaramente più direzioni degne di ricerca approfondita
- Calcolo Scientifico su Larga Scala: Applicabile a progetti di ricerca scientifica che richiedono la distribuzione di database vettoriali in ambienti HPC
- Bioinformatica: Particolarmente applicabile alla ricerca di genomica e biomedicina nel recupero di letteratura e scoperta di conoscenze
- Distribuzione di Sistemi RAG: Fornisce riferimenti prestazionali per la distribuzione di sistemi RAG su larga scala in ambienti HPC
- Ottimizzazione dei Sistemi: Fornisce guida ai produttori di database vettoriali per ottimizzare le prestazioni in ambienti HPC
Questo studio cita 52 articoli correlati, principalmente coprendo:
- Sistemi e algoritmi di database vettoriali
- Piattaforme e architetture di calcolo ad alte prestazioni
- Modelli di embedding e tecnologia RAG
- Ricerca di valutazione delle prestazioni correlata
Valutazione Complessiva: Questo è un articolo di ricerca di significato pioneristico che valuta sistematicamente per la prima volta le caratteristiche prestazionali dei database vettoriali distribuiti in ambienti HPC. La metodologia di ricerca è scientificamente rigorosa, la progettazione sperimentale è ragionevole e i risultati hanno importante valore pratico. Nonostante alcune limitazioni, pone le basi importanti per questo nuovo campo di ricerca emergente e ha significato importante nel promuovere l'applicazione dei database vettoriali nel calcolo scientifico.