2025-11-13T13:37:11.114102

Exploring Distributed Vector Databases Performance on HPC Platforms: A Study with Qdrant

Ockerman, Gueroudji, Oh et al.

Vector databases have rapidly grown in popularity, enabling efficient similarity search over data such as text, images, and video. They now play a central role in modern AI workflows, aiding large language models by grounding model outputs in external literature through retrieval-augmented generation. Despite their importance, little is known about the performance characteristics of vector databases in high-performance computing (HPC) systems that drive large-scale science. This work presents an empirical study of distributed vector database performance on the Polaris supercomputer in the Argonne Leadership Computing Facility. We construct a realistic biological-text workload from BV-BRC and generate embeddings from the peS2o corpus using Qwen3-Embedding-4B. We select Qdrant to evaluate insertion, index construction, and query latency with up to 32 workers. Informed by practical lessons from our experience, this work takes a first step toward characterizing vector database performance on HPC platforms to guide future research and optimization.

academic

Esplorare le Prestazioni dei Database Vettoriali Distribuiti su Piattaforme HPC: Uno Studio con Qdrant

Informazioni Fondamentali

ID Articolo: 2509.12384
Titolo: Exploring Distributed Vector Databases Performance on HPC Platforms: A Study with Qdrant
Autori: Seth Ockerman, Amal Gueroudji, Song Young Oh, Robert Underwood, Nicholas Chia, Kyle Chard, Robert Ross, Shivaram Venkataraman
Classificazione: cs.DC cs.DB
Data di Pubblicazione/Conferenza: SC'25 Workshop Frontiers in Generative AI for HPC Science and Engineering: Foundations, Challenges, and Opportunities
Link Articolo: https://arxiv.org/abs/2509.12384

Riassunto

I database vettoriali svolgono un ruolo centrale nei moderni flussi di lavoro dell'IA, in particolare nei sistemi di generazione aumentata da recupero (RAG), migliorando le prestazioni del modello associando gli output dei modelli linguistici di grandi dimensioni a letteratura esterna. Nonostante l'importanza crescente dei database vettoriali nelle applicazioni di IA, le caratteristiche prestazionali nei sistemi di calcolo ad alte prestazioni (HPC) rimangono poco studiate. Questo studio conduce una ricerca empirica sul database vettoriale distribuito Qdrant sul supercomputer Polaris del Laboratorio Nazionale di Argonne, costruendo carichi di lavoro biologici realistici basati su BV-BRC, generando vettori di embedding utilizzando il modello Qwen3-Embedding-4B, e valutando le prestazioni di inserimento, costruzione di indici e query su un massimo di 32 nodi di lavoro.

Contesto e Motivazione della Ricerca

Definizione del Problema

Problema Centrale: Le caratteristiche prestazionali dei database vettoriali negli ambienti HPC mancano di ricerca approfondita, con la ricerca esistente principalmente concentrata su ambienti single-GPU o su piccola scala
Importanza: Il calcolo scientifico su larga scala viene sempre più eseguito su sistemi HPC, e i database vettoriali devono adattarsi alle caratteristiche uniche dell'ambiente HPC (interconnessioni dedicate, file system paralleli, gerarchie di memoria profonde, architetture hardware eterogenee)
Limitazioni Esistenti:
- Mancanza di valutazione delle prestazioni dei database vettoriali specificamente per ambienti HPC
- La ricerca esistente si concentra principalmente su confronti di caratteristiche funzionali, mancando di valutazioni prestazionali empiriche
- Differenze significative tra carichi di lavoro scientifici e applicazioni commerciali

Motivazione della Ricerca

Con l'ampia applicazione dei sistemi di IA nella ricerca scientifica, in particolare la diffusione della tecnologia RAG, comprendere le prestazioni dei database vettoriali su architetture HPC è di importanza cruciale per la progettazione dei sistemi, l'ottimizzazione delle prestazioni e la ricerca futura.

Contributi Fondamentali

Prima Valutazione in Ambiente HPC: Valutazione delle prestazioni distribuite di Qdrant sul supercomputer Polaris, testando prestazioni di inserimento, costruzione di indici e query su un massimo di 32 nodi di lavoro (distribuiti su 8 nodi di calcolo)
Carichi di Lavoro Scientifici Reali: Costruzione di carichi di lavoro realistici basati su dati biologici BV-BRC e corpus di testi scientifici peS2o
Analisi delle Caratteristiche Prestazionali: Fornisce la prima analisi sistematica delle caratteristiche prestazionali dei database vettoriali su piattaforme HPC
Dataset Aperto: Rilascio di dataset di embedding scientifici e carichi di lavoro di query per ricerche future
Guida Pratica: Fornisce raccomandazioni pratiche basate su esperienze di distribuzione e direzioni di ricerca future

Dettagli Metodologici

Definizione del Compito

Questo studio costruisce un flusso di lavoro RAG biologico end-to-end, che include:

Input: 22.723 termini correlati ai genomi in BV-BRC
Elaborazione: Utilizzo di ogni termine per cercare dati correlati nel dataset peS2o (8 milioni di articoli a testo completo)
Output: Risultati di recupero che forniscono informazioni di contesto per il sistema RAG

Architettura del Sistema

Architettura del Database Vettoriale Distribuito

L'articolo confronta due principali architetture distribuite:

Architettura Stateful (adottata da Qdrant):
- Ogni nodo di lavoro memorizza lo stato (indice o dati) ed è responsabile del calcolo
- I nodi di lavoro sia "possiedono" che sono responsabili di una parte del dataset
- Le query vengono trasmesse a tutti i nodi di lavoro, che eseguono la ricerca ANN e aggregano i risultati
Architettura Stateless (separazione calcolo-archiviazione):
- I nodi di lavoro eseguono il calcolo ma non mantengono l'archiviazione persistente dei dati
- I dati sono memorizzati in un livello di archiviazione persistente indipendente
- I dati vengono caricati nel livello cache quando necessario

Configurazione della Piattaforma Sperimentale

Hardware: Supercomputer Polaris
- Per ogni nodo di calcolo: CPU AMD EPYC Milan 7543P a 32 core da 2,8 GHz
- Memoria: 512 GB RAM DDR4
- GPU: 4 GPU NVIDIA A100
- Interconnessione: HPE Slingshot 11, topologia Dragonfly
Software: Database vettoriale Qdrant, utilizzo di indice HNSW

Punti di Innovazione Tecnica

Pipeline di Generazione di Embedding Adattiva:
- Strategia di batch processing basata su parametri utente
- Elaborazione parallela multi-processo, sfruttamento completo delle risorse GPU
- Meccanismo di downgrade automatico in caso di errori OOM
Metodi di Ottimizzazione delle Prestazioni:
- Ottimizzazione sistematica della dimensione del batch e del numero di richieste concorrenti
- Implementazione client asincrona per ottimizzare l'inserimento dei dati
- Strategia di allocazione multi-processo per ottimizzare la comunicazione client-server

Configurazione Sperimentale

Dataset

Dati Biologici BV-BRC: 22.723 termini correlati ai genomi
Corpus di Testi Scientifici peS2o: 8.293.485 articoli accademici a testo completo
Modello di Embedding: Qwen3-Embedding-4B (adatto a una singola GPU da 40GB)

Metriche di Valutazione

Tempo di Generazione di Embedding: Caricamento del modello, I/O, tempo di inferenza
Tempo di Inserimento dei Dati: Prestazioni di inserimento con diverse dimensioni di batch e gradi di concorrenza
Tempo di Costruzione dell'Indice: Scalabilità della costruzione dell'indice HNSW
Latenza di Query: Prestazioni di query con diverse dimensioni di dataset e numeri di nodi di lavoro

Configurazione Sperimentale

Numero di Nodi di Lavoro: 1, 4, 8, 16, 32
Distribuzione dei Dati: Ogni nodo di lavoro è responsabile di circa 80GB/#Workers di dati
Configurazione Client: Un client allocato per ogni nodo di lavoro Qdrant, con tutti i client in esecuzione su un singolo nodo di calcolo
Strategia di Distribuzione: 4 nodi di lavoro Qdrant per macchina

Risultati Sperimentali

Prestazioni di Generazione di Embedding

Fase	Tempo Medio (secondi)	Percentuale
Caricamento del Modello	28,17	1,2%
I/O	7,49	0,3%
Inferenza	2381,97	98,5%

Scoperte Chiave: L'inferenza del modello domina il tempo di esecuzione complessivo, l'euristica di batch processing ha prevenuto con successo errori di memoria, con meno dello 0,10% dei documenti che richiedono elaborazione sequenziale.

Prestazioni di Inserimento dei Dati

Risultati dell'Ottimizzazione dei Parametri

Dimensione Batch Ottimale: 32 (ottimizzazione da 468s a 381s)
Numero Ottimale di Richieste Concorrenti: 2 (ulteriore ottimizzazione a 367s)
Prestazioni di Scalabilità:

Numero di Nodi di Lavoro	1	4	8	16	32
Tempo di Inserimento	8,22h	2,11h	1,14h	35,92m	21,67m

Scoperte Chiave:

La trasformazione del batch vincolata dalla CPU limita l'effetto di concorrenza di asyncio
Il multi-processing è più adatto di asyncio per l'inserimento parallelo di dati a singolo client
La velocità di inserimento dei dati potrebbe diventare un collo di bottiglia per carichi di lavoro HPC su larga scala

Prestazioni di Costruzione dell'Indice

Accelerazione Massima: 21,32× su 32 nodi di lavoro rispetto a un singolo nodo
Limitazioni di Scalabilità: Solo 1,27× di accelerazione da 1 a 4 nodi di lavoro
Utilizzo delle Risorse: Un singolo nodo di lavoro utilizza già il 90-97% della capacità CPU

Scoperte Chiave: La distribuzione di più nodi di lavoro Qdrant per macchina è non necessaria per la costruzione dell'indice vincolata dalla CPU, l'accelerazione GPU potrebbe essere più efficace.

Prestazioni di Query

Ottimizzazione dei Parametri

Dimensione Batch di Query Ottimale: 16 (ottimizzazione da 139s a 73s)
Numero Ottimale di Richieste di Batch Concorrenti: 2

Analisi di Scalabilità

Soglia di Dimensione del Dataset: Solo quando il dataset raggiunge almeno 30GB, l'aumento del numero di nodi di lavoro inizia a mostrare benefici
Accelerazione Massima: 3,57× (su dataset sufficientemente grandi)
Overhead di Comunicazione: Oltre 4 nodi di lavoro, l'ulteriore aumento della dimensione del cluster porta solo miglioramenti marginali

Scoperte Chiave: L'overhead di comunicazione nel modello di esecuzione delle query supera i benefici della parallelizzazione su dataset piccoli, il cluster dovrebbe essere in grado di scalare adattivamente in base alla dimensione dei dati.

Lavori Correlati

Confronto dei Sistemi di Database Vettoriali

Sistema	Lettura/Scrittura Parallela	Separazione Calcolo-Archiviazione	Bilanciamento del Carico	Scalabilità Automatica	Indice GPU	ANN GPU
Vespa	✓	✓	✓	✓	✗	✗
Vald	✓	✗	✓	✓	✓	✓
Weaviate	✓	✗	✓	✓	✓	✓
Qdrant	✓	✗	✓	✓	✓	✗
Milvus	✓	✓	✓	✓	✓	✓

Stato della Ricerca

I sondaggi esistenti si concentrano principalmente su confronti di caratteristiche funzionali, mancando di valutazioni prestazionali empiriche
Shen et al. hanno valutato vari tipi di indici in RAG single-GPU, ma non hanno affrontato sistemi distribuiti o ambienti HPC
Mancanza di ricerca sulle prestazioni dei database vettoriali in ambienti HPC

Conclusioni e Discussione

Conclusioni Principali

Punto Focale dell'Ottimizzazione della Generazione di Embedding: Per dataset che si adattano alla memoria dei nodi di calcolo HPC, dovrebbe essere data priorità al miglioramento dell'efficienza dell'inferenza del modello rispetto a I/O o caricamento del modello
Collo di Bottiglia dell'Inserimento dei Dati: L'approccio asincrono di Qdrant è limitato da compiti vincolati dalla CPU nell'upload dei dati, il multi-processing potrebbe essere più adatto per il parallelismo single-client
Utilizzo delle Risorse nella Costruzione dell'Indice: Un singolo nodo di lavoro può già saturare la CPU, l'accelerazione GPU potrebbe aumentare i benefici di più nodi di lavoro
Soglia di Prestazioni di Query: Solo su dataset sufficientemente grandi, l'aumento del numero di nodi di lavoro può ridurre efficacemente il tempo di esecuzione delle query

Limitazioni

Valutazione di un Singolo Sistema: Solo Qdrant è stato valutato, mancano confronti tra sistemi
Valutazione Limitata della CPU: Principalmente focalizzato sulla costruzione dell'indice CPU, valutazione insufficiente delle implementazioni GPU
Analisi di Variabilità Insufficiente: Mancanza di attenzione alla variabilità di runtime e riproducibilità
Limitazioni del Carico di Lavoro: Principalmente basato su carichi di lavoro biologici, potrebbe non rappresentare altri campi scientifici

Direzioni Future

Ricerca Comparativa Multi-Sistema: Valutazione comparativa completa di più sistemi su diverse piattaforme HPC
Ottimizzazione dell'Accelerazione GPU: Ricerca approfondita sulle prestazioni dell'accelerazione GPU nella costruzione dell'indice e nell'esecuzione delle query
Scalabilità Adattiva: Sviluppo di sistemi che possono scalare adattivamente in base alle dimensioni dei dati e alle caratteristiche del carico di lavoro
Specializzazione per Carichi di Lavoro Scientifici: Ottimizzazione dei database vettoriali per esigenze specifiche di diversi campi scientifici

Valutazione Approfondita

Punti di Forza

Ricerca Pionerisitca: Prima valutazione sistematica delle prestazioni dei database vettoriali in ambienti HPC, colmando un importante vuoto di ricerca
Carichi di Lavoro Reali: Utilizzo di dati biologici reali e letteratura scientifica per costruire carichi di lavoro con significato pratico
Analisi Prestazionale Completa: Copertura della valutazione prestazionale dell'intero flusso di lavoro dalla generazione di embedding alle query
Valore Pratico: Fornisce raccomandazioni di configurazione specifiche e strategie di ottimizzazione delle prestazioni
Dati Aperti: Il rilascio di dataset promuove lo sviluppo del campo

Insufficienze

Copertura di Sistemi Limitata: Solo Qdrant è stato valutato, mancano confronti trasversali
Analisi Teorica Insufficiente: Principalmente basato su osservazioni sperimentali, mancanza di analisi teorica approfondita
Limitazioni di Scalabilità: La scala massima testata è di 32 nodi di lavoro, potrebbe essere insufficiente per sistemi HPC di grandi dimensioni
Utilizzo Insufficiente della GPU: Principalmente focalizzato sulle prestazioni della CPU, esplorazione insufficiente del potenziale di accelerazione GPU

Impatto

Contributo Accademico: Pone le basi per la ricerca sui database vettoriali in ambienti HPC
Guida Pratica: Fornisce importanti riferimenti di distribuzione per centri HPC e utenti di calcolo scientifico
Stabilimento di Standard: Stabilisce metodi di benchmark per la valutazione delle prestazioni dei database vettoriali in ambienti HPC
Direzioni di Ricerca Future: Identifica chiaramente più direzioni degne di ricerca approfondita

Scenari Applicabili

Calcolo Scientifico su Larga Scala: Applicabile a progetti di ricerca scientifica che richiedono la distribuzione di database vettoriali in ambienti HPC
Bioinformatica: Particolarmente applicabile alla ricerca di genomica e biomedicina nel recupero di letteratura e scoperta di conoscenze
Distribuzione di Sistemi RAG: Fornisce riferimenti prestazionali per la distribuzione di sistemi RAG su larga scala in ambienti HPC
Ottimizzazione dei Sistemi: Fornisce guida ai produttori di database vettoriali per ottimizzare le prestazioni in ambienti HPC

Bibliografia

Questo studio cita 52 articoli correlati, principalmente coprendo:

Sistemi e algoritmi di database vettoriali
Piattaforme e architetture di calcolo ad alte prestazioni
Modelli di embedding e tecnologia RAG
Ricerca di valutazione delle prestazioni correlata

Valutazione Complessiva: Questo è un articolo di ricerca di significato pioneristico che valuta sistematicamente per la prima volta le caratteristiche prestazionali dei database vettoriali distribuiti in ambienti HPC. La metodologia di ricerca è scientificamente rigorosa, la progettazione sperimentale è ragionevole e i risultati hanno importante valore pratico. Nonostante alcune limitazioni, pone le basi importanti per questo nuovo campo di ricerca emergente e ha significato importante nel promuovere l'applicazione dei database vettoriali nel calcolo scientifico.