Vector databases have rapidly grown in popularity, enabling efficient similarity search over data such as text, images, and video. They now play a central role in modern AI workflows, aiding large language models by grounding model outputs in external literature through retrieval-augmented generation. Despite their importance, little is known about the performance characteristics of vector databases in high-performance computing (HPC) systems that drive large-scale science. This work presents an empirical study of distributed vector database performance on the Polaris supercomputer in the Argonne Leadership Computing Facility. We construct a realistic biological-text workload from BV-BRC and generate embeddings from the peS2o corpus using Qwen3-Embedding-4B. We select Qdrant to evaluate insertion, index construction, and query latency with up to 32 workers. Informed by practical lessons from our experience, this work takes a first step toward characterizing vector database performance on HPC platforms to guide future research and optimization.
- पेपर ID: 2509.12384
- शीर्षक: Exploring Distributed Vector Databases Performance on HPC Platforms: A Study with Qdrant
- लेखक: Seth Ockerman, Amal Gueroudji, Song Young Oh, Robert Underwood, Nicholas Chia, Kyle Chard, Robert Ross, Shivaram Venkataraman
- वर्गीकरण: cs.DC cs.DB
- प्रकाशन समय/सम्मेलन: SC'25 Workshop Frontiers in Generative AI for HPC Science and Engineering: Foundations, Challenges, and Opportunities
- पेपर लिंक: https://arxiv.org/abs/2509.12384
वेक्टर डेटाबेस आधुनिक AI कार्यप्रवाह में एक मुख्य भूमिका निभाते हैं, विशेषकर पुनर्प्राप्ति-संवर्धित जनरेशन (RAG) प्रणालियों में, जो बड़े भाषा मॉडल आउटपुट को बाहरी साहित्य से जोड़कर मॉडल प्रदर्शन को बढ़ाते हैं। यद्यपि वेक्टर डेटाबेस AI अनुप्रयोगों में तेजी से महत्वपूर्ण हो रहे हैं, उच्च-प्रदर्शन कंप्यूटिंग (HPC) प्रणालियों में उनकी प्रदर्शन विशेषताओं के बारे में बहुत कम ज्ञान है। यह अनुसंधान अर्गोन राष्ट्रीय प्रयोगशाला के Polaris सुपरकंप्यूटर पर वितरित वेक्टर डेटाबेस Qdrant का एक अनुभवजन्य अध्ययन प्रस्तुत करता है, BV-BRC पर आधारित वास्तविक जैविक पाठ कार्यभार का निर्माण करता है, Qwen3-Embedding-4B मॉडल का उपयोग करके एम्बेडिंग वेक्टर उत्पन्न करता है, और 32 कार्य नोड्स तक सम्मिलन, अनुक्रमणिका निर्माण और क्वेरी प्रदर्शन का मूल्यांकन करता है।
- मुख्य समस्या: HPC वातावरण में वेक्टर डेटाबेस की प्रदर्शन विशेषताओं का गहन अध्ययन अभाव है, मौजूदा अनुसंधान मुख्य रूप से एकल GPU या छोटे पैमाने के वातावरण पर केंद्रित है
- महत्व: बड़े पैमाने पर वैज्ञानिक कंप्यूटिंग तेजी से HPC प्रणालियों पर निष्पादित की जा रही है, वेक्टर डेटाबेस को HPC वातावरण की अद्वितीय विशेषताओं के अनुकूल होना चाहिए (समर्पित इंटरकनेक्ट, समानांतर फाइल सिस्टम, गहरी मेमोरी पदानुक्रम, विषम हार्डवेयर आर्किटेक्चर)
- मौजूदा सीमाएं:
- HPC वातावरण के लिए वेक्टर डेटाबेस प्रदर्शन मूल्यांकन की कमी
- मौजूदा अनुसंधान मुख्य रूप से कार्यात्मक विशेषता तुलना पर केंद्रित है, अनुभवजन्य प्रदर्शन मूल्यांकन की कमी है
- वैज्ञानिक कार्यभार और व्यावसायिक अनुप्रयोगों में महत्वपूर्ण अंतर है
वैज्ञानिक अनुसंधान में AI प्रणालियों के व्यापक अनुप्रयोग के साथ, विशेषकर RAG तकनीक के प्रसार के साथ, HPC आर्किटेक्चर पर वेक्टर डेटाबेस के प्रदर्शन को समझना प्रणाली डिजाइन, प्रदर्शन अनुकूलन और भविष्य के अनुसंधान के लिए महत्वपूर्ण मार्गदर्शन प्रदान करता है।
- पहला HPC वातावरण मूल्यांकन: Polaris सुपरकंप्यूटर पर Qdrant वितरित प्रदर्शन का मूल्यांकन किया, 32 कार्य नोड्स (8 कंप्यूट नोड्स में फैले) तक सम्मिलन, अनुक्रमणिका निर्माण और क्वेरी प्रदर्शन का परीक्षण किया
- वास्तविक वैज्ञानिक कार्यभार: BV-BRC जैविक डेटा और peS2o वैज्ञानिक पाठ कॉर्पस पर आधारित वास्तविक कार्यभार का निर्माण किया
- प्रदर्शन विशेषता विश्लेषण: HPC प्लेटफॉर्म पर वेक्टर डेटाबेस प्रदर्शन विशेषताओं का पहला व्यवस्थित विश्लेषण प्रदान किया
- खुला डेटासेट: वैज्ञानिक एम्बेडिंग डेटासेट और क्वेरी कार्यभार भविष्य के अनुसंधान के लिए जारी किए
- व्यावहारिक मार्गदर्शन: तैनाती के अनुभव के आधार पर व्यावहारिक सिफारिशें और भविष्य के अनुसंधान दिशाएं प्रदान कीं
यह अनुसंधान एक अंत-से-अंत जैविक RAG कार्यप्रवाह का निर्माण करता है, जिसमें शामिल है:
- इनपुट: BV-BRC में 22,723 जीनोम संबंधित शर्तें
- प्रसंस्करण: peS2o डेटासेट (8 मिलियन पूर्ण-पाठ पत्र) में प्रत्येक शर्त के लिए संबंधित डेटा खोजने के लिए उपयोग
- आउटपुट: RAG प्रणाली के लिए संदर्भ जानकारी प्रदान करने वाले पुनर्प्राप्ति परिणाम
पेपर दो मुख्य वितरित आर्किटेक्चर की तुलना करता है:
- स्टेटफुल आर्किटेक्चर (Qdrant द्वारा अपनाया):
- प्रत्येक कार्य नोड स्थिति (अनुक्रमणिका या डेटा) संग्रहीत करता है और कंप्यूटिंग के लिए जिम्मेदार है
- कार्य नोड डेटासेट के एक हिस्से को "स्वामित्व" और संभालते हैं
- क्वेरी सभी कार्य नोड्स को प्रसारित की जाती है, प्रत्येक नोड ANN खोज निष्पादित करता है और परिणाम एकत्र करता है
- स्टेटलेस आर्किटेक्चर (कंप्यूट-स्टोरेज अलगाव):
- कार्य नोड कंप्यूटिंग निष्पादित करते हैं लेकिन डेटा स्थायी रूप से संग्रहीत नहीं करते
- डेटा स्वतंत्र स्थायी भंडारण परत में संग्रहीत है
- आवश्यकता पड़ने पर डेटा को कैश परत में लोड किया जाता है
- हार्डवेयर: Polaris सुपरकंप्यूटर
- प्रत्येक कंप्यूट नोड: 2.8 GHz AMD EPYC Milan 7543P 32-कोर CPU
- मेमोरी: 512 GB DDR4 RAM
- GPU: 4 NVIDIA A100 GPU
- इंटरकनेक्ट: HPE Slingshot 11, Dragonfly टोपोलॉजी
- सॉफ्टवेयर: Qdrant वेक्टर डेटाबेस, HNSW अनुक्रमणिका का उपयोग
- अनुकूली एम्बेडिंग जनरेशन पाइपलाइन:
- उपयोगकर्ता पैरामीटर के आधार पर बैच प्रसंस्करण रणनीति
- बहु-प्रक्रिया समानांतर प्रसंस्करण, GPU संसाधनों का पूर्ण उपयोग
- OOM त्रुटि पर स्वचालित डिग्रेडेशन तंत्र
- प्रदर्शन ट्यूनिंग विधि:
- बैच आकार और समवर्ती अनुरोधों की संख्या की व्यवस्थित ट्यूनिंग
- डेटा सम्मिलन को अनुकूलित करने के लिए अतुल्यकालिक क्लाइंट कार्यान्वयन
- क्लाइंट-सर्वर संचार को अनुकूलित करने के लिए बहु-प्रक्रिया आवंटन रणनीति
- BV-BRC जैविक डेटा: 22,723 जीनोम संबंधित शर्तें
- peS2o वैज्ञानिक पाठ कॉर्पस: 8,293,485 पूर्ण-पाठ शैक्षणिक पत्र
- एम्बेडिंग मॉडल: Qwen3-Embedding-4B (एकल 40GB GPU के लिए उपयुक्त)
- एम्बेडिंग जनरेशन समय: मॉडल लोडिंग, I/O, अनुमान समय
- डेटा सम्मिलन समय: विभिन्न बैच आकार और समवर्ती स्तरों पर सम्मिलन प्रदर्शन
- अनुक्रमणिका निर्माण समय: HNSW अनुक्रमणिका निर्माण की स्केलेबिलिटी
- क्वेरी विलंबता: विभिन्न डेटासेट आकार और कार्य नोड्स संख्या पर क्वेरी प्रदर्शन
- कार्य नोड्स संख्या: 1, 4, 8, 16, 32
- डेटा वितरण: प्रत्येक कार्य नोड लगभग 80GB/#Workers डेटा संभालता है
- क्लाइंट कॉन्फ़िगरेशन: प्रत्येक Qdrant कार्य नोड को एक क्लाइंट आवंटित किया जाता है, सभी क्लाइंट एकल कंप्यूट नोड पर चलते हैं
- तैनाती रणनीति: प्रति मशीन 4 Qdrant कार्य नोड्स
| चरण | औसत समय (सेकंड) | अनुपात |
|---|
| मॉडल लोडिंग | 28.17 | 1.2% |
| I/O | 7.49 | 0.3% |
| अनुमान | 2381.97 | 98.5% |
मुख्य निष्कर्ष: मॉडल अनुमान कुल रनटाइम पर हावी है, बैच प्रसंस्करण अनुमान ने मेमोरी त्रुटियों को सफलतापूर्वक रोका, 0.10% से कम पत्रों को क्रमिक प्रसंस्करण की आवश्यकता थी।
- इष्टतम बैच आकार: 32 (468s से 381s तक अनुकूलित)
- इष्टतम समवर्ती अनुरोध संख्या: 2 (367s तक आगे अनुकूलित)
- स्केलेबिलिटी प्रदर्शन:
| कार्य नोड्स संख्या | 1 | 4 | 8 | 16 | 32 |
|---|
| सम्मिलन समय | 8.22h | 2.11h | 1.14h | 35.92m | 21.67m |
मुख्य निष्कर्ष:
- CPU-बाध्य बैच प्रसंस्करण रूपांतरण asyncio की समवर्ती प्रभावशीलता को सीमित करता है
- बहु-प्रक्रिया एकल क्लाइंट समानांतर डेटा सम्मिलन के लिए asyncio से अधिक उपयुक्त है
- डेटा सम्मिलन दर बड़े पैमाने पर HPC कार्यभार के लिए एक बाधा हो सकती है
- अधिकतम गति वृद्धि: 32 कार्य नोड्स एकल नोड के सापेक्ष 21.32× गति वृद्धि प्राप्त करते हैं
- स्केलेबिलिटी सीमाएं: 1 से 4 कार्य नोड्स तक केवल 1.27× गति वृद्धि प्राप्त होती है
- संसाधन उपयोग: एकल कार्य नोड पहले से ही 90-97% CPU क्षमता का उपयोग करता है
मुख्य निष्कर्ष: CPU-संतृप्त अनुक्रमणिका निर्माण के लिए प्रति नोड कई Qdrant कार्य नोड्स तैनात करना अनावश्यक है, GPU त्वरण अधिक प्रभावी हो सकता है।
- इष्टतम क्वेरी बैच आकार: 16 (139s से 73s तक अनुकूलित)
- इष्टतम समवर्ती बैच अनुरोध संख्या: 2
- डेटासेट आकार थ्रेसहोल्ड: कार्य नोड्स संख्या बढ़ाने से लाभ केवल तभी दिखाई देता है जब डेटासेट कम से कम 30GB तक पहुंचता है
- अधिकतम गति वृद्धि: 3.57× (पर्याप्त बड़े डेटासेट पर)
- संचार ओवरहेड: 4 कार्य नोड्स से अधिक होने पर, क्लस्टर आकार में आगे की वृद्धि केवल सीमांत सुधार लाती है
मुख्य निष्कर्ष: क्वेरी निष्पादन मॉडल में संचार ओवरहेड छोटे डेटासेट पर समानांतरकरण लाभ से अधिक है, क्लस्टर को डेटा आकार के अनुसार स्वचालित रूप से स्केल करने में सक्षम होना चाहिए।
| प्रणाली | समानांतर पढ़ना-लिखना | कंप्यूट-स्टोरेज अलगाव | लोड संतुलन | स्वचालित स्केलिंग | GPU अनुक्रमणिका | GPU ANN |
|---|
| Vespa | ✓ | ✓ | ✓ | ✓ | ✗ | ✗ |
| Vald | ✓ | ✗ | ✓ | ✓ | ✓ | ✓ |
| Weaviate | ✓ | ✗ | ✓ | ✓ | ✓ | ✓ |
| Qdrant | ✓ | ✗ | ✓ | ✓ | ✓ | ✗ |
| Milvus | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
- मौजूदा सर्वेक्षण मुख्य रूप से कार्यात्मक विशेषता तुलना पर केंद्रित हैं, अनुभवजन्य प्रदर्शन मूल्यांकन की कमी है
- Shen आदि ने एकल GPU RAG में कई अनुक्रमणिका प्रकारों का मूल्यांकन किया, लेकिन वितरित प्रणालियों या HPC वातावरण को शामिल नहीं किया
- HPC वातावरण में वेक्टर डेटाबेस प्रदर्शन अनुसंधान की कमी है
- एम्बेडिंग जनरेशन अनुकूलन फोकस: HPC कंप्यूट नोड मेमोरी के लिए उपयुक्त डेटासेट के लिए, I/O या मॉडल लोडिंग के बजाय मॉडल अनुमान दक्षता को प्राथमिकता दी जानी चाहिए
- डेटा सम्मिलन बाधा: Qdrant की अतुल्यकालिक विधि डेटा अपलोड में CPU-बाध्य कार्यों द्वारा सीमित है, बहु-प्रक्रिया एकल क्लाइंट समानांतरकरण के लिए अधिक उपयुक्त हो सकती है
- अनुक्रमणिका निर्माण संसाधन उपयोग: एकल कार्य नोड CPU को संतृप्त कर सकता है, GPU त्वरण कई कार्य नोड्स की प्रभावशीलता बढ़ा सकता है
- क्वेरी प्रदर्शन थ्रेसहोल्ड: कार्य नोड्स संख्या बढ़ाने से क्वेरी रनटाइम को प्रभावी ढंग से कम करने के लिए केवल पर्याप्त बड़े डेटासेट पर ही लाभ होता है
- एकल प्रणाली मूल्यांकन: केवल Qdrant एक प्रणाली का मूल्यांकन किया, प्रणालियों के बीच तुलना की कमी
- CPU-सीमित मूल्यांकन: मुख्य रूप से CPU अनुक्रमणिका निर्माण पर केंद्रित, GPU कार्यान्वयन का गहन मूल्यांकन नहीं
- परिवर्तनशीलता विश्लेषण अपर्याप्त: रनटाइम परिवर्तनशीलता और पुनरुत्पादनीयता पर ध्यान नहीं दिया
- कार्यभार सीमाएं: मुख्य रूप से जैविक कार्यभार पर आधारित, अन्य वैज्ञानिक क्षेत्रों का प्रतिनिधित्व नहीं कर सकता
- बहु-प्रणाली तुलना अनुसंधान: विभिन्न HPC प्लेटफॉर्म पर व्यापक बहु-प्रणाली मूल्यांकन
- GPU त्वरण अनुकूलन: GPU-त्वरित अनुक्रमणिका निर्माण और क्वेरी प्रदर्शन का गहन अध्ययन
- स्वचालित स्केलिंग: डेटा आकार और कार्यभार विशेषताओं के अनुसार स्वचालित रूप से स्केल करने में सक्षम प्रणालियों का विकास
- वैज्ञानिक कार्यभार विशेषज्ञता: विभिन्न वैज्ञानिक क्षेत्रों की विशिष्ट आवश्यकताओं के लिए वेक्टर डेटाबेस का अनुकूलन
- अग्रणी अनुसंधान: पहली बार HPC वातावरण में वेक्टर डेटाबेस के प्रदर्शन का व्यवस्थित मूल्यांकन, महत्वपूर्ण अनुसंधान अंतर को भरता है
- वास्तविक कार्यभार: वास्तविक जैविक डेटा और वैज्ञानिक साहित्य का उपयोग करके कार्यभार का निर्माण, व्यावहारिक महत्व है
- व्यापक प्रदर्शन विश्लेषण: एम्बेडिंग जनरेशन से क्वेरी तक पूर्ण कार्यप्रवाह प्रदर्शन मूल्यांकन को कवर करता है
- व्यावहारिक मूल्य: विशिष्ट कॉन्फ़िगरेशन सिफारिशें और प्रदर्शन ट्यूनिंग रणनीतियां प्रदान करता है
- खुला डेटा: डेटासेट जारी करना क्षेत्र विकास को बढ़ावा देता है
- सीमित प्रणाली कवरेज: केवल Qdrant एक प्रणाली का मूल्यांकन, क्षैतिज तुलना की कमी
- सैद्धांतिक विश्लेषण अपर्याप्त: मुख्य रूप से प्रायोगिक अवलोकन पर आधारित, गहन सैद्धांतिक विश्लेषण की कमी
- स्केलेबिलिटी सीमाएं: अधिकतम परीक्षण पैमाना 32 कार्य नोड्स, बड़ी HPC प्रणालियों के लिए अपर्याप्त हो सकता है
- GPU उपयोग अपर्याप्त: मुख्य रूप से CPU प्रदर्शन पर केंद्रित, GPU त्वरण क्षमता का पूर्ण अन्वेषण नहीं
- शैक्षणिक योगदान: HPC वातावरण में वेक्टर डेटाबेस अनुसंधान के लिए आधार स्थापित करता है
- व्यावहारिक मार्गदर्शन: HPC केंद्रों और वैज्ञानिक कंप्यूटिंग उपयोगकर्ताओं के लिए महत्वपूर्ण तैनाती संदर्भ प्रदान करता है
- मानक स्थापना: HPC वातावरण में वेक्टर डेटाबेस प्रदर्शन मूल्यांकन के लिए बेंचमार्क विधि स्थापित करता है
- भविष्य अनुसंधान दिशाएं: कई मूल्यवान अनुसंधान दिशाओं को स्पष्ट करता है
- बड़े पैमाने पर वैज्ञानिक कंप्यूटिंग: HPC वातावरण में वेक्टर डेटाबेस तैनात करने की आवश्यकता वाली वैज्ञानिक अनुसंधान परियोजनाओं के लिए लागू
- जैव सूचना विज्ञान: विशेषकर जीनोमिक्स और बायोमेडिकल अनुसंधान में साहित्य पुनर्प्राप्ति और ज्ञान खोज के लिए लागू
- RAG प्रणाली तैनाती: HPC वातावरण में बड़े पैमाने पर RAG प्रणाली तैनात करने के लिए प्रदर्शन संदर्भ प्रदान करता है
- प्रणाली अनुकूलन: वेक्टर डेटाबेस निर्माताओं को HPC वातावरण प्रदर्शन अनुकूलन के लिए मार्गदर्शन प्रदान करता है
यह अनुसंधान 52 संबंधित संदर्भों का हवाला देता है, मुख्य रूप से शामिल हैं:
- वेक्टर डेटाबेस प्रणालियां और एल्गोरिदम
- उच्च-प्रदर्शन कंप्यूटिंग प्लेटफॉर्म और आर्किटेक्चर
- एम्बेडिंग मॉडल और RAG तकनीक
- संबंधित प्रदर्शन मूल्यांकन अनुसंधान
समग्र मूल्यांकन: यह एक अग्रणी महत्व का अनुसंधान पत्र है, जो पहली बार HPC वातावरण में वितरित वेक्टर डेटाबेस की प्रदर्शन विशेषताओं का व्यवस्थित मूल्यांकन करता है। अनुसंधान विधि वैज्ञानिक रूप से कठोर है, प्रायोगिक डिजाइन तर्कसंगत है, और परिणाम महत्वपूर्ण व्यावहारिक मूल्य रखते हैं। यद्यपि कुछ सीमाएं हैं, यह इस उभरते अनुसंधान क्षेत्र के लिए एक महत्वपूर्ण आधार स्थापित करता है, और वैज्ञानिक कंप्यूटिंग में वेक्टर डेटाबेस के अनुप्रयोग को बढ़ावा देने में महत्वपूर्ण महत्व रखता है।