BambooKG: A Neurobiologically-inspired Frequency-Weight Knowledge Graph
Arikutharam, Ukolov
Retrieval-Augmented Generation allows LLMs to access external knowledge, reducing hallucinations and ageing-data issues. However, it treats retrieved chunks independently and struggles with multi-hop or relational reasoning, especially across documents. Knowledge graphs enhance this by capturing the relationships between entities using triplets, enabling structured, multi-chunk reasoning. However, these tend to miss information that fails to conform to the triplet structure. We introduce BambooKG, a knowledge graph with frequency-based weights on non-triplet edges which reflect link strength, drawing on the Hebbian principle of "fire together, wire together". This decreases information loss and results in improved performance on single- and multi-hop reasoning, outperforming the existing solutions.
academic
BambooKG: एक तंत्रिका-जैविक रूप से प्रेरित आवृत्ति-भार ज्ञान ग्राफ
पुनः प्राप्ति-संवर्धित पीढ़ी (RAG) बड़े भाषा मॉडल को बाहरी ज्ञान तक पहुंचने की अनुमति देता है, जिससे भ्रम और डेटा पुरानेपन की समस्याएं कम होती हैं। हालांकि, RAG प्राप्त पाठ खंडों को स्वतंत्र रूप से संसाधित करता है, बहु-हॉप या संबंधपरक तर्क में कठिनाई का सामना करता है, विशेषकर दस्तावेज़-पार तर्क में। ज्ञान ग्राफ़ त्रिगुणों का उपयोग करके संस्थाओं के बीच संबंधों को कैप्चर करके इसे बढ़ाते हैं, संरचित बहु-खंड तर्क को सक्षम करते हैं; लेकिन ये विधियां अक्सर त्रिगुण संरचना में फिट न होने वाली जानकारी को छोड़ देती हैं। यह पेपर BambooKG प्रस्तावित करता है, एक ऐसा ज्ञान ग्राफ जो गैर-त्रिगुण किनारों पर आवृत्ति भार का उपयोग करता है, जहां किनारे के भार लिंक की शक्ति को प्रतिबिंबित करते हैं, Hebb के "एक साथ सक्रिय हों, एक साथ जुड़ें" सिद्धांत से प्रेरित। यह सूचना हानि को कम करता है, एकल-हॉप और बहु-हॉप तर्क पर बेहतर प्रदर्शन प्राप्त करता है, मौजूदा समाधानों से बेहतर है।
वर्तमान पुनः प्राप्ति-संवर्धित पीढ़ी (RAG) प्रणाली और ज्ञान ग्राफ विधियां जटिल बहु-हॉप तर्क कार्यों को संभालने में महत्वपूर्ण सीमाओं का सामना करती हैं:
RAG की स्वतंत्रता समस्या: पारंपरिक RAG प्राप्त पाठ खंडों को स्वतंत्र रूप से मानता है, दस्तावेज़-पार संबंधपरक तर्क और बहु-हॉप तर्क करना मुश्किल है
ज्ञान ग्राफ की संरचनात्मक सीमा: त्रिगुण (विषय-विधेय-वस्तु) आधारित ज्ञान ग्राफ़ अक्सर कठोर व्याकरणिक संरचना में फिट न होने वाली जानकारी को छोड़ देते हैं
सूचना हानि: मौजूदा विधियां ज्ञान निष्कर्षण और प्रतिनिधित्व में सूचना हानि का सामना करती हैं, विशेषकर शब्दार्थ सह-घटना संबंधों में
बहु-हॉप तर्क मानव संज्ञान की मूल क्षमता है, जटिल प्रश्नोत्तरी, निर्णय समर्थन आदि अनुप्रयोगों के लिए महत्वपूर्ण है
उद्यम और अनुसंधान क्षेत्र बड़ी संख्या में दस्तावेज़ों से संबंधपरक तर्क की आवश्यकता है, मौजूदा विधियों की सीमाएं अनुप्रयोग प्रभाव को गंभीरता से प्रतिबंधित करती हैं
LLM भ्रम को कम करना और ज्ञान पुनः प्राप्ति पथों को समझाना वर्तमान AI सुरक्षा और विश्वसनीयता की मुख्य आवश्यकता है
RAG प्रणाली: हालांकि Chain-of-RAG जैसी विधियां KILT बेंचमार्क पर प्रगति करती हैं, लेकिन उच्च कम्प्यूटेशनल ओवरहेड और तर्क समय का परिचय देती हैं, मध्यवर्ती पुनः प्राप्ति चरण त्रुटियों को जमा कर सकते हैं
OpenIE: शोर या डोमेन-विशिष्ट कॉर्पस में कम सटीकता (F1 स्कोर 50-60%), उत्पन्न त्रिगुण अक्सर असंगत होते हैं
GraphRAG: प्रदर्शन ग्राफ निर्माण गुणवत्ता पर निर्भर करता है, शोर संबंध निष्कर्षण या विरल ज्ञान डोमेन में प्रदर्शन में गिरावट, उच्च कम्प्यूटेशनल ओवरहेड
KGGen: कई LLM कॉल की आवश्यकता है, सरल समस्याओं पर अच्छा प्रदर्शन लेकिन बहु-हॉप समस्याओं पर क्लस्टरिंग प्रदर्शन की कमी के कारण सीमित
तंत्रिका जीव विज्ञान से प्रेरित, विशेषकर Hebb सिद्धांत "एक साथ सक्रिय होने वाले न्यूरॉन एक साथ जुड़ते हैं" और सिनैप्टिक समय-निर्भर प्लास्टिसिटी (STDP), लेखकों ने ज्ञान ग्राफ निर्माण की एक नई विधि प्रस्तावित की:
आवृत्ति-भारित सह-घटना संबंधों के माध्यम से ज्ञान का प्रतिनिधित्व करना, कठोर त्रिगुण संरचना के बजाय
मानव मस्तिष्क के संबंधपरक स्मृति तंत्र की नकल करना, आंशिक पैटर्न मिलान और अनुमानित तर्क का समर्थन करना
वृद्धिशील शिक्षा को लागू करना, नई जानकारी के साथ गतिशील रूप से किनारे के भार को मजबूत करना
BambooKG ढांचा प्रस्तावित करना: एक तंत्रिका-जैविक रूप से प्रेरित ज्ञान ग्राफ आर्किटेक्चर, आवृत्ति-भारित गैर-त्रिगुण किनारों का उपयोग करके ज्ञान का प्रतिनिधित्व करना, पारंपरिक त्रिगुण संरचना की सूचना हानि समस्या को दूर करना
नवीन दो-चरणीय पाइपलाइन:
स्मृति पाइपलाइन (Memorisation Pipeline): खंडन, लेबल पीढ़ी और ज्ञान ग्राफ निर्माण के तीन चरण शामिल हैं
पुनः प्राप्ति पाइपलाइन (Recall Pipeline): भारित पड़ोस अन्वेषण के माध्यम से संबंधपरक पुनः प्राप्ति को लागू करना
महत्वपूर्ण प्रदर्शन सुधार:
HotPotQA डेटासेट पर 78% सटीकता प्राप्त करना, RAG के 71% से अधिक
MuSiQue बहु-हॉप तर्क डेटासेट पर औसत सटीकता 60% प्राप्त करना, अन्य विधियों से बहुत अधिक (RAG 42%, GraphRAG 43%, KGGen 20%)
पुनः प्राप्ति समय केवल 0.01 सेकंड, अन्य विधियों से बहुत तेज (RAG 5.79 सेकंड, GraphRAG 7.72 सेकंड)
सैद्धांतिक नवाचार: तंत्रिका विज्ञान के STDP और Hebbian शिक्षा सिद्धांतों को ज्ञान ग्राफ डिजाइन में शामिल करना, ज्ञान प्रतिनिधित्व और पुनः प्राप्ति के लिए एक नया दृष्टिकोण प्रदान करना
इनपुट: दस्तावेज़ संग्रह D = {d₁, d₂, ..., dₙ} और उपयोगकर्ता प्रश्न q
आउटपुट: प्रासंगिक दस्तावेज़ खंडों के आधार पर उत्पन्न उत्तर a
बाधा: बहु-हॉप तर्क का समर्थन करने की आवश्यकता है, अर्थात् उत्तर कई दस्तावेज़ों में जानकारी को संश्लेषित करने की आवश्यकता हो सकती है
यह आवृत्ति-भार तंत्र STDP की नकल करता है: दोहराई गई सह-सक्रियता कनेक्शन को मजबूत करती है, संबंधपरक स्मृति का आधार बनाती है।
अतिरिक्त मानचित्रण ग्राफ: लेबल से पाठ खंड और दस्तावेज़ों के लिए मानचित्रण ज्ञान ग्राफ निर्माण करना, अंतिम संदर्भ पुनः प्राप्ति के लिए उपयोग किया जाता है।
Tagger प्रश्न से लेबल निकालता है, शब्दावली BambooKG में पहले से मौजूद लेबल तक सीमित है
यदि कोई वैध लेबल पहचाना नहीं जा सकता है, तो माना जाता है कि BambooKG ने अभी तक उस अवधारणा को सीखा नहीं है
चरण 2: उप-ग्राफ पुनः प्राप्ति
प्रत्येक प्रश्न लेबल के लिए, स्थानीय उप-ग्राफ निकालना
क्षय-आधारित पड़ोस अन्वेषण का उपयोग करना:
शीर्ष-X प्रथम-डिग्री पड़ोसियों का चयन करना (सीधे जुड़े लेबल)
शीर्ष-Y द्वितीय-डिग्री पड़ोसियों का चयन करना (मध्यस्थ के माध्यम से जुड़े लेबल)
किनारे के भार (सह-घटना आवृत्ति) द्वारा क्रमबद्ध करना
प्रयोग में X=5, Y=3 सेट किया गया
चरण 3: संदर्भ निर्माण
पुनः प्राप्त किनारों में योगदान देने वाले सभी दस्तावेज़ खंडों की पहचान करना
ये खंड प्रश्न लेबल से संबंधित परिस्थितिजन्य संदर्भ का प्रतिनिधित्व करते हैं
जैविक तंत्र के साथ सादृश्य: हिप्पोकैम्पस के समान जो स्मृति पुनः प्राप्ति के दौरान कॉर्टिकल निशान को पुनः सक्रिय करता है
एकत्रित खंड अंतिम संदर्भ बनाते हैं, LLM को उत्तर उत्पन्न करने के लिए प्रदान किया जाता है
आंशिक पैटर्न मिलान: भले ही पूर्ण लेबल संयोजन कभी देखा न गया हो, सिस्टम अभी भी संबंधित पड़ोसियों के माध्यम से तर्क कर सकता है (उदाहरण के लिए, "पालतू" और "मछली" के लिए प्रश्न, भले ही "मछली" नई हो, "बिल्ली", "कुत्ता" आदि संबंधित पड़ोसियों से संदर्भ का अनुमान लगा सकता है)।
गैर-त्रिगुण संरचना का लाभ: हालांकि ग्राफ आकार बढ़ता है और कठोर संरचना खो जाती है, लेकिन सूचना हानि को कम करता है, दस्तावेज़-पार संज्ञानात्मक कनेक्टिविटी बनाए रखता है
मनमाने नोड्स का मूल्य: पूर्वनिर्धारित इकाइयों के बजाय लचीले लेबल का उपयोग करना, शब्दार्थ को अधिक व्यापक रूप से कैप्चर कर सकता है
एम्बेडिंग समस्या: ज्ञान ग्राफ त्रिगुणों पर RAG लागू करते समय, शब्द या वाक्यांश एम्बेडिंग बनाने की कठिनाई सूचना हानि और पुनः प्राप्ति समय में वृद्धि की ओर ले जाती है
LLM कॉल दक्षता: BambooKG को केवल एक LLM कॉल की आवश्यकता है (लेबल पीढ़ी), पुनः प्राप्ति पाइपलाइन पूरी तरह से LLM या एम्बेडिंग की आवश्यकता नहीं है
संदर्भ आकार में वृद्धि: BambooKG का औसत संदर्भ आकार अन्य विधियों से काफी बड़ा है
HotPotQA: 1,887 टोकन बनाम RAG के 648 टोकन
MuSiQue 3-हॉप: 16,273 टोकन बनाम RAG के 1,078 टोकन
लेखकों का मानना है कि यह इस कार्य के दायरे से परे है, क्योंकि संदर्भ विंडो पूरी तरह से उपयोग किए गए LLM पर निर्भर करता है, दीर्घकालिक स्मृति विधि से संबंधित नहीं है।
OpenIE: पूर्वनिर्धारित पैटर्न के बिना पाठ से सीधे त्रिगुण निकालना, लेकिन शोर या डोमेन-विशिष्ट कॉर्पस में कम सटीकता
GraphRAG: RAG और ज्ञान ग्राफ को संयोजित करना, इकाई विसंदिग्धता और बहु-हॉप संश्लेषण का समर्थन करना, लेकिन प्रदर्शन ग्राफ निर्माण गुणवत्ता पर निर्भर करता है
KGGen: कई LLM कॉल का उपयोग करके ज्ञान ग्राफ निर्माण, लेख के बीच कनेक्टिविटी बढ़ाता है
BambooKG तंत्रिका जीव विज्ञान के संबंधपरक स्मृति सिद्धांतों को ज्ञान ग्राफ निर्माण में व्यवस्थित रूप से लागू करने वाला पहला कार्य है, आवृत्ति-भारित गैर-त्रिगुण संरचना के माध्यम से प्रदर्शन और दक्षता में दोहरी सुधार प्राप्त करता है।
प्रभावशीलता सत्यापन: BambooKG एकल-हॉप और बहु-हॉप तर्क कार्यों दोनों पर मौजूदा समाधानों से बेहतर है, आवृत्ति-भारित गैर-त्रिगुण संरचना की प्रभावशीलता को साबित करता है
दक्षता लाभ: अत्यंत तेज़ पुनः प्राप्ति गति (0.01 सेकंड) और एकल LLM कॉल BambooKG को व्यावहारिक अनुप्रयोगों में महत्वपूर्ण लाभ देते हैं
सैद्धांतिक योगदान: तंत्रिका विज्ञान के STDP और Hebbian सिद्धांतों को ज्ञान ग्राफ डिजाइन में सफलतापूर्वक लागू करना, ज्ञान प्रतिनिधित्व के लिए नया दृष्टिकोण प्रदान करता है
लचीलापन: गैर-त्रिगुण संरचना और आंशिक पैटर्न मिलान क्षमता सिस्टम को अधिक विविध प्रश्नों को संभालने में सक्षम बनाती है
संदर्भ आकार: पुनः प्राप्त संदर्भ अन्य विधियों से काफी बड़ा है, कुछ LLM के लिए चुनौती हो सकता है (हालांकि लेखकों का मानना है कि यह LLM की समस्या है न कि विधि की)
Tagger गुणवत्ता पर निर्भरता: सिस्टम प्रदर्शन Tagger द्वारा लेबल निकालने की गुणवत्ता पर गंभीरता से निर्भर करता है, वर्तमान सामान्य लेबल सर्वोत्तम नहीं हो सकते हैं
स्पष्ट क्लस्टरिंग और प्रूनिंग की कमी: वर्तमान संस्करण स्पष्ट क्लस्टरिंग, प्रूनिंग या शोर में कमी नहीं करता है, जानकारी की मात्रा बढ़ने के साथ स्केलेबिलिटी चुनौतियों का सामना कर सकता है
सीमित मूल्यांकन पैमाना: प्रत्येक डेटासेट केवल 100 प्रश्नों का उपयोग करता है, और गैर-निर्धारणीय GPT-4o को न्यायाधीश के रूप में उपयोग करता है
विस्तृत विश्लेषण की कमी: पेपर विभिन्न घटकों के विशिष्ट योगदान का विश्लेषण करने के लिए विस्तृत विलोपन अध्ययन प्रदान नहीं करता है
सैद्धांतिक नवाचार: तंत्रिका विज्ञान सिद्धांतों (STDP, Hebbian शिक्षा) को ज्ञान ग्राफ डिजाइन में व्यवस्थित रूप से शामिल करना, नया सैद्धांतिक दृष्टिकोण प्रदान करता है
विधि नवाचार: त्रिगुण संरचना सीमा को तोड़ना, आवृत्ति-भारित लचीले लेबल प्रणाली का उपयोग करना
तकनीकी नवाचार: एम्बेडिंग-मुक्त ग्राफ ट्रैवर्सल और एकल LLM कॉल, दक्षता में गुणात्मक छलांग प्राप्त करना
BambooKG एक मजबूत नवाचार, महत्वपूर्ण प्रयोगात्मक परिणाम वाला कार्य है, तंत्रिका विज्ञान सिद्धांतों को ज्ञान ग्राफ डिजाइन में सफलतापूर्वक लागू करता है, बहु-हॉप तर्क कार्यों पर स्पष्ट प्रदर्शन सुधार प्राप्त करता है। इसका मूल नवाचार त्रिगुण संरचना बाधा को त्यागना है, आवृत्ति-भारित सह-घटना संबंधों के माध्यम से ज्ञान का प्रतिनिधित्व करना, जो सूचना हानि को कम करता है और अत्यंत तेज़ पुनः प्राप्ति गति प्रदान करता है।
हालांकि, पेपर में स्पष्ट कमियां हैं: सीमित प्रयोगात्मक पैमाना, विलोपन विश्लेषण की कमी, संदर्भ आकार समस्या, स्केलेबिलिटी सत्यापन की कमी। ये समस्याएं विधि के वास्तविक प्रदर्शन और लागू दायरे की हमारी समझ को सीमित करती हैं।
शैक्षणिक मूल्य से, यह ध्यान देने योग्य कार्य है, ज्ञान ग्राफ अनुसंधान के लिए नया विचार प्रदान करता है। व्यावहारिक दृष्टिकोण से, विधि में मध्यम आकार, बहु-हॉप तर्क परिदृश्यों में अनुप्रयोग संभावना है, लेकिन बड़े पैमाने पर तैनाती के लिए आगे अनुकूलन और सत्यापन की आवश्यकता है।
अनुशंसा सूचकांक: ⭐⭐⭐⭐ (4/5) - मजबूत नवाचार, प्रेरक प्रयोगात्मक परिणाम, लेकिन पूर्णता और गहराई में सुधार की आवश्यकता है।