BambooKG: A Neurobiologically-inspired Frequency-Weight Knowledge Graph
Arikutharam, Ukolov
Retrieval-Augmented Generation allows LLMs to access external knowledge, reducing hallucinations and ageing-data issues. However, it treats retrieved chunks independently and struggles with multi-hop or relational reasoning, especially across documents. Knowledge graphs enhance this by capturing the relationships between entities using triplets, enabling structured, multi-chunk reasoning. However, these tend to miss information that fails to conform to the triplet structure. We introduce BambooKG, a knowledge graph with frequency-based weights on non-triplet edges which reflect link strength, drawing on the Hebbian principle of "fire together, wire together". This decreases information loss and results in improved performance on single- and multi-hop reasoning, outperforming the existing solutions.
academic
BambooKG: একটি স্নায়ুজীববিজ্ঞান-অনুপ্রাণিত ফ্রিকোয়েন্সি-ওয়েট জ্ঞান গ্রাফ
পুনরুদ্ধার-বর্ধিত প্রজন্ম (RAG) বৃহৎ ভাষা মডেলগুলিকে বাহ্যিক জ্ঞানে অ্যাক্সেস করতে দেয়, যা হ্যালুসিনেশন এবং ডেটা পুরানোতা সমস্যা হ্রাস করে। তবে, RAG স্বাধীনভাবে পুনরুদ্ধার করা পাঠ্য ব্লকগুলি প্রক্রিয়া করে, বহু-হপ বা সম্পর্ক অনুমানে অসুবিধা রয়েছে, বিশেষত ক্রস-ডকুমেন্ট অনুমানে। জ্ঞান গ্রাফগুলি ত্রিপদ ব্যবহার করে সত্তাগুলির মধ্যে সম্পর্ক ক্যাপচার করে এটি উন্নত করে, কাঠামোগত বহু-ব্লক অনুমান সক্ষম করে; তবে এই পদ্ধতিগুলি প্রায়শই ত্রিপদ কাঠামোর সাথে মানানসই না হওয়া তথ্য মিস করে। এই পেপারটি BambooKG প্রস্তাব করে, একটি জ্ঞান গ্রাফ যা অ-ত্রিপদ প্রান্তে ফ্রিকোয়েন্সি ওয়েট ব্যবহার করে, যেখানে প্রান্ত ওজন সংযোগের শক্তি প্রতিফলিত করে, Hebb-এর "একসাথে আগুন, একসাথে সংযোগ" নীতি থেকে অনুপ্রাণিত। এটি তথ্য ক্ষতি হ্রাস করে, একক-হপ এবং বহু-হপ অনুমানে উন্নত কর্মক্ষমতা অর্জন করে, বিদ্যমান সমাধানগুলিকে অতিক্রম করে।
বর্তমান পুনরুদ্ধার-বর্ধিত প্রজন্ম (RAG) সিস্টেম এবং জ্ঞান গ্রাফ পদ্ধতিগুলি জটিল বহু-হপ অনুমান কাজগুলি পরিচালনা করার সময় উল্লেখযোগ্য সীমাবদ্ধতা রয়েছে:
RAG-এর স্বাধীনতা সমস্যা: ঐতিহ্যবাহী RAG পুনরুদ্ধার করা পাঠ্য ব্লকগুলিকে স্বাধীনভাবে বিবেচনা করে, ক্রস-ডকুমেন্ট সম্পর্ক অনুমান এবং বহু-হপ অনুমান করা কঠিন
জ্ঞান গ্রাফের কাঠামোগত সীমাবদ্ধতা: ত্রিপদ (বিষয়-বিধেয়-বস্তু) ভিত্তিক জ্ঞান গ্রাফগুলি কঠোর ব্যাকরণগত কাঠামোর সাথে মানানসই না হওয়া তথ্য মিস করে
তথ্য ক্ষতি: বিদ্যমান পদ্ধতিগুলি জ্ঞান নিষ্কাশন এবং প্রতিনিধিত্বে তথ্য ক্ষতি অনুভব করে, বিশেষত শব্দার্থিক সহ-উপস্থিতি সম্পর্কে
বহু-হপ অনুমান মানব জ্ঞানের একটি মূল ক্ষমতা, জটিল প্রশ্নোত্তর, সিদ্ধান্ত সহায়তা ইত্যাদি অ্যাপ্লিকেশনের জন্য গুরুত্বপূর্ণ
এন্টারপ্রাইজ এবং গবেষণা ক্ষেত্রগুলি বিপুল সংখ্যক ডকুমেন্ট থেকে সম্পর্কিত অনুমান করার প্রয়োজন, বিদ্যমান পদ্ধতির সীমাবদ্ধতা প্রয়োগের প্রভাব গুরুতরভাবে সীমাবদ্ধ করে
LLM হ্যালুসিনেশন হ্রাস করা এবং ব্যাখ্যাযোগ্য জ্ঞান পুনরুদ্ধার পথ প্রদান করা বর্তমান AI নিরাপত্তা এবং নির্ভরযোগ্যতার মূল চাহিদা
RAG সিস্টেম: যদিও Chain-of-RAG এবং অন্যান্য পদ্ধতি KILT বেঞ্চমার্কে অগ্রগতি করেছে, তারা উচ্চতর গণনা ওভারহেড এবং অনুমান সময় প্রবর্তন করে, মধ্যবর্তী পুনরুদ্ধার পদক্ষেপগুলি ত্রুটি জমা করতে পারে
OpenIE: শব্দ বা ডোমেন-নির্দিষ্ট কর্পাসে নির্ভুলতা কম (F1 স্কোর 50-60%), উত্পন্ন ত্রিপদগুলি প্রায়শই অসংযুক্ত
GraphRAG: কর্মক্ষমতা গ্রাফ নির্মাণ গুণমানের উপর নির্ভর করে, শব্দ সম্পর্ক নিষ্কাশন বা বিরল জ্ঞান ডোমেনে কর্মক্ষমতা হ্রাস পায়, গণনা ওভারহেড বেশি
KGGen: একাধিক LLM কল প্রয়োজন, সহজ প্রশ্নে ভাল কর্মক্ষমতা কিন্তু ক্লাস্টারিং কর্মক্ষমতা দুর্বলতার কারণে বহু-হপ প্রশ্নে সীমাবদ্ধ
স্নায়ুজীববিজ্ঞান দ্বারা অনুপ্রাণিত, বিশেষত Hebb নীতি "একসাথে আগুন করা নিউরন একসাথে সংযুক্ত হয়" এবং সিন্যাপটিক টাইমিং-নির্ভর প্লাস্টিসিটি (STDP), লেখকরা জ্ঞান গ্রাফ নির্মাণের একটি নতুন পদ্ধতি প্রস্তাব করেছেন:
কঠোর ত্রিপদ কাঠামোর পরিবর্তে ফ্রিকোয়েন্সি-ওয়েটেড সহ-উপস্থিতি সম্পর্ক এর মাধ্যমে জ্ঞান প্রতিনিধিত্ব করা
মানব মস্তিষ্কের সহযোগী স্মৃতি প্রক্রিয়া অনুকরণ করা, আংশিক প্যাটার্ন ম্যাচিং এবং আনুমানিক অনুমান সমর্থন করা
ক্রমবর্ধমান শিক্ষা বাস্তবায়ন করা, নতুন তথ্য যোগ করার সাথে সাথে প্রান্ত ওজন গতিশীলভাবে শক্তিশালী করা
BambooKG ফ্রেমওয়ার্ক প্রস্তাব: একটি স্নায়ুজীববিজ্ঞান-অনুপ্রাণিত জ্ঞান গ্রাফ আর্কিটেকচার, ফ্রিকোয়েন্সি-ওয়েটেড অ-ত্রিপদ প্রান্ত ব্যবহার করে জ্ঞান প্রতিনিধিত্ব করা, ঐতিহ্যবাহী ত্রিপদ কাঠামোর তথ্য ক্ষতি সমস্যা অতিক্রম করা
উদ্ভাবনী দ্বি-পর্যায়ের পাইপলাইন:
স্মৃতি পাইপলাইন (Memorisation Pipeline): খণ্ডকরণ, লেবেল প্রজন্ম এবং জ্ঞান গ্রাফ সৃষ্টি তিনটি পর্যায় অন্তর্ভুক্ত
স্মরণ পাইপলাইন (Recall Pipeline): ওয়েটেড প্রতিবেশী অন্বেষণের মাধ্যমে সহযোগী স্মরণ বাস্তবায়ন করা
উল্লেখযোগ্য কর্মক্ষমতা উন্নতি:
HotPotQA ডেটাসেটে 78% নির্ভুলতা অর্জন করা, RAG-এর 71% অতিক্রম করা
MuSiQue বহু-হপ অনুমান ডেটাসেটে গড় নির্ভুলতা 60% অর্জন করা, অন্যান্য পদ্ধতি অনেক দূরে (RAG 42%, GraphRAG 43%, KGGen 20%)
পুনরুদ্ধার সময় মাত্র 0.01 সেকেন্ড, অন্যান্য পদ্ধতির চেয়ে অনেক দ্রুত (RAG 5.79 সেকেন্ড, GraphRAG 7.72 সেকেন্ড)
তাত্ত্বিক উদ্ভাবন: স্নায়ুবিজ্ঞানের STDP এবং Hebbian শিক্ষা নীতিগুলি জ্ঞান গ্রাফ ডিজাইনে প্রবর্তন করা, জ্ঞান প্রতিনিধিত্ব এবং পুনরুদ্ধারের একটি নতুন প্যারাডাইম প্রদান করা
ইনপুট: ডকুমেন্ট সংগ্রহ D = {d₁, d₂, ..., dₙ} এবং ব্যবহারকারীর প্রশ্ন q
আউটপুট: প্রাসঙ্গিক ডকুমেন্ট অংশের উপর ভিত্তি করে তৈরি উত্তর a
সীমাবদ্ধতা: বহু-হপ অনুমান সমর্থন করা প্রয়োজন, অর্থাৎ উত্তর একাধিক ডকুমেন্টের তথ্য সংমিশ্রণ করতে পারে
Tagger প্রশ্ন থেকে লেবেল নিষ্কাশন করে, শব্দভাণ্ডার সীমাবদ্ধতা BambooKG-তে বিদ্যমান লেবেলে
যদি কোনো বৈধ লেবেল চিহ্নিত করা না যায়, তবে BambooKG এখনও সেই ধারণা শিখেনি বলে বিবেচনা করা হয়
পর্যায় 2: সাব-গ্রাফ পুনরুদ্ধার
প্রতিটি প্রশ্ন লেবেলের জন্য, স্থানীয় সাব-গ্রাফ নিষ্কাশন করা
হ্রাসকারী প্রতিবেশী অন্বেষণ ব্যবহার করা:
শীর্ষ-X এক-ডিগ্রি প্রতিবেশী নির্বাচন করা (সরাসরি সংযুক্ত লেবেল)
শীর্ষ-Y দুই-ডিগ্রি প্রতিবেশী নির্বাচন করা (মধ্যস্থতাকারীর মাধ্যমে সংযুক্ত লেবেল)
প্রান্ত ওজন (সহ-উপস্থিতি ফ্রিকোয়েন্সি) দ্বারা সাজানো
পরীক্ষায় X=5, Y=3 সেট করা
পর্যায় 3: প্রসঙ্গ নির্মাণ
পুনরুদ্ধার করা প্রান্তে অবদান রাখে এমন সমস্ত ডকুমেন্ট ব্লক চিহ্নিত করা
এই ব্লকগুলি প্রশ্ন লেবেলের সাথে সম্পর্কিত পরিস্থিতিগত প্রসঙ্গ প্রতিনিধিত্ব করে
জৈবিক প্রক্রিয়ার সাদৃশ্য: স্মৃতি স্মরণের সময় হিপোক্যাম্পাস কর্টিকাল ট্রেস পুনরায় সক্রিয় করার মতো
সমন্বিত ব্লকগুলি চূড়ান্ত প্রসঙ্গ গঠন করে, উত্তর প্রজন্মের জন্য LLM-কে প্রদান করা
আংশিক প্যাটার্ন ম্যাচিং: এমনকি যদি সম্পূর্ণ লেবেল সমন্বয় কখনও পর্যবেক্ষণ করা না হয়, সিস্টেম এখনও সম্পর্কিত প্রতিবেশীদের মাধ্যমে অনুমান করতে পারে (উদাহরণস্বরূপ, "pet" এবং "fish" প্রশ্ন করুন, এমনকি যদি "fish" নতুন হয়, "cat", "dog" ইত্যাদি সম্পর্কিত প্রতিবেশী থেকে প্রসঙ্গ অনুমান করতে পারেন)।
প্রসঙ্গ আকার বৃদ্ধি: BambooKG-এর গড় প্রসঙ্গ আকার অন্যান্য পদ্ধতির চেয়ে উল্লেখযোগ্যভাবে বড়
HotPotQA: 1,887 টোকেন বনাম RAG-এর 648 টোকেন
MuSiQue 3-হপ: 16,273 টোকেন বনাম RAG-এর 1,078 টোকেন
লেখক বিশ্বাস করেন এটি এই কাজের সুযোগের বাইরে, কারণ প্রসঙ্গ উইন্ডো সম্পূর্ণভাবে ব্যবহৃত LLM-এর উপর নির্ভর করে, দীর্ঘমেয়াদী স্মৃতি পদ্ধতির সাথে সম্পর্কিত নয়।
ঐতিহ্যবাহী RAG: কোসাইন সাদৃশ্যের উপর ভিত্তি করে সহজ ডকুমেন্ট পুনরুদ্ধার, চিকিৎসা এবং এন্টারপ্রাইজ QA-তে ব্যাপক প্রয়োগ
Chain-of-RAG: KILT বেঞ্চমার্কে SOTA অর্জন, বহু-হপ QA-তে EM স্কোর 10 পয়েন্টের বেশি উন্নতি, কিন্তু গণনা ওভারহেড বেশি
মাল্টি-এজেন্ট অপ্টিমাইজেশন: পুনরুদ্ধার, ফিল্টারিং এবং প্রজন্ম মডিউল যৌথভাবে প্রশিক্ষণ, QA F1 স্কোর উন্নতি, কিন্তু প্রশিক্ষণ জটিলতা উল্লেখযোগ্যভাবে বৃদ্ধি
BambooKG হল প্রথম কাজ যা স্নায়ুবিজ্ঞানের সহযোগী স্মৃতি নীতি সিস্টেমেটিকভাবে জ্ঞান গ্রাফ নির্মাণে প্রয়োগ করে, ফ্রিকোয়েন্সি-ওয়েটেড অ-ত্রিপদ কাঠামোর মাধ্যমে কর্মক্ষমতা এবং দক্ষতার দ্বিগুণ উন্নতি অর্জন করে।
কার্যকারিতা যাচাইকরণ: BambooKG একক-হপ এবং বহু-হপ অনুমান কাজে বিদ্যমান সমাধানের চেয়ে উন্নত, ফ্রিকোয়েন্সি-ওয়েটেড অ-ত্রিপদ কাঠামোর কার্যকারিতা প্রমাণ করে
দক্ষতা সুবিধা: অত্যন্ত দ্রুত পুনরুদ্ধার গতি (0.01 সেকেন্ড) এবং একক LLM কল BambooKG-কে ব্যবহারিক প্রয়োগে উল্লেখযোগ্য সুবিধা দেয়
তাত্ত্বিক অবদান: স্নায়ুবিজ্ঞানের STDP এবং Hebbian নীতি সফলভাবে জ্ঞান গ্রাফ ডিজাইনে প্রয়োগ করা, জ্ঞান প্রতিনিধিত্বের জন্য নতুন প্যারাডাইম প্রদান করা
নমনীয়তা: অ-ত্রিপদ কাঠামো এবং আংশিক প্যাটার্ন ম্যাচিং ক্ষমতা সিস্টেমকে আরও বৈচিত্র্যময় প্রশ্ন পরিচালনা করতে সক্ষম করে
প্রসঙ্গ আকার: পুনরুদ্ধার করা প্রসঙ্গ অন্যান্য পদ্ধতির চেয়ে উল্লেখযোগ্যভাবে বড়, কিছু LLM-এর জন্য চ্যালেঞ্জ হতে পারে (যদিও লেখক বিশ্বাস করেন এটি LLM-এর সমস্যা পদ্ধতির নয়)
Tagger গুণমান নির্ভরতা: সিস্টেম কর্মক্ষমতা Tagger দ্বারা লেবেল নিষ্কাশনের গুণমানের উপর গুরুতরভাবে নির্ভর করে, বর্তমান সাধারণ লেবেল সর্বোত্তম নাও হতে পারে
ক্লাস্টারিং এবং ছাঁটাই অভাব: বর্তমান সংস্করণ স্পষ্ট ক্লাস্টারিং, ছাঁটাই বা শব্দ হ্রাস সম্পাদন করে না, তথ্য পরিমাণ বৃদ্ধির সাথে স্কেলেবিলিটি চ্যালেঞ্জ মুখোমুখি হতে পারে
সীমিত মূল্যায়ন স্কেল: প্রতিটি ডেটাসেট শুধুমাত্র 100টি প্রশ্ন ব্যবহার করে, এবং অ-নির্ধারণীয় GPT-4o ব্যবহার করে মূল্যায়ন করে
অ্যাবলেশন পরীক্ষা অভাব: পেপার বিভিন্ন উপাদানের অবদান বিশ্লেষণ করতে বিস্তারিত অ্যাবলেশন গবেষণা প্রদান করে না
BambooKG একটি শক্তিশালী উদ্ভাবনী এবং উল্লেখযোগ্য পরীক্ষামূলক প্রভাব সহ একটি কাজ, স্নায়ুবিজ্ঞান নীতি সফলভাবে জ্ঞান গ্রাফ ডিজাইনে প্রয়োগ করে, বহু-হপ অনুমান কাজে স্পষ্ট কর্মক্ষমতা উন্নতি অর্জন করে। এর মূল উদ্ভাবন ত্রিপদ কাঠামোর সীমাবদ্ধতা পরিত্যাগ করা, ফ্রিকোয়েন্সি-ওয়েটেড সহ-উপস্থিতি সম্পর্ক এর মাধ্যমে জ্ঞান প্রতিনিধিত্ব করা, যা তথ্য ক্ষতি হ্রাস করে এবং অত্যন্ত দ্রুত পুনরুদ্ধার গতি প্রদান করে।
তবে, পেপারটি স্পষ্ট অপূর্ণতাও রয়েছে: সীমিত পরীক্ষামূলক স্কেল, অ্যাবলেশন বিশ্লেষণ অভাব, প্রসঙ্গ আকার সমস্যা, স্কেলেবিলিটা যাচাইকরণ অভাব। এই সমস্যাগুলি পদ্ধতির প্রকৃত কর্মক্ষমতা এবং প্রযোজ্য পরিসীমা সম্পর্কে আমাদের বোঝাপড়া সীমাবদ্ধ করে।
একাডেমিক মূল্য থেকে, এটি একটি মনোযোগ দেওয়ার যোগ্য কাজ, জ্ঞান গ্রাফ গবেষণার জন্য নতুন চিন্তাভাবনা প্রদান করে। ব্যবহারিক দৃষ্টিকোণ থেকে, পদ্ধতি মাঝারি আকারের, বহু-হপ অনুমান দৃশ্যে প্রয়োগের সম্ভাবনা রয়েছে, তবে বড় আকারের স্থাপনার আগে আরও অপ্টিমাইজেশন এবং যাচাইকরণ প্রয়োজন।
সুপারিশ সূচক: ⭐⭐⭐⭐ (4/5) - শক্তিশালী উদ্ভাবনী, প্রভাবশালী পরীক্ষা, কিন্তু সম্পূর্ণতা এবং গভীরতা উন্নতির জন্য অপেক্ষা করছে।