জটিল তথ্যের চাহিদা বাস্তব-বিশ্বের অনুসন্ধান পরিস্থিতিতে একাধিক উৎস জুড়ে গভীর যুক্তি এবং জ্ঞান সংশ্লেষণের প্রয়োজন, যা ঐতিহ্যবাহী পুনরুদ্ধার-বর্ধিত প্রজন্ম (RAG) পাইপলাইনগুলি কার্যকরভাবে সমাধান করতে পারে না। বর্তমান যুক্তি-ভিত্তিক পদ্ধতিগুলির একটি মৌলিক সীমাবদ্ধতা রয়েছে: তারা উচ্চ-স্তরের পরিকল্পনা এবং বিস্তারিত সম্পাদন উভয়ই পরিচালনা করতে একটি একক মডেল ব্যবহার করে, যা যুক্তির দক্ষতা হ্রাস করে এবং স্কেলেবিলিটি সীমিত করে। এই পত্রটি HiRA প্রস্তাব করে, একটি কৌশলগত পরিকল্পনা এবং বিশেষায়িত সম্পাদনকে আলাদা করে এমন একটি শ্রেণিবদ্ধ কাঠামো। এই পদ্ধতিটি জটিল অনুসন্ধান কাজগুলিকে ফোকাসড সাব-টাস্কে বিভক্ত করে, প্রতিটি সাব-টাস্ককে বাহ্যিক সরঞ্জাম এবং যুক্তি ক্ষমতা দিয়ে সজ্জিত ডোমেইন-নির্দিষ্ট এজেন্টদের নির্ধারণ করে এবং কাঠামোগত একীকরণ প্রক্রিয়ার মাধ্যমে ফলাফলগুলি সমন্বয় করে। এই বিচ্ছেদ সম্পাদন বিবরণকে উচ্চ-স্তরের যুক্তিকে হস্তক্ষেপ করা থেকে প্রতিরোধ করে, একই সাথে সিস্টেমকে বিভিন্ন ধরনের তথ্য প্রক্রিয়াকরণের জন্য বিশেষায়িত দক্ষতা ব্যবহার করতে সক্ষম করে। চারটি জটিল ক্রস-মোডাল গভীর অনুসন্ধান বেঞ্চমার্কে পরীক্ষা-নিরীক্ষা দেখায় যে HiRA অত্যাধুনিক RAG এবং এজেন্ট-ভিত্তিক সিস্টেমগুলিকে উল্লেখযোগ্যভাবে অতিক্রম করে।
ঐতিহ্যবাহী অনুসন্ধান ইঞ্জিনগুলি শুধুমাত্র কীওয়ার্ড ম্যাচিংয়ের উপর ভিত্তি করে র্যাঙ্ক করা ওয়েব পৃষ্ঠাগুলি ফেরত দেয়, যার জন্য ব্যবহারকারীদের ম্যানুয়ালি তথ্য ফিল্টার এবং সংগ্রহ করতে হয়। যদিও ওয়েব অনুসন্ধান সজ্জিত বড় ভাষা মডেলগুলি (LLM) সরাসরি উত্তর প্রদান করতে পারে, তারা সাধারণত অনুসন্ধান ফলাফলে সরাসরি তথ্য ব্যবহার করে, গভীর যুক্তি এবং সংশ্লেষণ ক্ষমতার অভাব রয়েছে।
ইন্টারনেট তথ্য বিস্ফোরণের সাথে, জটিল প্রশ্নের উত্তর খুঁজে পাওয়া ক্রমবর্ধমান কঠিন হয়ে উঠছে, যা জটিল তথ্যের চাহিদা বুঝতে এবং একাধিক উৎস থেকে সঠিক উত্তর সংশ্লেষণ করতে প্রয়োজন এমন গভীর অনুসন্ধান কাজের দ্রুত বিকাশকে চালিত করছে।
১. মনোলিথিক আর্কিটেকচার সীমাবদ্ধতা: বিদ্যমান পদ্ধতিগুলি সমস্ত কাজ পরিচালনা করতে একটি একক যুক্তি মডেলের উপর নির্ভর করে, বিশেষ টোকেন তৈরি করতে যুক্তি মডেলকে প্রম্পট করে সরঞ্জাম সক্রিয়করণ ট্রিগার করে।
२. ক্ষমতা সম্প্রসারণ সীমিত: নতুন সরঞ্জাম বা ক্ষমতা যোগ করার জন্য সাবধানে প্রম্পট পুনর্ডিজাইন করা প্রয়োজন, মডেলকে নতুন টোকেন প্যাটার্ন কীভাবে ব্যবহার করতে হয় তা শেখায়।
३. যুক্তি হস্তক্ষেপ: বাহ্যিক সম্পাদন ফলাফল সরাসরি প্রধান যুক্তি শৃঙ্খলে ইনজেক্ট করা হয়, শব্দ প্রবর্তন করে এবং মূল যুক্তি প্রক্রিয়াকে বাধা দেয়।
লেখকরা বিশ্বাস করেন যে কার্যকর এজেন্ট সম্পাদন একটি শ্রেণিবদ্ধ কাঠামো অনুসরণ করা উচিত: উচ্চ-স্তরের পরিকল্পনার জন্য একটি মেটা-এজেন্ট, কাজ যুক্তি স্থানান্তরের জন্য একটি সমন্বয়কারী এবং নির্দিষ্ট ক্রিয়াকলাপের জন্য বিশেষায়িত সম্পাদন এজেন্ট অন্তর্ভুক্ত।
१. শ্রেণিবদ্ধ যুক্তি আর্কিটেকচার: একটি উপন্যাস শ্রেণিবদ্ধ যুক্তি কাঠামো প্রস্তাব করে যা বিশেষায়িত সরঞ্জাম-বর্ধিত যুক্তি এজেন্টগুলিকে মডিউল হিসাবে একীভূত করে, বিদ্যমান পদ্ধতিতে বাহ্যিক সরঞ্জাম অর্কেস্ট্রেশন বা কঠোর পূর্বনির্ধারিত পাইপলাইনের প্রয়োজন দূর করে।
२. উন্নত ক্ষমতা একীকরণ: ডোমেইন-বিশেষায়িত সম্পাদকরা বৈচিত্র্যময় যুক্তি ক্ষমতা এবং সরঞ্জামগুলির প্লাগ-এন্ড-প্লে একীকরণ সমর্থন করে। বিদ্যমান অনুসন্ধান এজেন্টগুলি প্রম্পট ইঞ্জিনিয়ারিং বা মডেল পুনঃপ্রশিক্ষণ ছাড়াই সরাসরি একীভূত করা যেতে পারে।
३. উচ্চতর অভিজ্ঞতামূলক কর্মক্ষমতা: চারটি জটিল ক্রস-মোডাল অনুসন্ধান কাজে পরীক্ষা-নিরীক্ষা ঐতিহ্যবাহী RAG এবং বর্তমান এজেন্ট-ভিত্তিক পদ্ধতির তুলনায় উল্লেখযোগ্য উন্নতি দেখায়।
একটি জটিল প্রশ্ন q দেওয়া যা তথ্য অনুসন্ধানের প্রয়োজন এবং একটি পূর্বনির্ধারিত বাহ্যিক পরিবেশ E, লক্ষ্য হল একটি কাঠামো ডিজাইন করা যা উত্তর A এবং সংশ্লিষ্ট যুক্তি প্রক্রিয়া R সহ একটি চূড়ান্ত সমাধান তৈরি করে। প্রজন্ম প্রক্রিয়া হিসাবে প্রতিনিধিত্ব করা হয়:
যেখানে যুক্তি প্রক্রিয়ার টোকেন প্রজন্ম পদক্ষেপ নির্দেশ করে, সময় পদক্ষেপ t এর আগে সমস্ত পরিবেশগত মিথস্ক্রিয়া ফলাফলের সেট নির্দেশ করে।
HiRA কাঠামোতে তিনটি মূল মডিউল রয়েছে:
তিনটি মূল কার্যকারিতা রয়েছে:
যুক্তি স্থানান্তর প্রক্রিয়া:
যুক্তি পাতন প্রক্রিয়া:
দ্বৈত-চ্যানেল স্মৃতি প্রক্রিয়া: তথ্য স্মৃতি এবং সম্পদ স্মৃতি অন্তর্ভুক্ত
তিনটি অর্থোগোনাল এজেন্ট ক্ষমতা মাত্রার উপর ভিত্তি করে ডিজাইন করা:
१. বিচ্ছিন্ন ডিজাইন: উচ্চ-স্তরের কৌশলগত পরিকল্পনা এবং নিম্ন-স্তরের সম্পাদন বিবরণ আলাদা করে, সম্পাদন শব্দকে পরিকল্পনা প্রক্রিয়াকে হস্তক্ষেপ করা থেকে প্রতিরোধ করে।
२. গতিশীল কাজ বরাদ্দ: কাজের জটিলতা এবং প্রয়োজনীয় ক্ষমতার উপর ভিত্তি করে বুদ্ধিমানভাবে সবচেয়ে উপযুক্ত বিশেষজ্ঞ এজেন্ট নির্বাচন করে।
३. দ্বিমুখী যুক্তি স্থানান্তর: মেটা-এজেন্ট থেকে বিশেষজ্ঞ এজেন্টে যুক্তি প্রতিনিধিত্ব সমর্থন করে, এবং বিপরীত যুক্তি পাতন।
४. মডুলার সম্প্রসারণ: নতুন বিশেষজ্ঞ এজেন্টগুলি সম্পূর্ণ সিস্টেম পুনর্ডিজাইন ছাড়াই নির্বিঘ্নে একীভূত করা যেতে পারে।
१. GAIA: বহু-পদক্ষেপ যুক্তি এবং পুনরুদ্ধার জুড়ে, সমস্ত যাচাইকরণ নমুনা ব্যবহার করে (পাঠ্য, বহু-মোডাল, ফাইল-ভিত্তিক) २. WebWalkerQA: ইংরেজি এবং চীনা ভাষায় ওয়েব নেভিগেশন এবং নিষ্কাশন পরীক্ষা করে, ২০০টি প্রশ্ন নমুনা করে ३. SimpleQA: তথ্যপূর্ণ এবং বিস্তৃত জ্ঞান মূল্যায়ন করে, ২০০টি প্রশ্ন নমুনা করে ४. Humanity's Last Exam: উচ্চ-কঠিনতা বেঞ্চমার্ক, জটিল যুক্তি এবং বাহ্যিক পুনরুদ্ধারের প্রয়োজন, ৫০০টি যাচাইকরণ নমুনা ব্যবহার করে
নির্ভুলতা গণনা করতে Qwen2.5-72B-Instruct কে LLM বিচারক হিসাবে ব্যবহার করে।
१. সরাসরি যুক্তি: মডেল নেটিভ যুক্তি ক্ষমতা ব্যবহার করে (Qwen3-32B, QwQ-32B, DeepSeek-R1-32B, GPT-4o ইত্যাদি) २. একক ক্ষমতা বর্ধন: একক বিশেষায়িত সরঞ্জাম-বর্ধিত যুক্তি ব্যবহার করে (Search-o1, WebThinker, CodeAct ইত্যাদি) ३. বহু-ক্ষমতা যুক্তি: একাধিক সরঞ্জাম বা কাঠামোগত কর্মপ্রবাহ একীভূত করে (Plan-and-Solve, ReAct)
| পদ্ধতি বিভাগ | GAIA গড় | WebWalkerQA গড় | HLE গড় | SimpleQA |
|---|---|---|---|---|
| সরাসরি যুক্তি (সেরা) | २५.२ | १०.० | ११.१ | ४२.७ |
| একক ক্ষমতা বর্ধন (WebThinker) | ३६.२ | ५२.५ | १३.० | ७८.० |
| বহু-ক্ষমতা বর্ধন (ReAct) | ३०.७ | ३५.० | १३.८ | ७३.५ |
| HiRA (এই পত্র) | ४२.५ | ५४.५ | १४.२ | ८१.५ |
१. সামগ্রিক কর্মক্ষমতা সুবিধা: HiRA সমস্ত কাজে ভিত্তিরেখা পদ্ধতিকে অতিক্রম করে २. জটিল কাজ সুবিধা স্পষ্ট: জটিল কাজে (GAIA, HLE) উন্নতি আরও উল্লেখযোগ্য ३. শ্রেণিবদ্ধ ডিজাইন সুবিধা: একই সরঞ্জাম সেট ব্যবহার করে পদ্ধতির তুলনায় শ্রেণিবদ্ধ ডিজাইন ভাল কর্মক্ষমতা অর্জন করে
| উপাদান | GAIA-B | GAIA-F | WebWalker | HLE | SimpleQA |
|---|---|---|---|---|---|
| সম্পূর্ণ HiRA | ४२.५ | ४२.१ | ५४.५ | १४.२ | ८१.५ |
| যুক্তি স্থানান্তর ছাড়া | ३३.९ | ३६.८ | ४४.५ | १०.४ | ७६.५ |
| স্মৃতি প্রক্রিয়া ছাড়া | ३७.८ | ३१.६ | ५२.० | ११.८ | ७९.० |
| অনুসন্ধান এজেন্ট ছাড়া | १५.७ | ३१.६ | ४.० | १२.४ | ९.५ |
| কোড এজেন্ট ছাড়া | ३३.९ | २८.९ | ५१.५ | १२.८ | ७६.५ |
१. যুক্তি দৈর্ঘ্য: HiRA এর যুক্তি শৃঙ্খল WebThinker এর চেয়ে ছোট, আরও দক্ষ সাব-টাস্ক আহ্বান নির্দেশ করে। २. মিথস্ক্রিয়া সংখ্যা: সরঞ্জাম সরাসরি একীভূত করা পদ্ধতির তুলনায় HiRA এর পরিবেশগত মিথস্ক্রিয়া সংখ্যা কম। ३. গণনা ওভারহেড: শ্রেণিবদ্ধ কাঠামো আরও লক্ষ্যবস্তু সরঞ্জাম ব্যবহার অর্জন করে।
একক-পদক্ষেপ পুনরুদ্ধার থেকে প্রশ্ন বিয়োজন, নথি পরিমার্জন এবং বহু-রাউন্ড অনুসন্ধান সহ পুনরাবৃত্তিমূলক পাইপলাইনে বিকশিত। তবে RAG পদ্ধতিগুলি পূর্বনির্ধারিত কর্মপ্রবাহের উপর নির্ভর করে, অভিযোজিত সিদ্ধান্ত সীমিত করে।
এই পত্রটি গতিশীল যুক্তি প্রতিনিধিত্ব এবং শ্রেণিবদ্ধ কাঠামোতে ডোমেইন-বিশেষায়িত এজেন্টগুলির মাধ্যমে এই পদ্ধতিগুলির সীমাবদ্ধতা সমাধান করে।
HiRA কৌশলগত পরিকল্পনা এবং বিশেষায়িত সম্পাদনকে আলাদা করে গভীর অনুসন্ধান কাজে মনোলিথিক মডেলের সীমাবদ্ধতা কার্যকরভাবে সমাধান করে। বহু-এজেন্ট আর্কিটেকচার স্কেলেবল, মডুলার যুক্তি সমর্থন করে।
१. গণনা ওভারহেড: বহু-এজেন্ট আর্কিটেকচার গণনা খরচ বৃদ্ধি করতে পারে। २. সমন্বয় জটিলতা: এজেন্টদের মধ্যে সমন্বয় প্রক্রিয়া সাবধানে ডিজাইন করা প্রয়োজন। ३. ত্রুটি প্রচার: সাব-টাস্ক সম্পাদন ত্রুটি সামগ্রিক কর্মক্ষমতা প্রভাবিত করতে পারে।
१. এজেন্টদের মধ্যে সমন্বয় প্রক্রিয়া আরও অপ্টিমাইজ করা २. আরও ডোমেইন-বিশেষায়িত সম্পাদক অন্বেষণ করা ३. গতিশীল এজেন্ট নির্বাচন কৌশল গবেষণা করা
१. উদ্ভাবনী আর্কিটেকচার ডিজাইন: শ্রেণিবদ্ধ বিচ্ছিন্ন ডিজাইনের তাত্ত্বিক এবং ব্যবহারিক মূল্য রয়েছে। २. ব্যাপক পরীক্ষা-নিরীক্ষা যাচাইকরণ: একাধিক জটিল বেঞ্চমার্কে সিস্টেমেটিক মূল্যায়ন। ३. শক্তিশালী ব্যবহারিকতা: কাঠামো বিদ্যমান এজেন্টগুলির প্লাগ-এন্ড-প্লে একীকরণ সমর্থন করে। ४. গভীর বিশ্লেষণ: বিস্তারিত অপসারণ পরীক্ষা-নিরীক্ষা এবং দক্ষতা বিশ্লেষণ প্রদান করে।
१. ভিত্তিরেখা নির্বাচন: কিছু ভিত্তিরেখা পদ্ধতি সর্বশেষ SOTA নাও হতে পারে। २. মূল্যায়ন সীমাবদ্ধতা: প্রধানত LLM-as-Judge ব্যবহার করে, মূল্যায়ন পক্ষপাত থাকতে পারে। ३. স্কেলেবিলিটি যাচাইকরণ: বৃহত্তর স্কেল বা আরও ডোমেইনে যাচাইকরণের অভাব।
१. একাডেমিক অবদান: বহু-এজেন্ট যুক্তি সিস্টেমের জন্য নতুন ডিজাইন প্যারাডাইম প্রদান করে। २. ব্যবহারিক মূল্য: জটিল তথ্য পুনরুদ্ধার পরিস্থিতিতে সরাসরি প্রয়োগ করা যায়। ३. পুনরুৎপাদনযোগ্যতা: বিস্তারিত বাস্তবায়ন বিবরণ এবং কোড প্রদান করে।
१. বহু-পদক্ষেপ যুক্তির প্রয়োজন এমন জটিল প্রশ্নোত্তর সিস্টেম २. ক্রস-মোডাল তথ্য পুনরুদ্ধার এবং সংশ্লেষণ ३. বিশেষায়িত সরঞ্জাম সমর্থন প্রয়োজন এমন গবেষণা এবং বিশ্লেষণ কাজ ४. এন্টারপ্রাইজ-স্তরের জ্ঞান ব্যবস্থাপনা এবং সিদ্ধান্ত সহায়তা সিস্টেম
পত্রটি একাধিক গুরুত্বপূর্ণ কাজ উদ্ধৃত করে, যার মধ্যে RAG এর ভিত্তিপ্রস্তর কাজ (Lewis et al. 2020), সর্বশেষ যুক্তি মডেল (OpenAI o1, DeepSeek-R1) এবং বহু-এজেন্ট সিস্টেমের সম্পর্কিত গবেষণা রয়েছে। এই উদ্ধৃতিগুলি ক্ষেত্র বিকাশের গতিপথের প্রতি লেখকদের গভীর বোঝাপড়া প্রতিফলিত করে।
সামগ্রিক মূল্যায়ন: এটি একটি উচ্চ-মানের গবেষণা পত্র যা একটি উদ্ভাবনী শ্রেণিবদ্ধ যুক্তি কাঠামো প্রস্তাব করে, তাত্ত্বিক ডিজাইন এবং পরীক্ষা-নিরীক্ষা যাচাইকরণ উভয় ক্ষেত্রেই যথেষ্ট দৃঢ়। এই কাজটি বহু-এজেন্ট যুক্তি সিস্টেমের বিকাশের জন্য গুরুত্বপূর্ণ মূল্য রাখে, বিশেষত জটিল তথ্য পুনরুদ্ধার ক্ষেত্রে প্রয়োগের বিস্তৃত সম্ভাবনা রয়েছে।