2025-11-13T01:58:10.933950

MBA-RAG: a Bandit Approach for Adaptive Retrieval-Augmented Generation through Question Complexity

Tang, Gao, Li et al.

Retrieval Augmented Generation (RAG) has proven to be highly effective in boosting the generative performance of language model in knowledge-intensive tasks. However, existing RAG framework either indiscriminately perform retrieval or rely on rigid single-class classifiers to select retrieval methods, leading to inefficiencies and suboptimal performance across queries of varying complexity. To address these challenges, we propose a reinforcement learning-based framework that dynamically selects the most suitable retrieval strategy based on query complexity. % our solution Our approach leverages a multi-armed bandit algorithm, which treats each retrieval method as a distinct ``arm'' and adapts the selection process by balancing exploration and exploitation. Additionally, we introduce a dynamic reward function that balances accuracy and efficiency, penalizing methods that require more retrieval steps, even if they lead to a correct result. Our method achieves new state of the art results on multiple single-hop and multi-hop datasets while reducing retrieval costs. Our code are available at https://github.com/FUTUREEEEEE/MBA .

academic

MBA-RAG: প্রশ্নের জটিলতার মাধ্যমে অভিযোজনযোগ্য পুনরুদ্ধার-বর্ধিত প্রজন্মের জন্য একটি ব্যান্ডিট পদ্ধতি

মৌলিক তথ্য

পেপার আইডি: 2412.01572
শিরোনাম: MBA-RAG: a Bandit Approach for Adaptive Retrieval-Augmented Generation through Question Complexity
লেখক: Xiaqiang Tang, Qiang Gao, Jian Li, Nan Du, Qi Li, Sihong Xie
অনুষদ: হংকং বিজ্ঞান ও প্রযুক্তি বিশ্ববিদ্যালয় (গুয়াংজু), টেনসেন্ট হুনিউয়ান, উহান বিশ্ববিদ্যালয়, আইওয়া স্টেট বিশ্ববিদ্যালয়
শ্রেণীবিভাগ: cs.AI
প্রকাশনার সময়: ২০২৫ সালের ১ জানুয়ারি (arXiv v4)
পেপার লিঙ্ক: https://arxiv.org/abs/2412.01572
কোড লিঙ্ক: https://github.com/FUTUREEEEEE/MBA

সারসংক্ষেপ

পুনরুদ্ধার-বর্ধিত প্রজন্ম (RAG) জ্ঞান-নিবিড় কাজগুলিতে ভাষা মডেলের প্রজন্ম কর্মক্ষমতা উল্লেখযোগ্যভাবে উন্নত করেছে। তবে, বিদ্যমান RAG কাঠামো হয় নির্বিচারে পুনরুদ্ধার সম্পাদন করে অথবা পুনরুদ্ধার পদ্ধতি নির্বাচনের জন্য কঠোর একক-শ্রেণী শ্রেণীবিভাজকের উপর নির্ভর করে, যার ফলে বিভিন্ন জটিলতার প্রশ্নগুলিতে অদক্ষতা এবং সর্বোত্তম নয় এমন কর্মক্ষমতা দেখা যায়। এই চ্যালেঞ্জগুলি সমাধান করার জন্য, এই পত্রটি একটি শক্তিশালী শিক্ষার ভিত্তিতে একটি কাঠামো প্রস্তাব করে যা প্রশ্নের জটিলতার উপর ভিত্তি করে সবচেয়ে উপযুক্ত পুনরুদ্ধার কৌশল গতিশীলভাবে নির্বাচন করতে পারে। এই পদ্ধতিটি মাল্টি-আর্মড ব্যান্ডিট অ্যালগরিদম ব্যবহার করে, প্রতিটি পুনরুদ্ধার পদ্ধতিকে বিভিন্ন "বাহু" হিসাবে বিবেচনা করে, অন্বেষণ এবং শোষণের ভারসাম্য রেখে নির্বাচন প্রক্রিয়ার সাথে খাপ খাইয়ে নেয়। অতিরিক্তভাবে, নির্ভুলতা এবং দক্ষতার ভারসাম্য রাখে এমন একটি গতিশীল পুরস্কার ফাংশন প্রবর্তন করা হয়েছে, যা সঠিক ফলাফল পাওয়ার ক্ষেত্রেও আরও বেশি পুনরুদ্ধার পদক্ষেপের প্রয়োজন এমন পদ্ধতিগুলিকে শাস্তি দেয়। এই পদ্ধতিটি একাধিক একক-হপ এবং মাল্টি-হপ ডেটাসেটে নতুন SOTA ফলাফল অর্জন করেছে, একই সাথে পুনরুদ্ধার খরচ হ্রাস করেছে।

গবেষণা পটভূমি এবং প্রেরণা

সমস্যা সংজ্ঞা

বিদ্যমান RAG সিস্টেমগুলি নিম্নলিখিত মূল সমস্যাগুলির সম্মুখীন হয়:

পুনরুদ্ধার কৌশল নির্বাচনে ত্রুটি: বেশিরভাগ RAG কাঠামো সমস্ত প্রশ্নের জন্য নির্বিচারে পুনরুদ্ধার সম্পাদন করে, যা অপ্রয়োজনীয় বা প্রাসঙ্গিক নয় এমন অনুচ্ছেদ প্রবর্তন করতে পারে
একক পদ্ধতির সীমাবদ্ধতা: সমস্ত প্রশ্নের জন্য একটি একক পুনরুদ্ধার পদ্ধতি ব্যবহার করা অদক্ষ, সহজ প্রশ্নগুলি অপ্রয়োজনীয় গণনামূলক ওভারহেড তৈরি করে, এবং জটিল প্রশ্নগুলি পর্যাপ্ত প্রক্রিয়াকরণ পায় না
তত্ত্বাবধান সংকেত অনির্ভুলতা: AdaptiveRAG এর মতো বিদ্যমান অভিযোজনযোগ্য পদ্ধতিগুলি অনুমানমূলক তত্ত্বাবধান ব্যবহার করে, প্রতিটি প্রশ্নের জন্য শুধুমাত্র একটি সর্বোত্তম কৌশল আছে বলে অনুমান করে, এবং সর্বনিম্ন পুনরুদ্ধার খরচের পথ নির্বাচনের দিকে ঝুঁকে থাকে

গবেষণা প্রেরণা

এই পত্রের মূল প্রেরণা এমন একটি কাঠামো বিকাশ করা যা:

প্রশ্নের জটিলতার সাথে গতিশীলভাবে খাপ খায়: সমস্যার জটিলতার স্তরের উপর ভিত্তি করে বুদ্ধিমানের সাথে পুনরুদ্ধার কৌশল নির্বাচন করে
নির্ভুলতা এবং দক্ষতার ভারসাম্য রাখে: উত্তরের গুণমান নিশ্চিত করার সময় গণনামূলক খরচ হ্রাস করে
মাল্টি-কৌশল অন্বেষণ সমর্থন করে: একাধিক কৌশল সঠিক উত্তর তৈরি করতে পারে বলে অনুমতি দেয়, একটি একক "সর্বোত্তম" পথ জোরপূর্বক নির্বাচনের পরিবর্তে

মূল অবদান

MBA-RAG কাঠামো প্রস্তাব: প্রথমবারের মতো মাল্টি-আর্মড ব্যান্ডিট অ্যালগরিদম RAG সিস্টেমের পুনরুদ্ধার কৌশল নির্বাচনে প্রয়োগ করে, গতিশীল অভিযোজনযোগ্য পুনরুদ্ধার বাস্তবায়ন করে
গতিশীল পুরস্কার ফাংশন ডিজাইন: সৃজনশীলভাবে নির্ভুলতা এবং গণনামূলক দক্ষতা একত্রিত করে, উচ্চ খরচ পদ্ধতিগুলিকে শাস্তি দিয়ে সম্পদ ব্যবহার অপ্টিমাইজ করে
SOTA কর্মক্ষমতা অর্জন: ৬টি ডেটাসেটে সর্বোত্তম ফলাফল অর্জন করে, একই সাথে পুনরুদ্ধার খরচ ২০% হ্রাস করে
নমনীয় তত্ত্বাবধান প্রক্রিয়া প্রদান করে: কঠোর একক-লেবেল তত্ত্বাবধানের পরিবর্তে আংশিক তথ্য তত্ত্বাবধান ব্যবহার করে, মডেলকে একাধিক কার্যকর কৌশল অন্বেষণ করতে অনুমতি দেয়

পদ্ধতির বিস্তারিত ব্যাখ্যা

কাজের সংজ্ঞা

প্রশ্ন x দেওয়া হলে, RAG সিস্টেমকে অবশ্যই:

পুনরুদ্ধার পর্যায়: মডিউল R প্রশ্ন x এর জন্য প্রাসঙ্গিক নথি D পুনরুদ্ধার করে
প্রজন্ম পর্যায়: LLM x এবং D ব্যবহার করে প্রতিক্রিয়া ā = LLM(yt|x,D) তৈরি করে

এই পত্রটি এটিকে একটি মাল্টি-আর্মড ব্যান্ডিট সমস্যা হিসাবে পুনর্সংজ্ঞায়িত করে, যেখানে প্রতিটি পুনরুদ্ধার পদ্ধতি (কোন পুনরুদ্ধার নেই, একক পুনরুদ্ধার, একাধিক পুনরুদ্ধার) একটি "বাহু" হিসাবে কাজ করে।

মডেল আর্কিটেকচার

১. প্রশ্ন এনকোডিং এবং বাহু নির্বাচন

এনকোডার: ব্যবহারকারীর প্রশ্ন এনকোড করতে DistilBERT ব্যবহার করে, কর্ম বিতরণ z = fθ(x) তৈরি করে
নির্বাচন কৌশল: অন্বেষণ এবং শোষণের ভারসাম্য রাখতে ε-লোভী কৌশল গ্রহণ করে:
- সম্ভাবনা (1-ε) সহ a = argmax(z) নির্বাচন করে
- সম্ভাবনা ε সহ র্যান্ডমভাবে প্রজন্ম পদ্ধতি নির্বাচন করে

২. শিক্ষার অ্যালগরিদম

উদ্দেশ্য ফাংশন হল প্রকৃত পুরস্কার ra এবং পূর্বাভাসিত পুরস্কার fθ(x)a এর মধ্যে বর্গ ত্রুটি হ্রাস করা:

min_θ (ra - fθ(x)a)²

প্যারামিটার আপডেট নিয়ম:

θt+1 = θt - α∇θ((ra - fθ(x)a)²)

৩. গতিশীল পুরস্কার ফাংশন

ra = A(y, ŷa) - λC(a)

যেখানে:

A(y, ŷa): প্রজন্ম গুণমান মেট্রিক (যেমন সঠিক ম্যাচ)
C(a): পদ্ধতি a এর গণনামূলক খরচ (যেমন পুনরুদ্ধার পদক্ষেপ)
λ: নির্ভুলতা এবং দক্ষতার ভারসাম্য রাখার স্কেলিং ফ্যাক্টর

প্রযুক্তিগত উদ্ভাবন পয়েন্ট

মাল্টি-আর্মড ব্যান্ডিট অভিযোজন: পুনরুদ্ধার কৌশল নির্বাচনকে মাল্টি-আর্মড ব্যান্ডিট সমস্যা হিসাবে মডেল করে, প্রতিটি পুনরুদ্ধার পদ্ধতি একটি "বাহু" এর সাথে সামঞ্জস্যপূর্ণ
আংশিক তথ্য তত্ত্বাবধান: শুধুমাত্র নির্বাচিত কৌশলের জন্য প্রতিক্রিয়া প্রদান করে, অনির্বাচিত কৌশলগুলিকে শাস্তি দেয় না
খরচ-সচেতন পুরস্কার: গতিশীল পুরস্কার ফাংশন নির্ভুলতা এবং গণনামূলক দক্ষতা উভয়ই বিবেচনা করে
অন্বেষণ-শোষণ ভারসাম্য: ε-লোভী কৌশলের মাধ্যমে সর্বোত্তম নয় এমন সমাধানে প্রাথমিক সংমিশ্রণ এড়ায়

পরীক্ষামূলক সেটআপ

ডেটাসেট

একক-হপ প্রশ্নোত্তর ডেটাসেট:

SQuAD v1.1: পাঠ বোঝার কাজ
Natural Questions: খোলা ডোমেইন প্রশ্নোত্তর
TriviaQA: জ্ঞান প্রশ্নোত্তর

মাল্টি-হপ প্রশ্নোত্তর ডেটাসেট:

MuSiQue: মাল্টি-স্টেপ অনুমান প্রশ্নোত্তর
HotpotQA: মাল্টি-হপ অনুমান প্রশ্নোত্তর
2WikiMultiHopQA: উইকিপিডিয়া-ভিত্তিক মাল্টি-হপ প্রশ্নোত্তর

মূল্যায়ন মেট্রিক্স

কর্মক্ষমতা মেট্রিক্স:

EM (Exact Match): পূর্বাভাসিত ফলাফল প্রকৃত উত্তরের সাথে সম্পূর্ণভাবে মেলে
F1: পূর্বাভাসিত উত্তর এবং প্রকৃত উত্তরের শব্দ ওভারল্যাপ
Acc (Accuracy): পূর্বাভাসিত উত্তর প্রকৃত উত্তর অন্তর্ভুক্ত করে কিনা

দক্ষতা মেট্রিক্স:

Step: নির্বাচিত পুনরুদ্ধার কৌশলের প্রয়োজনীয় পুনরুদ্ধার পদক্ষেপ

তুলনামূলক পদ্ধতি

No-Retrieval: পুনরুদ্ধার ছাড়াই সরাসরি উত্তর তৈরি করে
Adaptive-Retrieval: গতিশীলভাবে পুনরুদ্ধারের প্রয়োজন আছে কিনা তা নির্ধারণ করে
Self-RAG: স্ব-প্রতিফলনের মাধ্যমে গতিশীলভাবে পুনরুদ্ধার প্রয়োজন সিদ্ধান্ত নেয়
DRAGIN: টোকেন অনিশ্চয়তার উপর ভিত্তি করে পুনরুদ্ধার সক্রিয় করে
SEAKR: স্ব-উপলব্ধি অনিশ্চয়তার উপর ভিত্তি করে পুনরুদ্ধার সিদ্ধান্ত নেয়
Adaptive-RAG: প্রশ্নের জটিলতার উপর ভিত্তি করে পুনরুদ্ধার কৌশল নির্বাচনের জন্য শ্রেণীবিভাজক ব্যবহার করে

বাস্তবায়ন বিবরণ

প্রশ্ন এনকোডিং মডেল: DistilBERT
পুনরুদ্ধার মডেল: BM25
প্রজন্ম মডেল: FLAN-T5-XL (3B)
শিক্ষার হার: 5e-5
অন্বেষণ কৌশল: ε-লোভী অ্যালগরিদম

পরীক্ষামূলক ফলাফল

প্রধান ফলাফল

পদ্ধতি	EM	F1	Acc	Step
No Retrieval	14.87	21.12	15.97	0.00
Adaptive Retrieval	23.87	32.24	26.73	0.50
Self-RAG	9.90	20.79	31.57	0.72
Adaptive-RAG	37.17	46.94	42.10	2.17
MBA-RAG (আমাদের)	38.80	48.61	43.57	1.80

মূল আবিষ্কার

কর্মক্ষমতা উন্নতি: MBA-RAG সমস্ত কর্মক্ষমতা মেট্রিক্সে বেসলাইন পদ্ধতি অতিক্রম করে
দক্ষতা অপ্টিমাইজেশন: Adaptive-RAG এর তুলনায়, পুনরুদ্ধার পদক্ষেপ প্রায় ১৭% হ্রাস পায় (২.১৭ থেকে ১.৮০ এ)
একক-হপ ডেটাসেট কর্মক্ষমতা: SQuAD এবং TriviaQA তে উল্লেখযোগ্য উন্নতি, পুনরুদ্ধার খরচ উল্লেখযোগ্যভাবে হ্রাস
মাল্টি-হপ ডেটাসেট কর্মক্ষমতা: 2WikiMultiHopQA তে বিশিষ্ট উন্নতি, পুনরুদ্ধার খরচ ২০% এর বেশি হ্রাস

শ্রেণীবিভাগ নির্ভুলতা বিশ্লেষণ

MBA-RAG এর শ্রেণীবিভাগ নির্ভুলতা ৫৬.১% এ পৌঁছায়, যা উল্লেখযোগ্যভাবে বেশি:

Adaptive Retrieval: ৪২.০%
Self-RAG: ৪১.৫%
Adaptive-RAG: ৫৪.০%

বিলোপন পরীক্ষা

মাল্টি-লেবেল শ্রেণীবিভাজকের ফলাফলের সাথে তুলনা দেখায় যে, ঐতিহ্যবাহী মাল্টি-লেবেল পদ্ধতি যদিও ভাল কর্মক্ষমতা প্রদান করে, তবে পুনরুদ্ধার খরচ অত্যধিক (Step ৪.৫১৪ এ পৌঁছায়), যখন MBA-RAG কর্মক্ষমতা এবং দক্ষতার সর্বোত্তম ভারসাম্য অর্জন করে।

উপসংহার এবং আলোচনা

প্রধান উপসংহার

কার্যকারিতা যাচাইকরণ: MBA-RAG একাধিক ডেটাসেটে SOTA কর্মক্ষমতা অর্জন করে
দক্ষতা উন্নতি: পুনরুদ্ধার খরচ উল্লেখযোগ্যভাবে হ্রাস করে, গড়ে ২০% কমায়
শক্তিশালী অভিযোজনযোগ্যতা: প্রশ্নের জটিলতার উপর ভিত্তি করে কৌশল গতিশীলভাবে সামঞ্জস্য করতে পারে

সীমাবদ্ধতা

অ্যালগরিদম নির্ভরতা: কাঠামো নির্দিষ্ট মাল্টি-আর্মড ব্যান্ডিট অ্যালগরিদম কাঠামোর উপর নির্ভর করে
সম্প্রসারণযোগ্যতা চ্যালেঞ্জ: নতুন অদেখা প্রশ্ন ধরনের মুখোমুখি হলে অভিযোজনযোগ্যতা সমস্যা থাকতে পারে
গণনামূলক প্রয়োজন: শক্তিশালী শিক্ষা পদ্ধতি অতিরিক্ত গণনামূলক ওভারহেড প্রবর্তন করতে পারে

ভবিষ্যত দিকনির্দেশনা

অ্যালগরিদম অপ্টিমাইজেশন: গণনামূলক প্রয়োজন হ্রাস করতে আরও দক্ষ অ্যালগরিদম অন্বেষণ করে
সাধারণীকরণ ক্ষমতা: নতুন প্রশ্ন ধরনের প্রতি অভিযোজনযোগ্যতা উন্নত করে
প্রয়োগ সম্প্রসারণ: পদ্ধতি আরও বিস্তৃত NLP কাজে প্রয়োগ করে

গভীর মূল্যায়ন

সুবিধা

শক্তিশালী উদ্ভাবনী: প্রথমবারের মতো মাল্টি-আর্মড ব্যান্ডিট RAG সিস্টেমে প্রবর্তন করে, দৃঢ় তাত্ত্বিক ভিত্তি সহ
উচ্চ ব্যবহারিক মূল্য: নির্ভুলতা এবং দক্ষতা উভয়ই অপ্টিমাইজ করে, গুরুত্বপূর্ণ প্রয়োগ মূল্য রয়েছে
ব্যাপক পরীক্ষা: ৬টি বিভিন্ন ধরনের ডেটাসেটে ব্যাপক মূল্যায়ন পরিচালনা করে
যুক্তিসঙ্গত পদ্ধতি: গতিশীল পুরস্কার ফাংশন ডিজাইন চতুর, একাধিক উদ্দেশ্য ভারসাম্য রাখে

অপূর্ণতা

জটিলতা বৃদ্ধি: সহজ শ্রেণীবিভাগ পদ্ধতির তুলনায়, অতিরিক্ত অ্যালগরিদম জটিলতা প্রবর্তন করে
প্যারামিটার সংবেদনশীলতা: পুরস্কার ফাংশনে ভারসাম্য প্যারামিটার λ বিভিন্ন ডেটাসেটের জন্য সামঞ্জস্যের প্রয়োজন
অপর্যাপ্ত তাত্ত্বিক বিশ্লেষণ: সংমিশ্রণ এবং সর্বোত্তমতার তাত্ত্বিক গ্যারান্টি অভাব

প্রভাব

একাডেমিক অবদান: RAG সিস্টেম অপ্টিমাইজেশনের জন্য নতুন গবেষণা দিকনির্দেশনা প্রদান করে
ব্যবহারিক প্রয়োগ: পদ্ধতি শক্তিশালী ব্যবহারিকতা রয়েছে, প্রকৃত সিস্টেমে প্রয়োগ করা যায়
পুনরুৎপাদনযোগ্যতা: সম্পূর্ণ কোড বাস্তবায়ন প্রদান করে, পুনরুৎপাদন এবং সম্প্রসারণ সহজতর করে

প্রযোজ্য পরিস্থিতি

জ্ঞান-নিবিড় প্রশ্নোত্তর: বিশেষত নির্ভুলতা এবং দক্ষতার ভারসাম্য প্রয়োজন এমন পরিস্থিতিতে উপযুক্ত
মাল্টি-জটিলতা প্রশ্ন প্রক্রিয়াকরণ: সহজ থেকে জটিল বিভিন্ন প্রশ্ন পরিচালনা করতে পারে
সম্পদ-সীমিত পরিবেশ: গণনামূলক সম্পদ সীমিত থাকলে পুনরুদ্ধার খরচ অপ্টিমাইজ করতে পারে

তথ্যসূত্র

Lewis, P., et al. (2020). Retrieval-augmented generation for knowledge-intensive nlp tasks. NeurIPS.
Jeong, S., et al. (2024). Adaptive-rag: Learning to adapt retrieval-augmented large language models through question complexity. arXiv preprint.
Katehakis, M. N., & Veinott Jr, A. F. (1987). The multi-armed bandit problem: decomposition and computation. Mathematics of Operations Research.

সামগ্রিক মূল্যায়ন: এই পত্রটি একটি উদ্ভাবনী এবং ব্যবহারিক RAG অপ্টিমাইজেশন কাঠামো প্রস্তাব করে, মাল্টি-আর্মড ব্যান্ডিট অ্যালগরিদমের মাধ্যমে পুনরুদ্ধার কৌশলের গতিশীল নির্বাচন বাস্তবায়ন করে, উচ্চ নির্ভুলতা বজায় রেখে গণনামূলক খরচ উল্লেখযোগ্যভাবে হ্রাস করে। পদ্ধতিটি দৃঢ় তাত্ত্বিক ভিত্তি রয়েছে, পরীক্ষামূলক ফলাফল প্রভাবশালী, এবং RAG সিস্টেমের আরও উন্নয়নের জন্য মূল্যবান অন্তর্দৃষ্টি প্রদান করে।