2025-11-13T01:58:10.933950

MBA-RAG: a Bandit Approach for Adaptive Retrieval-Augmented Generation through Question Complexity

Tang, Gao, Li et al.

Retrieval Augmented Generation (RAG) has proven to be highly effective in boosting the generative performance of language model in knowledge-intensive tasks. However, existing RAG framework either indiscriminately perform retrieval or rely on rigid single-class classifiers to select retrieval methods, leading to inefficiencies and suboptimal performance across queries of varying complexity. To address these challenges, we propose a reinforcement learning-based framework that dynamically selects the most suitable retrieval strategy based on query complexity. % our solution Our approach leverages a multi-armed bandit algorithm, which treats each retrieval method as a distinct ``arm'' and adapts the selection process by balancing exploration and exploitation. Additionally, we introduce a dynamic reward function that balances accuracy and efficiency, penalizing methods that require more retrieval steps, even if they lead to a correct result. Our method achieves new state of the art results on multiple single-hop and multi-hop datasets while reducing retrieval costs. Our code are available at https://github.com/FUTUREEEEEE/MBA .

academic

MBA-RAG: प्रश्न जटिलता के माध्यम से अनुकूली पुनर्प्राप्ति-संवर्धित पीढ़ी के लिए एक बैंडिट दृष्टिकोण

मूल जानकारी

पेपर ID: 2412.01572
शीर्षक: MBA-RAG: a Bandit Approach for Adaptive Retrieval-Augmented Generation through Question Complexity
लेखक: Xiaqiang Tang, Qiang Gao, Jian Li, Nan Du, Qi Li, Sihong Xie
संबद्ध संस्थान: हांगकांग विज्ञान और प्रौद्योगिकी विश्वविद्यालय (गुआंगझोउ), टेंसेंट मिक्सयुआन, वुहान विश्वविद्यालय, आयोवा स्टेट विश्वविद्यालय
वर्गीकरण: cs.AI
प्रकाशन तिथि: 1 जनवरी 2025 (arXiv v4)
पेपर लिंक: https://arxiv.org/abs/2412.01572
कोड लिंक: https://github.com/FUTUREEEEEE/MBA

सारांश

पुनर्प्राप्ति-संवर्धित पीढ़ी (RAG) ज्ञान-गहन कार्यों में भाषा मॉडल के जनरेशन प्रदर्शन को महत्वपूर्ण रूप से बेहतर बनाता है। हालांकि, मौजूदा RAG ढांचे या तो भेदभाव के बिना पुनर्प्राप्ति करते हैं या पुनर्प्राप्ति विधि चुनने के लिए कठोर एकल-वर्ग वर्गीकारक पर निर्भर करते हैं, जिससे विभिन्न जटिलता वाली क्वेरीज़ में अक्षमता और उप-इष्टतम प्रदर्शन होता है। इन चुनौतियों को संबोधित करने के लिए, यह पेपर एक सुदृढ़ीकरण सीखने-आधारित ढांचा प्रस्तावित करता है जो क्वेरी जटिलता के आधार पर सबसे उपयुक्त पुनर्प्राप्ति रणनीति को गतिशील रूप से चुन सकता है। यह विधि बहु-सशस्त्र दस्यु (Multi-Armed Bandit) एल्गोरिदम का उपयोग करती है, प्रत्येक पुनर्प्राप्ति विधि को विभिन्न "भुजाओं" के रूप में मानती है, और अन्वेषण और शोषण को संतुलित करके चयन प्रक्रिया को अनुकूलित करती है। इसके अतिरिक्त, एक गतिशील पुरस्कार फ़ंक्शन पेश किया जाता है जो सटीकता और दक्षता को संतुलित करता है, यहां तक कि सही परिणाम प्राप्त करने की स्थिति में भी अधिक पुनर्प्राप्ति चरणों की आवश्यकता वाली विधियों को दंडित करता है। यह विधि कई एकल-हॉप और बहु-हॉप डेटासेट पर नए SOTA परिणाम प्राप्त करती है, साथ ही पुनर्प्राप्ति लागत को कम करती है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

मौजूदा RAG सिस्टम निम्नलिखित मुख्य समस्याओं का सामना करते हैं:

पुनर्प्राप्ति रणनीति का अनुचित चयन: अधिकांश RAG ढांचे सभी क्वेरीज़ के लिए भेदभाव के बिना पुनर्प्राप्ति करते हैं, जो अनावश्यक या विषय से हटे हुए पैराग्राफ़ को शामिल कर सकते हैं
एकल विधि की सीमा: सभी क्वेरीज़ के लिए एकल पुनर्प्राप्ति विधि का उपयोग अक्षम है, सरल क्वेरीज़ अनावश्यक कम्प्यूटेशनल ओवरहेड उत्पन्न करती हैं, जटिल क्वेरीज़ को पर्याप्त रूप से संभाला नहीं जा सकता है
अनुचित पर्यवेक्षण संकेत: AdaptiveRAG जैसी मौजूदा अनुकूली विधियां अनुमानी पर्यवेक्षण का उपयोग करती हैं, यह मानते हुए कि प्रत्येक क्वेरी के लिए केवल एक इष्टतम रणनीति है, और सबसे कम पुनर्प्राप्ति लागत वाले पथ को चुनने की प्रवृत्ति रखती हैं

अनुसंधान प्रेरणा

इस पेपर की मूल प्रेरणा एक ऐसा ढांचा विकसित करना है जो:

क्वेरी जटिलता के अनुकूल: समस्या की जटिलता के आधार पर बुद्धिमानी से पुनर्प्राप्ति रणनीति चुनता है
सटीकता और दक्षता को संतुलित करता है: उत्तर की गुणवत्ता सुनिश्चित करते हुए कम्प्यूटेशनल लागत को कम करता है
बहु-रणनीति अन्वेषण का समर्थन करता है: कई रणनीतियों को सही उत्तर देने की अनुमति देता है, न कि एकल "इष्टतम" पथ को बाध्य करता है

मुख्य योगदान

MBA-RAG ढांचा प्रस्तावित करता है: RAG सिस्टम की पुनर्प्राप्ति रणनीति चयन के लिए बहु-सशस्त्र दस्यु एल्गोरिदम को पहली बार लागू करता है, गतिशील अनुकूली पुनर्प्राप्ति को लागू करता है
गतिशील पुरस्कार फ़ंक्शन डिज़ाइन करता है: सटीकता और कम्प्यूटेशनल दक्षता को नवीन तरीके से संयोजित करता है, उच्च लागत वाली विधियों को दंडित करके संसाधन उपयोग को अनुकूलित करता है
SOTA प्रदर्शन प्राप्त करता है: 6 डेटासेट पर सर्वश्रेष्ठ परिणाम प्राप्त करता है, साथ ही पुनर्प्राप्ति लागत को 20% कम करता है
लचीली पर्यवेक्षण तंत्र प्रदान करता है: कठोर एकल-लेबल पर्यवेक्षण के बजाय आंशिक जानकारी पर्यवेक्षण का उपयोग करता है, मॉडल को कई प्रभावी रणनीतियों का अन्वेषण करने की अनुमति देता है

विधि विवरण

कार्य परिभाषा

क्वेरी x दिए गए, RAG सिस्टम को निम्नलिखित की आवश्यकता है:

पुनर्प्राप्ति चरण: मॉड्यूल R क्वेरी x के लिए संबंधित दस्तावेज़ D को पुनः प्राप्त करता है
जनरेशन चरण: LLM x और D का उपयोग करके प्रतिक्रिया ā = LLM(yt|x,D) उत्पन्न करता है

यह पेपर इसे बहु-सशस्त्र दस्यु समस्या के रूप में पुनः परिभाषित करता है, जहां प्रत्येक पुनर्प्राप्ति विधि (कोई पुनर्प्राप्ति नहीं, एकल पुनर्प्राप्ति, बहु-पुनर्प्राप्ति) एक "भुजा" के रूप में कार्य करती है।

मॉडल आर्किटेक्चर

1. क्वेरी एन्कोडिंग और भुजा चयन

एन्कोडर: उपयोगकर्ता क्वेरी को एन्कोड करने के लिए DistilBERT का उपयोग करता है, क्रिया वितरण z = fθ(x) उत्पन्न करता है
चयन रणनीति: अन्वेषण और शोषण को संतुलित करने के लिए ε-लालची रणनीति अपनाता है:
- संभावना (1-ε) के साथ a = argmax(z) चुनता है
- संभावना ε के साथ यादृच्छिक रूप से जनरेशन विधि चुनता है

2. सीखने का एल्गोरिदम

उद्देश्य फ़ंक्शन वास्तविक पुरस्कार ra और पूर्वानुमानित पुरस्कार fθ(x)a के बीच वर्ग त्रुटि को कम करना है:

min_θ (ra - fθ(x)a)²

पैरामीटर अपडेट नियम:

θt+1 = θt - α∇θ((ra - fθ(x)a)²)

3. गतिशील पुरस्कार फ़ंक्शन

ra = A(y, ŷa) - λC(a)

जहां:

A(y, ŷa): जनरेशन गुणवत्ता मेट्रिक (जैसे सटीक मिलान)
C(a): विधि a की कम्प्यूटेशनल लागत (जैसे पुनर्प्राप्ति चरणों की संख्या)
λ: सटीकता और दक्षता को संतुलित करने वाला स्केलिंग कारक

तकनीकी नवाचार बिंदु

बहु-सशस्त्र दस्यु अनुकूलन: पुनर्प्राप्ति रणनीति चयन को बहु-सशस्त्र दस्यु समस्या के रूप में मॉडल करता है, प्रत्येक पुनर्प्राप्ति विधि एक "भुजा" के अनुरूप है
आंशिक जानकारी पर्यवेक्षण: केवल चयनित रणनीति के लिए प्रतिक्रिया प्रदान करता है, अचयनित रणनीतियों को दंडित नहीं करता है
लागत-जागरूक पुरस्कार: गतिशील पुरस्कार फ़ंक्शन सटीकता और कम्प्यूटेशनल दक्षता दोनों पर विचार करता है
अन्वेषण-शोषण संतुलन: ε-लालची रणनीति के माध्यम से उप-इष्टतम समाधान में जल्दी अभिसरण से बचता है

प्रयोगात्मक सेटअप

डेटासेट

एकल-हॉप QA डेटासेट:

SQuAD v1.1: पठन समझ कार्य
Natural Questions: खुली डोमेन प्रश्नोत्तरी
TriviaQA: ज्ञान प्रश्नोत्तरी

बहु-हॉप QA डेटासेट:

MuSiQue: बहु-चरण तर्क प्रश्नोत्तरी
HotpotQA: बहु-हॉप तर्क प्रश्नोत्तरी
2WikiMultiHopQA: विकिपीडिया-आधारित बहु-हॉप प्रश्नोत्तरी

मूल्यांकन मेट्रिक्स

प्रदर्शन मेट्रिक्स:

EM (Exact Match): पूर्वानुमानित परिणाम वास्तविक उत्तर से पूरी तरह मेल खाता है
F1: पूर्वानुमानित उत्तर और वास्तविक उत्तर के बीच शब्दावली ओवरलैप
Acc (Accuracy): पूर्वानुमानित उत्तर में वास्तविक उत्तर है या नहीं

दक्षता मेट्रिक्स:

Step: चयनित पुनर्प्राप्ति रणनीति के लिए आवश्यक पुनर्प्राप्ति चरणों की संख्या

तुलना विधियां

No-Retrieval: पुनर्प्राप्ति के बिना सीधे उत्तर उत्पन्न करता है
Adaptive-Retrieval: गतिशील रूप से निर्धारित करता है कि पुनर्प्राप्ति आवश्यक है या नहीं
Self-RAG: स्व-प्रतिबिंब के माध्यम से पुनर्प्राप्ति आवश्यकता को गतिशील रूप से निर्धारित करता है
DRAGIN: टोकन अनिश्चितता के आधार पर पुनर्प्राप्ति को सक्रिय करता है
SEAKR: स्व-जागरूक अनिश्चितता के आधार पर पुनर्प्राप्ति निर्णय लेता है
Adaptive-RAG: क्वेरी जटिलता के आधार पर पुनर्प्राप्ति रणनीति चुनने के लिए वर्गीकारक का उपयोग करता है

कार्यान्वयन विवरण

क्वेरी एन्कोडिंग मॉडल: DistilBERT
पुनर्प्राप्ति मॉडल: BM25
जनरेशन मॉडल: FLAN-T5-XL (3B)
सीखने की दर: 5e-5
अन्वेषण रणनीति: ε-लालची एल्गोरिदम

प्रयोगात्मक परिणाम

मुख्य परिणाम

विधि	EM	F1	Acc	Step
No Retrieval	14.87	21.12	15.97	0.00
Adaptive Retrieval	23.87	32.24	26.73	0.50
Self-RAG	9.90	20.79	31.57	0.72
Adaptive-RAG	37.17	46.94	42.10	2.17
MBA-RAG (हमारा)	38.80	48.61	43.57	1.80

मुख्य निष्कर्ष

प्रदर्शन सुधार: MBA-RAG सभी प्रदर्शन मेट्रिक्स पर आधारभूत विधियों को पार करता है
दक्षता अनुकूलन: Adaptive-RAG की तुलना में, पुनर्प्राप्ति चरणों में लगभग 17% की कमी (2.17 से 1.80 तक)
एकल-हॉप डेटासेट प्रदर्शन: SQuAD और TriviaQA पर महत्वपूर्ण सुधार, पुनर्प्राप्ति लागत में बड़ी कमी
बहु-हॉप डेटासेट प्रदर्शन: 2WikiMultiHopQA पर उत्कृष्ट सुधार, पुनर्प्राप्ति लागत में 20% से अधिक की कमी

वर्गीकरण सटीकता विश्लेषण

MBA-RAG की वर्गीकरण सटीकता 56.1% तक पहुंचती है, जो निम्नलिखित से काफी अधिक है:

Adaptive Retrieval: 42.0%
Self-RAG: 41.5%
Adaptive-RAG: 54.0%

विलोपन प्रयोग

बहु-लेबल वर्गीकारक के परिणामों की तुलना से पता चलता है कि पारंपरिक बहु-लेबल विधि अच्छा प्रदर्शन करती है, लेकिन पुनर्प्राप्ति लागत बहुत अधिक है (Step 4.514 तक पहुंचता है), जबकि MBA-RAG प्रदर्शन और दक्षता का सर्वोत्तम संतुलन प्राप्त करता है।

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

प्रभावशीलता सत्यापन: MBA-RAG कई डेटासेट पर SOTA प्रदर्शन प्राप्त करता है
दक्षता सुधार: पुनर्प्राप्ति लागत को महत्वपूर्ण रूप से कम करता है, औसतन 20% की कमी
मजबूत अनुकूलन क्षमता: क्वेरी जटिलता के आधार पर रणनीति को गतिशील रूप से समायोजित कर सकता है

सीमाएं

एल्गोरिदम निर्भरता: ढांचा विशिष्ट बहु-सशस्त्र दस्यु एल्गोरिदम संरचना पर निर्भर करता है
विस्तारशीलता चुनौतियां: नई अदेखी क्वेरी प्रकारों का सामना करते समय अनुकूलन समस्याएं हो सकती हैं
कम्प्यूटेशनल आवश्यकताएं: सुदृढ़ीकरण सीखने की विधि अतिरिक्त कम्प्यूटेशनल ओवरहेड ला सकती है

भविष्य की दिशाएं

एल्गोरिदम अनुकूलन: कम्प्यूटेशनल आवश्यकताओं को कम करने के लिए अधिक कुशल एल्गोरिदम का अन्वेषण करता है
सामान्यीकरण क्षमता: नई क्वेरी प्रकारों के लिए अनुकूलन क्षमता में सुधार करता है
अनुप्रयोग विस्तार: विधि को अधिक व्यापक NLP कार्यों में लागू करता है

गहन मूल्यांकन

लाभ

मजबूत नवाचार: RAG सिस्टम में बहु-सशस्त्र दस्यु को पहली बार शामिल करता है, ठोस सैद्धांतिक आधार के साथ
उच्च व्यावहारिक मूल्य: सटीकता और दक्षता दोनों को अनुकूलित करता है, महत्वपूर्ण अनुप्रयोग मूल्य के साथ
व्यापक प्रयोग: 6 विभिन्न प्रकार के डेटासेट पर व्यापक मूल्यांकन
तर्कसंगत विधि: गतिशील पुरस्कार फ़ंक्शन डिज़ाइन चतुर है, कई उद्देश्यों को संतुलित करता है

कमियां

जटिलता में वृद्धि: सरल वर्गीकरण विधियों की तुलना में अतिरिक्त एल्गोरिदम जटिलता पेश करता है
पैरामीटर संवेदनशीलता: पुरस्कार फ़ंक्शन में संतुलन पैरामीटर λ को विभिन्न डेटासेट के लिए समायोजित करने की आवश्यकता है
अपर्याप्त सैद्धांतिक विश्लेषण: अभिसरण और इष्टतमता के सैद्धांतिक गारंटी की कमी है

प्रभाव

शैक्षणिक योगदान: RAG सिस्टम अनुकूलन के लिए अनुसंधान की एक नई दिशा प्रदान करता है
व्यावहारिक अनुप्रयोग: विधि में मजबूत व्यावहारिकता है, वास्तविक सिस्टम में लागू की जा सकती है
पुनरुत्पादनशीलता: पूर्ण कोड कार्यान्वयन प्रदान करता है, पुनरुत्पादन और विस्तार को सुविधाजनक बनाता है

लागू परिस्थितियां

ज्ञान-गहन प्रश्नोत्तरी: विशेष रूप से सटीकता और दक्षता को संतुलित करने की आवश्यकता वाली परिस्थितियों के लिए उपयुक्त
बहु-जटिलता क्वेरी प्रसंस्करण: सरल से जटिल तक विभिन्न प्रकार की क्वेरीज़ को संभाल सकता है
संसाधन-सीमित वातावरण: कम्प्यूटेशनल संसाधन सीमित होने पर पुनर्प्राप्ति लागत को अनुकूलित कर सकता है

संदर्भ

Lewis, P., et al. (2020). Retrieval-augmented generation for knowledge-intensive nlp tasks. NeurIPS.
Jeong, S., et al. (2024). Adaptive-rag: Learning to adapt retrieval-augmented large language models through question complexity. arXiv preprint.
Katehakis, M. N., & Veinott Jr, A. F. (1987). The multi-armed bandit problem: decomposition and computation. Mathematics of Operations Research.

समग्र मूल्यांकन: यह पेपर एक नवीन और व्यावहारिक RAG अनुकूलन ढांचा प्रस्तावित करता है, जो बहु-सशस्त्र दस्यु एल्गोरिदम के माध्यम से पुनर्प्राप्ति रणनीति के गतिशील चयन को लागू करता है, उच्च सटीकता बनाए रखते हुए कम्प्यूटेशनल लागत को महत्वपूर्ण रूप से कम करता है। विधि में ठोस सैद्धांतिक आधार है, प्रयोगात्मक परिणाम प्रेरक हैं, और RAG सिस्टम के आगे विकास के लिए मूल्यवान अंतर्दृष्टि प्रदान करता है।

MBA-RAG: a Bandit Approach for Adaptive Retrieval-Augmented Generation through Question Complexity

MBA-RAG: प्रश्न जटिलता के माध्यम से अनुकूली पुनर्प्राप्ति-संवर्धित पीढ़ी के लिए एक बैंडिट दृष्टिकोण

मूल जानकारी

सारांश

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

अनुसंधान प्रेरणा

मुख्य योगदान

विधि विवरण

कार्य परिभाषा

मॉडल आर्किटेक्चर

1. क्वेरी एन्कोडिंग और भुजा चयन

2. सीखने का एल्गोरिदम

3. गतिशील पुरस्कार फ़ंक्शन

तकनीकी नवाचार बिंदु

प्रयोगात्मक सेटअप

डेटासेट

मूल्यांकन मेट्रिक्स

तुलना विधियां

कार्यान्वयन विवरण

प्रयोगात्मक परिणाम

मुख्य परिणाम

मुख्य निष्कर्ष

वर्गीकरण सटीकता विश्लेषण

विलोपन प्रयोग

संबंधित कार्य

RAG सिस्टम विकास

बहु-सशस्त्र दस्यु अनुप्रयोग

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

सीमाएं

भविष्य की दिशाएं

गहन मूल्यांकन

लाभ

कमियां

प्रभाव

लागू परिस्थितियां

संदर्भ