MBA-RAG: a Bandit Approach for Adaptive Retrieval-Augmented Generation through Question Complexity
Tang, Gao, Li et al.
Retrieval Augmented Generation (RAG) has proven to be highly effective in boosting the generative performance of language model in knowledge-intensive tasks. However, existing RAG framework either indiscriminately perform retrieval or rely on rigid single-class classifiers to select retrieval methods, leading to inefficiencies and suboptimal performance across queries of varying complexity. To address these challenges, we propose a reinforcement learning-based framework that dynamically selects the most suitable retrieval strategy based on query complexity. % our solution Our approach leverages a multi-armed bandit algorithm, which treats each retrieval method as a distinct ``arm'' and adapts the selection process by balancing exploration and exploitation. Additionally, we introduce a dynamic reward function that balances accuracy and efficiency, penalizing methods that require more retrieval steps, even if they lead to a correct result. Our method achieves new state of the art results on multiple single-hop and multi-hop datasets while reducing retrieval costs. Our code are available at https://github.com/FUTUREEEEEE/MBA .
academic
MBA-RAG: منهج قائم على آلية الحراس لتوليد معزز بالاسترجاع التكيفي من خلال تعقيد الأسئلة
يحسّن التوليد المعزز بالاسترجاع (RAG) بشكل كبير أداء نماذج اللغة في المهام الكثيفة المعرفة. ومع ذلك، تقوم الأطر الحالية إما بتنفيذ الاسترجاع بدون تمييز أو تعتمد على مصنفات فئة واحدة جامدة لاختيار طرق الاسترجاع، مما يؤدي إلى عدم الكفاءة والأداء دون الأمثل في الاستعلامات ذات التعقيد المختلف. لحل هذه التحديات، نقترح إطار عمل قائم على التعلم المعزز يمكنه اختيار استراتيجية الاسترجاع الأنسب ديناميكياً بناءً على تعقيد الاستعلام. تستخدم الطريقة خوارزمية آلية الحراس متعددة الأذرع، حيث تعتبر كل طريقة استرجاع كـ "ذراع" مختلفة، وتوازن بين الاستكشاف والاستغلال لتكييف عملية الاختيار. بالإضافة إلى ذلك، نقدم دالة مكافأة ديناميكية توازن بين الدقة والكفاءة، وتعاقب الطرق التي تتطلب خطوات استرجاع أكثر حتى عند الحصول على النتائج الصحيحة. تحقق الطريقة نتائج SOTA جديدة على عدة مجموعات بيانات ذات قفزة واحدة وقفزات متعددة، مع تقليل تكاليف الاسترجاع.
تعاني أنظمة RAG الحالية من المشاكل الأساسية التالية:
اختيار استراتيجية الاسترجاع غير الملائم: تقوم معظم أطر RAG بتنفيذ الاسترجاع بدون تمييز لجميع الاستعلامات، مما قد يؤدي إلى إدراج فقرات غير ضرورية أو غير ذات صلة
قيود الطريقة الواحدة: استخدام طريقة استرجاع واحدة لجميع الاستعلامات غير فعال، حيث تنتج الاستعلامات البسيطة تكاليف حسابية غير ضرورية، والاستعلامات المعقدة قد لا تحصل على معالجة كافية
إشارات إشرافية غير دقيقة: تستخدم الطرق التكيفية الحالية مثل AdaptiveRAG إشرافاً استكشافياً، بافتراض أن كل استعلام له استراتيجية مثلى واحدة فقط، وتميل إلى اختيار المسار الذي يتطلب أقل تكاليف استرجاع
تظهر المقارنة مع نتائج مصنف متعدد التسميات أن الطريقة التقليدية متعددة التسميات، على الرغم من أداء جيدة، إلا أن تكاليف الاسترجاع عالية جداً (Step تصل إلى 4.514)، بينما يحقق MBA-RAG أفضل توازن بين الأداء والكفاءة.
Lewis, P., et al. (2020). Retrieval-augmented generation for knowledge-intensive nlp tasks. NeurIPS.
Jeong, S., et al. (2024). Adaptive-rag: Learning to adapt retrieval-augmented large language models through question complexity. arXiv preprint.
Katehakis, M. N., & Veinott Jr, A. F. (1987). The multi-armed bandit problem: decomposition and computation. Mathematics of Operations Research.
التقييم الإجمالي: تقترح هذه الورقة إطار عمل مبتكر وعملي لتحسين RAG، حيث تحقق اختيار استراتيجية الاسترجاع الديناميكي من خلال خوارزمية آلية الحراس متعددة الأذرع، مع الحفاظ على دقة عالية وتقليل كبير في التكاليف الحسابية. يتمتع الأسلوب بأساس نظري قوي، ونتائج تجريبية مقنعة، ويوفر أفكاراً قيمة لمزيد من تطور أنظمة RAG.