2025-11-13T01:58:10.933950

MBA-RAG: a Bandit Approach for Adaptive Retrieval-Augmented Generation through Question Complexity

Tang, Gao, Li et al.
Retrieval Augmented Generation (RAG) has proven to be highly effective in boosting the generative performance of language model in knowledge-intensive tasks. However, existing RAG framework either indiscriminately perform retrieval or rely on rigid single-class classifiers to select retrieval methods, leading to inefficiencies and suboptimal performance across queries of varying complexity. To address these challenges, we propose a reinforcement learning-based framework that dynamically selects the most suitable retrieval strategy based on query complexity. % our solution Our approach leverages a multi-armed bandit algorithm, which treats each retrieval method as a distinct ``arm'' and adapts the selection process by balancing exploration and exploitation. Additionally, we introduce a dynamic reward function that balances accuracy and efficiency, penalizing methods that require more retrieval steps, even if they lead to a correct result. Our method achieves new state of the art results on multiple single-hop and multi-hop datasets while reducing retrieval costs. Our code are available at https://github.com/FUTUREEEEEE/MBA .
academic

MBA-RAG: منهج قائم على آلية الحراس لتوليد معزز بالاسترجاع التكيفي من خلال تعقيد الأسئلة

المعلومات الأساسية

  • معرّف الورقة: 2412.01572
  • العنوان: MBA-RAG: منهج قائم على آلية الحراس لتوليد معزز بالاسترجاع التكيفي من خلال تعقيد الأسئلة
  • المؤلفون: Xiaqiang Tang, Qiang Gao, Jian Li, Nan Du, Qi Li, Sihong Xie
  • المؤسسات المنتسبة: جامعة هونج كونج للعلوم والتكنولوجيا (قوانغتشو)، Tencent Hunyuan، جامعة ووهان، جامعة ولاية أيوا
  • التصنيف: cs.AI
  • تاريخ النشر: 1 يناير 2025 (arXiv v4)
  • رابط الورقة: https://arxiv.org/abs/2412.01572
  • رابط الكود: https://github.com/FUTUREEEEEE/MBA

الملخص

يحسّن التوليد المعزز بالاسترجاع (RAG) بشكل كبير أداء نماذج اللغة في المهام الكثيفة المعرفة. ومع ذلك، تقوم الأطر الحالية إما بتنفيذ الاسترجاع بدون تمييز أو تعتمد على مصنفات فئة واحدة جامدة لاختيار طرق الاسترجاع، مما يؤدي إلى عدم الكفاءة والأداء دون الأمثل في الاستعلامات ذات التعقيد المختلف. لحل هذه التحديات، نقترح إطار عمل قائم على التعلم المعزز يمكنه اختيار استراتيجية الاسترجاع الأنسب ديناميكياً بناءً على تعقيد الاستعلام. تستخدم الطريقة خوارزمية آلية الحراس متعددة الأذرع، حيث تعتبر كل طريقة استرجاع كـ "ذراع" مختلفة، وتوازن بين الاستكشاف والاستغلال لتكييف عملية الاختيار. بالإضافة إلى ذلك، نقدم دالة مكافأة ديناميكية توازن بين الدقة والكفاءة، وتعاقب الطرق التي تتطلب خطوات استرجاع أكثر حتى عند الحصول على النتائج الصحيحة. تحقق الطريقة نتائج SOTA جديدة على عدة مجموعات بيانات ذات قفزة واحدة وقفزات متعددة، مع تقليل تكاليف الاسترجاع.

الخلفية البحثية والدافع

تعريف المشكلة

تعاني أنظمة RAG الحالية من المشاكل الأساسية التالية:

  1. اختيار استراتيجية الاسترجاع غير الملائم: تقوم معظم أطر RAG بتنفيذ الاسترجاع بدون تمييز لجميع الاستعلامات، مما قد يؤدي إلى إدراج فقرات غير ضرورية أو غير ذات صلة
  2. قيود الطريقة الواحدة: استخدام طريقة استرجاع واحدة لجميع الاستعلامات غير فعال، حيث تنتج الاستعلامات البسيطة تكاليف حسابية غير ضرورية، والاستعلامات المعقدة قد لا تحصل على معالجة كافية
  3. إشارات إشرافية غير دقيقة: تستخدم الطرق التكيفية الحالية مثل AdaptiveRAG إشرافاً استكشافياً، بافتراض أن كل استعلام له استراتيجية مثلى واحدة فقط، وتميل إلى اختيار المسار الذي يتطلب أقل تكاليف استرجاع

دافع البحث

يتمحور الدافع الأساسي لهذه الورقة حول تطوير نظام يمكنه:

  1. التكيف الديناميكي مع تعقيد الاستعلام: اختيار استراتيجية الاسترجاع بذكاء بناءً على درجة تعقيد المشكلة
  2. موازنة الدقة والكفاءة: تقليل التكاليف الحسابية مع ضمان جودة الإجابة
  3. دعم استكشاف استراتيجيات متعددة: السماح باحتمالية أن تنتج استراتيجيات متعددة إجابات صحيحة، بدلاً من فرض اختيار مسار "أمثل" واحد

المساهمات الأساسية

  1. اقتراح إطار MBA-RAG: تطبيق أول لخوارزمية آلية الحراس متعددة الأذرع على اختيار استراتيجية الاسترجاع في أنظمة RAG، مما يحقق الاسترجاع التكيفي الديناميكي
  2. تصميم دالة مكافأة ديناميكية: دمج مبتكر للدقة والكفاءة الحسابية، مع معاقبة الطرق عالية التكلفة لتحسين استخدام الموارد
  3. تحقيق أداء SOTA: الحصول على أفضل النتائج على 6 مجموعات بيانات، مع تقليل تكاليف الاسترجاع بنسبة 20%
  4. توفير آلية إشراف مرنة: استخدام الإشراف بمعلومات جزئية بدلاً من الإشراف الصارم بتسمية واحدة، مما يسمح للنموذج باستكشاف استراتيجيات فعالة متعددة

شرح الطريقة

تعريف المهمة

بالنظر إلى استعلام x، يحتاج نظام RAG إلى:

  1. مرحلة الاسترجاع: وحدة الاسترجاع R تسترجع المستندات ذات الصلة D للاستعلام x
  2. مرحلة التوليد: نموذج اللغة الكبير يستخدم x و D لتوليد الاستجابة ā = LLM(yt|x,D)

تعيد هذه الورقة تعريف هذا كمشكلة آلية حراس متعددة الأذرع، حيث تعمل كل طريقة استرجاع (بدون استرجاع، استرجاع واحد، استرجاع متعدد) كـ "ذراع" واحدة.

معمارية النموذج

1. ترميز الاستعلام واختيار الذراع

  • المشفر: استخدام DistilBERT لترميز استعلام المستخدم، مما ينتج توزيع الإجراء z = fθ(x)
  • استراتيجية الاختيار: تطبيق استراتيجية ε-贪心 لموازنة الاستكشاف والاستغلال:
    • اختيار a = argmax(z) باحتمالية (1-ε)
    • اختيار طريقة التوليد عشوائياً باحتمالية ε

2. خوارزمية التعلم

دالة الهدف هي تقليل الخطأ التربيعي بين المكافأة الفعلية ra والمكافأة المتنبأ بها fθ(x)a:

min_θ (ra - fθ(x)a)²

قاعدة تحديث المعاملات:

θt+1 = θt - α∇θ((ra - fθ(x)a)²)

3. دالة المكافأة الديناميكية

ra = A(y, ŷa) - λC(a)

حيث:

  • A(y, ŷa): مقياس جودة التوليد (مثل المطابقة الدقيقة)
  • C(a): التكلفة الحسابية للطريقة a (مثل عدد خطوات الاسترجاع)
  • λ: عامل التحجيم الذي يوازن بين الدقة والكفاءة

نقاط الابتكار التقني

  1. تكييف آلية الحراس متعددة الأذرع: نمذجة اختيار استراتيجية الاسترجاع كمشكلة آلية حراس متعددة الأذرع، حيث تتوافق كل طريقة استرجاع مع "ذراع" واحدة
  2. الإشراف بمعلومات جزئية: توفير تغذية راجعة فقط للاستراتيجية المختارة، دون معاقبة الاستراتيجيات غير المختارة
  3. مكافأة مدركة للتكلفة: دالة المكافأة الديناميكية تأخذ في الاعتبار الدقة والكفاءة الحسابية
  4. موازنة الاستكشاف والاستغلال: تجنب التقارب المبكر إلى حل دون الأمثل من خلال استراتيجية ε-贪心

إعداد التجارب

مجموعات البيانات

مجموعات بيانات الأسئلة والأجوبة ذات القفزة الواحدة:

  • SQuAD v1.1: مهمة فهم القراءة
  • Natural Questions: الأسئلة والأجوبة في المجال المفتوح
  • TriviaQA: الأسئلة والأجوبة المعرفية

مجموعات بيانات الأسئلة والأجوبة متعددة القفزات:

  • MuSiQue: الأسئلة والأجوبة متعددة الخطوات
  • HotpotQA: الأسئلة والأجوبة متعددة القفزات
  • 2WikiMultiHopQA: الأسئلة والأجوبة متعددة القفزات بناءً على ويكيبيديا

مقاييس التقييم

مقاييس الأداء:

  • EM (المطابقة الدقيقة): تطابق النتيجة المتنبأ بها تماماً مع الإجابة الحقيقية
  • F1: التداخل المعجمي بين الإجابة المتنبأ بها والإجابة الحقيقية
  • Acc (الدقة): ما إذا كانت الإجابة المتنبأ بها تحتوي على الإجابة الحقيقية

مقاييس الكفاءة:

  • Step: عدد خطوات الاسترجاع المطلوبة من قبل استراتيجية الاسترجاع المختارة

طرق المقارنة

  1. No-Retrieval: توليد الإجابة مباشرة دون استرجاع
  2. Adaptive-Retrieval: تحديد ديناميكي لما إذا كان الاسترجاع مطلوباً
  3. Self-RAG: اتخاذ قرار ديناميكي بشأن احتياجات الاسترجاع من خلال التأمل الذاتي
  4. DRAGIN: تفعيل الاسترجاع بناءً على عدم اليقين في الرموز
  5. SEAKR: تحديد الاسترجاع بناءً على عدم اليقين المدرك ذاتياً
  6. Adaptive-RAG: استخدام مصنف لاختيار استراتيجية الاسترجاع بناءً على تعقيد الاستعلام

تفاصيل التنفيذ

  • نموذج ترميز الاستعلام: DistilBERT
  • نموذج الاسترجاع: BM25
  • نموذج التوليد: FLAN-T5-XL (3B)
  • معدل التعلم: 5e-5
  • استراتيجية الاستكشاف: خوارزمية ε-贪心

نتائج التجارب

النتائج الرئيسية

الطريقةEMF1AccStep
No Retrieval14.8721.1215.970.00
Adaptive Retrieval23.8732.2426.730.50
Self-RAG9.9020.7931.570.72
Adaptive-RAG37.1746.9442.102.17
MBA-RAG (اقتراحنا)38.8048.6143.571.80

الاكتشافات الرئيسية

  1. تحسن الأداء: يتفوق MBA-RAG على جميع طرق الأساس في جميع مقاييس الأداء
  2. تحسين الكفاءة: مقارنة بـ Adaptive-RAG، انخفاض عدد خطوات الاسترجاع بحوالي 17% (من 2.17 إلى 1.80)
  3. الأداء على مجموعات بيانات القفزة الواحدة: تحسن كبير على SQuAD و TriviaQA، مع انخفاض كبير في تكاليف الاسترجاع
  4. الأداء على مجموعات بيانات القفزات المتعددة: تحسن بارز على 2WikiMultiHopQA، مع انخفاض تكاليف الاسترجاع بأكثر من 20%

تحليل دقة التصنيف

تحقق دقة التصنيف في MBA-RAG 56.1%، وهي أعلى بشكل ملحوظ من:

  • Adaptive Retrieval: 42.0%
  • Self-RAG: 41.5%
  • Adaptive-RAG: 54.0%

تجارب الاستئصال

تظهر المقارنة مع نتائج مصنف متعدد التسميات أن الطريقة التقليدية متعددة التسميات، على الرغم من أداء جيدة، إلا أن تكاليف الاسترجاع عالية جداً (Step تصل إلى 4.514)، بينما يحقق MBA-RAG أفضل توازن بين الأداء والكفاءة.

الأعمال ذات الصلة

تطور أنظمة RAG

  1. RAG التقليدي: الإطار المقترح من قبل Lewis et al. (2020) للاسترجاع والتوليد
  2. الاسترجاع التكيفي: طرق مثل SEAKR و FLARE تحقق الاسترجاع عند الحاجة
  3. الوعي بالتعقيد: AdaptiveRAG يختار الاستراتيجية بناءً على تعقيد الاستعلام

تطبيقات آلية الحراس متعددة الأذرع

تطبق هذه الورقة لأول مرة خوارزمية آلية الحراس متعددة الأذرع على أنظمة RAG، مما يوفر إطار نظري جديد لاختيار استراتيجية الاسترجاع.

الخلاصة والنقاش

الاستنتاجات الرئيسية

  1. التحقق من الفعالية: يحقق MBA-RAG أداء SOTA على عدة مجموعات بيانات
  2. تحسن الكفاءة: تقليل كبير في تكاليف الاسترجاع، بمتوسط انخفاض 20%
  3. قوة التكيف: القدرة على تعديل الاستراتيجية ديناميكياً بناءً على تعقيد الاستعلام

القيود

  1. الاعتماد على الخوارزمية: يعتمد الإطار على بنية خوارزمية محددة لآلية الحراس متعددة الأذرع
  2. تحديات التوسع: قد توجد مشاكل في التكيف عند مواجهة أنواع استعلامات جديدة لم يتم رؤيتها من قبل
  3. المتطلبات الحسابية: قد تقدم طرق التعلم المعزز تكاليف حسابية إضافية

الاتجاهات المستقبلية

  1. تحسين الخوارزمية: استكشاف خوارزميات أكثر كفاءة لتقليل المتطلبات الحسابية
  2. القدرة على التعميم: تحسين التكيف مع أنواع الاستعلامات الجديدة
  3. توسيع التطبيقات: تطبيق الطريقة على مهام معالجة اللغة الطبيعية الأوسع

التقييم المتعمق

المزايا

  1. قوة الابتكار: تطبيق أول لآلية الحراس متعددة الأذرع على أنظمة RAG، مع أساس نظري قوي
  2. قيمة عملية عالية: تحسين الدقة والكفاءة في نفس الوقت، مع قيمة تطبيقية مهمة
  3. تجارب شاملة: تقييم شامل على 6 مجموعات بيانات من أنواع مختلفة
  4. تصميم طريقة معقول: تصميم ذكي لدالة المكافأة الديناميكية، توازن بين أهداف متعددة

أوجه القصور

  1. زيادة التعقيد: مقارنة بالطرق البسيطة للتصنيف، يقدم تعقيداً خوارزمياً إضافياً
  2. حساسية المعاملات: معامل التوازن λ في دالة المكافأة يحتاج إلى تعديل لمجموعات بيانات مختلفة
  3. نقص التحليل النظري: غياب الضمانات النظرية للتقارب والأمثلية

التأثير

  1. المساهمة الأكاديمية: توفير اتجاه بحثي جديد لتحسين أنظمة RAG
  2. التطبيق العملي: الطريقة لها قابلية عملية قوية، يمكن تطبيقها على الأنظمة الفعلية
  3. إمكانية التكرار: توفير تنفيذ كود كامل، يسهل التكرار والتوسيع

السيناريوهات المناسبة

  1. الأسئلة والأجوبة الكثيفة المعرفة: مناسبة بشكل خاص للسيناريوهات التي تحتاج إلى موازنة الدقة والكفاءة
  2. معالجة الاستعلامات متعددة التعقيد: القدرة على التعامل مع استعلامات متنوعة من البسيطة إلى المعقدة
  3. البيئات محدودة الموارد: تحسين تكاليف الاسترجاع عندما تكون الموارد الحسابية محدودة

المراجع

  1. Lewis, P., et al. (2020). Retrieval-augmented generation for knowledge-intensive nlp tasks. NeurIPS.
  2. Jeong, S., et al. (2024). Adaptive-rag: Learning to adapt retrieval-augmented large language models through question complexity. arXiv preprint.
  3. Katehakis, M. N., & Veinott Jr, A. F. (1987). The multi-armed bandit problem: decomposition and computation. Mathematics of Operations Research.

التقييم الإجمالي: تقترح هذه الورقة إطار عمل مبتكر وعملي لتحسين RAG، حيث تحقق اختيار استراتيجية الاسترجاع الديناميكي من خلال خوارزمية آلية الحراس متعددة الأذرع، مع الحفاظ على دقة عالية وتقليل كبير في التكاليف الحسابية. يتمتع الأسلوب بأساس نظري قوي، ونتائج تجريبية مقنعة، ويوفر أفكاراً قيمة لمزيد من تطور أنظمة RAG.