2025-11-13T01:58:10.933950

MBA-RAG: a Bandit Approach for Adaptive Retrieval-Augmented Generation through Question Complexity

Tang, Gao, Li et al.

Retrieval Augmented Generation (RAG) has proven to be highly effective in boosting the generative performance of language model in knowledge-intensive tasks. However, existing RAG framework either indiscriminately perform retrieval or rely on rigid single-class classifiers to select retrieval methods, leading to inefficiencies and suboptimal performance across queries of varying complexity. To address these challenges, we propose a reinforcement learning-based framework that dynamically selects the most suitable retrieval strategy based on query complexity. % our solution Our approach leverages a multi-armed bandit algorithm, which treats each retrieval method as a distinct ``arm'' and adapts the selection process by balancing exploration and exploitation. Additionally, we introduce a dynamic reward function that balances accuracy and efficiency, penalizing methods that require more retrieval steps, even if they lead to a correct result. Our method achieves new state of the art results on multiple single-hop and multi-hop datasets while reducing retrieval costs. Our code are available at https://github.com/FUTUREEEEEE/MBA .

academic

MBA-RAG: a Bandit Approach for Adaptive Retrieval-Augmented Generation through Question Complexity

基本信息

论文ID: 2412.01572
标题: MBA-RAG: a Bandit Approach for Adaptive Retrieval-Augmented Generation through Question Complexity
作者: Xiaqiang Tang, Qiang Gao, Jian Li, Nan Du, Qi Li, Sihong Xie
所属机构: 香港科技大学(广州)、腾讯混元、武汉大学、爱荷华州立大学
分类: cs.AI
发表时间: 2025年1月1日 (arXiv v4)
论文链接: https://arxiv.org/abs/2412.01572
代码链接: https://github.com/FUTUREEEEEE/MBA

摘要

检索增强生成(RAG)在知识密集型任务中显著提升了语言模型的生成性能。然而，现有RAG框架要么无差别地执行检索，要么依赖僵化的单类分类器来选择检索方法，导致在不同复杂度查询中效率低下和性能次优。为解决这些挑战，本文提出了一个基于强化学习的框架，能够根据查询复杂度动态选择最合适的检索策略。该方法利用多臂老虎机算法，将每种检索方法视为不同的"臂"，通过平衡探索和利用来适应选择过程。此外，引入了平衡准确性和效率的动态奖励函数，即使在获得正确结果的情况下，也会惩罚需要更多检索步骤的方法。该方法在多个单跳和多跳数据集上取得了新的SOTA结果，同时降低了检索成本。

研究背景与动机

问题定义

现有RAG系统存在以下核心问题：

检索策略选择不当：大多数RAG框架对所有查询无差别地执行检索，可能引入不必要或离题的段落
单一方法局限性：对所有查询使用单一检索方法效率低下，简单查询会产生不必要的计算开销，复杂查询可能得不到充分处理
监督信号不准确：现有自适应方法如AdaptiveRAG使用启发式监督，假设每个查询只有一个最优策略，且倾向于选择检索成本最少的路径

研究动机

本文的核心动机是开发一个能够：

动态适应查询复杂度：根据问题的复杂程度智能选择检索策略
平衡准确性与效率：在保证答案质量的同时最小化计算成本
支持多策略探索：允许多种策略都可能产生正确答案，而不是强制选择单一"最优"路径

核心贡献

提出MBA-RAG框架：首次将多臂老虎机算法应用于RAG系统的检索策略选择，实现动态自适应检索
设计动态奖励函数：创新性地将准确性和计算效率结合，通过惩罚高成本方法来优化资源使用
实现SOTA性能：在6个数据集上取得最佳结果，同时将检索成本降低20%
提供灵活监督机制：使用部分信息监督替代严格的单标签监督，允许模型探索多种有效策略

方法详解

任务定义

给定查询x，RAG系统需要：

检索阶段：模块R为查询x检索相关文档D
生成阶段：LLM使用x和D生成响应ā = LLM(yt|x,D)

本文将此重新定义为多臂老虎机问题，其中每种检索方法(无检索、单次检索、多次检索)作为一个"臂"。

模型架构

1. 查询编码与臂选择

编码器：使用DistilBERT对用户查询进行编码，生成动作分布z = fθ(x)
选择策略：采用ε-贪心策略平衡探索与利用：
- 以概率(1-ε)选择a = argmax(z)
- 以概率ε随机选择生成方法

2. 学习算法

目标函数为最小化实际奖励ra与预测奖励fθ(x)a之间的平方误差：

min_θ (ra - fθ(x)a)²

参数更新规则：

θt+1 = θt - α∇θ((ra - fθ(x)a)²)

3. 动态奖励函数

ra = A(y, ŷa) - λC(a)

其中：

A(y, ŷa)：生成质量指标(如精确匹配)
C(a)：方法a的计算成本(如检索步数)
λ：平衡准确性和效率的缩放因子

技术创新点

多臂老虎机适配：将检索策略选择建模为多臂老虎机问题，每个检索方法对应一个"臂"
部分信息监督：只对选中的策略提供反馈，不惩罚未选择的策略
成本感知奖励：动态奖励函数同时考虑准确性和计算效率
探索-利用平衡：通过ε-贪心策略避免过早收敛到次优解

实验设置

数据集

单跳QA数据集：

SQuAD v1.1：阅读理解任务
Natural Questions：开放域问答
TriviaQA：知识问答

多跳QA数据集：

MuSiQue：多步推理问答
HotpotQA：多跳推理问答
2WikiMultiHopQA：基于维基百科的多跳问答

评价指标

性能指标：

EM (Exact Match)：预测结果与真实答案完全匹配
F1：预测答案与真实答案的词汇重叠度
Acc (Accuracy)：预测答案是否包含真实答案

效率指标：

Step：所选检索策略需要的检索步数

对比方法

No-Retrieval：直接生成答案不进行检索
Adaptive-Retrieval：动态判断是否需要检索
Self-RAG：通过自反思动态决定检索需求
DRAGIN：基于token不确定性激活检索
SEAKR：基于自感知不确定性决定检索
Adaptive-RAG：使用分类器根据查询复杂度选择检索策略

实现细节

查询编码模型：DistilBERT
检索模型：BM25
生成模型：FLAN-T5-XL (3B)
学习率：5e-5
探索策略：ε-贪心算法

实验结果

主要结果

方法	EM	F1	Acc	Step
No Retrieval	14.87	21.12	15.97	0.00
Adaptive Retrieval	23.87	32.24	26.73	0.50
Self-RAG	9.90	20.79	31.57	0.72
Adaptive-RAG	37.17	46.94	42.10	2.17
MBA-RAG (Ours)	38.80	48.61	43.57	1.80

关键发现

性能提升：MBA-RAG在所有性能指标上均超越基线方法
效率优化：相比Adaptive-RAG，检索步数减少约17% (从2.17降至1.80)
单跳数据集表现：在SQuAD和TriviaQA上取得显著改进，检索成本大幅降低
多跳数据集表现：在2WikiMultiHopQA上取得突出改进，检索成本降低超过20%

分类准确性分析

MBA-RAG的分类准确性达到56.1%，显著高于：

Adaptive Retrieval：42.0%
Self-RAG：41.5%
Adaptive-RAG：54.0%

消融实验

对比多标签分类器的结果显示，传统多标签方法虽然性能较好，但检索成本过高(Step达到4.514)，而MBA-RAG实现了性能与效率的最佳平衡。

结论与讨论

主要结论

有效性验证：MBA-RAG在多个数据集上取得SOTA性能
效率提升：显著降低检索成本，平均减少20%
适应性强：能够根据查询复杂度动态调整策略

局限性

算法依赖：框架依赖于特定的多臂老虎机算法结构
扩展性挑战：在面对新的未见查询类型时可能存在适应性问题
计算需求：强化学习方法可能引入额外的计算开销

未来方向

算法优化：探索更高效的算法以减少计算需求
泛化能力：提升对新查询类型的适应能力
应用扩展：将方法应用到更广泛的NLP任务

深度评价

优点

创新性强：首次将多臂老虎机引入RAG系统，理论基础扎实
实用价值高：同时优化准确性和效率，具有重要应用价值
实验充分：在6个不同类型数据集上进行全面评估
方法合理：动态奖励函数设计巧妙，平衡了多个目标

不足

复杂度增加：相比简单分类方法，引入了额外的算法复杂性
参数敏感：奖励函数中的平衡参数λ需要针对不同数据集调整
理论分析不足：缺乏收敛性和最优性的理论保证

影响力

学术贡献：为RAG系统优化提供了新的研究方向
实际应用：方法具有较强的实用性，可应用于实际系统
可复现性：提供了完整的代码实现，便于复现和扩展

适用场景

知识密集型问答：特别适合需要平衡准确性和效率的场景
多复杂度查询处理：能够处理从简单到复杂的各种查询
资源受限环境：在计算资源有限时能够优化检索成本

参考文献

Lewis, P., et al. (2020). Retrieval-augmented generation for knowledge-intensive nlp tasks. NeurIPS.
Jeong, S., et al. (2024). Adaptive-rag: Learning to adapt retrieval-augmented large language models through question complexity. arXiv preprint.
Katehakis, M. N., & Veinott Jr, A. F. (1987). The multi-armed bandit problem: decomposition and computation. Mathematics of Operations Research.

总体评价：本文提出了一个创新且实用的RAG优化框架，通过多臂老虎机算法实现了检索策略的动态选择，在保持高准确性的同时显著降低了计算成本。方法理论基础扎实，实验结果令人信服，为RAG系统的进一步发展提供了有价值的思路。

MBA-RAG: a Bandit Approach for Adaptive Retrieval-Augmented Generation through Question Complexity

MBA-RAG: a Bandit Approach for Adaptive Retrieval-Augmented Generation through Question Complexity

基本信息

摘要

研究背景与动机

问题定义

研究动机

核心贡献

方法详解

任务定义

模型架构

1. 查询编码与臂选择

2. 学习算法

3. 动态奖励函数

技术创新点

实验设置

数据集

评价指标

对比方法

实现细节

实验结果

主要结果

关键发现

分类准确性分析

消融实验

相关工作

RAG系统发展

多臂老虎机应用

结论与讨论

主要结论

局限性

未来方向

深度评价

优点

不足

影响力

适用场景

参考文献