MBA-RAG: a Bandit Approach for Adaptive Retrieval-Augmented Generation through Question Complexity
Tang, Gao, Li et al.
Retrieval Augmented Generation (RAG) has proven to be highly effective in boosting the generative performance of language model in knowledge-intensive tasks. However, existing RAG framework either indiscriminately perform retrieval or rely on rigid single-class classifiers to select retrieval methods, leading to inefficiencies and suboptimal performance across queries of varying complexity. To address these challenges, we propose a reinforcement learning-based framework that dynamically selects the most suitable retrieval strategy based on query complexity. % our solution Our approach leverages a multi-armed bandit algorithm, which treats each retrieval method as a distinct ``arm'' and adapts the selection process by balancing exploration and exploitation. Additionally, we introduce a dynamic reward function that balances accuracy and efficiency, penalizing methods that require more retrieval steps, even if they lead to a correct result. Our method achieves new state of the art results on multiple single-hop and multi-hop datasets while reducing retrieval costs. Our code are available at https://github.com/FUTUREEEEEE/MBA .
검색-증강 생성(RAG)은 지식 집약적 작업에서 언어 모델의 생성 성능을 크게 향상시켰다. 그러나 기존 RAG 프레임워크는 무차별적으로 검색을 수행하거나 경직된 단일 분류기에 의존하여 검색 방법을 선택하므로, 서로 다른 복잡도의 쿼리에서 비효율적이고 성능이 최적이 아니다. 이러한 문제를 해결하기 위해 본 논문은 쿼리 복잡도에 따라 가장 적절한 검색 전략을 동적으로 선택할 수 있는 강화학습 기반 프레임워크를 제안한다. 본 방법은 다중 팔 슬롯머신(Multi-Armed Bandit) 알고리즘을 활용하여 각 검색 방법을 서로 다른 "팔"로 취급하고, 탐색과 활용의 균형을 통해 선택 과정을 적응시킨다. 또한 정확성과 효율성을 균형있게 고려하는 동적 보상 함수를 도입하여, 올바른 결과를 얻더라도 더 많은 검색 단계가 필요한 방법을 페널티한다. 본 방법은 여러 단일 홉 및 다중 홉 데이터셋에서 새로운 최고 성능(SOTA)을 달성하면서 검색 비용을 감소시켰다.
Lewis, P., et al. (2020). Retrieval-augmented generation for knowledge-intensive nlp tasks. NeurIPS.
Jeong, S., et al. (2024). Adaptive-rag: Learning to adapt retrieval-augmented large language models through question complexity. arXiv preprint.
Katehakis, M. N., & Veinott Jr, A. F. (1987). The multi-armed bandit problem: decomposition and computation. Mathematics of Operations Research.
종합 평가: 본 논문은 다중 팔 슬롯머신 알고리즘을 통해 검색 전략의 동적 선택을 구현하는 혁신적이고 실용적인 RAG 최적화 프레임워크를 제안한다. 높은 정확성을 유지하면서 계산 비용을 현저히 감소시킨다. 방법의 이론적 기초가 견고하고 실험 결과가 설득력 있으며, RAG 시스템의 추가 발전을 위한 가치 있는 통찰을 제공한다.