2025-11-13T01:58:10.933950

MBA-RAG: a Bandit Approach for Adaptive Retrieval-Augmented Generation through Question Complexity

Tang, Gao, Li et al.

Retrieval Augmented Generation (RAG) has proven to be highly effective in boosting the generative performance of language model in knowledge-intensive tasks. However, existing RAG framework either indiscriminately perform retrieval or rely on rigid single-class classifiers to select retrieval methods, leading to inefficiencies and suboptimal performance across queries of varying complexity. To address these challenges, we propose a reinforcement learning-based framework that dynamically selects the most suitable retrieval strategy based on query complexity. % our solution Our approach leverages a multi-armed bandit algorithm, which treats each retrieval method as a distinct ``arm'' and adapts the selection process by balancing exploration and exploitation. Additionally, we introduce a dynamic reward function that balances accuracy and efficiency, penalizing methods that require more retrieval steps, even if they lead to a correct result. Our method achieves new state of the art results on multiple single-hop and multi-hop datasets while reducing retrieval costs. Our code are available at https://github.com/FUTUREEEEEE/MBA .

academic

MBA-RAG: 질문 복잡도를 통한 적응형 검색-증강 생성의 밴딧 접근법

기본 정보

논문 ID: 2412.01572
제목: MBA-RAG: a Bandit Approach for Adaptive Retrieval-Augmented Generation through Question Complexity
저자: Xiaqiang Tang, Qiang Gao, Jian Li, Nan Du, Qi Li, Sihong Xie
소속 기관: 홍콩과학기술대학교(광저우), 텐센트 혼원, 우한대학교, 아이오와주립대학교
분류: cs.AI
발표 시간: 2025년 1월 1일 (arXiv v4)
논문 링크: https://arxiv.org/abs/2412.01572
코드 링크: https://github.com/FUTUREEEEEE/MBA

초록

검색-증강 생성(RAG)은 지식 집약적 작업에서 언어 모델의 생성 성능을 크게 향상시켰다. 그러나 기존 RAG 프레임워크는 무차별적으로 검색을 수행하거나 경직된 단일 분류기에 의존하여 검색 방법을 선택하므로, 서로 다른 복잡도의 쿼리에서 비효율적이고 성능이 최적이 아니다. 이러한 문제를 해결하기 위해 본 논문은 쿼리 복잡도에 따라 가장 적절한 검색 전략을 동적으로 선택할 수 있는 강화학습 기반 프레임워크를 제안한다. 본 방법은 다중 팔 슬롯머신(Multi-Armed Bandit) 알고리즘을 활용하여 각 검색 방법을 서로 다른 "팔"로 취급하고, 탐색과 활용의 균형을 통해 선택 과정을 적응시킨다. 또한 정확성과 효율성을 균형있게 고려하는 동적 보상 함수를 도입하여, 올바른 결과를 얻더라도 더 많은 검색 단계가 필요한 방법을 페널티한다. 본 방법은 여러 단일 홉 및 다중 홉 데이터셋에서 새로운 최고 성능(SOTA)을 달성하면서 검색 비용을 감소시켰다.

연구 배경 및 동기

문제 정의

기존 RAG 시스템의 핵심 문제점:

검색 전략 선택 부적절: 대부분의 RAG 프레임워크는 모든 쿼리에 대해 무차별적으로 검색을 수행하여 불필요하거나 관련 없는 문단을 도입할 수 있음
단일 방법의 한계: 모든 쿼리에 단일 검색 방법을 사용하는 것은 비효율적이며, 단순 쿼리는 불필요한 계산 오버헤드를 발생시키고 복잡한 쿼리는 충분히 처리되지 않을 수 있음
감독 신호 부정확: AdaptiveRAG와 같은 기존 적응형 방법은 휴리스틱 감독을 사용하며, 각 쿼리마다 하나의 최적 전략만 존재한다고 가정하고 검색 비용이 가장 적은 경로를 선택하는 경향이 있음

연구 동기

본 논문의 핵심 동기는 다음을 수행할 수 있는 시스템을 개발하는 것:

쿼리 복잡도에 동적 적응: 문제의 복잡도에 따라 지능적으로 검색 전략 선택
정확성과 효율성 균형: 답변 품질을 보장하면서 계산 비용 최소화
다중 전략 탐색 지원: 여러 전략이 올바른 답변을 생성할 수 있도록 허용하며, 단일 "최적" 경로를 강제하지 않음

핵심 기여

MBA-RAG 프레임워크 제안: 다중 팔 슬롯머신 알고리즘을 RAG 시스템의 검색 전략 선택에 처음 적용하여 동적 적응형 검색 구현
동적 보상 함수 설계: 정확성과 계산 효율성을 혁신적으로 결합하여 고비용 방법을 페널티함으로써 자원 사용 최적화
SOTA 성능 달성: 6개 데이터셋에서 최고 성능 달성하면서 검색 비용 20% 감소
유연한 감독 메커니즘 제공: 엄격한 단일 레이블 감독 대신 부분 정보 감독을 사용하여 모델이 여러 유효한 전략을 탐색하도록 허용

방법론 상세 설명

작업 정의

쿼리 x가 주어졌을 때, RAG 시스템은 다음을 수행해야 함:

검색 단계: 모듈 R이 쿼리 x에 대한 관련 문서 D 검색
생성 단계: LLM이 x와 D를 사용하여 응답 ā = LLM(yt|x,D) 생성

본 논문은 이를 다중 팔 슬롯머신 문제로 재정의하며, 각 검색 방법(검색 없음, 단일 검색, 다중 검색)을 하나의 "팔"로 취급함.

모델 아키텍처

1. 쿼리 인코딩 및 팔 선택

인코더: DistilBERT를 사용하여 사용자 쿼리를 인코딩하고 동작 분포 z = fθ(x) 생성
선택 전략: ε-탐욕 전략을 채택하여 탐색과 활용의 균형:
- 확률 (1-ε)로 a = argmax(z) 선택
- 확률 ε로 생성 방법을 무작위 선택

2. 학습 알고리즘

목적 함수는 실제 보상 ra와 예측 보상 fθ(x)a 간의 제곱 오차 최소화:

min_θ (ra - fθ(x)a)²

매개변수 업데이트 규칙:

θt+1 = θt - α∇θ((ra - fθ(x)a)²)

3. 동적 보상 함수

ra = A(y, ŷa) - λC(a)

여기서:

A(y, ŷa): 생성 품질 지표 (예: 정확 일치)
C(a): 방법 a의 계산 비용 (예: 검색 단계 수)
λ: 정확성과 효율성의 균형을 맞추는 스케일 인자

기술 혁신점

다중 팔 슬롯머신 적응: 검색 전략 선택을 다중 팔 슬롯머신 문제로 모델링하며, 각 검색 방법이 하나의 "팔"에 대응
부분 정보 감독: 선택된 전략에만 피드백을 제공하고 선택되지 않은 전략은 페널티하지 않음
비용 인식 보상: 동적 보상 함수가 정확성과 계산 효율성을 동시에 고려
탐색-활용 균형: ε-탐욕 전략을 통해 차선의 해로 조기 수렴 방지

실험 설정

데이터셋

단일 홉 QA 데이터셋:

SQuAD v1.1: 독해 이해 작업
Natural Questions: 개방형 질의응답
TriviaQA: 지식 질의응답

다중 홉 QA 데이터셋:

MuSiQue: 다단계 추론 질의응답
HotpotQA: 다중 홉 추론 질의응답
2WikiMultiHopQA: 위키백과 기반 다중 홉 질의응답

평가 지표

성능 지표:

EM (정확 일치): 예측 결과와 정답이 완전히 일치
F1: 예측 답변과 정답의 어휘 중복도
Acc (정확도): 예측 답변이 정답을 포함하는지 여부

효율성 지표:

Step: 선택된 검색 전략에 필요한 검색 단계 수

비교 방법

No-Retrieval: 검색 없이 직접 답변 생성
Adaptive-Retrieval: 검색 필요 여부를 동적으로 판단
Self-RAG: 자기 성찰을 통해 검색 필요성 동적 결정
DRAGIN: 토큰 불확실성 기반 검색 활성화
SEAKR: 자기 인식 불확실성 기반 검색 결정
Adaptive-RAG: 분류기를 사용하여 쿼리 복잡도에 따라 검색 전략 선택

구현 세부사항

쿼리 인코딩 모델: DistilBERT
검색 모델: BM25
생성 모델: FLAN-T5-XL (3B)
학습률: 5e-5
탐색 전략: ε-탐욕 알고리즘

실험 결과

주요 결과

방법	EM	F1	Acc	Step
No Retrieval	14.87	21.12	15.97	0.00
Adaptive Retrieval	23.87	32.24	26.73	0.50
Self-RAG	9.90	20.79	31.57	0.72
Adaptive-RAG	37.17	46.94	42.10	2.17
MBA-RAG (본 논문)	38.80	48.61	43.57	1.80

주요 발견

성능 향상: MBA-RAG이 모든 성능 지표에서 기준 방법을 초과
효율성 최적화: Adaptive-RAG 대비 검색 단계 약 17% 감소 (2.17에서 1.80으로)
단일 홉 데이터셋 성능: SQuAD와 TriviaQA에서 현저한 개선, 검색 비용 대폭 감소
다중 홉 데이터셋 성능: 2WikiMultiHopQA에서 뛰어난 개선, 검색 비용 20% 이상 감소

분류 정확도 분석

MBA-RAG의 분류 정확도는 56.1%로 다음을 크게 상회:

Adaptive Retrieval: 42.0%
Self-RAG: 41.5%
Adaptive-RAG: 54.0%

절제 실험

다중 레이블 분류기 결과와의 비교는 전통적 다중 레이블 방법이 좋은 성능을 보이지만 검색 비용이 과도함(Step 4.514)을 보여주는 반면, MBA-RAG은 성능과 효율성의 최적 균형을 달성함.

결론 및 논의

주요 결론

유효성 검증: MBA-RAG이 여러 데이터셋에서 SOTA 성능 달성
효율성 향상: 검색 비용 현저히 감소, 평균 20% 감소
강한 적응성: 쿼리 복잡도에 따라 전략을 동적으로 조정 가능

한계점

알고리즘 의존성: 프레임워크가 특정 다중 팔 슬롯머신 알고리즘 구조에 의존
확장성 문제: 미처 본 쿼리 유형에 직면할 때 적응성 문제 가능성
계산 요구: 강화학습 방법이 추가 계산 오버헤드 초래 가능

향후 방향

알고리즘 최적화: 계산 요구를 줄이기 위한 더 효율적인 알고리즘 탐색
일반화 능력: 새로운 쿼리 유형에 대한 적응 능력 향상
응용 확대: 더 광범위한 NLP 작업에 방법 적용

심층 평가

장점

높은 혁신성: 다중 팔 슬롯머신을 RAG 시스템에 처음 도입하며 이론적 기초가 견고함
높은 실용 가치: 정확성과 효율성을 동시에 최적화하여 중요한 응용 가치 보유
충분한 실험: 6가지 다양한 유형의 데이터셋에서 포괄적 평가 수행
합리적 방법: 동적 보상 함수 설계가 정교하며 여러 목표의 균형을 잘 맞춤

부족한 점

복잡도 증가: 단순 분류 방법 대비 추가 알고리즘 복잡성 도입
매개변수 민감성: 보상 함수의 균형 매개변수 λ가 다양한 데이터셋에 따라 조정 필요
이론적 분석 부족: 수렴성 및 최적성에 대한 이론적 보증 부재

영향력

학술적 기여: RAG 시스템 최적화를 위한 새로운 연구 방향 제시
실제 응용: 방법이 강한 실용성을 보유하여 실제 시스템에 적용 가능
재현성: 완전한 코드 구현 제공으로 재현 및 확장 용이

적용 시나리오

지식 집약적 질의응답: 정확성과 효율성의 균형이 필요한 시나리오에 특히 적합
다양한 복잡도 쿼리 처리: 단순에서 복잡한 다양한 쿼리 처리 가능
자원 제한 환경: 계산 자원이 제한된 상황에서 검색 비용 최적화 가능

참고문헌

Lewis, P., et al. (2020). Retrieval-augmented generation for knowledge-intensive nlp tasks. NeurIPS.
Jeong, S., et al. (2024). Adaptive-rag: Learning to adapt retrieval-augmented large language models through question complexity. arXiv preprint.
Katehakis, M. N., & Veinott Jr, A. F. (1987). The multi-armed bandit problem: decomposition and computation. Mathematics of Operations Research.

종합 평가: 본 논문은 다중 팔 슬롯머신 알고리즘을 통해 검색 전략의 동적 선택을 구현하는 혁신적이고 실용적인 RAG 최적화 프레임워크를 제안한다. 높은 정확성을 유지하면서 계산 비용을 현저히 감소시킨다. 방법의 이론적 기초가 견고하고 실험 결과가 설득력 있으며, RAG 시스템의 추가 발전을 위한 가치 있는 통찰을 제공한다.