2025-11-13T01:58:10.933950

MBA-RAG: a Bandit Approach for Adaptive Retrieval-Augmented Generation through Question Complexity

Tang, Gao, Li et al.

Retrieval Augmented Generation (RAG) has proven to be highly effective in boosting the generative performance of language model in knowledge-intensive tasks. However, existing RAG framework either indiscriminately perform retrieval or rely on rigid single-class classifiers to select retrieval methods, leading to inefficiencies and suboptimal performance across queries of varying complexity. To address these challenges, we propose a reinforcement learning-based framework that dynamically selects the most suitable retrieval strategy based on query complexity. % our solution Our approach leverages a multi-armed bandit algorithm, which treats each retrieval method as a distinct ``arm'' and adapts the selection process by balancing exploration and exploitation. Additionally, we introduce a dynamic reward function that balances accuracy and efficiency, penalizing methods that require more retrieval steps, even if they lead to a correct result. Our method achieves new state of the art results on multiple single-hop and multi-hop datasets while reducing retrieval costs. Our code are available at https://github.com/FUTUREEEEEE/MBA .

academic

MBA-RAG: un Enfoque de Bandidos para Generación Aumentada por Recuperación Adaptativa mediante Complejidad de Preguntas

Información Básica

ID del Artículo: 2412.01572
Título: MBA-RAG: a Bandit Approach for Adaptive Retrieval-Augmented Generation through Question Complexity
Autores: Xiaqiang Tang, Qiang Gao, Jian Li, Nan Du, Qi Li, Sihong Xie
Instituciones Afiliadas: Universidad de Ciencia y Tecnología de Hong Kong (Guangzhou), Tencent Hunyuan, Universidad de Wuhan, Universidad Estatal de Iowa
Clasificación: cs.AI
Fecha de Publicación: 1 de enero de 2025 (arXiv v4)
Enlace del Artículo: https://arxiv.org/abs/2412.01572
Enlace del Código: https://github.com/FUTUREEEEEE/MBA

Resumen

La generación aumentada por recuperación (RAG) mejora significativamente el rendimiento generativo de los modelos de lenguaje en tareas intensivas en conocimiento. Sin embargo, los marcos RAG existentes ejecutan la recuperación de manera indiscriminada o dependen de clasificadores rígidos de una sola clase para seleccionar métodos de recuperación, lo que resulta en ineficiencia y rendimiento subóptimo en consultas de diferentes complejidades. Para abordar estos desafíos, este artículo propone un marco basado en aprendizaje por refuerzo que selecciona dinámicamente la estrategia de recuperación más apropiada según la complejidad de la consulta. El método utiliza algoritmos de bandidos multiarmados, tratando cada método de recuperación como un "brazo" diferente, equilibrando la exploración y explotación para adaptar el proceso de selección. Además, introduce una función de recompensa dinámica que equilibra precisión y eficiencia, penalizando métodos que requieren más pasos de recuperación incluso cuando obtienen resultados correctos. El método logra nuevos resultados SOTA en múltiples conjuntos de datos de un salto y múltiples saltos, mientras reduce los costos de recuperación.

Antecedentes de Investigación y Motivación

Definición del Problema

Los sistemas RAG existentes presentan los siguientes problemas centrales:

Selección inadecuada de estrategias de recuperación: La mayoría de los marcos RAG ejecutan la recuperación indiscriminadamente para todas las consultas, lo que puede introducir párrafos innecesarios o fuera de tema
Limitaciones de método único: Usar un único método de recuperación para todas las consultas es ineficiente; las consultas simples generan gastos computacionales innecesarios, mientras que las consultas complejas pueden no recibir un tratamiento suficiente
Señales de supervisión imprecisas: Los métodos adaptativos existentes como AdaptiveRAG utilizan supervisión heurística, asumiendo que cada consulta tiene una única estrategia óptima y tendiendo a seleccionar la ruta con menor costo de recuperación

Motivación de la Investigación

La motivación central de este artículo es desarrollar un marco que pueda:

Adaptarse dinámicamente a la complejidad de la consulta: Seleccionar inteligentemente estrategias de recuperación según el grado de complejidad del problema
Equilibrar precisión y eficiencia: Minimizar el costo computacional mientras se garantiza la calidad de la respuesta
Soportar exploración de múltiples estrategias: Permitir que múltiples estrategias produzcan respuestas correctas, en lugar de forzar la selección de una única ruta "óptima"

Contribuciones Principales

Propuesta del marco MBA-RAG: Primera aplicación de algoritmos de bandidos multiarmados a la selección de estrategias de recuperación en sistemas RAG, logrando recuperación adaptativa dinámica
Diseño de función de recompensa dinámica: Combinación innovadora de precisión y eficiencia computacional, optimizando el uso de recursos mediante penalización de métodos de alto costo
Logro de rendimiento SOTA: Obtención de resultados óptimos en 6 conjuntos de datos, mientras se reduce el costo de recuperación en un 20%
Provisión de mecanismo de supervisión flexible: Uso de supervisión de información parcial en lugar de supervisión estricta de etiqueta única, permitiendo que el modelo explore múltiples estrategias efectivas

Explicación Detallada del Método

Definición de la Tarea

Dada una consulta x, el sistema RAG necesita:

Fase de recuperación: El módulo R recupera documentos relevantes D para la consulta x
Fase de generación: El LLM genera una respuesta ā = LLM(yt|x,D) usando x y D

Este artículo redefine esto como un problema de bandidos multiarmados, donde cada método de recuperación (sin recuperación, recuperación única, recuperación múltiple) actúa como un "brazo".

Arquitectura del Modelo

1. Codificación de Consulta y Selección de Brazo

Codificador: Utiliza DistilBERT para codificar consultas de usuario, generando distribución de acciones z = fθ(x)
Estrategia de selección: Adopta estrategia ε-greedy para equilibrar exploración y explotación:
- Selecciona a = argmax(z) con probabilidad (1-ε)
- Selecciona aleatoriamente método generativo con probabilidad ε

2. Algoritmo de Aprendizaje

La función objetivo minimiza el error cuadrático medio entre la recompensa real ra y la recompensa predicha fθ(x)a:

min_θ (ra - fθ(x)a)²

Regla de actualización de parámetros:

θt+1 = θt - α∇θ((ra - fθ(x)a)²)

3. Función de Recompensa Dinámica

ra = A(y, ŷa) - λC(a)

Donde:

A(y, ŷa): Métrica de calidad generativa (como coincidencia exacta)
C(a): Costo computacional del método a (como número de pasos de recuperación)
λ: Factor de escala que equilibra precisión y eficiencia

Puntos de Innovación Técnica

Adaptación de bandidos multiarmados: Modelado de selección de estrategia de recuperación como problema de bandidos multiarmados, con cada método de recuperación correspondiendo a un "brazo"
Supervisión de información parcial: Proporciona retroalimentación solo para la estrategia seleccionada, sin penalizar estrategias no seleccionadas
Recompensa consciente del costo: La función de recompensa dinámica considera simultáneamente precisión y eficiencia computacional
Equilibrio exploración-explotación: Evita convergencia prematura a soluciones subóptimas mediante estrategia ε-greedy

Configuración Experimental

Conjuntos de Datos

Conjuntos de datos de QA de un salto:

SQuAD v1.1: Tarea de comprensión de lectura
Natural Questions: Preguntas y respuestas de dominio abierto
TriviaQA: Preguntas y respuestas de conocimiento

Conjuntos de datos de QA de múltiples saltos:

MuSiQue: Preguntas y respuestas de razonamiento multisalto
HotpotQA: Preguntas y respuestas de razonamiento multisalto
2WikiMultiHopQA: Preguntas y respuestas multisalto basadas en Wikipedia

Métricas de Evaluación

Métricas de rendimiento:

EM (Coincidencia Exacta): La predicción coincide exactamente con la respuesta verdadera
F1: Superposición de vocabulario entre respuesta predicha y respuesta verdadera
Acc (Precisión): Si la respuesta predicha contiene la respuesta verdadera

Métricas de eficiencia:

Step: Número de pasos de recuperación requeridos por la estrategia seleccionada

Métodos de Comparación

No-Retrieval: Generación directa de respuestas sin recuperación
Adaptive-Retrieval: Determinación dinámica de necesidad de recuperación
Self-RAG: Decisión dinámica de necesidad de recuperación mediante autorreflexión
DRAGIN: Activación de recuperación basada en incertidumbre de token
SEAKR: Decisión de recuperación basada en incertidumbre autoperceptiva
Adaptive-RAG: Uso de clasificador para seleccionar estrategia de recuperación según complejidad de consulta

Detalles de Implementación

Modelo de codificación de consulta: DistilBERT
Modelo de recuperación: BM25
Modelo generativo: FLAN-T5-XL (3B)
Tasa de aprendizaje: 5e-5
Estrategia de exploración: Algoritmo ε-greedy

Resultados Experimentales

Resultados Principales

Método	EM	F1	Acc	Step
No Retrieval	14.87	21.12	15.97	0.00
Adaptive Retrieval	23.87	32.24	26.73	0.50
Self-RAG	9.90	20.79	31.57	0.72
Adaptive-RAG	37.17	46.94	42.10	2.17
MBA-RAG (Nuestro)	38.80	48.61	43.57	1.80

Hallazgos Clave

Mejora de rendimiento: MBA-RAG supera los métodos de referencia en todas las métricas de rendimiento
Optimización de eficiencia: En comparación con Adaptive-RAG, el número de pasos de recuperación se reduce aproximadamente un 17% (de 2.17 a 1.80)
Rendimiento en conjuntos de datos de un salto: Mejoras significativas en SQuAD y TriviaQA, con reducción sustancial de costos de recuperación
Rendimiento en conjuntos de datos de múltiples saltos: Mejoras destacadas en 2WikiMultiHopQA, con reducción de costos de recuperación superior al 20%

Análisis de Precisión de Clasificación

La precisión de clasificación de MBA-RAG alcanza el 56.1%, significativamente superior a:

Adaptive Retrieval: 42.0%
Self-RAG: 41.5%
Adaptive-RAG: 54.0%

Experimentos de Ablación

La comparación con resultados de clasificador multietiqueta muestra que aunque los métodos multietiqueta tradicionales logran buen rendimiento, el costo de recuperación es excesivo (Step alcanza 4.514), mientras que MBA-RAG logra el mejor equilibrio entre rendimiento y eficiencia.

Trabajo Relacionado

Desarrollo de Sistemas RAG

RAG Tradicional: Marco de recuperación-generación propuesto por Lewis et al. (2020)
Recuperación Adaptativa: Métodos como SEAKR y FLARE implementan recuperación bajo demanda
Consciente de Complejidad: AdaptiveRAG selecciona estrategias según complejidad de consulta

Aplicación de Bandidos Multiarmados

Este artículo es el primero en aplicar algoritmos de bandidos multiarmados a sistemas RAG, proporcionando un nuevo marco teórico para la selección de estrategias de recuperación.

Conclusiones y Discusión

Conclusiones Principales

Validación de efectividad: MBA-RAG logra rendimiento SOTA en múltiples conjuntos de datos
Mejora de eficiencia: Reducción significativa de costos de recuperación, promediando una reducción del 20%
Fuerte adaptabilidad: Capacidad de ajustar dinámicamente estrategias según complejidad de consulta

Limitaciones

Dependencia de algoritmo: El marco depende de la estructura específica del algoritmo de bandidos multiarmados
Desafíos de escalabilidad: Puede existir problemas de adaptabilidad ante tipos de consultas nuevas no vistas
Requisitos computacionales: Los métodos de aprendizaje por refuerzo pueden introducir gastos computacionales adicionales

Direcciones Futuras

Optimización de algoritmo: Exploración de algoritmos más eficientes para reducir requisitos computacionales
Capacidad de generalización: Mejora de adaptabilidad a nuevos tipos de consultas
Extensión de aplicaciones: Aplicación del método a tareas NLP más amplias

Evaluación Profunda

Fortalezas

Fuerte innovación: Primera introducción de bandidos multiarmados en sistemas RAG, con fundamentos teóricos sólidos
Alto valor práctico: Optimización simultánea de precisión y eficiencia, con importante valor de aplicación
Experimentación completa: Evaluación integral en 6 conjuntos de datos de diferentes tipos
Método razonable: Diseño ingenioso de función de recompensa dinámica, equilibrando múltiples objetivos

Deficiencias

Aumento de complejidad: Introduce complejidad algorítmica adicional en comparación con métodos de clasificación simple
Sensibilidad a parámetros: El parámetro de equilibrio λ en la función de recompensa requiere ajuste para diferentes conjuntos de datos
Análisis teórico insuficiente: Carencia de garantías teóricas sobre convergencia y optimalidad

Impacto

Contribución académica: Proporciona nueva dirección de investigación para optimización de sistemas RAG
Aplicación práctica: El método posee fuerte practicidad, aplicable a sistemas reales
Reproducibilidad: Proporciona implementación de código completa, facilitando reproducción y extensión

Escenarios Aplicables

Preguntas y respuestas intensivas en conocimiento: Particularmente adecuado para escenarios que requieren equilibrio entre precisión y eficiencia
Procesamiento de consultas de complejidad múltiple: Capacidad de manejar consultas que van desde simples a complejas
Entornos con recursos limitados: Optimización de costos de recuperación cuando los recursos computacionales son limitados

Referencias

Lewis, P., et al. (2020). Retrieval-augmented generation for knowledge-intensive nlp tasks. NeurIPS.
Jeong, S., et al. (2024). Adaptive-rag: Learning to adapt retrieval-augmented large language models through question complexity. arXiv preprint.
Katehakis, M. N., & Veinott Jr, A. F. (1987). The multi-armed bandit problem: decomposition and computation. Mathematics of Operations Research.

Evaluación General: Este artículo propone un marco de optimización RAG innovador y práctico que logra selección dinámica de estrategias de recuperación mediante algoritmos de bandidos multiarmados, reduciendo significativamente costos computacionales mientras mantiene alta precisión. El método posee fundamentos teóricos sólidos, resultados experimentales convincentes, y proporciona perspectivas valiosas para el desarrollo futuro de sistemas RAG.