MBA-RAG: a Bandit Approach for Adaptive Retrieval-Augmented Generation through Question Complexity
Tang, Gao, Li et al.
Retrieval Augmented Generation (RAG) has proven to be highly effective in boosting the generative performance of language model in knowledge-intensive tasks. However, existing RAG framework either indiscriminately perform retrieval or rely on rigid single-class classifiers to select retrieval methods, leading to inefficiencies and suboptimal performance across queries of varying complexity. To address these challenges, we propose a reinforcement learning-based framework that dynamically selects the most suitable retrieval strategy based on query complexity. % our solution Our approach leverages a multi-armed bandit algorithm, which treats each retrieval method as a distinct ``arm'' and adapts the selection process by balancing exploration and exploitation. Additionally, we introduce a dynamic reward function that balances accuracy and efficiency, penalizing methods that require more retrieval steps, even if they lead to a correct result. Our method achieves new state of the art results on multiple single-hop and multi-hop datasets while reducing retrieval costs. Our code are available at https://github.com/FUTUREEEEEE/MBA .
academic
MBA-RAG: un Enfoque de Bandidos para Generación Aumentada por Recuperación Adaptativa mediante Complejidad de Preguntas
Título: MBA-RAG: a Bandit Approach for Adaptive Retrieval-Augmented Generation through Question Complexity
Autores: Xiaqiang Tang, Qiang Gao, Jian Li, Nan Du, Qi Li, Sihong Xie
Instituciones Afiliadas: Universidad de Ciencia y Tecnología de Hong Kong (Guangzhou), Tencent Hunyuan, Universidad de Wuhan, Universidad Estatal de Iowa
Clasificación: cs.AI
Fecha de Publicación: 1 de enero de 2025 (arXiv v4)
La generación aumentada por recuperación (RAG) mejora significativamente el rendimiento generativo de los modelos de lenguaje en tareas intensivas en conocimiento. Sin embargo, los marcos RAG existentes ejecutan la recuperación de manera indiscriminada o dependen de clasificadores rígidos de una sola clase para seleccionar métodos de recuperación, lo que resulta en ineficiencia y rendimiento subóptimo en consultas de diferentes complejidades. Para abordar estos desafíos, este artículo propone un marco basado en aprendizaje por refuerzo que selecciona dinámicamente la estrategia de recuperación más apropiada según la complejidad de la consulta. El método utiliza algoritmos de bandidos multiarmados, tratando cada método de recuperación como un "brazo" diferente, equilibrando la exploración y explotación para adaptar el proceso de selección. Además, introduce una función de recompensa dinámica que equilibra precisión y eficiencia, penalizando métodos que requieren más pasos de recuperación incluso cuando obtienen resultados correctos. El método logra nuevos resultados SOTA en múltiples conjuntos de datos de un salto y múltiples saltos, mientras reduce los costos de recuperación.
Los sistemas RAG existentes presentan los siguientes problemas centrales:
Selección inadecuada de estrategias de recuperación: La mayoría de los marcos RAG ejecutan la recuperación indiscriminadamente para todas las consultas, lo que puede introducir párrafos innecesarios o fuera de tema
Limitaciones de método único: Usar un único método de recuperación para todas las consultas es ineficiente; las consultas simples generan gastos computacionales innecesarios, mientras que las consultas complejas pueden no recibir un tratamiento suficiente
Señales de supervisión imprecisas: Los métodos adaptativos existentes como AdaptiveRAG utilizan supervisión heurística, asumiendo que cada consulta tiene una única estrategia óptima y tendiendo a seleccionar la ruta con menor costo de recuperación
La motivación central de este artículo es desarrollar un marco que pueda:
Adaptarse dinámicamente a la complejidad de la consulta: Seleccionar inteligentemente estrategias de recuperación según el grado de complejidad del problema
Equilibrar precisión y eficiencia: Minimizar el costo computacional mientras se garantiza la calidad de la respuesta
Soportar exploración de múltiples estrategias: Permitir que múltiples estrategias produzcan respuestas correctas, en lugar de forzar la selección de una única ruta "óptima"
Propuesta del marco MBA-RAG: Primera aplicación de algoritmos de bandidos multiarmados a la selección de estrategias de recuperación en sistemas RAG, logrando recuperación adaptativa dinámica
Diseño de función de recompensa dinámica: Combinación innovadora de precisión y eficiencia computacional, optimizando el uso de recursos mediante penalización de métodos de alto costo
Logro de rendimiento SOTA: Obtención de resultados óptimos en 6 conjuntos de datos, mientras se reduce el costo de recuperación en un 20%
Provisión de mecanismo de supervisión flexible: Uso de supervisión de información parcial en lugar de supervisión estricta de etiqueta única, permitiendo que el modelo explore múltiples estrategias efectivas
Fase de recuperación: El módulo R recupera documentos relevantes D para la consulta x
Fase de generación: El LLM genera una respuesta ā = LLM(yt|x,D) usando x y D
Este artículo redefine esto como un problema de bandidos multiarmados, donde cada método de recuperación (sin recuperación, recuperación única, recuperación múltiple) actúa como un "brazo".
Adaptación de bandidos multiarmados: Modelado de selección de estrategia de recuperación como problema de bandidos multiarmados, con cada método de recuperación correspondiendo a un "brazo"
Supervisión de información parcial: Proporciona retroalimentación solo para la estrategia seleccionada, sin penalizar estrategias no seleccionadas
Recompensa consciente del costo: La función de recompensa dinámica considera simultáneamente precisión y eficiencia computacional
Equilibrio exploración-explotación: Evita convergencia prematura a soluciones subóptimas mediante estrategia ε-greedy
La comparación con resultados de clasificador multietiqueta muestra que aunque los métodos multietiqueta tradicionales logran buen rendimiento, el costo de recuperación es excesivo (Step alcanza 4.514), mientras que MBA-RAG logra el mejor equilibrio entre rendimiento y eficiencia.
Este artículo es el primero en aplicar algoritmos de bandidos multiarmados a sistemas RAG, proporcionando un nuevo marco teórico para la selección de estrategias de recuperación.
Lewis, P., et al. (2020). Retrieval-augmented generation for knowledge-intensive nlp tasks. NeurIPS.
Jeong, S., et al. (2024). Adaptive-rag: Learning to adapt retrieval-augmented large language models through question complexity. arXiv preprint.
Katehakis, M. N., & Veinott Jr, A. F. (1987). The multi-armed bandit problem: decomposition and computation. Mathematics of Operations Research.
Evaluación General: Este artículo propone un marco de optimización RAG innovador y práctico que logra selección dinámica de estrategias de recuperación mediante algoritmos de bandidos multiarmados, reduciendo significativamente costos computacionales mientras mantiene alta precisión. El método posee fundamentos teóricos sólidos, resultados experimentales convincentes, y proporciona perspectivas valiosas para el desarrollo futuro de sistemas RAG.