2025-11-13T01:58:10.933950

MBA-RAG: a Bandit Approach for Adaptive Retrieval-Augmented Generation through Question Complexity

Tang, Gao, Li et al.
Retrieval Augmented Generation (RAG) has proven to be highly effective in boosting the generative performance of language model in knowledge-intensive tasks. However, existing RAG framework either indiscriminately perform retrieval or rely on rigid single-class classifiers to select retrieval methods, leading to inefficiencies and suboptimal performance across queries of varying complexity. To address these challenges, we propose a reinforcement learning-based framework that dynamically selects the most suitable retrieval strategy based on query complexity. % our solution Our approach leverages a multi-armed bandit algorithm, which treats each retrieval method as a distinct ``arm'' and adapts the selection process by balancing exploration and exploitation. Additionally, we introduce a dynamic reward function that balances accuracy and efficiency, penalizing methods that require more retrieval steps, even if they lead to a correct result. Our method achieves new state of the art results on multiple single-hop and multi-hop datasets while reducing retrieval costs. Our code are available at https://github.com/FUTUREEEEEE/MBA .
academic

MBA-RAG: un Enfoque de Bandidos para Generación Aumentada por Recuperación Adaptativa mediante Complejidad de Preguntas

Información Básica

  • ID del Artículo: 2412.01572
  • Título: MBA-RAG: a Bandit Approach for Adaptive Retrieval-Augmented Generation through Question Complexity
  • Autores: Xiaqiang Tang, Qiang Gao, Jian Li, Nan Du, Qi Li, Sihong Xie
  • Instituciones Afiliadas: Universidad de Ciencia y Tecnología de Hong Kong (Guangzhou), Tencent Hunyuan, Universidad de Wuhan, Universidad Estatal de Iowa
  • Clasificación: cs.AI
  • Fecha de Publicación: 1 de enero de 2025 (arXiv v4)
  • Enlace del Artículo: https://arxiv.org/abs/2412.01572
  • Enlace del Código: https://github.com/FUTUREEEEEE/MBA

Resumen

La generación aumentada por recuperación (RAG) mejora significativamente el rendimiento generativo de los modelos de lenguaje en tareas intensivas en conocimiento. Sin embargo, los marcos RAG existentes ejecutan la recuperación de manera indiscriminada o dependen de clasificadores rígidos de una sola clase para seleccionar métodos de recuperación, lo que resulta en ineficiencia y rendimiento subóptimo en consultas de diferentes complejidades. Para abordar estos desafíos, este artículo propone un marco basado en aprendizaje por refuerzo que selecciona dinámicamente la estrategia de recuperación más apropiada según la complejidad de la consulta. El método utiliza algoritmos de bandidos multiarmados, tratando cada método de recuperación como un "brazo" diferente, equilibrando la exploración y explotación para adaptar el proceso de selección. Además, introduce una función de recompensa dinámica que equilibra precisión y eficiencia, penalizando métodos que requieren más pasos de recuperación incluso cuando obtienen resultados correctos. El método logra nuevos resultados SOTA en múltiples conjuntos de datos de un salto y múltiples saltos, mientras reduce los costos de recuperación.

Antecedentes de Investigación y Motivación

Definición del Problema

Los sistemas RAG existentes presentan los siguientes problemas centrales:

  1. Selección inadecuada de estrategias de recuperación: La mayoría de los marcos RAG ejecutan la recuperación indiscriminadamente para todas las consultas, lo que puede introducir párrafos innecesarios o fuera de tema
  2. Limitaciones de método único: Usar un único método de recuperación para todas las consultas es ineficiente; las consultas simples generan gastos computacionales innecesarios, mientras que las consultas complejas pueden no recibir un tratamiento suficiente
  3. Señales de supervisión imprecisas: Los métodos adaptativos existentes como AdaptiveRAG utilizan supervisión heurística, asumiendo que cada consulta tiene una única estrategia óptima y tendiendo a seleccionar la ruta con menor costo de recuperación

Motivación de la Investigación

La motivación central de este artículo es desarrollar un marco que pueda:

  1. Adaptarse dinámicamente a la complejidad de la consulta: Seleccionar inteligentemente estrategias de recuperación según el grado de complejidad del problema
  2. Equilibrar precisión y eficiencia: Minimizar el costo computacional mientras se garantiza la calidad de la respuesta
  3. Soportar exploración de múltiples estrategias: Permitir que múltiples estrategias produzcan respuestas correctas, en lugar de forzar la selección de una única ruta "óptima"

Contribuciones Principales

  1. Propuesta del marco MBA-RAG: Primera aplicación de algoritmos de bandidos multiarmados a la selección de estrategias de recuperación en sistemas RAG, logrando recuperación adaptativa dinámica
  2. Diseño de función de recompensa dinámica: Combinación innovadora de precisión y eficiencia computacional, optimizando el uso de recursos mediante penalización de métodos de alto costo
  3. Logro de rendimiento SOTA: Obtención de resultados óptimos en 6 conjuntos de datos, mientras se reduce el costo de recuperación en un 20%
  4. Provisión de mecanismo de supervisión flexible: Uso de supervisión de información parcial en lugar de supervisión estricta de etiqueta única, permitiendo que el modelo explore múltiples estrategias efectivas

Explicación Detallada del Método

Definición de la Tarea

Dada una consulta x, el sistema RAG necesita:

  1. Fase de recuperación: El módulo R recupera documentos relevantes D para la consulta x
  2. Fase de generación: El LLM genera una respuesta ā = LLM(yt|x,D) usando x y D

Este artículo redefine esto como un problema de bandidos multiarmados, donde cada método de recuperación (sin recuperación, recuperación única, recuperación múltiple) actúa como un "brazo".

Arquitectura del Modelo

1. Codificación de Consulta y Selección de Brazo

  • Codificador: Utiliza DistilBERT para codificar consultas de usuario, generando distribución de acciones z = fθ(x)
  • Estrategia de selección: Adopta estrategia ε-greedy para equilibrar exploración y explotación:
    • Selecciona a = argmax(z) con probabilidad (1-ε)
    • Selecciona aleatoriamente método generativo con probabilidad ε

2. Algoritmo de Aprendizaje

La función objetivo minimiza el error cuadrático medio entre la recompensa real ra y la recompensa predicha fθ(x)a:

min_θ (ra - fθ(x)a)²

Regla de actualización de parámetros:

θt+1 = θt - α∇θ((ra - fθ(x)a)²)

3. Función de Recompensa Dinámica

ra = A(y, ŷa) - λC(a)

Donde:

  • A(y, ŷa): Métrica de calidad generativa (como coincidencia exacta)
  • C(a): Costo computacional del método a (como número de pasos de recuperación)
  • λ: Factor de escala que equilibra precisión y eficiencia

Puntos de Innovación Técnica

  1. Adaptación de bandidos multiarmados: Modelado de selección de estrategia de recuperación como problema de bandidos multiarmados, con cada método de recuperación correspondiendo a un "brazo"
  2. Supervisión de información parcial: Proporciona retroalimentación solo para la estrategia seleccionada, sin penalizar estrategias no seleccionadas
  3. Recompensa consciente del costo: La función de recompensa dinámica considera simultáneamente precisión y eficiencia computacional
  4. Equilibrio exploración-explotación: Evita convergencia prematura a soluciones subóptimas mediante estrategia ε-greedy

Configuración Experimental

Conjuntos de Datos

Conjuntos de datos de QA de un salto:

  • SQuAD v1.1: Tarea de comprensión de lectura
  • Natural Questions: Preguntas y respuestas de dominio abierto
  • TriviaQA: Preguntas y respuestas de conocimiento

Conjuntos de datos de QA de múltiples saltos:

  • MuSiQue: Preguntas y respuestas de razonamiento multisalto
  • HotpotQA: Preguntas y respuestas de razonamiento multisalto
  • 2WikiMultiHopQA: Preguntas y respuestas multisalto basadas en Wikipedia

Métricas de Evaluación

Métricas de rendimiento:

  • EM (Coincidencia Exacta): La predicción coincide exactamente con la respuesta verdadera
  • F1: Superposición de vocabulario entre respuesta predicha y respuesta verdadera
  • Acc (Precisión): Si la respuesta predicha contiene la respuesta verdadera

Métricas de eficiencia:

  • Step: Número de pasos de recuperación requeridos por la estrategia seleccionada

Métodos de Comparación

  1. No-Retrieval: Generación directa de respuestas sin recuperación
  2. Adaptive-Retrieval: Determinación dinámica de necesidad de recuperación
  3. Self-RAG: Decisión dinámica de necesidad de recuperación mediante autorreflexión
  4. DRAGIN: Activación de recuperación basada en incertidumbre de token
  5. SEAKR: Decisión de recuperación basada en incertidumbre autoperceptiva
  6. Adaptive-RAG: Uso de clasificador para seleccionar estrategia de recuperación según complejidad de consulta

Detalles de Implementación

  • Modelo de codificación de consulta: DistilBERT
  • Modelo de recuperación: BM25
  • Modelo generativo: FLAN-T5-XL (3B)
  • Tasa de aprendizaje: 5e-5
  • Estrategia de exploración: Algoritmo ε-greedy

Resultados Experimentales

Resultados Principales

MétodoEMF1AccStep
No Retrieval14.8721.1215.970.00
Adaptive Retrieval23.8732.2426.730.50
Self-RAG9.9020.7931.570.72
Adaptive-RAG37.1746.9442.102.17
MBA-RAG (Nuestro)38.8048.6143.571.80

Hallazgos Clave

  1. Mejora de rendimiento: MBA-RAG supera los métodos de referencia en todas las métricas de rendimiento
  2. Optimización de eficiencia: En comparación con Adaptive-RAG, el número de pasos de recuperación se reduce aproximadamente un 17% (de 2.17 a 1.80)
  3. Rendimiento en conjuntos de datos de un salto: Mejoras significativas en SQuAD y TriviaQA, con reducción sustancial de costos de recuperación
  4. Rendimiento en conjuntos de datos de múltiples saltos: Mejoras destacadas en 2WikiMultiHopQA, con reducción de costos de recuperación superior al 20%

Análisis de Precisión de Clasificación

La precisión de clasificación de MBA-RAG alcanza el 56.1%, significativamente superior a:

  • Adaptive Retrieval: 42.0%
  • Self-RAG: 41.5%
  • Adaptive-RAG: 54.0%

Experimentos de Ablación

La comparación con resultados de clasificador multietiqueta muestra que aunque los métodos multietiqueta tradicionales logran buen rendimiento, el costo de recuperación es excesivo (Step alcanza 4.514), mientras que MBA-RAG logra el mejor equilibrio entre rendimiento y eficiencia.

Trabajo Relacionado

Desarrollo de Sistemas RAG

  1. RAG Tradicional: Marco de recuperación-generación propuesto por Lewis et al. (2020)
  2. Recuperación Adaptativa: Métodos como SEAKR y FLARE implementan recuperación bajo demanda
  3. Consciente de Complejidad: AdaptiveRAG selecciona estrategias según complejidad de consulta

Aplicación de Bandidos Multiarmados

Este artículo es el primero en aplicar algoritmos de bandidos multiarmados a sistemas RAG, proporcionando un nuevo marco teórico para la selección de estrategias de recuperación.

Conclusiones y Discusión

Conclusiones Principales

  1. Validación de efectividad: MBA-RAG logra rendimiento SOTA en múltiples conjuntos de datos
  2. Mejora de eficiencia: Reducción significativa de costos de recuperación, promediando una reducción del 20%
  3. Fuerte adaptabilidad: Capacidad de ajustar dinámicamente estrategias según complejidad de consulta

Limitaciones

  1. Dependencia de algoritmo: El marco depende de la estructura específica del algoritmo de bandidos multiarmados
  2. Desafíos de escalabilidad: Puede existir problemas de adaptabilidad ante tipos de consultas nuevas no vistas
  3. Requisitos computacionales: Los métodos de aprendizaje por refuerzo pueden introducir gastos computacionales adicionales

Direcciones Futuras

  1. Optimización de algoritmo: Exploración de algoritmos más eficientes para reducir requisitos computacionales
  2. Capacidad de generalización: Mejora de adaptabilidad a nuevos tipos de consultas
  3. Extensión de aplicaciones: Aplicación del método a tareas NLP más amplias

Evaluación Profunda

Fortalezas

  1. Fuerte innovación: Primera introducción de bandidos multiarmados en sistemas RAG, con fundamentos teóricos sólidos
  2. Alto valor práctico: Optimización simultánea de precisión y eficiencia, con importante valor de aplicación
  3. Experimentación completa: Evaluación integral en 6 conjuntos de datos de diferentes tipos
  4. Método razonable: Diseño ingenioso de función de recompensa dinámica, equilibrando múltiples objetivos

Deficiencias

  1. Aumento de complejidad: Introduce complejidad algorítmica adicional en comparación con métodos de clasificación simple
  2. Sensibilidad a parámetros: El parámetro de equilibrio λ en la función de recompensa requiere ajuste para diferentes conjuntos de datos
  3. Análisis teórico insuficiente: Carencia de garantías teóricas sobre convergencia y optimalidad

Impacto

  1. Contribución académica: Proporciona nueva dirección de investigación para optimización de sistemas RAG
  2. Aplicación práctica: El método posee fuerte practicidad, aplicable a sistemas reales
  3. Reproducibilidad: Proporciona implementación de código completa, facilitando reproducción y extensión

Escenarios Aplicables

  1. Preguntas y respuestas intensivas en conocimiento: Particularmente adecuado para escenarios que requieren equilibrio entre precisión y eficiencia
  2. Procesamiento de consultas de complejidad múltiple: Capacidad de manejar consultas que van desde simples a complejas
  3. Entornos con recursos limitados: Optimización de costos de recuperación cuando los recursos computacionales son limitados

Referencias

  1. Lewis, P., et al. (2020). Retrieval-augmented generation for knowledge-intensive nlp tasks. NeurIPS.
  2. Jeong, S., et al. (2024). Adaptive-rag: Learning to adapt retrieval-augmented large language models through question complexity. arXiv preprint.
  3. Katehakis, M. N., & Veinott Jr, A. F. (1987). The multi-armed bandit problem: decomposition and computation. Mathematics of Operations Research.

Evaluación General: Este artículo propone un marco de optimización RAG innovador y práctico que logra selección dinámica de estrategias de recuperación mediante algoritmos de bandidos multiarmados, reduciendo significativamente costos computacionales mientras mantiene alta precisión. El método posee fundamentos teóricos sólidos, resultados experimentales convincentes, y proporciona perspectivas valiosas para el desarrollo futuro de sistemas RAG.