MBA-RAG: a Bandit Approach for Adaptive Retrieval-Augmented Generation through Question Complexity
Tang, Gao, Li et al.
Retrieval Augmented Generation (RAG) has proven to be highly effective in boosting the generative performance of language model in knowledge-intensive tasks. However, existing RAG framework either indiscriminately perform retrieval or rely on rigid single-class classifiers to select retrieval methods, leading to inefficiencies and suboptimal performance across queries of varying complexity. To address these challenges, we propose a reinforcement learning-based framework that dynamically selects the most suitable retrieval strategy based on query complexity. % our solution Our approach leverages a multi-armed bandit algorithm, which treats each retrieval method as a distinct ``arm'' and adapts the selection process by balancing exploration and exploitation. Additionally, we introduce a dynamic reward function that balances accuracy and efficiency, penalizing methods that require more retrieval steps, even if they lead to a correct result. Our method achieves new state of the art results on multiple single-hop and multi-hop datasets while reducing retrieval costs. Our code are available at https://github.com/FUTUREEEEEE/MBA .
academic
MBA-RAG : une Approche par Bandits pour la Génération Augmentée par Récupération Adaptative via la Complexité des Questions
La génération augmentée par récupération (RAG) améliore significativement les performances de génération des modèles de langage dans les tâches à forte intensité de connaissances. Cependant, les cadres RAG existants effectuent soit la récupération sans discrimination, soit s'appuient sur des classificateurs rigides à classe unique pour sélectionner les méthodes de récupération, ce qui entraîne une inefficacité et des performances sous-optimales pour les requêtes de complexités différentes. Pour résoudre ces défis, cet article propose un cadre basé sur l'apprentissage par renforcement capable de sélectionner dynamiquement la stratégie de récupération la plus appropriée en fonction de la complexité de la requête. Cette méthode exploite l'algorithme des bandits à plusieurs bras, traitant chaque méthode de récupération comme un « bras » différent, en équilibrant l'exploration et l'exploitation pour adapter le processus de sélection. De plus, une fonction de récompense dynamique équilibrant la précision et l'efficacité est introduite, pénalisant les méthodes nécessitant davantage d'étapes de récupération, même lorsque le résultat correct est obtenu. Cette méthode atteint de nouveaux résultats SOTA sur plusieurs ensembles de données à un et plusieurs sauts, tout en réduisant les coûts de récupération.
Les systèmes RAG existants présentent les problèmes fondamentaux suivants :
Sélection inadéquate de la stratégie de récupération : La plupart des cadres RAG effectuent la récupération sans discrimination pour toutes les requêtes, ce qui peut introduire des passages inutiles ou hors sujet
Limitations des méthodes uniques : L'utilisation d'une seule méthode de récupération pour toutes les requêtes est inefficace, les requêtes simples générant des frais de calcul inutiles et les requêtes complexes ne recevant pas un traitement suffisant
Signaux de supervision imprécis : Les méthodes adaptatives existantes comme AdaptiveRAG utilisent une supervision heuristique, supposant qu'il existe une seule stratégie optimale pour chaque requête et tendant à sélectionner le chemin avec le coût de récupération le plus faible
La motivation fondamentale de cet article est de développer un cadre capable de :
S'adapter dynamiquement à la complexité des requêtes : Sélectionner intelligemment les stratégies de récupération en fonction du degré de complexité du problème
Équilibrer la précision et l'efficacité : Minimiser les coûts de calcul tout en garantissant la qualité des réponses
Soutenir l'exploration multi-stratégies : Permettre à plusieurs stratégies de produire des réponses correctes, plutôt que de forcer la sélection d'un seul chemin « optimal »
Proposition du cadre MBA-RAG : Application pionnière de l'algorithme des bandits à plusieurs bras à la sélection de stratégies de récupération dans les systèmes RAG, réalisant une récupération adaptative dynamique
Conception d'une fonction de récompense dynamique : Combinaison innovante de la précision et de l'efficacité computationnelle, optimisant l'utilisation des ressources par la pénalisation des méthodes coûteuses
Réalisation de performances SOTA : Résultats optimaux sur 6 ensembles de données, réduisant simultanément les coûts de récupération de 20%
Fourniture d'un mécanisme de supervision flexible : Utilisation d'une supervision par information partielle remplaçant la supervision stricte à étiquette unique, permettant au modèle d'explorer plusieurs stratégies efficaces
Phase de récupération : Le module R récupère les documents pertinents D pour la requête x
Phase de génération : Le LLM génère une réponse ā = LLM(yt|x,D) en utilisant x et D
Cet article redéfinit cela comme un problème de bandits à plusieurs bras, où chaque méthode de récupération (pas de récupération, récupération unique, récupération multiple) constitue un « bras ».
Adaptation des bandits à plusieurs bras : Modélisation de la sélection de stratégies de récupération comme un problème de bandits à plusieurs bras, chaque méthode de récupération correspondant à un « bras »
Supervision par information partielle : Fourniture de rétroaction uniquement pour la stratégie sélectionnée, sans pénaliser les stratégies non sélectionnées
Récompense sensible aux coûts : La fonction de récompense dynamique considère simultanément la précision et l'efficacité computationnelle
Équilibre exploration-exploitation : Évite la convergence prématurée vers une solution sous-optimale via une stratégie ε-gourmande
Amélioration des performances : MBA-RAG surpasse toutes les méthodes de base sur tous les indicateurs de performance
Optimisation de l'efficacité : Réduction d'environ 17% du nombre d'étapes de récupération par rapport à Adaptive-RAG (de 2.17 à 1.80)
Performance sur les ensembles de données à un seul saut : Améliorations significatives sur SQuAD et TriviaQA, réduction substantielle des coûts de récupération
Performance sur les ensembles de données à plusieurs sauts : Améliorations remarquables sur 2WikiMultiHopQA, réduction des coûts de récupération supérieure à 20%
La comparaison avec les résultats des classificateurs multi-étiquettes montre que bien que les méthodes multi-étiquettes traditionnelles offrent de bonnes performances, elles entraînent des coûts de récupération excessifs (Step atteignant 4.514), tandis que MBA-RAG réalise le meilleur équilibre entre performance et efficacité.
Cet article applique pour la première fois l'algorithme des bandits à plusieurs bras aux systèmes RAG, fournissant un nouveau cadre théorique pour la sélection de stratégies de récupération.
Lewis, P., et al. (2020). Retrieval-augmented generation for knowledge-intensive nlp tasks. NeurIPS.
Jeong, S., et al. (2024). Adaptive-rag: Learning to adapt retrieval-augmented large language models through question complexity. arXiv preprint.
Katehakis, M. N., & Veinott Jr, A. F. (1987). The multi-armed bandit problem: decomposition and computation. Mathematics of Operations Research.
Évaluation Globale : Cet article propose un cadre d'optimisation RAG innovant et pratique, réalisant la sélection dynamique de stratégies de récupération via l'algorithme des bandits à plusieurs bras, réduisant significativement les coûts de calcul tout en maintenant une haute précision. La méthode possède une fondation théorique solide, des résultats expérimentaux convaincants, et fournit des perspectives précieuses pour le développement ultérieur des systèmes RAG.