2025-11-13T01:58:10.933950

MBA-RAG: a Bandit Approach for Adaptive Retrieval-Augmented Generation through Question Complexity

Tang, Gao, Li et al.

Retrieval Augmented Generation (RAG) has proven to be highly effective in boosting the generative performance of language model in knowledge-intensive tasks. However, existing RAG framework either indiscriminately perform retrieval or rely on rigid single-class classifiers to select retrieval methods, leading to inefficiencies and suboptimal performance across queries of varying complexity. To address these challenges, we propose a reinforcement learning-based framework that dynamically selects the most suitable retrieval strategy based on query complexity. % our solution Our approach leverages a multi-armed bandit algorithm, which treats each retrieval method as a distinct ``arm'' and adapts the selection process by balancing exploration and exploitation. Additionally, we introduce a dynamic reward function that balances accuracy and efficiency, penalizing methods that require more retrieval steps, even if they lead to a correct result. Our method achieves new state of the art results on multiple single-hop and multi-hop datasets while reducing retrieval costs. Our code are available at https://github.com/FUTUREEEEEE/MBA .

academic

MBA-RAG : une Approche par Bandits pour la Génération Augmentée par Récupération Adaptative via la Complexité des Questions

Informations Fondamentales

ID de l'article : 2412.01572
Titre : MBA-RAG: a Bandit Approach for Adaptive Retrieval-Augmented Generation through Question Complexity
Auteurs : Xiaqiang Tang, Qiang Gao, Jian Li, Nan Du, Qi Li, Sihong Xie
Institutions : Université de Technologie de Hong Kong (Guangzhou), Tencent Hunyuan, Université de Wuhan, Université d'État de l'Iowa
Classification : cs.AI
Date de publication : 1er janvier 2025 (arXiv v4)
Lien de l'article : https://arxiv.org/abs/2412.01572
Lien du code : https://github.com/FUTUREEEEEE/MBA

Résumé

La génération augmentée par récupération (RAG) améliore significativement les performances de génération des modèles de langage dans les tâches à forte intensité de connaissances. Cependant, les cadres RAG existants effectuent soit la récupération sans discrimination, soit s'appuient sur des classificateurs rigides à classe unique pour sélectionner les méthodes de récupération, ce qui entraîne une inefficacité et des performances sous-optimales pour les requêtes de complexités différentes. Pour résoudre ces défis, cet article propose un cadre basé sur l'apprentissage par renforcement capable de sélectionner dynamiquement la stratégie de récupération la plus appropriée en fonction de la complexité de la requête. Cette méthode exploite l'algorithme des bandits à plusieurs bras, traitant chaque méthode de récupération comme un « bras » différent, en équilibrant l'exploration et l'exploitation pour adapter le processus de sélection. De plus, une fonction de récompense dynamique équilibrant la précision et l'efficacité est introduite, pénalisant les méthodes nécessitant davantage d'étapes de récupération, même lorsque le résultat correct est obtenu. Cette méthode atteint de nouveaux résultats SOTA sur plusieurs ensembles de données à un et plusieurs sauts, tout en réduisant les coûts de récupération.

Contexte de Recherche et Motivation

Définition du Problème

Les systèmes RAG existants présentent les problèmes fondamentaux suivants :

Sélection inadéquate de la stratégie de récupération : La plupart des cadres RAG effectuent la récupération sans discrimination pour toutes les requêtes, ce qui peut introduire des passages inutiles ou hors sujet
Limitations des méthodes uniques : L'utilisation d'une seule méthode de récupération pour toutes les requêtes est inefficace, les requêtes simples générant des frais de calcul inutiles et les requêtes complexes ne recevant pas un traitement suffisant
Signaux de supervision imprécis : Les méthodes adaptatives existantes comme AdaptiveRAG utilisent une supervision heuristique, supposant qu'il existe une seule stratégie optimale pour chaque requête et tendant à sélectionner le chemin avec le coût de récupération le plus faible

Motivation de la Recherche

La motivation fondamentale de cet article est de développer un cadre capable de :

S'adapter dynamiquement à la complexité des requêtes : Sélectionner intelligemment les stratégies de récupération en fonction du degré de complexité du problème
Équilibrer la précision et l'efficacité : Minimiser les coûts de calcul tout en garantissant la qualité des réponses
Soutenir l'exploration multi-stratégies : Permettre à plusieurs stratégies de produire des réponses correctes, plutôt que de forcer la sélection d'un seul chemin « optimal »

Contributions Principales

Proposition du cadre MBA-RAG : Application pionnière de l'algorithme des bandits à plusieurs bras à la sélection de stratégies de récupération dans les systèmes RAG, réalisant une récupération adaptative dynamique
Conception d'une fonction de récompense dynamique : Combinaison innovante de la précision et de l'efficacité computationnelle, optimisant l'utilisation des ressources par la pénalisation des méthodes coûteuses
Réalisation de performances SOTA : Résultats optimaux sur 6 ensembles de données, réduisant simultanément les coûts de récupération de 20%
Fourniture d'un mécanisme de supervision flexible : Utilisation d'une supervision par information partielle remplaçant la supervision stricte à étiquette unique, permettant au modèle d'explorer plusieurs stratégies efficaces

Explication Détaillée de la Méthode

Définition de la Tâche

Étant donnée une requête x, le système RAG doit :

Phase de récupération : Le module R récupère les documents pertinents D pour la requête x
Phase de génération : Le LLM génère une réponse ā = LLM(yt|x,D) en utilisant x et D

Cet article redéfinit cela comme un problème de bandits à plusieurs bras, où chaque méthode de récupération (pas de récupération, récupération unique, récupération multiple) constitue un « bras ».

Architecture du Modèle

1. Codage des Requêtes et Sélection des Bras

Encodeur : Utilise DistilBERT pour coder les requêtes utilisateur, générant une distribution d'actions z = fθ(x)
Stratégie de sélection : Adopte une stratégie ε-gourmande équilibrant exploration et exploitation :
- Sélectionne a = argmax(z) avec probabilité (1-ε)
- Sélectionne aléatoirement une méthode de génération avec probabilité ε

2. Algorithme d'Apprentissage

La fonction objectif minimise l'erreur quadratique entre la récompense réelle ra et la récompense prédite fθ(x)a :

min_θ (ra - fθ(x)a)²

Règle de mise à jour des paramètres :

θt+1 = θt - α∇θ((ra - fθ(x)a)²)

3. Fonction de Récompense Dynamique

ra = A(y, ŷa) - λC(a)

Où :

A(y, ŷa) : Métrique de qualité de génération (ex. correspondance exacte)
C(a) : Coût computationnel de la méthode a (ex. nombre d'étapes de récupération)
λ : Facteur d'échelle équilibrant la précision et l'efficacité

Points d'Innovation Technique

Adaptation des bandits à plusieurs bras : Modélisation de la sélection de stratégies de récupération comme un problème de bandits à plusieurs bras, chaque méthode de récupération correspondant à un « bras »
Supervision par information partielle : Fourniture de rétroaction uniquement pour la stratégie sélectionnée, sans pénaliser les stratégies non sélectionnées
Récompense sensible aux coûts : La fonction de récompense dynamique considère simultanément la précision et l'efficacité computationnelle
Équilibre exploration-exploitation : Évite la convergence prématurée vers une solution sous-optimale via une stratégie ε-gourmande

Configuration Expérimentale

Ensembles de Données

Ensembles de données QA à un seul saut :

SQuAD v1.1 : Tâche de compréhension de lecture
Natural Questions : Questions-réponses en domaine ouvert
TriviaQA : Questions-réponses de connaissances

Ensembles de données QA à plusieurs sauts :

MuSiQue : Questions-réponses avec raisonnement multi-étapes
HotpotQA : Questions-réponses avec raisonnement multi-sauts
2WikiMultiHopQA : Questions-réponses multi-sauts basées sur Wikipédia

Métriques d'Évaluation

Métriques de performance :

EM (Exact Match) : Correspondance exacte entre le résultat prédit et la réponse réelle
F1 : Chevauchement lexical entre la réponse prédite et la réponse réelle
Acc (Accuracy) : Indique si la réponse prédite contient la réponse réelle

Métriques d'efficacité :

Step : Nombre d'étapes de récupération requises par la stratégie sélectionnée

Méthodes de Comparaison

No-Retrieval : Génération directe de réponses sans récupération
Adaptive-Retrieval : Détermination dynamique de la nécessité de récupération
Self-RAG : Décision dynamique des besoins de récupération par auto-réflexion
DRAGIN : Activation de la récupération basée sur l'incertitude des tokens
SEAKR : Décision de récupération basée sur l'incertitude auto-perçue
Adaptive-RAG : Utilisation d'un classificateur pour sélectionner les stratégies de récupération selon la complexité des requêtes

Détails d'Implémentation

Modèle de codage des requêtes : DistilBERT
Modèle de récupération : BM25
Modèle de génération : FLAN-T5-XL (3B)
Taux d'apprentissage : 5e-5
Stratégie d'exploration : Algorithme ε-gourmand

Résultats Expérimentaux

Résultats Principaux

Méthode	EM	F1	Acc	Step
No Retrieval	14.87	21.12	15.97	0.00
Adaptive Retrieval	23.87	32.24	26.73	0.50
Self-RAG	9.90	20.79	31.57	0.72
Adaptive-RAG	37.17	46.94	42.10	2.17
MBA-RAG (Notre approche)	38.80	48.61	43.57	1.80

Découvertes Clés

Amélioration des performances : MBA-RAG surpasse toutes les méthodes de base sur tous les indicateurs de performance
Optimisation de l'efficacité : Réduction d'environ 17% du nombre d'étapes de récupération par rapport à Adaptive-RAG (de 2.17 à 1.80)
Performance sur les ensembles de données à un seul saut : Améliorations significatives sur SQuAD et TriviaQA, réduction substantielle des coûts de récupération
Performance sur les ensembles de données à plusieurs sauts : Améliorations remarquables sur 2WikiMultiHopQA, réduction des coûts de récupération supérieure à 20%

Analyse de la Précision de Classification

La précision de classification de MBA-RAG atteint 56.1%, significativement supérieure à :

Adaptive Retrieval : 42.0%
Self-RAG : 41.5%
Adaptive-RAG : 54.0%

Études d'Ablation

La comparaison avec les résultats des classificateurs multi-étiquettes montre que bien que les méthodes multi-étiquettes traditionnelles offrent de bonnes performances, elles entraînent des coûts de récupération excessifs (Step atteignant 4.514), tandis que MBA-RAG réalise le meilleur équilibre entre performance et efficacité.

Travaux Connexes

Développement des Systèmes RAG

RAG traditionnel : Cadre récupération-génération proposé par Lewis et al. (2020)
Récupération adaptative : Méthodes SEAKR, FLARE et autres implémentant la récupération à la demande
Sensibilité à la complexité : AdaptiveRAG sélectionnant les stratégies selon la complexité des requêtes

Applications des Bandits à Plusieurs Bras

Cet article applique pour la première fois l'algorithme des bandits à plusieurs bras aux systèmes RAG, fournissant un nouveau cadre théorique pour la sélection de stratégies de récupération.

Conclusion et Discussion

Conclusions Principales

Validation de l'efficacité : MBA-RAG atteint des performances SOTA sur plusieurs ensembles de données
Amélioration de l'efficacité : Réduction significative des coûts de récupération, moyenne de 20%
Forte adaptabilité : Capable d'ajuster dynamiquement les stratégies selon la complexité des requêtes

Limitations

Dépendance algorithmique : Le cadre dépend de la structure spécifique de l'algorithme des bandits à plusieurs bras
Défis de scalabilité : Peut présenter des problèmes d'adaptabilité face à de nouveaux types de requêtes non vus
Exigences computationnelles : Les méthodes d'apprentissage par renforcement peuvent introduire des frais de calcul supplémentaires

Directions Futures

Optimisation algorithmique : Exploration d'algorithmes plus efficaces pour réduire les exigences computationnelles
Capacité de généralisation : Amélioration de l'adaptabilité aux nouveaux types de requêtes
Extension d'application : Application de la méthode à un éventail plus large de tâches de traitement du langage naturel

Évaluation Approfondie

Avantages

Forte innovativité : Introduction pionnière des bandits à plusieurs bras dans les systèmes RAG, fondation théorique solide
Valeur pratique élevée : Optimisation simultanée de la précision et de l'efficacité, valeur applicative importante
Expérimentation complète : Évaluation exhaustive sur 6 ensembles de données de types différents
Conception méthodique : Conception ingénieuse de la fonction de récompense dynamique, équilibre de multiples objectifs

Insuffisances

Augmentation de la complexité : Introduction de complexité algorithmique supplémentaire par rapport aux méthodes de classification simples
Sensibilité aux paramètres : Le paramètre d'équilibre λ dans la fonction de récompense nécessite un ajustement pour différents ensembles de données
Analyse théorique insuffisante : Absence de garanties théoriques concernant la convergence et l'optimalité

Impact

Contribution académique : Fourniture d'une nouvelle direction de recherche pour l'optimisation des systèmes RAG
Application pratique : Méthode présentant une forte praticité, applicable aux systèmes réels
Reproductibilité : Fourniture d'une implémentation complète du code, facilitant la reproduction et l'extension

Scénarios d'Application

Questions-réponses à forte intensité de connaissances : Particulièrement adaptée aux scénarios nécessitant l'équilibre entre précision et efficacité
Traitement de requêtes de complexités variées : Capable de traiter des requêtes allant de simples à complexes
Environnements aux ressources limitées : Optimisation des coûts de récupération lorsque les ressources computationnelles sont limitées

Références

Lewis, P., et al. (2020). Retrieval-augmented generation for knowledge-intensive nlp tasks. NeurIPS.
Jeong, S., et al. (2024). Adaptive-rag: Learning to adapt retrieval-augmented large language models through question complexity. arXiv preprint.
Katehakis, M. N., & Veinott Jr, A. F. (1987). The multi-armed bandit problem: decomposition and computation. Mathematics of Operations Research.

Évaluation Globale : Cet article propose un cadre d'optimisation RAG innovant et pratique, réalisant la sélection dynamique de stratégies de récupération via l'algorithme des bandits à plusieurs bras, réduisant significativement les coûts de calcul tout en maintenant une haute précision. La méthode possède une fondation théorique solide, des résultats expérimentaux convaincants, et fournit des perspectives précieuses pour le développement ultérieur des systèmes RAG.