2025-11-13T01:58:10.933950

MBA-RAG: a Bandit Approach for Adaptive Retrieval-Augmented Generation through Question Complexity

Tang, Gao, Li et al.
Retrieval Augmented Generation (RAG) has proven to be highly effective in boosting the generative performance of language model in knowledge-intensive tasks. However, existing RAG framework either indiscriminately perform retrieval or rely on rigid single-class classifiers to select retrieval methods, leading to inefficiencies and suboptimal performance across queries of varying complexity. To address these challenges, we propose a reinforcement learning-based framework that dynamically selects the most suitable retrieval strategy based on query complexity. % our solution Our approach leverages a multi-armed bandit algorithm, which treats each retrieval method as a distinct ``arm'' and adapts the selection process by balancing exploration and exploitation. Additionally, we introduce a dynamic reward function that balances accuracy and efficiency, penalizing methods that require more retrieval steps, even if they lead to a correct result. Our method achieves new state of the art results on multiple single-hop and multi-hop datasets while reducing retrieval costs. Our code are available at https://github.com/FUTUREEEEEE/MBA .
academic

MBA-RAG : une Approche par Bandits pour la Génération Augmentée par Récupération Adaptative via la Complexité des Questions

Informations Fondamentales

  • ID de l'article : 2412.01572
  • Titre : MBA-RAG: a Bandit Approach for Adaptive Retrieval-Augmented Generation through Question Complexity
  • Auteurs : Xiaqiang Tang, Qiang Gao, Jian Li, Nan Du, Qi Li, Sihong Xie
  • Institutions : Université de Technologie de Hong Kong (Guangzhou), Tencent Hunyuan, Université de Wuhan, Université d'État de l'Iowa
  • Classification : cs.AI
  • Date de publication : 1er janvier 2025 (arXiv v4)
  • Lien de l'article : https://arxiv.org/abs/2412.01572
  • Lien du code : https://github.com/FUTUREEEEEE/MBA

Résumé

La génération augmentée par récupération (RAG) améliore significativement les performances de génération des modèles de langage dans les tâches à forte intensité de connaissances. Cependant, les cadres RAG existants effectuent soit la récupération sans discrimination, soit s'appuient sur des classificateurs rigides à classe unique pour sélectionner les méthodes de récupération, ce qui entraîne une inefficacité et des performances sous-optimales pour les requêtes de complexités différentes. Pour résoudre ces défis, cet article propose un cadre basé sur l'apprentissage par renforcement capable de sélectionner dynamiquement la stratégie de récupération la plus appropriée en fonction de la complexité de la requête. Cette méthode exploite l'algorithme des bandits à plusieurs bras, traitant chaque méthode de récupération comme un « bras » différent, en équilibrant l'exploration et l'exploitation pour adapter le processus de sélection. De plus, une fonction de récompense dynamique équilibrant la précision et l'efficacité est introduite, pénalisant les méthodes nécessitant davantage d'étapes de récupération, même lorsque le résultat correct est obtenu. Cette méthode atteint de nouveaux résultats SOTA sur plusieurs ensembles de données à un et plusieurs sauts, tout en réduisant les coûts de récupération.

Contexte de Recherche et Motivation

Définition du Problème

Les systèmes RAG existants présentent les problèmes fondamentaux suivants :

  1. Sélection inadéquate de la stratégie de récupération : La plupart des cadres RAG effectuent la récupération sans discrimination pour toutes les requêtes, ce qui peut introduire des passages inutiles ou hors sujet
  2. Limitations des méthodes uniques : L'utilisation d'une seule méthode de récupération pour toutes les requêtes est inefficace, les requêtes simples générant des frais de calcul inutiles et les requêtes complexes ne recevant pas un traitement suffisant
  3. Signaux de supervision imprécis : Les méthodes adaptatives existantes comme AdaptiveRAG utilisent une supervision heuristique, supposant qu'il existe une seule stratégie optimale pour chaque requête et tendant à sélectionner le chemin avec le coût de récupération le plus faible

Motivation de la Recherche

La motivation fondamentale de cet article est de développer un cadre capable de :

  1. S'adapter dynamiquement à la complexité des requêtes : Sélectionner intelligemment les stratégies de récupération en fonction du degré de complexité du problème
  2. Équilibrer la précision et l'efficacité : Minimiser les coûts de calcul tout en garantissant la qualité des réponses
  3. Soutenir l'exploration multi-stratégies : Permettre à plusieurs stratégies de produire des réponses correctes, plutôt que de forcer la sélection d'un seul chemin « optimal »

Contributions Principales

  1. Proposition du cadre MBA-RAG : Application pionnière de l'algorithme des bandits à plusieurs bras à la sélection de stratégies de récupération dans les systèmes RAG, réalisant une récupération adaptative dynamique
  2. Conception d'une fonction de récompense dynamique : Combinaison innovante de la précision et de l'efficacité computationnelle, optimisant l'utilisation des ressources par la pénalisation des méthodes coûteuses
  3. Réalisation de performances SOTA : Résultats optimaux sur 6 ensembles de données, réduisant simultanément les coûts de récupération de 20%
  4. Fourniture d'un mécanisme de supervision flexible : Utilisation d'une supervision par information partielle remplaçant la supervision stricte à étiquette unique, permettant au modèle d'explorer plusieurs stratégies efficaces

Explication Détaillée de la Méthode

Définition de la Tâche

Étant donnée une requête x, le système RAG doit :

  1. Phase de récupération : Le module R récupère les documents pertinents D pour la requête x
  2. Phase de génération : Le LLM génère une réponse ā = LLM(yt|x,D) en utilisant x et D

Cet article redéfinit cela comme un problème de bandits à plusieurs bras, où chaque méthode de récupération (pas de récupération, récupération unique, récupération multiple) constitue un « bras ».

Architecture du Modèle

1. Codage des Requêtes et Sélection des Bras

  • Encodeur : Utilise DistilBERT pour coder les requêtes utilisateur, générant une distribution d'actions z = fθ(x)
  • Stratégie de sélection : Adopte une stratégie ε-gourmande équilibrant exploration et exploitation :
    • Sélectionne a = argmax(z) avec probabilité (1-ε)
    • Sélectionne aléatoirement une méthode de génération avec probabilité ε

2. Algorithme d'Apprentissage

La fonction objectif minimise l'erreur quadratique entre la récompense réelle ra et la récompense prédite fθ(x)a :

min_θ (ra - fθ(x)a)²

Règle de mise à jour des paramètres :

θt+1 = θt - α∇θ((ra - fθ(x)a)²)

3. Fonction de Récompense Dynamique

ra = A(y, ŷa) - λC(a)

Où :

  • A(y, ŷa) : Métrique de qualité de génération (ex. correspondance exacte)
  • C(a) : Coût computationnel de la méthode a (ex. nombre d'étapes de récupération)
  • λ : Facteur d'échelle équilibrant la précision et l'efficacité

Points d'Innovation Technique

  1. Adaptation des bandits à plusieurs bras : Modélisation de la sélection de stratégies de récupération comme un problème de bandits à plusieurs bras, chaque méthode de récupération correspondant à un « bras »
  2. Supervision par information partielle : Fourniture de rétroaction uniquement pour la stratégie sélectionnée, sans pénaliser les stratégies non sélectionnées
  3. Récompense sensible aux coûts : La fonction de récompense dynamique considère simultanément la précision et l'efficacité computationnelle
  4. Équilibre exploration-exploitation : Évite la convergence prématurée vers une solution sous-optimale via une stratégie ε-gourmande

Configuration Expérimentale

Ensembles de Données

Ensembles de données QA à un seul saut :

  • SQuAD v1.1 : Tâche de compréhension de lecture
  • Natural Questions : Questions-réponses en domaine ouvert
  • TriviaQA : Questions-réponses de connaissances

Ensembles de données QA à plusieurs sauts :

  • MuSiQue : Questions-réponses avec raisonnement multi-étapes
  • HotpotQA : Questions-réponses avec raisonnement multi-sauts
  • 2WikiMultiHopQA : Questions-réponses multi-sauts basées sur Wikipédia

Métriques d'Évaluation

Métriques de performance :

  • EM (Exact Match) : Correspondance exacte entre le résultat prédit et la réponse réelle
  • F1 : Chevauchement lexical entre la réponse prédite et la réponse réelle
  • Acc (Accuracy) : Indique si la réponse prédite contient la réponse réelle

Métriques d'efficacité :

  • Step : Nombre d'étapes de récupération requises par la stratégie sélectionnée

Méthodes de Comparaison

  1. No-Retrieval : Génération directe de réponses sans récupération
  2. Adaptive-Retrieval : Détermination dynamique de la nécessité de récupération
  3. Self-RAG : Décision dynamique des besoins de récupération par auto-réflexion
  4. DRAGIN : Activation de la récupération basée sur l'incertitude des tokens
  5. SEAKR : Décision de récupération basée sur l'incertitude auto-perçue
  6. Adaptive-RAG : Utilisation d'un classificateur pour sélectionner les stratégies de récupération selon la complexité des requêtes

Détails d'Implémentation

  • Modèle de codage des requêtes : DistilBERT
  • Modèle de récupération : BM25
  • Modèle de génération : FLAN-T5-XL (3B)
  • Taux d'apprentissage : 5e-5
  • Stratégie d'exploration : Algorithme ε-gourmand

Résultats Expérimentaux

Résultats Principaux

MéthodeEMF1AccStep
No Retrieval14.8721.1215.970.00
Adaptive Retrieval23.8732.2426.730.50
Self-RAG9.9020.7931.570.72
Adaptive-RAG37.1746.9442.102.17
MBA-RAG (Notre approche)38.8048.6143.571.80

Découvertes Clés

  1. Amélioration des performances : MBA-RAG surpasse toutes les méthodes de base sur tous les indicateurs de performance
  2. Optimisation de l'efficacité : Réduction d'environ 17% du nombre d'étapes de récupération par rapport à Adaptive-RAG (de 2.17 à 1.80)
  3. Performance sur les ensembles de données à un seul saut : Améliorations significatives sur SQuAD et TriviaQA, réduction substantielle des coûts de récupération
  4. Performance sur les ensembles de données à plusieurs sauts : Améliorations remarquables sur 2WikiMultiHopQA, réduction des coûts de récupération supérieure à 20%

Analyse de la Précision de Classification

La précision de classification de MBA-RAG atteint 56.1%, significativement supérieure à :

  • Adaptive Retrieval : 42.0%
  • Self-RAG : 41.5%
  • Adaptive-RAG : 54.0%

Études d'Ablation

La comparaison avec les résultats des classificateurs multi-étiquettes montre que bien que les méthodes multi-étiquettes traditionnelles offrent de bonnes performances, elles entraînent des coûts de récupération excessifs (Step atteignant 4.514), tandis que MBA-RAG réalise le meilleur équilibre entre performance et efficacité.

Travaux Connexes

Développement des Systèmes RAG

  1. RAG traditionnel : Cadre récupération-génération proposé par Lewis et al. (2020)
  2. Récupération adaptative : Méthodes SEAKR, FLARE et autres implémentant la récupération à la demande
  3. Sensibilité à la complexité : AdaptiveRAG sélectionnant les stratégies selon la complexité des requêtes

Applications des Bandits à Plusieurs Bras

Cet article applique pour la première fois l'algorithme des bandits à plusieurs bras aux systèmes RAG, fournissant un nouveau cadre théorique pour la sélection de stratégies de récupération.

Conclusion et Discussion

Conclusions Principales

  1. Validation de l'efficacité : MBA-RAG atteint des performances SOTA sur plusieurs ensembles de données
  2. Amélioration de l'efficacité : Réduction significative des coûts de récupération, moyenne de 20%
  3. Forte adaptabilité : Capable d'ajuster dynamiquement les stratégies selon la complexité des requêtes

Limitations

  1. Dépendance algorithmique : Le cadre dépend de la structure spécifique de l'algorithme des bandits à plusieurs bras
  2. Défis de scalabilité : Peut présenter des problèmes d'adaptabilité face à de nouveaux types de requêtes non vus
  3. Exigences computationnelles : Les méthodes d'apprentissage par renforcement peuvent introduire des frais de calcul supplémentaires

Directions Futures

  1. Optimisation algorithmique : Exploration d'algorithmes plus efficaces pour réduire les exigences computationnelles
  2. Capacité de généralisation : Amélioration de l'adaptabilité aux nouveaux types de requêtes
  3. Extension d'application : Application de la méthode à un éventail plus large de tâches de traitement du langage naturel

Évaluation Approfondie

Avantages

  1. Forte innovativité : Introduction pionnière des bandits à plusieurs bras dans les systèmes RAG, fondation théorique solide
  2. Valeur pratique élevée : Optimisation simultanée de la précision et de l'efficacité, valeur applicative importante
  3. Expérimentation complète : Évaluation exhaustive sur 6 ensembles de données de types différents
  4. Conception méthodique : Conception ingénieuse de la fonction de récompense dynamique, équilibre de multiples objectifs

Insuffisances

  1. Augmentation de la complexité : Introduction de complexité algorithmique supplémentaire par rapport aux méthodes de classification simples
  2. Sensibilité aux paramètres : Le paramètre d'équilibre λ dans la fonction de récompense nécessite un ajustement pour différents ensembles de données
  3. Analyse théorique insuffisante : Absence de garanties théoriques concernant la convergence et l'optimalité

Impact

  1. Contribution académique : Fourniture d'une nouvelle direction de recherche pour l'optimisation des systèmes RAG
  2. Application pratique : Méthode présentant une forte praticité, applicable aux systèmes réels
  3. Reproductibilité : Fourniture d'une implémentation complète du code, facilitant la reproduction et l'extension

Scénarios d'Application

  1. Questions-réponses à forte intensité de connaissances : Particulièrement adaptée aux scénarios nécessitant l'équilibre entre précision et efficacité
  2. Traitement de requêtes de complexités variées : Capable de traiter des requêtes allant de simples à complexes
  3. Environnements aux ressources limitées : Optimisation des coûts de récupération lorsque les ressources computationnelles sont limitées

Références

  1. Lewis, P., et al. (2020). Retrieval-augmented generation for knowledge-intensive nlp tasks. NeurIPS.
  2. Jeong, S., et al. (2024). Adaptive-rag: Learning to adapt retrieval-augmented large language models through question complexity. arXiv preprint.
  3. Katehakis, M. N., & Veinott Jr, A. F. (1987). The multi-armed bandit problem: decomposition and computation. Mathematics of Operations Research.

Évaluation Globale : Cet article propose un cadre d'optimisation RAG innovant et pratique, réalisant la sélection dynamique de stratégies de récupération via l'algorithme des bandits à plusieurs bras, réduisant significativement les coûts de calcul tout en maintenant une haute précision. La méthode possède une fondation théorique solide, des résultats expérimentaux convaincants, et fournit des perspectives précieuses pour le développement ultérieur des systèmes RAG.