2025-11-13T01:58:10.933950

MBA-RAG: a Bandit Approach for Adaptive Retrieval-Augmented Generation through Question Complexity

Tang, Gao, Li et al.

Retrieval Augmented Generation (RAG) has proven to be highly effective in boosting the generative performance of language model in knowledge-intensive tasks. However, existing RAG framework either indiscriminately perform retrieval or rely on rigid single-class classifiers to select retrieval methods, leading to inefficiencies and suboptimal performance across queries of varying complexity. To address these challenges, we propose a reinforcement learning-based framework that dynamically selects the most suitable retrieval strategy based on query complexity. % our solution Our approach leverages a multi-armed bandit algorithm, which treats each retrieval method as a distinct ``arm'' and adapts the selection process by balancing exploration and exploitation. Additionally, we introduce a dynamic reward function that balances accuracy and efficiency, penalizing methods that require more retrieval steps, even if they lead to a correct result. Our method achieves new state of the art results on multiple single-hop and multi-hop datasets while reducing retrieval costs. Our code are available at https://github.com/FUTUREEEEEE/MBA .

academic

MBA-RAG: ein Bandit-Ansatz für adaptive Retrieval-Augmented Generation durch Fragekomplexität

Grundinformationen

Paper-ID: 2412.01572
Titel: MBA-RAG: a Bandit Approach for Adaptive Retrieval-Augmented Generation through Question Complexity
Autoren: Xiaqiang Tang, Qiang Gao, Jian Li, Nan Du, Qi Li, Sihong Xie
Institutionen: Hong Kong University of Science and Technology (Guangzhou), Tencent Hunyuan, Wuhan University, Iowa State University
Kategorie: cs.AI
Veröffentlichungsdatum: 1. Januar 2025 (arXiv v4)
Paper-Link: https://arxiv.org/abs/2412.01572
Code-Link: https://github.com/FUTUREEEEEE/MBA

Zusammenfassung

Retrieval-Augmented Generation (RAG) verbessert die Generierungsleistung von Sprachmodellen bei wissensintensiven Aufgaben erheblich. Allerdings führen bestehende RAG-Frameworks entweder undifferenzierte Abrufe durch oder verlassen sich auf starre Einzelklassen-Klassifizierer zur Auswahl von Abrufmethoden, was zu Ineffizienz und suboptimaler Leistung bei Abfragen unterschiedlicher Komplexität führt. Um diese Herausforderungen zu bewältigen, schlagen wir ein auf Reinforcement Learning basierendes Framework vor, das dynamisch die am besten geeignete Abrufstrategie basierend auf Abfragekomplexität auswählt. Die Methode nutzt Multi-Armed-Bandit-Algorithmen und behandelt jede Abrufmethode als einen anderen „Arm", wobei Exploration und Exploitation ausgeglichen werden, um den Auswahlprozess anzupassen. Darüber hinaus führen wir eine dynamische Belohnungsfunktion ein, die Genauigkeit und Effizienz ausgleicht und Methoden bestraft, die mehr Abrufschritte erfordern, selbst wenn das richtige Ergebnis erzielt wird. Die Methode erreicht neue SOTA-Ergebnisse auf mehreren Single-Hop- und Multi-Hop-Datensätzen und reduziert gleichzeitig die Abrufkosten.

Forschungshintergrund und Motivation

Problemdefinition

Bestehende RAG-Systeme weisen folgende Kernprobleme auf:

Unangemessene Abrufstrategie-Auswahl: Die meisten RAG-Frameworks führen undifferenziert Abrufe für alle Abfragen durch, was möglicherweise zu unnötigen oder irrelevanten Absätzen führt
Einschränkungen einzelner Methoden: Die Verwendung einer einzelnen Abrufmethode für alle Abfragen ist ineffizient; einfache Abfragen führen zu unnötigen Rechenkosten, komplexe Abfragen werden möglicherweise nicht angemessen verarbeitet
Ungenaue Überwachungssignale: Bestehende adaptive Methoden wie AdaptiveRAG verwenden heuristische Überwachung und gehen davon aus, dass jede Abfrage nur eine optimale Strategie hat, wobei sie dazu neigen, den Weg mit den geringsten Abrufkosten zu wählen

Forschungsmotivation

Die Kernmotivation dieses Papers ist die Entwicklung eines Frameworks, das:

Dynamisch an Abfragekomplexität anpasst: Intelligente Auswahl von Abrufstrategien basierend auf Problemkomplexität
Genauigkeit und Effizienz ausgleicht: Minimierung der Rechenkosten bei Gewährleistung der Antwortqualität
Multi-Strategie-Exploration unterstützt: Ermöglicht mehrere Strategien, die zu korrekten Antworten führen können, anstatt einen einzelnen „optimalen" Weg zu erzwingen

Kernbeiträge

Vorschlag des MBA-RAG-Frameworks: Erstmalige Anwendung von Multi-Armed-Bandit-Algorithmen auf die Abrufstrategie-Auswahl in RAG-Systemen für adaptive Abrufe
Entwurf einer dynamischen Belohnungsfunktion: Innovative Kombination von Genauigkeit und Recheneffizienz durch Bestrafung hochkostiger Methoden zur Ressourcenoptimierung
Erreichung von SOTA-Leistung: Beste Ergebnisse auf 6 Datensätzen mit gleichzeitiger Reduzierung der Abrufkosten um 20%
Bereitstellung eines flexiblen Überwachungsmechanismus: Verwendung von Teilinformations-Überwachung anstelle strenger Einzellabel-Überwachung, um das Modell zur Erkundung mehrerer effektiver Strategien zu ermutigen

Methodische Details

Aufgabendefinition

Gegeben eine Abfrage x muss das RAG-System:

Abrufphase: Modul R ruft relevante Dokumente D für Abfrage x ab
Generierungsphase: LLM generiert Antwort ā = LLM(yt|x,D) unter Verwendung von x und D

Wir definieren dies neu als Multi-Armed-Bandit-Problem, wobei jede Abrufmethode (kein Abruf, einzelner Abruf, mehrfacher Abruf) als ein „Arm" fungiert.

Modellarchitektur

1. Abfrage-Kodierung und Arm-Auswahl

Encoder: Verwendet DistilBERT zur Kodierung von Benutzerabfragen und generiert Aktionsverteilung z = fθ(x)
Auswahlstrategie: Verwendet ε-Greedy-Strategie zum Ausgleich von Exploration und Exploitation:
- Mit Wahrscheinlichkeit (1-ε) wähle a = argmax(z)
- Mit Wahrscheinlichkeit ε wähle zufällig eine Generierungsmethode

2. Lernalgorithmus

Die Zielfunktion minimiert den quadratischen Fehler zwischen tatsächlicher Belohnung ra und vorhergesagter Belohnung fθ(x)a:

min_θ (ra - fθ(x)a)²

Parameteraktualisierungsregel:

θt+1 = θt - α∇θ((ra - fθ(x)a)²)

3. Dynamische Belohnungsfunktion

ra = A(y, ŷa) - λC(a)

wobei:

A(y, ŷa): Generierungsqualitätsmetrik (z.B. exakte Übereinstimmung)
C(a): Rechenkosten der Methode a (z.B. Anzahl der Abrufschritte)
λ: Skalierungsfaktor zum Ausgleich von Genauigkeit und Effizienz

Technische Innovationen

Multi-Armed-Bandit-Anpassung: Modellierung der Abrufstrategie-Auswahl als Multi-Armed-Bandit-Problem, wobei jede Abrufmethode einem „Arm" entspricht
Teilinformations-Überwachung: Bereitstellung von Feedback nur für die ausgewählte Strategie, keine Bestrafung nicht ausgewählter Strategien
Kostenorientierte Belohnung: Dynamische Belohnungsfunktion berücksichtigt sowohl Genauigkeit als auch Recheneffizienz
Exploration-Exploitation-Ausgleich: Vermeidung vorzeitiger Konvergenz zu suboptimalen Lösungen durch ε-Greedy-Strategie

Experimentelle Einrichtung

Datensätze

Single-Hop-QA-Datensätze:

SQuAD v1.1: Leseverständnisaufgabe
Natural Questions: Open-Domain-Fragen-Beantwortung
TriviaQA: Wissensfragen-Beantwortung

Multi-Hop-QA-Datensätze:

MuSiQue: Multi-Schritt-Reasoning-Fragen-Beantwortung
HotpotQA: Multi-Hop-Reasoning-Fragen-Beantwortung
2WikiMultiHopQA: Wikipedia-basierte Multi-Hop-Fragen-Beantwortung

Bewertungsmetriken

Leistungsmetriken:

EM (Exact Match): Vorhersageergebnis stimmt vollständig mit echter Antwort überein
F1: Lexikalische Überlappung zwischen vorhergesagter und echter Antwort
Acc (Accuracy): Ob die vorhergesagte Antwort die echte Antwort enthält

Effizienzmetriken:

Step: Anzahl der Abrufschritte, die die ausgewählte Strategie erfordert

Vergleichsmethoden

No-Retrieval: Direkte Antwortgenerierung ohne Abruf
Adaptive-Retrieval: Dynamische Bestimmung, ob Abruf erforderlich ist
Self-RAG: Dynamische Abrufentscheidung durch Selbstreflexion
DRAGIN: Aktivierung des Abrufs basierend auf Token-Unsicherheit
SEAKR: Abrufentscheidung basierend auf Selbstwahrnehmungs-Unsicherheit
Adaptive-RAG: Verwendung eines Klassifizierers zur Auswahl von Abrufstrategien basierend auf Abfragekomplexität

Implementierungsdetails

Abfrage-Kodierungsmodell: DistilBERT
Abrufmodell: BM25
Generierungsmodell: FLAN-T5-XL (3B)
Lernrate: 5e-5
Explorationsstrategie: ε-Greedy-Algorithmus

Experimentelle Ergebnisse

Hauptergebnisse

Methode	EM	F1	Acc	Step
No Retrieval	14.87	21.12	15.97	0.00
Adaptive Retrieval	23.87	32.24	26.73	0.50
Self-RAG	9.90	20.79	31.57	0.72
Adaptive-RAG	37.17	46.94	42.10	2.17
MBA-RAG (Unsere Methode)	38.80	48.61	43.57	1.80

Schlüsselfunde

Leistungsverbesserung: MBA-RAG übertrifft Baseline-Methoden bei allen Leistungsmetriken
Effizienzoptimierung: Im Vergleich zu Adaptive-RAG Reduzierung der Abrufschritte um etwa 17% (von 2.17 auf 1.80)
Leistung bei Single-Hop-Datensätzen: Signifikante Verbesserungen bei SQuAD und TriviaQA mit deutlich reduzierten Abrufkosten
Leistung bei Multi-Hop-Datensätzen: Hervorragende Verbesserungen bei 2WikiMultiHopQA mit Abrufkostenreduktion über 20%

Klassifizierungsgenauigkeitsanalyse

Die Klassifizierungsgenauigkeit von MBA-RAG erreicht 56.1%, deutlich höher als:

Adaptive Retrieval: 42.0%
Self-RAG: 41.5%
Adaptive-RAG: 54.0%

Ablationsstudien

Der Vergleich mit Multi-Label-Klassifizierer-Ergebnissen zeigt, dass traditionelle Multi-Label-Methoden zwar bessere Leistung bieten, aber zu hohe Abrufkosten haben (Step erreicht 4.514), während MBA-RAG das beste Gleichgewicht zwischen Leistung und Effizienz erreicht.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Validierung der Effektivität: MBA-RAG erreicht SOTA-Leistung auf mehreren Datensätzen
Effizienzverbesserung: Signifikante Reduzierung der Abrufkosten, durchschnittlich um 20%
Starke Adaptivität: Dynamische Strategieanpassung basierend auf Abfragekomplexität

Einschränkungen

Algorithmusabhängigkeit: Framework hängt von spezifischer Multi-Armed-Bandit-Algorithmusstruktur ab
Skalierungsherausforderungen: Mögliche Adaptivitätsprobleme bei neuen, ungesehenen Abfragetypen
Rechenanforderungen: Reinforcement-Learning-Methode kann zusätzliche Rechenkosten verursachen

Zukünftige Richtungen

Algorithmusoptimierung: Erkundung effizienterer Algorithmen zur Reduzierung von Rechenanforderungen
Verallgemeinerungsfähigkeit: Verbesserung der Adaptivität gegenüber neuen Abfragetypen
Anwendungserweiterung: Anwendung der Methode auf breitere NLP-Aufgaben

Tiefgreifende Bewertung

Stärken

Starke Innovativität: Erstmalige Einführung von Multi-Armed-Bandits in RAG-Systeme mit solider theoretischer Grundlage
Hoher praktischer Wert: Gleichzeitige Optimierung von Genauigkeit und Effizienz mit wichtigem Anwendungswert
Umfassende Experimente: Vollständige Bewertung auf 6 verschiedenen Datensatztypen
Vernünftige Methodik: Geschickter Entwurf der dynamischen Belohnungsfunktion mit Ausgleich mehrerer Ziele

Mängel

Erhöhte Komplexität: Einführung zusätzlicher algorithmischer Komplexität im Vergleich zu einfachen Klassifizierungsmethoden
Parameterempfindlichkeit: Der Ausgleichsparameter λ in der Belohnungsfunktion erfordert Anpassung für verschiedene Datensätze
Unzureichende theoretische Analyse: Fehlende Konvergenz- und Optimalitätsgarantien

Auswirkungen

Akademischer Beitrag: Bietet neue Forschungsrichtung für RAG-Systemoptimierung
Praktische Anwendung: Methode hat starke Praktikabilität und kann auf reale Systeme angewendet werden
Reproduzierbarkeit: Bereitstellung vollständiger Code-Implementierung für einfache Reproduktion und Erweiterung

Anwendungsszenarien

Wissensintensive Fragen-Beantwortung: Besonders geeignet für Szenarien, die Genauigkeit und Effizienz ausgleichen müssen
Verarbeitung von Abfragen unterschiedlicher Komplexität: Kann verschiedene Abfragen von einfach bis komplex verarbeiten
Ressourcenbegrenzte Umgebungen: Kann Abrufkosten in Umgebungen mit begrenzten Rechenressourcen optimieren

Literaturverzeichnis

Lewis, P., et al. (2020). Retrieval-augmented generation for knowledge-intensive nlp tasks. NeurIPS.
Jeong, S., et al. (2024). Adaptive-rag: Learning to adapt retrieval-augmented large language models through question complexity. arXiv preprint.
Katehakis, M. N., & Veinott Jr, A. F. (1987). The multi-armed bandit problem: decomposition and computation. Mathematics of Operations Research.

Gesamtbewertung: Dieses Paper schlägt ein innovatives und praktisches RAG-Optimierungs-Framework vor, das durch Multi-Armed-Bandit-Algorithmen die dynamische Auswahl von Abrufstrategien realisiert und dabei hohe Genauigkeit beibehält und die Rechenkosten erheblich reduziert. Die Methode hat eine solide theoretische Grundlage, überzeugende experimentelle Ergebnisse und bietet wertvolle Perspektiven für die weitere Entwicklung von RAG-Systemen.