2025-11-14T03:13:11.609221

Beyond the limitation of a single query: Train your LLM for query expansion with Reinforcement Learning

Zhao, Yu, Xu

Reasoning-augmented search agents, such as Search-R1, are trained to reason, search, and generate the final answer iteratively. Nevertheless, due to their limited capabilities in reasoning and search, their performance on multi-hop QA benchmarks remains far from satisfactory. To handle complex or compound queries, we train an LLM-based search agent with the native capability of query expansion through reinforcement learning. In each turn, our search agent proposes several query variants, which are searched simultaneously to cover more relevant information. Meanwhile, given limited post-training data and computing resources, it is very challenging for a search agent to master multiple tasks, including query generation, retrieved information understanding, and answer generation. Therefore, we propose incorporating a pre-trained squeezer model that helps the search agent understand the retrieved documents, allowing the search agent to focus on query generation for high retrieval recall. With the assistance of the squeezer model, we discover that even a small-scale 3B LLM can demonstrate a strong capability of query expansion and achieve state-of-the-art accuracy on the multi-hop QA benchmarks. To be specific, our experiments across seven question-answering benchmarks demonstrate that our method, named ExpandSearch, achieves an average improvement of 4.4% compared to state-of-the-art baselines, with strong gains on multi-hop reasoning tasks requiring diverse evidence aggregation.

academic

Jenseits der Begrenzung einer einzelnen Anfrage: Trainieren Sie Ihr LLM für Abfrageerweiterung mit Reinforcement Learning

Grundinformationen

Papier-ID: 2510.10009
Titel: Beyond the limitation of a single query: Train your LLM for query expansion with Reinforcement Learning
Autoren: Shu Zhao (NVIDIA & Pennsylvania State University), Tan Yu (NVIDIA), Anbang Xu (NVIDIA)
Klassifizierung: cs.CL cs.AI cs.IR
Veröffentlichungsdatum: 2025-10-14 (arXiv-Preprint)
Papierlink: https://arxiv.org/abs/2510.10009

Zusammenfassung

Reasoning-erweiterte Suchagentenmodelle (wie Search-R1) werden trainiert, um iterativ zu argumentieren, zu suchen und endgültige Antworten zu generieren. Aufgrund ihrer begrenzten Fähigkeiten beim Reasoning und bei der Suche ist ihre Leistung bei Multi-Hop-Frage-Antwort-Benchmarks jedoch noch unbefriedigend. Um komplexe oder zusammengesetzte Anfragen zu bearbeiten, trainieren die Autoren einen LLM-basierten Suchagentenmodell mit nativen Abfrageerweiterungsfähigkeiten durch Reinforcement Learning. In jeder Runde schlägt der Suchagentenmodell mehrere Abfragevarianten vor und sucht gleichzeitig, um mehr relevante Informationen abzudecken. Angesichts begrenzter Post-Training-Daten und Rechenressourcen fällt es dem Suchagentenmodell schwer, mehrere Aufgaben zu beherrschen, darunter Abfragegenerierung, Verständnis abgerufener Informationen und Antworterzeugung. Daher schlagen die Autoren vor, ein vortrainiertes Kompressor-Modell zu kombinieren, um dem Suchagentenmodell zu helfen, abgerufene Dokumente zu verstehen, sodass sich der Suchagentenmodell auf die Abfragegenerierung konzentrieren kann, um eine hohe Abrufquote zu erreichen. Mit Hilfe des Kompressor-Modells zeigen die Autoren, dass selbst kleine 3B-LLMs starke Abfrageerweiterungsfähigkeiten aufweisen und modernste Genauigkeit bei Multi-Hop-Frage-Antwort-Benchmarks erreichen können. Konkret zeigen Experimente auf sieben Frage-Antwort-Benchmarks, dass die Methode ExpandSearch im Vergleich zu modernsten Baselines durchschnittlich um 4,4 % verbessert wird, mit erheblichen Verbesserungen bei Multi-Hop-Reasoning-Aufgaben, die vielfältige Evidenzaggregation erfordern.

Forschungshintergrund und Motivation

Problemdefinition

Bestehende Reasoning-erweiterte Suchagentenmodelle stehen zwei Kernherausforderungen gegenüber:

Semantische Unvollständigkeit: Generierte Abfragen sind semantisch arm und können nicht die vollständige Spanne relevanter Informationen erfassen, besonders bei mehrdeutigen Fragen, die vielfältige Evidenz erfordern
Informationsüberflutung: Abgerufene Inhalte enthalten große Mengen irrelevanter Informationen, die Schlüsselfakten verschleiern und die Reasoning-Qualität verringern

Forschungsbedeutung

Multi-Hop-Frage-Antwort-Aufgaben erfordern die Aggregation von Evidenz aus mehreren Perspektiven. Die semantische Begrenztheit einzelner Abfragen und theoretische Grenzen der auf einzelnen Vektor-Embeddings basierenden Abrufmethoden schränken die Systemleistung erheblich ein. Dieses Problem ist in komplexen Reasoning-Szenarien besonders akut, in denen Agenten durch große Mengen von Suchergebnissen navigieren müssen, um spärliche, aber kritische Evidenz zu identifizieren.

Einschränkungen bestehender Methoden

Methoden wie Search-R1 generieren in jeder Runde nur eine einzelne Abfrage und verfehlen leicht kritische semantische Informationen
Lange abgerufene Inhalte führen zu hohen Rechenkosten, großem GPU-Speicherverbrauch und verringern die Trainingsgeschwindigkeit erheblich
Signal-Rausch-Verhältnis-Probleme sind in Multi-Hop-Reasoning-Aufgaben besonders schwerwiegend

Forschungsmotivation

Die Kernidee der Autoren ist: Effektives Informationsabrufen erfordert eine duale Strategie – die Abfragespace erweitern, um die Abdeckung relevanter Informationen zu maximieren, dann selektiv abgerufene Inhalte verfeinern, um nur für Reasoning kritische Fakten zu bewahren. Dieses „Erweitern-Komprimieren"-Paradigma spiegelt menschliches Informationssuchverhalten wider.

Kernbeiträge

Identifizierung und Formalisierung des dualen Problems: Semantische Unvollständigkeit und Informationsüberflutung in Reasoning-erweiterten Suchagentenmodellen, mit empirischer Analyse, die zeigt, dass beide Probleme die Leistung bei komplexen Reasoning-Aufgaben erheblich verringern
Vorschlag des ExpandSearch-Frameworks: Ein „Erweitern-Komprimieren"-Framework, das Reinforcement-Learning-basierte Abfrageerweiterung mit Prompt-basierter selektiver Informationsverfeinierung kombiniert und hohe Abrufquoten bei gleichzeitiger Beibehaltung der Genauigkeit in Multi-Step-Reasoning-Szenarien erreicht
Erreichung erheblicher Leistungsverbesserungen: Substanzielle Verbesserungen gegenüber modernsten Baselines auf sieben Benchmarks, besonders hervorragend bei Multi-Hop-Reasoning-Aufgaben, die vielfältige Evidenzaggregation erfordern

Methodische Details

Aufgabendefinition

Gegeben eine Eingabeabfrage x muss der Suchagentenmodell durch einen iterativen Reasoning-Such-Prozess eine endgültige Antwort y generieren, wobei in jeder Runde eine Suchmaschine R aufgerufen werden kann, um relevante Dokumentblöcke abzurufen und basierend auf abgerufenen Informationen zu argumentieren.

Modellarchitektur

Expand-then-Squeeze-Strategie

Expand-Phase:

LLM generiert <search></search>-Blöcke mit n diversifizierten Abfragen {qi}
Jede Abfrage qi ruft k am meisten verwandte Blöcke durch Suchmaschine R ab: Ci = c1i, ..., cki ← R(qi)
Überwindet effektiv die Einschränkungen des Einzelabfrage-Abrufs und verbessert die Abrufquote

Squeeze-Phase:

Generierte Abfragen q1, ..., qn und abgerufene Blöcke C1, ..., Cn werden in das eingefrorene LLM-Kompressor-Modell πs eingegeben
Generiert Zusammenfassung: s = πs(q1, ..., qn, C1, ..., Cn)
Komprimierte Informationen s werden in <information></information>-Blöcken in die laufende Generierungssequenz eingefügt

Technische Innovationen

1. Abfrageerweiterungstypen

Zwei komplementäre Erweiterungstypen werden durch Reinforcement Learning natürlich entdeckt:

Syntaktische Erweiterung: Behandelt oberflächliche Formvariationen, z.B. „where did he die" → „his death place"
Semantische Erweiterung: Erweitert Informationsspanne, z.B. „Alex's father" → „Alex's family"

2. Modulare Architekturgestaltung

Suchagentenmodell: Konzentriert sich auf Abfragegenerierung zur Erreichung hoher Abrufquoten
Kompressor-Modell: Behandelt unabhängig das Verständnis abgerufener Dokumente, implementiert Entkopplung durch API-Aufrufe

3. Belohnungsfunktionsgestaltung

Verwendet gewichtete Kombinationsbelohnungsfunktion: r = rEM + λrf

rEM: Exakte-Übereinstimmungs-Belohnung, 1 wenn vorhergesagte Antwort genau mit echter Antwort übereinstimmt
rf: Format-Belohnung, 1 wenn vorhergesagte Antwort streng dem Format entspricht
λ standardmäßig auf 0,2 gesetzt

Experimentelle Einrichtung

Datensätze

Umfasst sieben Benchmarks, unterteilt in zwei Kategorien:

Allgemeine Frage-Antwort: NQ, TriviaQA, PopQA
Multi-Hop-Frage-Antwort: HotpotQA, 2WikiMultiHopQA, Musique, Bamboogle

Folgt Jins Einrichtung, kombiniert NQ- und HotpotQA-Trainingssätze zum Trainieren, bewertet auf Validierungs-/Testsätzen für In-Domain- und Out-of-Domain-Generalisierungsfähigkeit.

Bewertungsmetriken

Verwendet Exakte Übereinstimmung (Exact Match, EM) als primäre Bewertungsmetrik.

Vergleichsmethoden

R1 ohne Suchmaschine
Search-R1
ZeroSearch
StepSearch
Router-R1
ParallelSearch

Implementierungsdetails

Backbone-Modell: Qwen-2.5-Base/Instruct (3B/7B)
Embedding-Modell: E5
Corpus: 2018 Wikipedia-Dump
Hardware: 8×NVIDIA H100 GPU
Algorithmus: PPO (Proximal Policy Optimization)
Batch-Verarbeitung: Gesamtbatchgröße 512, Mini-Batch 256, Mikro-Batch 64

Experimentelle Ergebnisse

Hauptergebnisse

Erreicht konsistente und erhebliche Verbesserungen unter allen Konfigurationen:

Durchschnittliche Verbesserung von 4,4 %: Absolute Verbesserung gegenüber stärkster Baseline
Vorteil kleiner Modelle: 3B-Instruct-Modell (0,457 durchschnittliche EM) übertrifft 7B-Baseline-Methoden
Architektur-Auswirkung: Instruct-Variante in 3B-Modell übertrifft Base-Modell um 2,2 %; Base-Variante in 7B-Modell übertrifft Instruct-Modell um 3,1 %

Ablationsstudien

Auswirkung der Abfrageerweiterungsmenge

Erhebliche Leistungsverbesserung beim Erhöhen von 1 auf 3 Abfragen:

n=1 zu n=2: Durchschnittliche Verbesserung von 6,7 %
Bei n=3 weitere Verbesserung, aber abnehmende Erträge

Wichtigkeit des End-to-End-Trainings

ExpandSearch (n=3, k=5) gegenüber Search-R1 (k=15): Verbesserung von 34,3 %
Nur Erweiterungsprompts ohne RL-Training führt sogar zu Leistungsabfall
Beweist kritische Rolle des End-to-End-Trainings beim Erlernen effektiver Abfrageerweiterungsstrategien

Analyse des Erweiterungstyps

Syntaktische Erweiterung macht 63,35 % aus, semantische Erweiterung 36,65 %
Entfernung eines Typs führt zu Leistungsabfall, beweist Komplementarität

Kompressor-Verhaltensanalyse

Abruftiefe: Erhöhung von k=3 auf k=10 zeigt konsistente, aber abnehmende Erträge
Modellauswahl: LLaMA-3.1-70B zeigt bessere Leistung bei allgemeiner Frage-Antwort, LLaMA-4-17B besser bei Multi-Hop-Reasoning
Generalisierungsfähigkeit: Leistung bleibt vergleichbar, wenn unterschiedliche Kompressor-Modelle beim Training und Inferenz verwendet werden

Trainingsdynamik

Belohnung, Antwortlänge und Suchfrequenz wachsen synchron
Modell lernt autonom, Suchfrequenz zu erhöhen als Strategie zur Verbesserung der Antwortqualität
Glatte Trainingskurve zeigt stabilen Optimierungsprozess

Schlussfolgerung und Diskussion

Hauptschlussfolgerungen

ExpandSearch löst effektiv die Einschränkungen des Einzelabfrage-Abrufs durch gelernte Abfrageerweiterung und selektive Informationsverfeinierung
Das „Erweitern-Komprimieren"-Paradigma löst erfolgreich die duale Herausforderung semantischer Unvollständigkeit und Informationsüberflutung
Selbst 3B-Modelle zeigen starke Abfrageerweiterungsfähigkeiten und erreichen modernste Leistung

Einschränkungen

Rechenkosten: Mehrfach-Abfrage-Abrufe und Kompressor-Aufrufe erhöhen die Inferenzzeit
Abhängigkeit: Leistung hängt von der Qualität des Kompressor-Modells ab
Erweiterungssättigung: Abnehmende Erträge bei Erhöhung der Abfragenmenge

Zukünftige Richtungen

Adaptive Abrufstrategien: Dynamische Anpassung der Erweiterungsmenge basierend auf Abfragekomplexität
Effizientere Trainingsmethoden: Reduzierung der Abhängigkeit von großen Rechenressourcen
End-to-End-Optimierung: Gemeinsames Training von Suchagentenmodell und Kompressor-Modell

Tiefgreifende Bewertung

Stärken

Methodische Innovativität: Erste Kombination von Abfrageerweiterung mit Reinforcement Learning, geschickte Gestaltung des „Erweitern-Komprimieren"-Paradigmas
Experimentelle Gründlichkeit: Sieben Benchmarks, mehrere Modellgrößen, detaillierte Ablationsstudien
Technische Einsichten: Entdeckung der Komplementarität syntaktischer und semantischer Erweiterung, wertvolle technische Erkenntnisse
Praktischer Wert: Kleine Modelle erreichen hervorragende Leistung, praktischer Bereitstellungswert

Mängel

Unzureichende theoretische Analyse: Mangel an theoretischer Erklärung, warum diese Methode funktioniert
Recheneffizienz: Analyse des Rechenaufwands mehrfacher Abfrage-Abrufe nicht ausreichend tiefgreifend
Generalisierungsfähigkeit: Hauptsächlich auf Frage-Antwort-Aufgaben validiert, Anwendbarkeit auf andere Aufgaben unbekannt
Kompressor-Abhängigkeit: Abhängigkeit von externem Kompressor-Modell kann Anwendungsszenarien einschränken

Einfluss

Akademischer Beitrag: Bietet neue Forschungsrichtung für Retrieval-Augmented-Generation-Feld
Praktischer Wert: Modulare Gestaltung erleichtert praktische Anwendung und Bereitstellung
Reproduzierbarkeit: Bietet detaillierte Implementierungsdetails und Open-Source-Zusage

Anwendungsszenarien

Multi-Hop-Frage-Antwort-Systeme: Besonders geeignet für Frage-Antwort-Aufgaben, die komplexes Reasoning erfordern
Informationsabrufsysteme: Anwendbar auf Abrufszenarien, die hohe Abrufquoten erfordern
Dialogsysteme: Kann in Dialogagenten integriert werden, die externes Wissen benötigen

Referenzen

Das Papier zitiert mehrere wichtige Arbeiten, darunter:

Search-R1 (Jin et al., 2025b): Pionierarbeit bei RL-Suchagentenmodellen
RLHF-verwandte Arbeiten (Ouyang et al., 2022): Grundlagen für RL-Training von LLMs
Mehrere Frage-Antwort-Datensätze: NQ, HotpotQA, TriviaQA und andere Standardbenchmarks

Dieses Papier schlägt eine innovative Lösung vor, um Kernherausforderungen aktueller Suchagentenmodelle zu bewältigen. Durch geschickte „Erweitern-Komprimieren"-Gestaltung werden erhebliche Leistungsverbesserungen erreicht. Obwohl es Raum für Verbesserungen in theoretischer Analyse und Recheneffizienz gibt, erreichen sowohl technische Innovation als auch experimentelle Validierung ein hohes Niveau und haben wichtige Auswirkungen auf das Retrieval-Augmented-Generation-Feld.