2025-11-14T03:13:11.609221

Beyond the limitation of a single query: Train your LLM for query expansion with Reinforcement Learning

Zhao, Yu, Xu
Reasoning-augmented search agents, such as Search-R1, are trained to reason, search, and generate the final answer iteratively. Nevertheless, due to their limited capabilities in reasoning and search, their performance on multi-hop QA benchmarks remains far from satisfactory. To handle complex or compound queries, we train an LLM-based search agent with the native capability of query expansion through reinforcement learning. In each turn, our search agent proposes several query variants, which are searched simultaneously to cover more relevant information. Meanwhile, given limited post-training data and computing resources, it is very challenging for a search agent to master multiple tasks, including query generation, retrieved information understanding, and answer generation. Therefore, we propose incorporating a pre-trained squeezer model that helps the search agent understand the retrieved documents, allowing the search agent to focus on query generation for high retrieval recall. With the assistance of the squeezer model, we discover that even a small-scale 3B LLM can demonstrate a strong capability of query expansion and achieve state-of-the-art accuracy on the multi-hop QA benchmarks. To be specific, our experiments across seven question-answering benchmarks demonstrate that our method, named ExpandSearch, achieves an average improvement of 4.4% compared to state-of-the-art baselines, with strong gains on multi-hop reasoning tasks requiring diverse evidence aggregation.
academic

Jenseits der Begrenzung einer einzelnen Anfrage: Trainieren Sie Ihr LLM für Abfrageerweiterung mit Reinforcement Learning

Grundinformationen

  • Papier-ID: 2510.10009
  • Titel: Beyond the limitation of a single query: Train your LLM for query expansion with Reinforcement Learning
  • Autoren: Shu Zhao (NVIDIA & Pennsylvania State University), Tan Yu (NVIDIA), Anbang Xu (NVIDIA)
  • Klassifizierung: cs.CL cs.AI cs.IR
  • Veröffentlichungsdatum: 2025-10-14 (arXiv-Preprint)
  • Papierlink: https://arxiv.org/abs/2510.10009

Zusammenfassung

Reasoning-erweiterte Suchagentenmodelle (wie Search-R1) werden trainiert, um iterativ zu argumentieren, zu suchen und endgültige Antworten zu generieren. Aufgrund ihrer begrenzten Fähigkeiten beim Reasoning und bei der Suche ist ihre Leistung bei Multi-Hop-Frage-Antwort-Benchmarks jedoch noch unbefriedigend. Um komplexe oder zusammengesetzte Anfragen zu bearbeiten, trainieren die Autoren einen LLM-basierten Suchagentenmodell mit nativen Abfrageerweiterungsfähigkeiten durch Reinforcement Learning. In jeder Runde schlägt der Suchagentenmodell mehrere Abfragevarianten vor und sucht gleichzeitig, um mehr relevante Informationen abzudecken. Angesichts begrenzter Post-Training-Daten und Rechenressourcen fällt es dem Suchagentenmodell schwer, mehrere Aufgaben zu beherrschen, darunter Abfragegenerierung, Verständnis abgerufener Informationen und Antworterzeugung. Daher schlagen die Autoren vor, ein vortrainiertes Kompressor-Modell zu kombinieren, um dem Suchagentenmodell zu helfen, abgerufene Dokumente zu verstehen, sodass sich der Suchagentenmodell auf die Abfragegenerierung konzentrieren kann, um eine hohe Abrufquote zu erreichen. Mit Hilfe des Kompressor-Modells zeigen die Autoren, dass selbst kleine 3B-LLMs starke Abfrageerweiterungsfähigkeiten aufweisen und modernste Genauigkeit bei Multi-Hop-Frage-Antwort-Benchmarks erreichen können. Konkret zeigen Experimente auf sieben Frage-Antwort-Benchmarks, dass die Methode ExpandSearch im Vergleich zu modernsten Baselines durchschnittlich um 4,4 % verbessert wird, mit erheblichen Verbesserungen bei Multi-Hop-Reasoning-Aufgaben, die vielfältige Evidenzaggregation erfordern.

Forschungshintergrund und Motivation

Problemdefinition

Bestehende Reasoning-erweiterte Suchagentenmodelle stehen zwei Kernherausforderungen gegenüber:

  1. Semantische Unvollständigkeit: Generierte Abfragen sind semantisch arm und können nicht die vollständige Spanne relevanter Informationen erfassen, besonders bei mehrdeutigen Fragen, die vielfältige Evidenz erfordern
  2. Informationsüberflutung: Abgerufene Inhalte enthalten große Mengen irrelevanter Informationen, die Schlüsselfakten verschleiern und die Reasoning-Qualität verringern

Forschungsbedeutung

Multi-Hop-Frage-Antwort-Aufgaben erfordern die Aggregation von Evidenz aus mehreren Perspektiven. Die semantische Begrenztheit einzelner Abfragen und theoretische Grenzen der auf einzelnen Vektor-Embeddings basierenden Abrufmethoden schränken die Systemleistung erheblich ein. Dieses Problem ist in komplexen Reasoning-Szenarien besonders akut, in denen Agenten durch große Mengen von Suchergebnissen navigieren müssen, um spärliche, aber kritische Evidenz zu identifizieren.

Einschränkungen bestehender Methoden

  • Methoden wie Search-R1 generieren in jeder Runde nur eine einzelne Abfrage und verfehlen leicht kritische semantische Informationen
  • Lange abgerufene Inhalte führen zu hohen Rechenkosten, großem GPU-Speicherverbrauch und verringern die Trainingsgeschwindigkeit erheblich
  • Signal-Rausch-Verhältnis-Probleme sind in Multi-Hop-Reasoning-Aufgaben besonders schwerwiegend

Forschungsmotivation

Die Kernidee der Autoren ist: Effektives Informationsabrufen erfordert eine duale Strategie – die Abfragespace erweitern, um die Abdeckung relevanter Informationen zu maximieren, dann selektiv abgerufene Inhalte verfeinern, um nur für Reasoning kritische Fakten zu bewahren. Dieses „Erweitern-Komprimieren"-Paradigma spiegelt menschliches Informationssuchverhalten wider.

Kernbeiträge

  1. Identifizierung und Formalisierung des dualen Problems: Semantische Unvollständigkeit und Informationsüberflutung in Reasoning-erweiterten Suchagentenmodellen, mit empirischer Analyse, die zeigt, dass beide Probleme die Leistung bei komplexen Reasoning-Aufgaben erheblich verringern
  2. Vorschlag des ExpandSearch-Frameworks: Ein „Erweitern-Komprimieren"-Framework, das Reinforcement-Learning-basierte Abfrageerweiterung mit Prompt-basierter selektiver Informationsverfeinierung kombiniert und hohe Abrufquoten bei gleichzeitiger Beibehaltung der Genauigkeit in Multi-Step-Reasoning-Szenarien erreicht
  3. Erreichung erheblicher Leistungsverbesserungen: Substanzielle Verbesserungen gegenüber modernsten Baselines auf sieben Benchmarks, besonders hervorragend bei Multi-Hop-Reasoning-Aufgaben, die vielfältige Evidenzaggregation erfordern

Methodische Details

Aufgabendefinition

Gegeben eine Eingabeabfrage x muss der Suchagentenmodell durch einen iterativen Reasoning-Such-Prozess eine endgültige Antwort y generieren, wobei in jeder Runde eine Suchmaschine R aufgerufen werden kann, um relevante Dokumentblöcke abzurufen und basierend auf abgerufenen Informationen zu argumentieren.

Modellarchitektur

Expand-then-Squeeze-Strategie

Expand-Phase:

  • LLM generiert <search></search>-Blöcke mit n diversifizierten Abfragen {qi}
  • Jede Abfrage qi ruft k am meisten verwandte Blöcke durch Suchmaschine R ab: Ci = c1i, ..., cki ← R(qi)
  • Überwindet effektiv die Einschränkungen des Einzelabfrage-Abrufs und verbessert die Abrufquote

Squeeze-Phase:

  • Generierte Abfragen q1, ..., qn und abgerufene Blöcke C1, ..., Cn werden in das eingefrorene LLM-Kompressor-Modell πs eingegeben
  • Generiert Zusammenfassung: s = πs(q1, ..., qn, C1, ..., Cn)
  • Komprimierte Informationen s werden in <information></information>-Blöcken in die laufende Generierungssequenz eingefügt

Technische Innovationen

1. Abfrageerweiterungstypen

Zwei komplementäre Erweiterungstypen werden durch Reinforcement Learning natürlich entdeckt:

  • Syntaktische Erweiterung: Behandelt oberflächliche Formvariationen, z.B. „where did he die" → „his death place"
  • Semantische Erweiterung: Erweitert Informationsspanne, z.B. „Alex's father" → „Alex's family"

2. Modulare Architekturgestaltung

  • Suchagentenmodell: Konzentriert sich auf Abfragegenerierung zur Erreichung hoher Abrufquoten
  • Kompressor-Modell: Behandelt unabhängig das Verständnis abgerufener Dokumente, implementiert Entkopplung durch API-Aufrufe

3. Belohnungsfunktionsgestaltung

Verwendet gewichtete Kombinationsbelohnungsfunktion: r = rEM + λrf

  • rEM: Exakte-Übereinstimmungs-Belohnung, 1 wenn vorhergesagte Antwort genau mit echter Antwort übereinstimmt
  • rf: Format-Belohnung, 1 wenn vorhergesagte Antwort streng dem Format entspricht
  • λ standardmäßig auf 0,2 gesetzt

Experimentelle Einrichtung

Datensätze

Umfasst sieben Benchmarks, unterteilt in zwei Kategorien:

  1. Allgemeine Frage-Antwort: NQ, TriviaQA, PopQA
  2. Multi-Hop-Frage-Antwort: HotpotQA, 2WikiMultiHopQA, Musique, Bamboogle

Folgt Jins Einrichtung, kombiniert NQ- und HotpotQA-Trainingssätze zum Trainieren, bewertet auf Validierungs-/Testsätzen für In-Domain- und Out-of-Domain-Generalisierungsfähigkeit.

Bewertungsmetriken

Verwendet Exakte Übereinstimmung (Exact Match, EM) als primäre Bewertungsmetrik.

Vergleichsmethoden

  • R1 ohne Suchmaschine
  • Search-R1
  • ZeroSearch
  • StepSearch
  • Router-R1
  • ParallelSearch

Implementierungsdetails

  • Backbone-Modell: Qwen-2.5-Base/Instruct (3B/7B)
  • Embedding-Modell: E5
  • Corpus: 2018 Wikipedia-Dump
  • Hardware: 8×NVIDIA H100 GPU
  • Algorithmus: PPO (Proximal Policy Optimization)
  • Batch-Verarbeitung: Gesamtbatchgröße 512, Mini-Batch 256, Mikro-Batch 64

Experimentelle Ergebnisse

Hauptergebnisse

Erreicht konsistente und erhebliche Verbesserungen unter allen Konfigurationen:

  • Durchschnittliche Verbesserung von 4,4 %: Absolute Verbesserung gegenüber stärkster Baseline
  • Vorteil kleiner Modelle: 3B-Instruct-Modell (0,457 durchschnittliche EM) übertrifft 7B-Baseline-Methoden
  • Architektur-Auswirkung: Instruct-Variante in 3B-Modell übertrifft Base-Modell um 2,2 %; Base-Variante in 7B-Modell übertrifft Instruct-Modell um 3,1 %

Ablationsstudien

Auswirkung der Abfrageerweiterungsmenge

Erhebliche Leistungsverbesserung beim Erhöhen von 1 auf 3 Abfragen:

  • n=1 zu n=2: Durchschnittliche Verbesserung von 6,7 %
  • Bei n=3 weitere Verbesserung, aber abnehmende Erträge

Wichtigkeit des End-to-End-Trainings

  • ExpandSearch (n=3, k=5) gegenüber Search-R1 (k=15): Verbesserung von 34,3 %
  • Nur Erweiterungsprompts ohne RL-Training führt sogar zu Leistungsabfall
  • Beweist kritische Rolle des End-to-End-Trainings beim Erlernen effektiver Abfrageerweiterungsstrategien

Analyse des Erweiterungstyps

  • Syntaktische Erweiterung macht 63,35 % aus, semantische Erweiterung 36,65 %
  • Entfernung eines Typs führt zu Leistungsabfall, beweist Komplementarität

Kompressor-Verhaltensanalyse

  • Abruftiefe: Erhöhung von k=3 auf k=10 zeigt konsistente, aber abnehmende Erträge
  • Modellauswahl: LLaMA-3.1-70B zeigt bessere Leistung bei allgemeiner Frage-Antwort, LLaMA-4-17B besser bei Multi-Hop-Reasoning
  • Generalisierungsfähigkeit: Leistung bleibt vergleichbar, wenn unterschiedliche Kompressor-Modelle beim Training und Inferenz verwendet werden

Trainingsdynamik

  • Belohnung, Antwortlänge und Suchfrequenz wachsen synchron
  • Modell lernt autonom, Suchfrequenz zu erhöhen als Strategie zur Verbesserung der Antwortqualität
  • Glatte Trainingskurve zeigt stabilen Optimierungsprozess

Verwandte Arbeiten

Tiefe Suchagentenmodelle

  • RAG-Systeme: Zweistufige Pipeline, erst abrufen dann generieren, enthält aber oft irrelevante Informationen
  • Such-Tool-Frameworks: Wie IRCoT, ReAct durch Prompt-Anleitung, Toolformer durch überwachte Feinabstimmung
  • Reinforcement-Learning-Methoden: Search-R1 Pionierarbeit bei RL-Techniken, nachfolgende Entwicklungen umfassen ZeroSearch, MaskSearch usw.

Reinforcement Learning

  • RLHF: Training von Belohnungsmodellen durch menschliche Präferenzannotationen
  • Effizienzoptimierung: DPO, SimPO, ORPO umgehen Belohnungsmodell-Training
  • Aufstrebende Technologien: GRPO, RLOO bieten vielversprechende Alternativen durch Gruppenbewertung von Richtlinien

Schlussfolgerung und Diskussion

Hauptschlussfolgerungen

  1. ExpandSearch löst effektiv die Einschränkungen des Einzelabfrage-Abrufs durch gelernte Abfrageerweiterung und selektive Informationsverfeinierung
  2. Das „Erweitern-Komprimieren"-Paradigma löst erfolgreich die duale Herausforderung semantischer Unvollständigkeit und Informationsüberflutung
  3. Selbst 3B-Modelle zeigen starke Abfrageerweiterungsfähigkeiten und erreichen modernste Leistung

Einschränkungen

  1. Rechenkosten: Mehrfach-Abfrage-Abrufe und Kompressor-Aufrufe erhöhen die Inferenzzeit
  2. Abhängigkeit: Leistung hängt von der Qualität des Kompressor-Modells ab
  3. Erweiterungssättigung: Abnehmende Erträge bei Erhöhung der Abfragenmenge

Zukünftige Richtungen

  1. Adaptive Abrufstrategien: Dynamische Anpassung der Erweiterungsmenge basierend auf Abfragekomplexität
  2. Effizientere Trainingsmethoden: Reduzierung der Abhängigkeit von großen Rechenressourcen
  3. End-to-End-Optimierung: Gemeinsames Training von Suchagentenmodell und Kompressor-Modell

Tiefgreifende Bewertung

Stärken

  1. Methodische Innovativität: Erste Kombination von Abfrageerweiterung mit Reinforcement Learning, geschickte Gestaltung des „Erweitern-Komprimieren"-Paradigmas
  2. Experimentelle Gründlichkeit: Sieben Benchmarks, mehrere Modellgrößen, detaillierte Ablationsstudien
  3. Technische Einsichten: Entdeckung der Komplementarität syntaktischer und semantischer Erweiterung, wertvolle technische Erkenntnisse
  4. Praktischer Wert: Kleine Modelle erreichen hervorragende Leistung, praktischer Bereitstellungswert

Mängel

  1. Unzureichende theoretische Analyse: Mangel an theoretischer Erklärung, warum diese Methode funktioniert
  2. Recheneffizienz: Analyse des Rechenaufwands mehrfacher Abfrage-Abrufe nicht ausreichend tiefgreifend
  3. Generalisierungsfähigkeit: Hauptsächlich auf Frage-Antwort-Aufgaben validiert, Anwendbarkeit auf andere Aufgaben unbekannt
  4. Kompressor-Abhängigkeit: Abhängigkeit von externem Kompressor-Modell kann Anwendungsszenarien einschränken

Einfluss

  1. Akademischer Beitrag: Bietet neue Forschungsrichtung für Retrieval-Augmented-Generation-Feld
  2. Praktischer Wert: Modulare Gestaltung erleichtert praktische Anwendung und Bereitstellung
  3. Reproduzierbarkeit: Bietet detaillierte Implementierungsdetails und Open-Source-Zusage

Anwendungsszenarien

  1. Multi-Hop-Frage-Antwort-Systeme: Besonders geeignet für Frage-Antwort-Aufgaben, die komplexes Reasoning erfordern
  2. Informationsabrufsysteme: Anwendbar auf Abrufszenarien, die hohe Abrufquoten erfordern
  3. Dialogsysteme: Kann in Dialogagenten integriert werden, die externes Wissen benötigen

Referenzen

Das Papier zitiert mehrere wichtige Arbeiten, darunter:

  • Search-R1 (Jin et al., 2025b): Pionierarbeit bei RL-Suchagentenmodellen
  • RLHF-verwandte Arbeiten (Ouyang et al., 2022): Grundlagen für RL-Training von LLMs
  • Mehrere Frage-Antwort-Datensätze: NQ, HotpotQA, TriviaQA und andere Standardbenchmarks

Dieses Papier schlägt eine innovative Lösung vor, um Kernherausforderungen aktueller Suchagentenmodelle zu bewältigen. Durch geschickte „Erweitern-Komprimieren"-Gestaltung werden erhebliche Leistungsverbesserungen erreicht. Obwohl es Raum für Verbesserungen in theoretischer Analyse und Recheneffizienz gibt, erreichen sowohl technische Innovation als auch experimentelle Validierung ein hohes Niveau und haben wichtige Auswirkungen auf das Retrieval-Augmented-Generation-Feld.