2025-11-14T03:13:11.609221

Beyond the limitation of a single query: Train your LLM for query expansion with Reinforcement Learning

Zhao, Yu, Xu
Reasoning-augmented search agents, such as Search-R1, are trained to reason, search, and generate the final answer iteratively. Nevertheless, due to their limited capabilities in reasoning and search, their performance on multi-hop QA benchmarks remains far from satisfactory. To handle complex or compound queries, we train an LLM-based search agent with the native capability of query expansion through reinforcement learning. In each turn, our search agent proposes several query variants, which are searched simultaneously to cover more relevant information. Meanwhile, given limited post-training data and computing resources, it is very challenging for a search agent to master multiple tasks, including query generation, retrieved information understanding, and answer generation. Therefore, we propose incorporating a pre-trained squeezer model that helps the search agent understand the retrieved documents, allowing the search agent to focus on query generation for high retrieval recall. With the assistance of the squeezer model, we discover that even a small-scale 3B LLM can demonstrate a strong capability of query expansion and achieve state-of-the-art accuracy on the multi-hop QA benchmarks. To be specific, our experiments across seven question-answering benchmarks demonstrate that our method, named ExpandSearch, achieves an average improvement of 4.4% compared to state-of-the-art baselines, with strong gains on multi-hop reasoning tasks requiring diverse evidence aggregation.
academic

Beyond the limitation of a single query: Train your LLM for query expansion with Reinforcement Learning

基本信息

  • 论文ID: 2510.10009
  • 标题: Beyond the limitation of a single query: Train your LLM for query expansion with Reinforcement Learning
  • 作者: Shu Zhao (NVIDIA & Pennsylvania State University), Tan Yu (NVIDIA), Anbang Xu (NVIDIA)
  • 分类: cs.CL cs.AI cs.IR
  • 发表时间: 2025-10-14 (arXiv预印本)
  • 论文链接: https://arxiv.org/abs/2510.10009

摘要

推理增强搜索代理(如Search-R1)被训练来迭代地推理、搜索和生成最终答案。然而,由于其在推理和搜索方面的能力有限,它们在多跳问答基准测试上的表现仍然不尽人意。为了处理复杂或复合查询,作者通过强化学习训练了一个具有原生查询扩展能力的基于LLM的搜索代理。在每一轮中,搜索代理提出多个查询变体,同时搜索以覆盖更多相关信息。同时,考虑到有限的后训练数据和计算资源,搜索代理很难掌握多项任务,包括查询生成、检索信息理解和答案生成。因此,作者提出结合一个预训练的压缩器模型来帮助搜索代理理解检索到的文档,使搜索代理能够专注于查询生成以获得高检索召回率。在压缩器模型的帮助下,作者发现即使是小规模的3B LLM也能展现出强大的查询扩展能力,并在多跳问答基准测试上取得最先进的准确率。具体来说,在七个问答基准测试中的实验表明,该方法ExpandSearch相比最先进的基线平均提升了4.4%,在需要多样化证据聚合的多跳推理任务上取得了显著提升。

研究背景与动机

问题定义

现有的推理增强搜索代理面临两个核心挑战:

  1. 语义不完整性:生成的查询语义贫乏,无法捕获相关信息的完整范围,特别是在面对需要多样化证据的多面问题时
  2. 信息过载:检索内容包含大量无关信息,模糊了关键事实并降低了推理质量

研究重要性

多跳问答任务需要从多个角度聚合证据,单一查询的语义局限性和基于单向量嵌入检索的理论限制严重制约了系统性能。这个问题在复杂推理场景中尤为突出,代理必须在大量搜索结果中导航以识别稀疏但关键的证据。

现有方法局限性

  • Search-R1等方法在每轮只生成单个查询,容易错过关键语义信息
  • 检索内容冗长导致计算成本高昂,GPU内存消耗大,显著降低训练速度
  • 信噪比问题在多跳推理任务中尤为严重

研究动机

作者的核心洞察是:有效的信息检索需要双重策略——扩展查询空间以最大化相关信息覆盖,然后选择性地提炼检索内容以保留仅推理关键的事实。这种"扩展-压缩"范式反映了人类信息寻求行为。

核心贡献

  1. 识别并形式化了双重问题:语义不完整性和信息过载在推理增强搜索代理中的影响,通过实证分析证明两个问题都显著降低了复杂推理任务的性能
  2. 提出ExpandSearch框架:结合基于强化学习的查询扩展和提示式选择性信息提炼的"扩展-压缩"框架,在多步推理场景中实现高召回率的同时保持精确度
  3. 实现显著性能提升:在七个基准测试中相比最先进基线取得实质性改进,特别是在需要多样化证据聚合的多跳推理任务上表现突出

方法详解

任务定义

给定输入查询x,搜索代理需要通过迭代的推理-搜索过程生成最终答案y,其中每轮可以调用搜索引擎R获取相关文档块,并基于检索信息进行推理。

模型架构

Expand-then-Squeeze策略

Expand阶段

  • LLM生成包含n个多样化查询{qi}的<search></search>
  • 每个查询qi通过搜索引擎R检索k个最相关块:Ci = c1i, ..., cki ← R(qi)
  • 有效克服单查询检索的限制,提高检索召回率

Squeeze阶段

  • 将生成的查询q1, ..., qn和检索块C1, ..., Cn输入冻结的LLM压缩器πs
  • 生成摘要:s = πs(q1, ..., qn, C1, ..., Cn)
  • 压缩信息s被封装在<information></information>块中插入到进行中的生成序列

技术创新点

1. 查询扩展类型

通过强化学习自然发现两种互补的扩展类型:

  • 语法扩展:处理表面形式变化,如"where did he die" → "his death place"
  • 语义扩展:扩大信息范围,如"Alex's father" → "Alex's family"

2. 模块化架构设计

  • 搜索代理:专注于查询生成以实现高检索召回率
  • 压缩器模型:独立处理检索文档理解,通过API调用实现解耦

3. 奖励函数设计

采用加权组合的奖励函数:r = rEM + λrf

  • rEM:精确匹配奖励,当预测答案与真实答案完全匹配时为1
  • rf:格式奖励,当预测答案严格遵循格式时为1
  • λ默认设为0.2

实验设置

数据集

涵盖七个基准测试,分为两类:

  1. 通用问答:NQ、TriviaQA、PopQA
  2. 多跳问答:HotpotQA、2WikiMultiHopQA、Musique、Bamboogle

遵循Jin等人的设置,结合NQ和HotpotQA训练集进行训练,在验证/测试集上评估域内和域外泛化能力。

评价指标

使用精确匹配(Exact Match, EM)作为主要评价指标。

对比方法

  • R1 without search engine
  • Search-R1
  • ZeroSearch
  • StepSearch
  • Router-R1
  • ParallelSearch

实现细节

  • 骨干模型:Qwen-2.5-Base/Instruct (3B/7B)
  • 嵌入模型:E5
  • 语料库:2018年Wikipedia转储
  • 硬件:8×NVIDIA H100 GPU
  • 算法:PPO (Proximal Policy Optimization)
  • 批处理:总批大小512,小批256,微批64

实验结果

主要结果

在所有配置下取得一致且显著的改进:

  • 平均提升4.4%:相比最强基线的绝对改进
  • 小模型优势:3B-Instruct模型(0.457平均EM)超越7B基线方法
  • 架构影响:3B模型中instruct变体优于base模型2.2%;7B模型中base变体优于instruct模型3.1%

消融实验

查询扩展数量影响

从1个查询增加到3个查询显著提升性能:

  • n=1到n=2:平均提升6.7%
  • n=3时继续改进,但收益递减

端到端训练的重要性

  • ExpandSearch (n=3, k=5)相比Search-R1 (k=15)提升34.3%
  • 仅添加扩展提示而不进行RL训练甚至降低性能
  • 证明了端到端训练对学习有效查询扩展策略的关键作用

扩展类型分析

  • 语法扩展占比63.35%,语义扩展占比36.65%
  • 移除任一类型都导致性能下降,证明其互补性

压缩器行为分析

  • 检索深度:从k=3增加到k=10显示一致但递减的收益
  • 模型选择:LLaMA-3.1-70B在通用问答上表现更好,LLaMA-4-17B在多跳推理上更优
  • 泛化能力:训练时和推理时使用不同压缩器模型性能保持可比

训练动态

  • 奖励、响应长度和搜索频率同步增长
  • 模型自主学习增加搜索频率作为改善答案质量的策略
  • 平滑的训练曲线表明稳定的优化过程

相关工作

深度搜索代理

  • RAG系统:两阶段管道,先检索后生成,但常包含无关信息
  • 搜索工具框架:如IRCoT、ReAct通过提示引导,Toolformer通过监督微调
  • 强化学习方法:Search-R1开创性应用RL技术,后续发展包括ZeroSearch、MaskSearch等

强化学习

  • RLHF:通过人类偏好注释训练奖励模型
  • 效率优化:DPO、SimPO、ORPO等方法绕过奖励模型训练
  • 新兴技术:GRPO、RLOO通过组方式评估策略提供有前景的替代方案

结论与讨论

主要结论

  1. ExpandSearch通过学习的查询扩展和选择性信息提炼有效解决了单查询检索的局限性
  2. "扩展-压缩"范式成功解决了语义不完整性和信息过载的双重挑战
  3. 即使3B规模的模型也能展现强大的查询扩展能力并达到最先进性能

局限性

  1. 计算成本:多查询检索和压缩器调用增加了推理时间
  2. 依赖性:性能依赖于压缩器模型的质量
  3. 扩展饱和:查询数量增加的收益存在递减效应

未来方向

  1. 自适应检索策略:根据查询复杂度动态调整扩展数量
  2. 更高效的训练方法:减少对大规模计算资源的依赖
  3. 端到端优化:联合训练搜索代理和压缩器模型

深度评价

优点

  1. 方法创新性:首次将查询扩展与强化学习结合,"扩展-压缩"范式设计巧妙
  2. 实验充分性:七个基准测试、多种模型规模、详细的消融实验
  3. 技术洞察:发现语法和语义扩展的互补性,提供了有价值的技术洞察
  4. 实用价值:小模型也能达到优异性能,具有实际部署价值

不足

  1. 理论分析不足:缺乏对为什么这种方法有效的理论解释
  2. 计算效率:多查询检索的计算开销分析不够深入
  3. 泛化能力:主要在问答任务上验证,其他任务的适用性未知
  4. 压缩器依赖:对外部压缩器模型的依赖可能限制其应用场景

影响力

  1. 学术贡献:为检索增强生成领域提供了新的研究方向
  2. 实用价值:模块化设计便于实际应用和部署
  3. 可复现性:提供了详细的实现细节和开源承诺

适用场景

  1. 多跳问答系统:特别适合需要复杂推理的问答任务
  2. 信息检索系统:可应用于需要高召回率的检索场景
  3. 对话系统:可集成到需要外部知识的对话代理中

参考文献

论文引用了多个重要工作,包括:

  • Search-R1 (Jin et al., 2025b):开创性的RL搜索代理工作
  • RLHF相关工作 (Ouyang et al., 2022):强化学习训练LLM的基础
  • 多个问答数据集:NQ、HotpotQA、TriviaQA等标准基准

该论文提出了一个创新的解决方案来应对当前搜索代理的核心挑战,通过巧妙的"扩展-压缩"设计实现了显著的性能提升。虽然在理论分析和计算效率方面还有改进空间,但其技术创新和实验验证都达到了较高水平,对检索增强生成领域具有重要的推动作用。