2025-11-14T03:13:11.609221

Beyond the limitation of a single query: Train your LLM for query expansion with Reinforcement Learning

Zhao, Yu, Xu
Reasoning-augmented search agents, such as Search-R1, are trained to reason, search, and generate the final answer iteratively. Nevertheless, due to their limited capabilities in reasoning and search, their performance on multi-hop QA benchmarks remains far from satisfactory. To handle complex or compound queries, we train an LLM-based search agent with the native capability of query expansion through reinforcement learning. In each turn, our search agent proposes several query variants, which are searched simultaneously to cover more relevant information. Meanwhile, given limited post-training data and computing resources, it is very challenging for a search agent to master multiple tasks, including query generation, retrieved information understanding, and answer generation. Therefore, we propose incorporating a pre-trained squeezer model that helps the search agent understand the retrieved documents, allowing the search agent to focus on query generation for high retrieval recall. With the assistance of the squeezer model, we discover that even a small-scale 3B LLM can demonstrate a strong capability of query expansion and achieve state-of-the-art accuracy on the multi-hop QA benchmarks. To be specific, our experiments across seven question-answering benchmarks demonstrate that our method, named ExpandSearch, achieves an average improvement of 4.4% compared to state-of-the-art baselines, with strong gains on multi-hop reasoning tasks requiring diverse evidence aggregation.
academic

単一クエリの制限を超えて:強化学習でLLMのクエリ拡張を訓練する

基本情報

  • 論文ID: 2510.10009
  • タイトル: Beyond the limitation of a single query: Train your LLM for query expansion with Reinforcement Learning
  • 著者: Shu Zhao (NVIDIA & Pennsylvania State University)、Tan Yu (NVIDIA)、Anbang Xu (NVIDIA)
  • 分類: cs.CL cs.AI cs.IR
  • 発表日: 2025-10-14 (arXiv プレプリント)
  • 論文リンク: https://arxiv.org/abs/2510.10009

要約

推論強化検索エージェント(Search-R1など)は、反復的に推論、検索、最終回答を生成するよう訓練されています。しかし、推論と検索能力の限界により、マルチホップ質問応答ベンチマークでの性能は依然として不十分です。複雑または複合クエリに対処するため、著者らは強化学習を通じて、ネイティブなクエリ拡張機能を備えたLLMベースの検索エージェントを訓練しました。各ラウンドで、検索エージェントは複数のクエリバリエーションを提案し、同時に検索してより多くの関連情報をカバーします。一方、限定的な事後訓練データと計算リソースを考慮すると、検索エージェントはクエリ生成、検索情報理解、回答生成を含む複数のタスクを習得することが困難です。したがって、著者らは事前訓練された圧縮器モデルを組み合わせることを提案し、検索エージェントが検索されたドキュメントを理解するのを支援し、検索エージェントが高い検索リコールを達成するためのクエリ生成に集中できるようにします。圧縮器モデルの支援により、著者らは3B LLMのような小規模モデルでさえ強力なクエリ拡張能力を発揮でき、マルチホップ質問応答ベンチマークで最先端の精度を達成することを発見しました。具体的には、7つの質問応答ベンチマークでの実験により、ExpandSearchメソッドは最先端のベースラインと比較して平均4.4%の改善を達成し、多様な証拠集約を必要とするマルチホップ推論タスクで顕著な改善を実現しました。

研究背景と動機

問題定義

既存の推論強化検索エージェントは2つの中核的な課題に直面しています:

  1. セマンティック不完全性:生成されたクエリのセマンティクスが貧弱で、関連情報の完全な範囲をキャプチャできない。特に多面的な質問に対して多様な証拠が必要な場合に顕著です
  2. 情報過負荷:検索コンテンツには大量の無関連情報が含まれており、重要な事実を曖昧にし、推論品質を低下させます

研究の重要性

マルチホップ質問応答タスクは複数の角度から証拠を集約する必要があり、単一クエリのセマンティック制限と単一ベクトル埋め込みベースの検索の理論的制限は、システムパフォーマンスを大きく制約します。この問題は複雑な推論シナリオで特に顕著であり、エージェントは大量の検索結果をナビゲートして、スパースだが重要な証拠を識別する必要があります。

既存手法の限界

  • Search-R1などの手法は各ラウンドで単一のクエリのみを生成し、重要なセマンティック情報を見落としやすい
  • 検索コンテンツの冗長性は計算コストを増加させ、GPU メモリ消費が大きく、訓練速度を著しく低下させます
  • 信号対雑音比の問題はマルチホップ推論タスクで特に深刻です

研究動機

著者らの中核的な洞察は:効果的な情報検索には二重戦略が必要である、すなわち、クエリ空間を拡張して関連情報カバレッジを最大化し、その後、検索コンテンツを選択的に精製して推論に重要な事実のみを保持することです。この「拡張-圧縮」パラダイムは人間の情報探索行動を反映しています。

中核的な貢献

  1. 二重問題の識別と形式化:推論強化検索エージェントにおけるセマンティック不完全性と情報過負荷の影響を識別し、実証分析を通じて両問題が複雑な推論タスクのパフォーマンスを著しく低下させることを証明
  2. ExpandSearchフレームワークの提案:強化学習ベースのクエリ拡張とプロンプトベースの選択的情報精製を組み合わせた「拡張-圧縮」フレームワークを提案し、マルチステップ推論シナリオで高リコールを実現しながら精度を維持
  3. 顕著なパフォーマンス向上の実現:7つのベンチマークで最先端のベースラインと比較して実質的な改善を達成し、特に多様な証拠集約を必要とするマルチホップ推論タスクで優れたパフォーマンスを発揮

方法の詳細

タスク定義

入力クエリxが与えられた場合、検索エージェントは反復的な推論-検索プロセスを通じて最終回答yを生成する必要があります。各ラウンドで検索エンジンRを呼び出して関連ドキュメントチャンクを取得し、検索情報に基づいて推論を行うことができます。

モデルアーキテクチャ

Expand-then-Squeeze戦略

Expand段階

  • LLMはn個の多様なクエリ{qi}を含む<search></search>ブロックを生成
  • 各クエリqiは検索エンジンRを通じてk個の最も関連するチャンクを検索:Ci = c1i, ..., cki ← R(qi)
  • 単一クエリ検索の制限を効果的に克服し、検索リコールを向上させます

Squeeze段階

  • 生成されたクエリq1, ..., qnと検索チャンクC1, ..., CnをフリーズされたLLM圧縮器πsに入力
  • 要約を生成:s = πs(q1, ..., qn, C1, ..., Cn)
  • 圧縮情報sは<information></information>ブロックにカプセル化され、進行中の生成シーケンスに挿入されます

技術的革新点

1. クエリ拡張タイプ

強化学習を通じて自然に発見された2つの相補的な拡張タイプ:

  • 構文拡張:表面形式の変化を処理。例:"where did he die" → "his death place"
  • セマンティック拡張:情報範囲を拡大。例:"Alex's father" → "Alex's family"

2. モジュール化アーキテクチャ設計

  • 検索エージェント:高い検索リコール達成のためのクエリ生成に集中
  • 圧縮器モデル:検索ドキュメント理解を独立して処理、API呼び出しで実装

3. 報酬関数設計

加重組み合わせの報酬関数を採用:r = rEM + λrf

  • rEM:精確マッチ報酬。予測回答が真の回答と完全に一致する場合は1
  • rf:フォーマット報酬。予測回答が厳密にフォーマットに従う場合は1
  • λのデフォルト値は0.2

実験設定

データセット

7つのベンチマークをカバーし、2つのカテゴリに分類:

  1. 一般的な質問応答:NQ、TriviaQA、PopQA
  2. マルチホップ質問応答:HotpotQA、2WikiMultiHopQA、Musique、Bamboogle

Jinらの設定に従い、NQとHotpotQAの訓練セットを組み合わせて訓練し、検証/テストセットでドメイン内およびドメイン外の汎化能力を評価します。

評価指標

精確マッチ(Exact Match, EM)を主要な評価指標として使用します。

比較手法

  • R1 without search engine
  • Search-R1
  • ZeroSearch
  • StepSearch
  • Router-R1
  • ParallelSearch

実装詳細

  • バックボーンモデル:Qwen-2.5-Base/Instruct (3B/7B)
  • 埋め込みモデル:E5
  • コーパス:2018年Wikipedia ダンプ
  • ハードウェア:8×NVIDIA H100 GPU
  • アルゴリズム:PPO (Proximal Policy Optimization)
  • バッチ処理:総バッチサイズ512、ミニバッチ256、マイクロバッチ64

実験結果

主要結果

すべての構成で一貫した顕著な改善を達成:

  • 平均4.4%の改善:最強ベースラインと比較した絶対改善
  • 小規模モデルの利点:3B-Instructモデル(平均EM 0.457)が7Bベースライン手法を上回る
  • アーキテクチャの影響:3Bモデルではinstruct変体がbaseモデルを2.2%上回る;7Bモデルではbase変体がinstruct モデルを3.1%上回る

アブレーション実験

クエリ拡張数の影響

1つのクエリから3つのクエリへの増加は顕著なパフォーマンス向上をもたらします:

  • n=1からn=2:平均6.7%の改善
  • n=3で継続的な改善、ただし収益は逓減

エンドツーエンド訓練の重要性

  • ExpandSearch (n=3, k=5)はSearch-R1 (k=15)と比較して34.3%改善
  • 拡張プロンプトのみを追加してRL訓練を行わないと、パフォーマンスが低下
  • エンドツーエンド訓練が効果的なクエリ拡張戦略の学習に重要であることを証明

拡張タイプ分析

  • 構文拡張が63.35%、セマンティック拡張が36.65%
  • いずれかのタイプを削除するとパフォーマンスが低下し、相補性を証明

圧縮器動作分析

  • 検索深度:k=3からk=10への増加は一貫した逓減する収益を示す
  • モデル選択:LLaMA-3.1-70Bは一般的な質問応答で優れた性能を発揮、LLaMA-4-17Bはマルチホップ推論で優れている
  • 汎化能力:訓練時と推論時に異なる圧縮器モデルを使用してもパフォーマンスは比較可能

訓練動態

  • 報酬、応答長、検索頻度が同期して増加
  • モデルは回答品質を改善する戦略として検索頻度を増加させることを自律的に学習
  • スムーズな訓練曲線は安定した最適化プロセスを示す

関連研究

深い検索エージェント

  • RAGシステム:2段階パイプライン、先に検索してから生成。ただし無関連情報を含むことが多い
  • 検索ツールフレームワーク:IRCoT、ReActなどはプロンプトで誘導、Toolformerは教師付き微調整
  • 強化学習手法:Search-R1はRL技術の先駆的応用、その後の発展にはZeroSearch、MaskSearchなどが含まれます

強化学習

  • RLHF:人間の嗜好注釈を通じて報酬モデルを訓練
  • 効率最適化:DPO、SimPO、ORPOなどは報酬モデル訓練をバイパス
  • 新興技術:GRPO、RLOOはグループ方式で政策を評価し、有望な代替案を提供

結論と議論

主要な結論

  1. ExpandSearchは学習されたクエリ拡張と選択的情報精製を通じて、単一クエリ検索の制限を効果的に解決
  2. 「拡張-圧縮」パラダイムはセマンティック不完全性と情報過負荷の二重の課題を成功裏に解決
  3. 3B規模のモデルでさえ強力なクエリ拡張能力を発揮でき、最先端のパフォーマンスを達成

限界

  1. 計算コスト:複数クエリ検索と圧縮器呼び出しは推論時間を増加させます
  2. 依存性:パフォーマンスは圧縮器モデルの品質に依存
  3. 拡張飽和:クエリ数増加の収益には逓減効果が存在

将来の方向性

  1. 適応的検索戦略:クエリ複雑度に基づいて拡張数を動的に調整
  2. より効率的な訓練方法:大規模計算リソースへの依存を減らす
  3. エンドツーエンド最適化:検索エージェントと圧縮器モデルの共同訓練

深い評価

長所

  1. 方法の革新性:クエリ拡張と強化学習を初めて組み合わせ、「拡張-圧縮」パラダイムの設計は巧妙
  2. 実験の充実性:7つのベンチマーク、複数のモデル規模、詳細なアブレーション実験
  3. 技術的洞察:構文拡張とセマンティック拡張の相補性を発見し、価値ある技術的洞察を提供
  4. 実用的価値:小規模モデルも優れたパフォーマンスを達成でき、実際の展開価値を持つ

不足

  1. 理論分析の不足:この手法がなぜ有効なのかについての理論的説明が不足
  2. 計算効率:複数クエリ検索の計算オーバーヘッドの分析が不十分
  3. 汎化能力:主に質問応答タスクで検証され、他のタスクへの適用可能性は不明
  4. 圧縮器依存:外部圧縮器モデルへの依存は適用シナリオを制限する可能性

影響力

  1. 学術的貢献:検索強化生成分野に新しい研究方向を提供
  2. 実用的価値:モジュール化設計は実際の応用と展開を容易にする
  3. 再現性:詳細な実装詳細とオープンソース化の約束を提供

適用シナリオ

  1. マルチホップ質問応答システム:特に複雑な推論が必要な質問応答タスクに適している
  2. 情報検索システム:高いリコール率が必要な検索シナリオに適用可能
  3. 対話システム:外部知識が必要な対話エージェントに統合可能

参考文献

論文は複数の重要な研究を引用しており、以下を含みます:

  • Search-R1 (Jin et al., 2025b):RL検索エージェント研究の先駆的業績
  • RLHF関連研究 (Ouyang et al., 2022):LLMを強化学習で訓練するための基礎
  • 複数の質問応答データセット:NQ、HotpotQA、TriviaQAなどの標準ベンチマーク

本論文は、現在の検索エージェントの中核的な課題に対する革新的なソリューションを提案し、巧妙な「拡張-圧縮」設計を通じて顕著なパフォーマンス向上を実現しています。理論分析と計算効率の面でまだ改善の余地がありますが、その技術的革新と実験検証は高い水準に達しており、検索強化生成分野の発展に重要な推進力をもたらします。