Complex information needs in real-world search scenarios demand deep reasoning and knowledge synthesis across diverse sources, which traditional retrieval-augmented generation (RAG) pipelines struggle to address effectively. Current reasoning-based approaches suffer from a fundamental limitation: they use a single model to handle both high-level planning and detailed execution, leading to inefficient reasoning and limited scalability. In this paper, we introduce HiRA, a hierarchical framework that separates strategic planning from specialized execution. Our approach decomposes complex search tasks into focused subtasks, assigns each subtask to domain-specific agents equipped with external tools and reasoning capabilities, and coordinates the results through a structured integration mechanism. This separation prevents execution details from disrupting high-level reasoning while enabling the system to leverage specialized expertise for different types of information processing. Experiments on four complex, cross-modal deep search benchmarks demonstrate that HiRA significantly outperforms state-of-the-art RAG and agent-based systems. Our results show improvements in both answer quality and system efficiency, highlighting the effectiveness of decoupled planning and execution for multi-step information seeking tasks. Our code is available at https://github.com/ignorejjj/HiRA.
- 論文ID: 2507.02652
- タイトル: HiRA: A Hierarchical Reasoning Framework for Decoupled Planning and Execution in Deep Search
- 著者: Jiajie Jin, Xiaoxi Li, Yuyao Zhang, Guanting Dong, Yutao Zhu, Zhao Yang, Hongjin Qian, Zhicheng Dou
- 分類: cs.AI cs.CL cs.IR
- 発表時期/会議: 2025年(AAAI 2026に投稿)
- 論文リンク: https://arxiv.org/abs/2507.02652
複雑な情報ニーズは、実世界の検索シナリオにおいて複数のソースにわたる深い推論と知識の統合を必要とします。従来の検索拡張生成(RAG)パイプラインはこれらの課題に効果的に対処することが困難です。現在の推論ベースの方法には根本的な制限があります。それらは高レベルの計画と詳細な実行を同時に処理するために単一のモデルを使用しており、推論効率が低く、スケーラビリティが限定的です。本論文ではHiRAを提案します。これは戦略的計画と専門的実行を分離する階層的フレームワークです。この方法は複雑な検索タスクを焦点を絞ったサブタスクに分解し、各サブタスクを外部ツールと推論能力を備えたドメイン特化型エージェントに割り当て、構造化された統合メカニズムを通じて結果を調整します。この分離は実行の詳細が高レベルの推論を妨害することを防ぎながら、異なるタイプの情報処理に対して専門的な専門知識を活用することをシステムに可能にします。4つの複雑なクロスモーダル深い検索ベンチマークでの実験は、HiRAが最先端のRAGおよびエージェントベースのシステムを大幅に上回ることを示しています。
従来の検索エンジンはキーワードマッチングのみに基づいてランク付けされたウェブページを返し、ユーザーが手動で情報をフィルタリングして収集する必要があります。ウェブ検索を備えた大規模言語モデル(LLM)は直接的な回答を提供できますが、通常は検索結果から直接的な情報のみを利用し、深い推論と統合分析の能力に欠けています。
インターネット情報の爆発的増加に伴い、複雑なクエリの回答を見つけることはますます困難になっており、複雑な情報ニーズを理解し複数のソースから正確な回答を統合する必要がある深い検索タスクの急速な発展を推進しています。
- モノリシックアーキテクチャの制限:既存の方法はすべてのタスクを処理するために単一の推論モデルに依存し、プロンプトを通じて推論モデルに特殊トークンを生成させてツール起動をトリガーします
- 能力拡張性の制限:新しいツールや能力を追加するには、プロンプトを慎重に再設計し、新しいトークンパターンの使用方法をモデルに教える必要があります
- 推論への干渉:外部実行結果が主推論チェーンに直接注入され、ノイズが導入され、コア推論プロセスが妨害されます
著者は、効果的なエージェント実行は階層構造に従うべきだと考えています。これには高レベルの計画用のメタエージェント、タスク推論の転送用のコーディネーター、および特定の操作用の専門的実行エージェントが含まれます。
- 階層的推論アーキテクチャ:専門的なツール強化推論エージェントをモジュールとして統合する新規の階層的推論フレームワークを提案し、既存の方法における外部ツールのオーケストレーションまたは厳密に事前定義されたパイプラインの必要性を排除します
- 強化された能力統合:ドメイン特化型実行器は多様な推論能力とツールのプラグアンドプレイ統合をサポートします。既存の検索エージェントはプロンプトエンジニアリングやモデルの再トレーニングなしに直接統合できます
- 優れた経験的性能:4つの複雑なクロスモーダル検索タスクでの実験は、従来のRAGおよび現在のエージェントベースの方法と比較して大幅な改善を示しています
情報検索が必要な複雑な問題qと事前定義された外部環境Eが与えられた場合、目標は答えAと対応する推論プロセスRを含む最終的なソリューションを生成するフレームワークを設計することです。生成プロセスは次のように表現されます:
P(R,a∣q,E)=∏t=1TRP(Rt∣R<t,q,E<t)⋅P(a∣q,R)
ここでTRは推論プロセスのトークン生成ステップを表し、E<t={E(R<s)}s<tは時間ステップtの前のすべての環境相互作用結果のセットを表します。
HiRAフレームワークは3つのコアモジュールで構成されています:
- 計画、推論、および回答生成を担当
- タスクを専門家エージェントの戦略的指示を含む高レベルのサブタスクに分解
- 動的サブタスク生成に特殊トークンを使用:
PM(sk)=PM(sk∣q,O<t,{E(sj)}j<k)
3つのコア機能を含みます:
推論転送プロセス:
Ak∗=argmaxA∈EPC(Odele(k),A∣sk,IE,Iselect)
推論蒸留プロセス:
PC(Odist(k),Rdist(k)∣sk,Oexpert(k))=PC(Odist(k)∣Oexpert(k),⋅)⋅PC(Rdist(k)∣Odist(k),Oexpert(k),⋅)
デュアルチャネルメモリメカニズム:事実メモリMfとリソースメモリMrを含みます
3つの直交するエージェント能力次元に基づいて設計:
- 情報取得:ウェブから情報を取得し統合することを担当
- クロスモーダル理解:マルチモーダル情報の理解と融合を処理
- 計算推論:数学計算、ファイル処理などの計算推論タスクを処理
- 分離設計:高レベルの戦略的計画と低レベルの実行の詳細を分離し、実行ノイズが計画プロセスを妨害することを防止
- 動的タスク割り当て:タスクの複雑さと必要な能力に基づいて最適な専門家エージェントをインテリジェントに選択
- 双方向推論転送:メタエージェントから専門家エージェントへの推論委任、および逆方向の推論蒸留をサポート
- モジュール化拡張:新しい専門家エージェントはシステム全体を再設計することなくシームレスに統合できます
- GAIA:マルチステップ推論と検索をカバー、すべての検証サンプル(テキスト、マルチモーダル、ファイルベース)を使用
- WebWalkerQA:英語と中国語のウェブナビゲーションと抽出をテスト、200問をサンプリング
- SimpleQA:事実と広範な知識を評価、200問をサンプリング
- Humanity's Last Exam:高難度ベンチマーク、複雑な推論と外部検索が必要、500個の検証サンプルを使用
Qwen2.5-72B-Instructをアキュラシーを計算するためのLLM判定者として使用
- 直接推論:モデルのネイティブ推論能力を使用(Qwen3-32B、QwQ-32B、DeepSeek-R1-32B、GPT-4oなど)
- 単一能力強化:単一の専門的ツール強化推論を使用(Search-o1、WebThinker、CodeActなど)
- マルチ能力推論:複数ツールまたは構造化ワークフローを統合(Plan-and-Solve、ReAct)
- ベースモデル:QwQ-32B
- コーディネーター:Qwen2.5-Instruct
- 温度:0.7、top_p:0.95、top_k:20
- コンテキストウィンドウ:128kトークン
- 最大サブタスク数:10
| 方法カテゴリ | GAIA平均 | WebWalkerQA平均 | HLE平均 | SimpleQA |
|---|
| 直接推論(最良) | 25.2 | 10.0 | 11.1 | 42.7 |
| 単一能力強化(WebThinker) | 36.2 | 52.5 | 13.0 | 78.0 |
| マルチ能力強化(ReAct) | 30.7 | 35.0 | 13.8 | 73.5 |
| HiRA(本論文) | 42.5 | 54.5 | 14.2 | 81.5 |
- 全体的性能優位性:HiRAはすべてのタスクでベースライン方法を上回ります
- 複雑なタスクでの明らかな優位性:複雑なタスク(GAIA、HLE)での改善がより顕著です
- 階層設計の優位性:同じツールセットを使用する方法と比較して、階層設計はより良いパフォーマンスを実現します
| コンポーネント | GAIA-B | GAIA-F | WebWalker | HLE | SimpleQA |
|---|
| 完全なHiRA | 42.5 | 42.1 | 54.5 | 14.2 | 81.5 |
| 推論転送なし | 33.9 | 36.8 | 44.5 | 10.4 | 76.5 |
| メモリメカニズムなし | 37.8 | 31.6 | 52.0 | 11.8 | 79.0 |
| 検索エージェントなし | 15.7 | 31.6 | 4.0 | 12.4 | 9.5 |
| コードエージェントなし | 33.9 | 28.9 | 51.5 | 12.8 | 76.5 |
- 推論長:HiRAの推論チェーンはWebThinkerより短く、より効率的なサブタスク呼び出しを示しています
- 相互作用回数:ツールを直接統合する方法と比較して、HiRAの環境相互作用回数が少なくなります
- 計算オーバーヘッド:階層構造はより的を絞ったツール使用を実現します
単一ステップの検索から、クエリ分解、ドキュメント精緻化、マルチラウンド検索を備えた反復的パイプラインへの発展。ただし、RAG方法は事前定義されたワークフローに依存し、適応的な意思決定を制限します。
- アクションレベルの分離:単一ステップのタスク用の実行器を割り当てる(Plan-Act、CoAct)
- クエリレベルの分離:より高い粒度で問題を分解する(REMA、LLMCompiler)
本論文は、動的推論委任と階層フレームワークのドメイン特化型エージェントを通じてこれらの方法の限界に対処しています。
HiRAは戦略的計画と専門的実行を分離することにより、深い検索タスクにおけるモノリシックモデルの限界に効果的に対処します。マルチエージェントアーキテクチャはスケーラブルでモジュール化された推論をサポートします。
- 計算オーバーヘッド:マルチエージェントアーキテクチャは計算コストを増加させる可能性があります
- 協調の複雑性:エージェント間の協調メカニズムは慎重に設計する必要があります
- エラー伝播:サブタスク実行エラーは全体的なパフォーマンスに影響を与える可能性があります
- エージェント間の協調メカニズムをさらに最適化する
- より多くのドメイン特化型実行器を探索する
- 動的エージェント選択戦略を研究する
- 革新的なアーキテクチャ設計:階層的分離設計は理論的および実践的価値を持ちます
- 包括的な実験検証:複数の複雑なベンチマークでの体系的な評価
- 実用性が高い:フレームワークは既存のエージェントのプラグアンドプレイ統合をサポートします
- 詳細な分析:詳細なアブレーション実験と効率分析を提供します
- ベースライン選択:一部のベースライン方法は最新のSOTAではない可能性があります
- 評価の限界:主にLLM-as-Judgeを使用し、評価バイアスが存在する可能性があります
- スケーラビリティ検証:より大規模またはより多くのドメインでの検証が不足しています
- 学術的貢献:マルチエージェント推論システムに新しい設計パラダイムを提供します
- 実用的価値:複雑な情報検索シナリオに直接適用できます
- 再現性:詳細な実装詳細とコードを提供します
- マルチステップ推論が必要な複雑な質問応答システム
- クロスモーダル情報検索と統合
- 専門的なツールサポートが必要な研究および分析タスク
- エンタープライズレベルの知識管理および意思決定支援システム
論文は、RAGの基礎的な研究(Lewis et al. 2020)、最新の推論モデル(OpenAI o1、DeepSeek-R1)、およびマルチエージェントシステムの関連研究を含む複数の重要な研究を引用しています。これらの引用は、著者の領域発展の脈絡に対する深い理解を反映しています。
総合評価:これは高品質の研究論文であり、革新的な階層的推論フレームワークを提案し、理論的設計と実験検証の両面で堅牢です。この研究はマルチエージェント推論システムの発展に重要な価値を持ち、特に複雑な情報検索領域での応用の見通しは広大です。