2025-11-11T07:07:11.632178

HiRA: A Hierarchical Reasoning Framework for Decoupled Planning and Execution in Deep Search

Jin, Li, Dong et al.

Complex information needs in real-world search scenarios demand deep reasoning and knowledge synthesis across diverse sources, which traditional retrieval-augmented generation (RAG) pipelines struggle to address effectively. Current reasoning-based approaches suffer from a fundamental limitation: they use a single model to handle both high-level planning and detailed execution, leading to inefficient reasoning and limited scalability. In this paper, we introduce HiRA, a hierarchical framework that separates strategic planning from specialized execution. Our approach decomposes complex search tasks into focused subtasks, assigns each subtask to domain-specific agents equipped with external tools and reasoning capabilities, and coordinates the results through a structured integration mechanism. This separation prevents execution details from disrupting high-level reasoning while enabling the system to leverage specialized expertise for different types of information processing. Experiments on four complex, cross-modal deep search benchmarks demonstrate that HiRA significantly outperforms state-of-the-art RAG and agent-based systems. Our results show improvements in both answer quality and system efficiency, highlighting the effectiveness of decoupled planning and execution for multi-step information seeking tasks. Our code is available at https://github.com/ignorejjj/HiRA.

academic

HiRA: 深い検索における分離された計画と実行のための階層的推論フレームワーク

基本情報

論文ID: 2507.02652
タイトル: HiRA: A Hierarchical Reasoning Framework for Decoupled Planning and Execution in Deep Search
著者: Jiajie Jin, Xiaoxi Li, Yuyao Zhang, Guanting Dong, Yutao Zhu, Zhao Yang, Hongjin Qian, Zhicheng Dou
分類: cs.AI cs.CL cs.IR
発表時期/会議: 2025年（AAAI 2026に投稿）
論文リンク: https://arxiv.org/abs/2507.02652

要約

複雑な情報ニーズは、実世界の検索シナリオにおいて複数のソースにわたる深い推論と知識の統合を必要とします。従来の検索拡張生成（RAG）パイプラインはこれらの課題に効果的に対処することが困難です。現在の推論ベースの方法には根本的な制限があります。それらは高レベルの計画と詳細な実行を同時に処理するために単一のモデルを使用しており、推論効率が低く、スケーラビリティが限定的です。本論文ではHiRAを提案します。これは戦略的計画と専門的実行を分離する階層的フレームワークです。この方法は複雑な検索タスクを焦点を絞ったサブタスクに分解し、各サブタスクを外部ツールと推論能力を備えたドメイン特化型エージェントに割り当て、構造化された統合メカニズムを通じて結果を調整します。この分離は実行の詳細が高レベルの推論を妨害することを防ぎながら、異なるタイプの情報処理に対して専門的な専門知識を活用することをシステムに可能にします。4つの複雑なクロスモーダル深い検索ベンチマークでの実験は、HiRAが最先端のRAGおよびエージェントベースのシステムを大幅に上回ることを示しています。

研究背景と動機

問題定義

従来の検索エンジンはキーワードマッチングのみに基づいてランク付けされたウェブページを返し、ユーザーが手動で情報をフィルタリングして収集する必要があります。ウェブ検索を備えた大規模言語モデル（LLM）は直接的な回答を提供できますが、通常は検索結果から直接的な情報のみを利用し、深い推論と統合分析の能力に欠けています。

問題の重要性

インターネット情報の爆発的増加に伴い、複雑なクエリの回答を見つけることはますます困難になっており、複雑な情報ニーズを理解し複数のソースから正確な回答を統合する必要がある深い検索タスクの急速な発展を推進しています。

既存方法の限界

モノリシックアーキテクチャの制限：既存の方法はすべてのタスクを処理するために単一の推論モデルに依存し、プロンプトを通じて推論モデルに特殊トークンを生成させてツール起動をトリガーします
能力拡張性の制限：新しいツールや能力を追加するには、プロンプトを慎重に再設計し、新しいトークンパターンの使用方法をモデルに教える必要があります
推論への干渉：外部実行結果が主推論チェーンに直接注入され、ノイズが導入され、コア推論プロセスが妨害されます

研究動機

著者は、効果的なエージェント実行は階層構造に従うべきだと考えています。これには高レベルの計画用のメタエージェント、タスク推論の転送用のコーディネーター、および特定の操作用の専門的実行エージェントが含まれます。

核心的貢献

階層的推論アーキテクチャ：専門的なツール強化推論エージェントをモジュールとして統合する新規の階層的推論フレームワークを提案し、既存の方法における外部ツールのオーケストレーションまたは厳密に事前定義されたパイプラインの必要性を排除します
強化された能力統合：ドメイン特化型実行器は多様な推論能力とツールのプラグアンドプレイ統合をサポートします。既存の検索エージェントはプロンプトエンジニアリングやモデルの再トレーニングなしに直接統合できます
優れた経験的性能：4つの複雑なクロスモーダル検索タスクでの実験は、従来のRAGおよび現在のエージェントベースの方法と比較して大幅な改善を示しています

方法の詳細

タスク定義

情報検索が必要な複雑な問題qと事前定義された外部環境Eが与えられた場合、目標は答えAと対応する推論プロセスRを含む最終的なソリューションを生成するフレームワークを設計することです。生成プロセスは次のように表現されます：

$P(R, a | q, E) = \prod_{t=1}^{T_R} P(R_t | R_{<t}, q, E_{<t}) \cdot P(a | q, R)$

ここで $T_R$ は推論プロセスのトークン生成ステップを表し、 $E_{<t} = \{E(R_{<s})\}_{s<t}$ は時間ステップtの前のすべての環境相互作用結果のセットを表します。

モデルアーキテクチャ

HiRAフレームワークは3つのコアモジュールで構成されています：

1. メタ推論プランナー（Meta Reasoning Planner）

計画、推論、および回答生成を担当
タスクを専門家エージェントの戦略的指示を含む高レベルのサブタスクに分解
動的サブタスク生成に特殊トークンを使用：

$P_M(s_k) = P_M(s_k | q, O_{<t}, \{E(s_j)\}_{j<k})$

2. 適応的推論コーディネーター（Adaptive Reasoning Coordinator）

3つのコア機能を含みます：

推論転送プロセス： $A^*_k = \arg\max_{A \in E} P_C(O^{(k)}_{dele}, A | s_k, I_E, I_{select})$

推論蒸留プロセス： $P_C(O^{(k)}_{dist}, R^{(k)}_{dist} | s_k, O^{(k)}_{expert}) = P_C(O^{(k)}_{dist} | O^{(k)}_{expert}, \cdot) \cdot P_C(R^{(k)}_{dist} | O^{(k)}_{dist}, O^{(k)}_{expert}, \cdot)$

デュアルチャネルメモリメカニズム：事実メモリ $M_f$ とリソースメモリ $M_r$ を含みます

3. ドメイン特化型実行器（Domain-Specialized Executors）

3つの直交するエージェント能力次元に基づいて設計：

情報取得：ウェブから情報を取得し統合することを担当
クロスモーダル理解：マルチモーダル情報の理解と融合を処理
計算推論：数学計算、ファイル処理などの計算推論タスクを処理

技術的革新点

分離設計：高レベルの戦略的計画と低レベルの実行の詳細を分離し、実行ノイズが計画プロセスを妨害することを防止
動的タスク割り当て：タスクの複雑さと必要な能力に基づいて最適な専門家エージェントをインテリジェントに選択
双方向推論転送：メタエージェントから専門家エージェントへの推論委任、および逆方向の推論蒸留をサポート
モジュール化拡張：新しい専門家エージェントはシステム全体を再設計することなくシームレスに統合できます

実験設定

データセット

GAIA：マルチステップ推論と検索をカバー、すべての検証サンプル（テキスト、マルチモーダル、ファイルベース）を使用
WebWalkerQA：英語と中国語のウェブナビゲーションと抽出をテスト、200問をサンプリング
SimpleQA：事実と広範な知識を評価、200問をサンプリング
Humanity's Last Exam：高難度ベンチマーク、複雑な推論と外部検索が必要、500個の検証サンプルを使用

評価指標

Qwen2.5-72B-Instructをアキュラシーを計算するためのLLM判定者として使用

比較方法

直接推論：モデルのネイティブ推論能力を使用（Qwen3-32B、QwQ-32B、DeepSeek-R1-32B、GPT-4oなど）
単一能力強化：単一の専門的ツール強化推論を使用（Search-o1、WebThinker、CodeActなど）
マルチ能力推論：複数ツールまたは構造化ワークフローを統合（Plan-and-Solve、ReAct）

実装詳細

ベースモデル：QwQ-32B
コーディネーター：Qwen2.5-Instruct
温度：0.7、top_p：0.95、top_k：20
コンテキストウィンドウ：128kトークン
最大サブタスク数：10

実験結果

主要結果

方法カテゴリ	GAIA平均	WebWalkerQA平均	HLE平均	SimpleQA
直接推論（最良）	25.2	10.0	11.1	42.7
単一能力強化（WebThinker）	36.2	52.5	13.0	78.0
マルチ能力強化（ReAct）	30.7	35.0	13.8	73.5
HiRA（本論文）	42.5	54.5	14.2	81.5

主要な発見

全体的性能優位性：HiRAはすべてのタスクでベースライン方法を上回ります
複雑なタスクでの明らかな優位性：複雑なタスク（GAIA、HLE）での改善がより顕著です
階層設計の優位性：同じツールセットを使用する方法と比較して、階層設計はより良いパフォーマンスを実現します

アブレーション実験

コンポーネント	GAIA-B	GAIA-F	WebWalker	HLE	SimpleQA
完全なHiRA	42.5	42.1	54.5	14.2	81.5
推論転送なし	33.9	36.8	44.5	10.4	76.5
メモリメカニズムなし	37.8	31.6	52.0	11.8	79.0
検索エージェントなし	15.7	31.6	4.0	12.4	9.5
コードエージェントなし	33.9	28.9	51.5	12.8	76.5