2025-11-11T07:07:11.632178

HiRA: A Hierarchical Reasoning Framework for Decoupled Planning and Execution in Deep Search

Jin, Li, Dong et al.

Complex information needs in real-world search scenarios demand deep reasoning and knowledge synthesis across diverse sources, which traditional retrieval-augmented generation (RAG) pipelines struggle to address effectively. Current reasoning-based approaches suffer from a fundamental limitation: they use a single model to handle both high-level planning and detailed execution, leading to inefficient reasoning and limited scalability. In this paper, we introduce HiRA, a hierarchical framework that separates strategic planning from specialized execution. Our approach decomposes complex search tasks into focused subtasks, assigns each subtask to domain-specific agents equipped with external tools and reasoning capabilities, and coordinates the results through a structured integration mechanism. This separation prevents execution details from disrupting high-level reasoning while enabling the system to leverage specialized expertise for different types of information processing. Experiments on four complex, cross-modal deep search benchmarks demonstrate that HiRA significantly outperforms state-of-the-art RAG and agent-based systems. Our results show improvements in both answer quality and system efficiency, highlighting the effectiveness of decoupled planning and execution for multi-step information seeking tasks. Our code is available at https://github.com/ignorejjj/HiRA.

academic

HiRA: A Hierarchical Reasoning Framework for Decoupled Planning and Execution in Deep Search

基本信息

论文ID: 2507.02652
标题: HiRA: A Hierarchical Reasoning Framework for Decoupled Planning and Execution in Deep Search
作者: Jiajie Jin, Xiaoxi Li, Yuyao Zhang, Guanting Dong, Yutao Zhu, Zhao Yang, Hongjin Qian, Zhicheng Dou
分类: cs.AI cs.CL cs.IR
发表时间/会议: 2025年（提交至AAAI 2026）
论文链接: https://arxiv.org/abs/2507.02652

摘要

复杂的信息需求在现实世界搜索场景中需要跨多个来源的深度推理和知识综合，而传统的检索增强生成（RAG）管道难以有效解决这些问题。当前基于推理的方法存在一个根本性限制：它们使用单一模型同时处理高层规划和详细执行，导致推理效率低下且可扩展性有限。本文提出HiRA，一个将战略规划与专门执行分离的层次化框架。该方法将复杂搜索任务分解为专注的子任务，将每个子任务分配给配备外部工具和推理能力的领域特定智能体，并通过结构化集成机制协调结果。这种分离防止执行细节干扰高层推理，同时使系统能够为不同类型的信息处理利用专门的专业知识。在四个复杂的跨模态深度搜索基准上的实验表明，HiRA显著优于最先进的RAG和基于智能体的系统。

研究背景与动机

问题定义

传统搜索引擎仅基于关键词匹配返回排序的网页，需要用户手动筛选和收集信息。虽然配备网络搜索的大语言模型（LLMs）能提供直接答案，但它们通常只利用搜索结果中的直接信息，缺乏深度推理和综合分析能力。

问题重要性

随着互联网信息爆炸，找到复杂查询的答案变得越来越困难，这推动了需要理解复杂信息需求并从多个来源综合准确答案的深度搜索任务的快速发展。

现有方法局限性

单体架构限制：现有方法依赖单一推理模型处理所有任务，通过提示推理模型生成特殊令牌来触发工具激活
能力扩展性有限：添加新工具或能力需要仔细重新设计提示，教模型如何使用新令牌模式
推理干扰：外部执行结果直接注入主推理链，引入噪声，干扰核心推理过程

研究动机

作者认为有效的智能体执行应遵循层次结构：包括用于高层规划的元智能体、用于任务推理转移的协调器，以及用于特定操作的专门执行智能体。

核心贡献

层次推理架构：提出了一个新颖的层次推理框架，将专门的工具增强推理智能体作为模块集成，消除了现有方法中外部工具编排或刚性预定义管道的需求
增强的能力集成：领域专门的执行器支持多样化推理能力和工具的即插即用集成。现有搜索智能体可以直接整合而无需提示工程或模型重训练
优越的经验性能：在四个复杂跨模态搜索任务上的实验显示，相比传统RAG和当前基于智能体的方法有显著改进

方法详解

任务定义

给定一个需要信息搜索的复杂问题q和预定义的外部环境E，目标是设计一个框架生成包含答案A和相应推理过程R的最终解决方案。生成过程表示为：

$P(R, a | q, E) = \prod_{t=1}^{T_R} P(R_t | R_{<t}, q, E_{<t}) \cdot P(a | q, R)$

其中 $T_R$ 表示推理过程的令牌生成步骤， $E_{<t} = \{E(R_{<s})\}_{s<t}$ 表示时间步t之前所有环境交互结果的集合。

模型架构

HiRA框架包含三个核心模块：

1. 元推理规划器（Meta Reasoning Planner）

负责规划、推理和答案生成
将任务分解为包含专家智能体战略指令的高层子任务
使用特殊令牌进行动态子任务生成：

$P_M(s_k) = P_M(s_k | q, O_{<t}, \{E(s_j)\}_{j<k})$

2. 自适应推理协调器（Adaptive Reasoning Coordinator）

包含三个核心功能：

推理转移过程： $A^*_k = \arg\max_{A \in E} P_C(O^{(k)}_{dele}, A | s_k, I_E, I_{select})$

推理蒸馏过程： $P_C(O^{(k)}_{dist}, R^{(k)}_{dist} | s_k, O^{(k)}_{expert}) = P_C(O^{(k)}_{dist} | O^{(k)}_{expert}, \cdot) \cdot P_C(R^{(k)}_{dist} | O^{(k)}_{dist}, O^{(k)}_{expert}, \cdot)$

双通道内存机制：包括事实内存 $M_f$ 和资源内存 $M_r$

3. 领域专门执行器（Domain-Specialized Executors）

基于三个正交的智能体能力维度设计：

信息获取：负责从网络获取和整合信息
跨模态理解：处理多模态信息的理解和融合
计算推理：处理数学计算、文件处理等计算推理任务

技术创新点

解耦设计：将高层战略规划与低层执行细节分离，防止执行噪声干扰规划过程
动态任务分配：基于任务复杂度和所需能力智能选择最适合的专家智能体
双向推理传递：支持从元智能体到专家智能体的推理委托，以及反向的推理蒸馏
模块化扩展：新的专家智能体可以无缝集成而无需重新设计整个系统

实验设置

数据集

GAIA：涵盖多步推理和检索，使用所有验证样本（文本、多模态、基于文件）
WebWalkerQA：测试英文和中文的网络导航和提取，采样200个问题
SimpleQA：评估事实和广泛知识，采样200个问题
Humanity's Last Exam：高难度基准，需要复杂推理和外部检索，使用500个验证样本

评价指标

使用Qwen2.5-72B-Instruct作为LLM评判器计算准确率

对比方法

直接推理：使用模型原生推理能力（Qwen3-32B、QwQ-32B、DeepSeek-R1-32B、GPT-4o等）
单能力增强：使用单一专门工具增强推理（Search-o1、WebThinker、CodeAct等）
多能力推理：集成多工具或结构化工作流（Plan-and-Solve、ReAct）

实现细节

基础模型：QwQ-32B
协调器：Qwen2.5-Instruct
温度：0.7，top_p：0.95，top_k：20
上下文窗口：128k tokens
最大子任务数：10

实验结果

主要结果

方法类别	GAIA平均	WebWalkerQA平均	HLE平均	SimpleQA
直接推理（最佳）	25.2	10.0	11.1	42.7
单能力增强（WebThinker）	36.2	52.5	13.0	78.0
多能力增强（ReAct）	30.7	35.0	13.8	73.5
HiRA（本文）	42.5	54.5	14.2	81.5

关键发现

整体性能优势：HiRA在所有任务上均优于基线方法
复杂任务优势明显：在复杂任务（GAIA、HLE）上改进更显著
层次设计优势：相比使用相同工具集的方法，层次设计实现更好性能

消融实验

组件	GAIA-B	GAIA-F	WebWalker	HLE	SimpleQA
完整HiRA	42.5	42.1	54.5	14.2	81.5
无推理转移	33.9	36.8	44.5	10.4	76.5
无内存机制	37.8	31.6	52.0	11.8	79.0
无搜索智能体	15.7	31.6	4.0	12.4	9.5
无代码智能体	33.9	28.9	51.5	12.8	76.5