Complex information needs in real-world search scenarios demand deep reasoning and knowledge synthesis across diverse sources, which traditional retrieval-augmented generation (RAG) pipelines struggle to address effectively. Current reasoning-based approaches suffer from a fundamental limitation: they use a single model to handle both high-level planning and detailed execution, leading to inefficient reasoning and limited scalability. In this paper, we introduce HiRA, a hierarchical framework that separates strategic planning from specialized execution. Our approach decomposes complex search tasks into focused subtasks, assigns each subtask to domain-specific agents equipped with external tools and reasoning capabilities, and coordinates the results through a structured integration mechanism. This separation prevents execution details from disrupting high-level reasoning while enabling the system to leverage specialized expertise for different types of information processing. Experiments on four complex, cross-modal deep search benchmarks demonstrate that HiRA significantly outperforms state-of-the-art RAG and agent-based systems. Our results show improvements in both answer quality and system efficiency, highlighting the effectiveness of decoupled planning and execution for multi-step information seeking tasks. Our code is available at https://github.com/ignorejjj/HiRA.
HiRA: A Hierarchical Reasoning Framework for Decoupled Planning and Execution in Deep Search
- 论文ID: 2507.02652
- 标题: HiRA: A Hierarchical Reasoning Framework for Decoupled Planning and Execution in Deep Search
- 作者: Jiajie Jin, Xiaoxi Li, Yuyao Zhang, Guanting Dong, Yutao Zhu, Zhao Yang, Hongjin Qian, Zhicheng Dou
- 分类: cs.AI cs.CL cs.IR
- 发表时间/会议: 2025年(提交至AAAI 2026)
- 论文链接: https://arxiv.org/abs/2507.02652
复杂的信息需求在现实世界搜索场景中需要跨多个来源的深度推理和知识综合,而传统的检索增强生成(RAG)管道难以有效解决这些问题。当前基于推理的方法存在一个根本性限制:它们使用单一模型同时处理高层规划和详细执行,导致推理效率低下且可扩展性有限。本文提出HiRA,一个将战略规划与专门执行分离的层次化框架。该方法将复杂搜索任务分解为专注的子任务,将每个子任务分配给配备外部工具和推理能力的领域特定智能体,并通过结构化集成机制协调结果。这种分离防止执行细节干扰高层推理,同时使系统能够为不同类型的信息处理利用专门的专业知识。在四个复杂的跨模态深度搜索基准上的实验表明,HiRA显著优于最先进的RAG和基于智能体的系统。
传统搜索引擎仅基于关键词匹配返回排序的网页,需要用户手动筛选和收集信息。虽然配备网络搜索的大语言模型(LLMs)能提供直接答案,但它们通常只利用搜索结果中的直接信息,缺乏深度推理和综合分析能力。
随着互联网信息爆炸,找到复杂查询的答案变得越来越困难,这推动了需要理解复杂信息需求并从多个来源综合准确答案的深度搜索任务的快速发展。
- 单体架构限制:现有方法依赖单一推理模型处理所有任务,通过提示推理模型生成特殊令牌来触发工具激活
- 能力扩展性有限:添加新工具或能力需要仔细重新设计提示,教模型如何使用新令牌模式
- 推理干扰:外部执行结果直接注入主推理链,引入噪声,干扰核心推理过程
作者认为有效的智能体执行应遵循层次结构:包括用于高层规划的元智能体、用于任务推理转移的协调器,以及用于特定操作的专门执行智能体。
- 层次推理架构:提出了一个新颖的层次推理框架,将专门的工具增强推理智能体作为模块集成,消除了现有方法中外部工具编排或刚性预定义管道的需求
- 增强的能力集成:领域专门的执行器支持多样化推理能力和工具的即插即用集成。现有搜索智能体可以直接整合而无需提示工程或模型重训练
- 优越的经验性能:在四个复杂跨模态搜索任务上的实验显示,相比传统RAG和当前基于智能体的方法有显著改进
给定一个需要信息搜索的复杂问题q和预定义的外部环境E,目标是设计一个框架生成包含答案A和相应推理过程R的最终解决方案。生成过程表示为:
P(R,a∣q,E)=∏t=1TRP(Rt∣R<t,q,E<t)⋅P(a∣q,R)
其中TR表示推理过程的令牌生成步骤,E<t={E(R<s)}s<t表示时间步t之前所有环境交互结果的集合。
HiRA框架包含三个核心模块:
- 负责规划、推理和答案生成
- 将任务分解为包含专家智能体战略指令的高层子任务
- 使用特殊令牌进行动态子任务生成:
PM(sk)=PM(sk∣q,O<t,{E(sj)}j<k)
包含三个核心功能:
推理转移过程:
Ak∗=argmaxA∈EPC(Odele(k),A∣sk,IE,Iselect)
推理蒸馏过程:
PC(Odist(k),Rdist(k)∣sk,Oexpert(k))=PC(Odist(k)∣Oexpert(k),⋅)⋅PC(Rdist(k)∣Odist(k),Oexpert(k),⋅)
双通道内存机制:包括事实内存Mf和资源内存Mr
基于三个正交的智能体能力维度设计:
- 信息获取:负责从网络获取和整合信息
- 跨模态理解:处理多模态信息的理解和融合
- 计算推理:处理数学计算、文件处理等计算推理任务
- 解耦设计:将高层战略规划与低层执行细节分离,防止执行噪声干扰规划过程
- 动态任务分配:基于任务复杂度和所需能力智能选择最适合的专家智能体
- 双向推理传递:支持从元智能体到专家智能体的推理委托,以及反向的推理蒸馏
- 模块化扩展:新的专家智能体可以无缝集成而无需重新设计整个系统
- GAIA:涵盖多步推理和检索,使用所有验证样本(文本、多模态、基于文件)
- WebWalkerQA:测试英文和中文的网络导航和提取,采样200个问题
- SimpleQA:评估事实和广泛知识,采样200个问题
- Humanity's Last Exam:高难度基准,需要复杂推理和外部检索,使用500个验证样本
使用Qwen2.5-72B-Instruct作为LLM评判器计算准确率
- 直接推理:使用模型原生推理能力(Qwen3-32B、QwQ-32B、DeepSeek-R1-32B、GPT-4o等)
- 单能力增强:使用单一专门工具增强推理(Search-o1、WebThinker、CodeAct等)
- 多能力推理:集成多工具或结构化工作流(Plan-and-Solve、ReAct)
- 基础模型:QwQ-32B
- 协调器:Qwen2.5-Instruct
- 温度:0.7,top_p:0.95,top_k:20
- 上下文窗口:128k tokens
- 最大子任务数:10
| 方法类别 | GAIA平均 | WebWalkerQA平均 | HLE平均 | SimpleQA |
|---|
| 直接推理(最佳) | 25.2 | 10.0 | 11.1 | 42.7 |
| 单能力增强(WebThinker) | 36.2 | 52.5 | 13.0 | 78.0 |
| 多能力增强(ReAct) | 30.7 | 35.0 | 13.8 | 73.5 |
| HiRA(本文) | 42.5 | 54.5 | 14.2 | 81.5 |
- 整体性能优势:HiRA在所有任务上均优于基线方法
- 复杂任务优势明显:在复杂任务(GAIA、HLE)上改进更显著
- 层次设计优势:相比使用相同工具集的方法,层次设计实现更好性能
| 组件 | GAIA-B | GAIA-F | WebWalker | HLE | SimpleQA |
|---|
| 完整HiRA | 42.5 | 42.1 | 54.5 | 14.2 | 81.5 |
| 无推理转移 | 33.9 | 36.8 | 44.5 | 10.4 | 76.5 |
| 无内存机制 | 37.8 | 31.6 | 52.0 | 11.8 | 79.0 |
| 无搜索智能体 | 15.7 | 31.6 | 4.0 | 12.4 | 9.5 |
| 无代码智能体 | 33.9 | 28.9 | 51.5 | 12.8 | 76.5 |
- 推理长度:HiRA的推理链比WebThinker更短,表明更高效的子任务调用
- 交互次数:相比直接集成工具的方法,HiRA的环境交互次数更少
- 计算开销:层次结构实现了更有针对性的工具使用
从单步检索发展到具有查询分解、文档细化和多轮搜索的迭代管道。但RAG方法依赖预定义工作流,限制了自适应决策。
- 动作级分离:为单步任务分配执行器(Plan-Act、CoAct)
- 查询级分离:在更高粒度分解问题(REMA、LLMCompiler)
本文通过动态推理委托和层次框架中的领域专门智能体解决了这些方法的局限性。
HiRA通过分离战略规划和专门执行,有效解决了深度搜索任务中单体模型的局限性。多智能体架构支持可扩展、模块化的推理。
- 计算开销:多智能体架构可能增加计算成本
- 协调复杂性:智能体间的协调机制需要精心设计
- 错误传播:子任务执行错误可能影响整体性能
- 进一步优化智能体间的协调机制
- 探索更多领域专门的执行器
- 研究动态智能体选择策略
- 创新的架构设计:层次化解耦设计具有理论和实践价值
- 全面的实验验证:在多个复杂基准上的系统性评估
- 实用性强:框架支持现有智能体的即插即用集成
- 分析深入:提供了详细的消融实验和效率分析
- 基线选择:部分基线方法可能不是最新的SOTA
- 评估局限:主要使用LLM-as-Judge,可能存在评估偏差
- 扩展性验证:缺乏在更大规模或更多领域的验证
- 学术贡献:为多智能体推理系统提供了新的设计范式
- 实用价值:可直接应用于复杂信息检索场景
- 可复现性:提供了详细的实现细节和代码
- 需要多步推理的复杂问答系统
- 跨模态信息检索和综合
- 需要专门工具支持的研究和分析任务
- 企业级知识管理和决策支持系统
论文引用了多个重要工作,包括RAG的奠基性工作(Lewis et al. 2020)、最新的推理模型(OpenAI o1、DeepSeek-R1)以及多智能体系统的相关研究。这些引用体现了作者对领域发展脉络的深入理解。
总体评价:这是一篇高质量的研究论文,提出了创新的层次化推理框架,在理论设计和实验验证方面都比较扎实。该工作对多智能体推理系统的发展具有重要价值,特别是在复杂信息检索领域的应用前景广阔。