2025-11-11T07:07:11.632178

HiRA: A Hierarchical Reasoning Framework for Decoupled Planning and Execution in Deep Search

Jin, Li, Dong et al.

Complex information needs in real-world search scenarios demand deep reasoning and knowledge synthesis across diverse sources, which traditional retrieval-augmented generation (RAG) pipelines struggle to address effectively. Current reasoning-based approaches suffer from a fundamental limitation: they use a single model to handle both high-level planning and detailed execution, leading to inefficient reasoning and limited scalability. In this paper, we introduce HiRA, a hierarchical framework that separates strategic planning from specialized execution. Our approach decomposes complex search tasks into focused subtasks, assigns each subtask to domain-specific agents equipped with external tools and reasoning capabilities, and coordinates the results through a structured integration mechanism. This separation prevents execution details from disrupting high-level reasoning while enabling the system to leverage specialized expertise for different types of information processing. Experiments on four complex, cross-modal deep search benchmarks demonstrate that HiRA significantly outperforms state-of-the-art RAG and agent-based systems. Our results show improvements in both answer quality and system efficiency, highlighting the effectiveness of decoupled planning and execution for multi-step information seeking tasks. Our code is available at https://github.com/ignorejjj/HiRA.

academic

HiRA: 심층 검색에서 분리된 계획과 실행을 위한 계층적 추론 프레임워크

기본 정보

논문 ID: 2507.02652
제목: HiRA: A Hierarchical Reasoning Framework for Decoupled Planning and Execution in Deep Search
저자: Jiajie Jin, Xiaoxi Li, Yuyao Zhang, Guanting Dong, Yutao Zhu, Zhao Yang, Hongjin Qian, Zhicheng Dou
분류: cs.AI cs.CL cs.IR
발표 시간/학회: 2025년 (AAAI 2026 제출)
논문 링크: https://arxiv.org/abs/2507.02652

초록

복잡한 정보 요구사항은 현실 세계의 검색 시나리오에서 여러 출처에 걸친 심층 추론과 지식 통합이 필요하며, 기존의 검색 증강 생성(RAG) 파이프라인은 이러한 문제를 효과적으로 해결하기 어렵습니다. 현재의 추론 기반 방법들은 근본적인 한계를 가지고 있습니다: 고수준 계획과 상세한 실행을 단일 모델로 동시에 처리하므로 추론 효율성이 낮고 확장성이 제한됩니다. 본 논문은 전략적 계획과 전문 실행을 분리하는 계층적 프레임워크인 HiRA를 제안합니다. 이 방법은 복잡한 검색 작업을 집중된 하위 작업으로 분해하고, 각 하위 작업을 외부 도구와 추론 능력을 갖춘 도메인 특화 에이전트에 할당하며, 구조화된 통합 메커니즘을 통해 결과를 조정합니다. 이러한 분리는 실행 세부 사항이 고수준 추론을 방해하는 것을 방지하면서, 동시에 시스템이 다양한 유형의 정보 처리를 위해 전문화된 전문 지식을 활용할 수 있도록 합니다. 네 가지 복잡한 크로스모달 심층 검색 벤치마크에 대한 실험은 HiRA가 최첨단 RAG 및 에이전트 기반 시스템을 크게 능가함을 보여줍니다.

연구 배경 및 동기

문제 정의

기존 검색 엔진은 키워드 매칭을 기반으로 순위가 지정된 웹페이지만 반환하므로 사용자가 수동으로 정보를 필터링하고 수집해야 합니다. 웹 검색이 장착된 대규모 언어 모델(LLM)은 직접적인 답변을 제공할 수 있지만, 일반적으로 검색 결과의 직접적인 정보만 활용하며 심층 추론과 종합 분석 능력이 부족합니다.

문제의 중요성

인터넷 정보의 폭발적 증가로 인해 복잡한 쿼리에 대한 답변을 찾기가 점점 더 어려워지고 있으며, 이는 복잡한 정보 요구사항을 이해하고 여러 출처에서 정확한 답변을 종합해야 하는 심층 검색 작업의 빠른 발전을 주도하고 있습니다.

기존 방법의 한계

단일 구조의 제약: 기존 방법은 모든 작업을 처리하기 위해 단일 추론 모델에 의존하며, 특수 토큰을 생성하도록 추론 모델에 프롬프트를 통해 도구 활성화를 트리거합니다.
제한된 능력 확장성: 새로운 도구나 능력을 추가하려면 프롬프트를 신중하게 재설계하고 모델에 새로운 토큰 패턴 사용 방법을 교육해야 합니다.
추론 간섭: 외부 실행 결과가 주 추론 체인에 직접 주입되어 노이즈를 도입하고 핵심 추론 프로세스를 방해합니다.

연구 동기

저자들은 효과적인 에이전트 실행이 계층적 구조를 따라야 한다고 생각합니다: 고수준 계획을 위한 메타 에이전트, 작업 추론 전달을 위한 조정자, 특정 작업을 위한 전문 실행 에이전트를 포함합니다.

핵심 기여

계층적 추론 아키텍처: 전문화된 도구 강화 추론 에이전트를 모듈로 통합하는 새로운 계층적 추론 프레임워크를 제안하여, 기존 방법의 외부 도구 오케스트레이션이나 경직된 사전 정의 파이프라인의 필요성을 제거합니다.
향상된 능력 통합: 도메인 전문 실행기는 다양한 추론 능력과 도구의 플러그 앤 플레이 통합을 지원합니다. 기존 검색 에이전트는 프롬프트 엔지니어링이나 모델 재훈련 없이 직접 통합될 수 있습니다.
우수한 경험적 성능: 네 가지 복잡한 크로스모달 검색 작업에 대한 실험은 기존 RAG 및 현재의 에이전트 기반 방법과 비교하여 상당한 개선을 보여줍니다.

방법 상세 설명

작업 정의

복잡한 질문 q와 사전 정의된 외부 환경 E가 주어졌을 때, 목표는 답변 A와 해당 추론 프로세스 R을 포함하는 최종 솔루션을 생성하는 프레임워크를 설계하는 것입니다. 생성 프로세스는 다음과 같이 표현됩니다:

$P(R, a | q, E) = \prod_{t=1}^{T_R} P(R_t | R_{<t}, q, E_{<t}) \cdot P(a | q, R)$

여기서 $T_R$ 은 추론 프로세스의 토큰 생성 단계를 나타내고, $E_{<t} = \{E(R_{<s})\}_{s<t}$ 는 시간 단계 t 이전의 모든 환경 상호작용 결과의 집합을 나타냅니다.

모델 아키텍처

HiRA 프레임워크는 세 가지 핵심 모듈을 포함합니다:

1. 메타 추론 계획기(Meta Reasoning Planner)

계획, 추론 및 답변 생성을 담당합니다.
작업을 전문가 에이전트 전략 지침을 포함하는 고수준 하위 작업으로 분해합니다.
동적 하위 작업 생성을 위해 특수 토큰을 사용합니다:

$P_M(s_k) = P_M(s_k | q, O_{<t}, \{E(s_j)\}_{j<k})$

2. 적응형 추론 조정기(Adaptive Reasoning Coordinator)

세 가지 핵심 기능을 포함합니다:

추론 전달 프로세스: $A^*_k = \arg\max_{A \in E} P_C(O^{(k)}_{dele}, A | s_k, I_E, I_{select})$

추론 증류 프로세스: $P_C(O^{(k)}_{dist}, R^{(k)}_{dist} | s_k, O^{(k)}_{expert}) = P_C(O^{(k)}_{dist} | O^{(k)}_{expert}, \cdot) \cdot P_C(R^{(k)}_{dist} | O^{(k)}_{dist}, O^{(k)}_{expert}, \cdot)$

이중 채널 메모리 메커니즘: 사실 메모리 $M_f$ 와 리소스 메모리 $M_r$ 를 포함합니다.

3. 도메인 전문 실행기(Domain-Specialized Executors)

세 가지 직교하는 에이전트 능력 차원을 기반으로 설계됩니다:

정보 획득: 웹에서 정보를 획득하고 통합하는 것을 담당합니다.
크로스모달 이해: 다중 모달 정보의 이해와 융합을 처리합니다.
계산 추론: 수학 계산, 파일 처리 등의 계산 추론 작업을 처리합니다.

기술 혁신 포인트

분리된 설계: 고수준 전략적 계획과 저수준 실행 세부 사항을 분리하여 실행 노이즈가 계획 프로세스를 방해하는 것을 방지합니다.
동적 작업 할당: 작업 복잡도와 필요한 능력을 기반으로 가장 적합한 전문가 에이전트를 지능적으로 선택합니다.
양방향 추론 전달: 메타 에이전트에서 전문가 에이전트로의 추론 위임과 역방향의 추론 증류를 지원합니다.
모듈식 확장: 새로운 전문가 에이전트는 전체 시스템을 재설계할 필요 없이 원활하게 통합될 수 있습니다.

실험 설정

데이터셋

GAIA: 다단계 추론과 검색을 포함하며, 모든 검증 샘플(텍스트, 다중 모달, 파일 기반)을 사용합니다.
WebWalkerQA: 영어와 중국어의 웹 네비게이션과 추출을 테스트하며, 200개 질문을 샘플링합니다.
SimpleQA: 사실 및 광범위한 지식을 평가하며, 200개 질문을 샘플링합니다.
Humanity's Last Exam: 복잡한 추론과 외부 검색이 필요한 고난도 벤치마크이며, 500개 검증 샘플을 사용합니다.

평가 지표

Qwen2.5-72B-Instruct를 LLM 판정자로 사용하여 정확도를 계산합니다.

비교 방법

직접 추론: 모델의 기본 추론 능력 사용(Qwen3-32B, QwQ-32B, DeepSeek-R1-32B, GPT-4o 등)
단일 능력 강화: 단일 전문 도구로 추론 강화(Search-o1, WebThinker, CodeAct 등)
다중 능력 추론: 다중 도구 또는 구조화된 워크플로우 통합(Plan-and-Solve, ReAct)

구현 세부사항

기본 모델: QwQ-32B
조정기: Qwen2.5-Instruct
온도: 0.7, top_p: 0.95, top_k: 20
컨텍스트 윈도우: 128k 토큰
최대 하위 작업 수: 10

실험 결과

주요 결과

방법 범주	GAIA 평균	WebWalkerQA 평균	HLE 평균	SimpleQA
직접 추론 (최고)	25.2	10.0	11.1	42.7
단일 능력 강화 (WebThinker)	36.2	52.5	13.0	78.0
다중 능력 강화 (ReAct)	30.7	35.0	13.8	73.5
HiRA (본 논문)	42.5	54.5	14.2	81.5

주요 발견

전반적 성능 우위: HiRA는 모든 작업에서 기준 방법을 능가합니다.
복잡한 작업에서 명확한 우위: 복잡한 작업(GAIA, HLE)에서 더 큰 개선을 보여줍니다.
계층적 설계의 우위: 동일한 도구 세트를 사용하는 방법과 비교하여 계층적 설계가 더 나은 성능을 달성합니다.

제거 실험

구성 요소	GAIA-B	GAIA-F	WebWalker	HLE	SimpleQA
완전한 HiRA	42.5	42.1	54.5	14.2	81.5
추론 전달 없음	33.9	36.8	44.5	10.4	76.5
메모리 메커니즘 없음	37.8	31.6	52.0	11.8	79.0
검색 에이전트 없음	15.7	31.6	4.0	12.4	9.5
코드 에이전트 없음	33.9	28.9	51.5	12.8	76.5