Complex information needs in real-world search scenarios demand deep reasoning and knowledge synthesis across diverse sources, which traditional retrieval-augmented generation (RAG) pipelines struggle to address effectively. Current reasoning-based approaches suffer from a fundamental limitation: they use a single model to handle both high-level planning and detailed execution, leading to inefficient reasoning and limited scalability. In this paper, we introduce HiRA, a hierarchical framework that separates strategic planning from specialized execution. Our approach decomposes complex search tasks into focused subtasks, assigns each subtask to domain-specific agents equipped with external tools and reasoning capabilities, and coordinates the results through a structured integration mechanism. This separation prevents execution details from disrupting high-level reasoning while enabling the system to leverage specialized expertise for different types of information processing. Experiments on four complex, cross-modal deep search benchmarks demonstrate that HiRA significantly outperforms state-of-the-art RAG and agent-based systems. Our results show improvements in both answer quality and system efficiency, highlighting the effectiveness of decoupled planning and execution for multi-step information seeking tasks. Our code is available at https://github.com/ignorejjj/HiRA.
- 논문 ID: 2507.02652
- 제목: HiRA: A Hierarchical Reasoning Framework for Decoupled Planning and Execution in Deep Search
- 저자: Jiajie Jin, Xiaoxi Li, Yuyao Zhang, Guanting Dong, Yutao Zhu, Zhao Yang, Hongjin Qian, Zhicheng Dou
- 분류: cs.AI cs.CL cs.IR
- 발표 시간/학회: 2025년 (AAAI 2026 제출)
- 논문 링크: https://arxiv.org/abs/2507.02652
복잡한 정보 요구사항은 현실 세계의 검색 시나리오에서 여러 출처에 걸친 심층 추론과 지식 통합이 필요하며, 기존의 검색 증강 생성(RAG) 파이프라인은 이러한 문제를 효과적으로 해결하기 어렵습니다. 현재의 추론 기반 방법들은 근본적인 한계를 가지고 있습니다: 고수준 계획과 상세한 실행을 단일 모델로 동시에 처리하므로 추론 효율성이 낮고 확장성이 제한됩니다. 본 논문은 전략적 계획과 전문 실행을 분리하는 계층적 프레임워크인 HiRA를 제안합니다. 이 방법은 복잡한 검색 작업을 집중된 하위 작업으로 분해하고, 각 하위 작업을 외부 도구와 추론 능력을 갖춘 도메인 특화 에이전트에 할당하며, 구조화된 통합 메커니즘을 통해 결과를 조정합니다. 이러한 분리는 실행 세부 사항이 고수준 추론을 방해하는 것을 방지하면서, 동시에 시스템이 다양한 유형의 정보 처리를 위해 전문화된 전문 지식을 활용할 수 있도록 합니다. 네 가지 복잡한 크로스모달 심층 검색 벤치마크에 대한 실험은 HiRA가 최첨단 RAG 및 에이전트 기반 시스템을 크게 능가함을 보여줍니다.
기존 검색 엔진은 키워드 매칭을 기반으로 순위가 지정된 웹페이지만 반환하므로 사용자가 수동으로 정보를 필터링하고 수집해야 합니다. 웹 검색이 장착된 대규모 언어 모델(LLM)은 직접적인 답변을 제공할 수 있지만, 일반적으로 검색 결과의 직접적인 정보만 활용하며 심층 추론과 종합 분석 능력이 부족합니다.
인터넷 정보의 폭발적 증가로 인해 복잡한 쿼리에 대한 답변을 찾기가 점점 더 어려워지고 있으며, 이는 복잡한 정보 요구사항을 이해하고 여러 출처에서 정확한 답변을 종합해야 하는 심층 검색 작업의 빠른 발전을 주도하고 있습니다.
- 단일 구조의 제약: 기존 방법은 모든 작업을 처리하기 위해 단일 추론 모델에 의존하며, 특수 토큰을 생성하도록 추론 모델에 프롬프트를 통해 도구 활성화를 트리거합니다.
- 제한된 능력 확장성: 새로운 도구나 능력을 추가하려면 프롬프트를 신중하게 재설계하고 모델에 새로운 토큰 패턴 사용 방법을 교육해야 합니다.
- 추론 간섭: 외부 실행 결과가 주 추론 체인에 직접 주입되어 노이즈를 도입하고 핵심 추론 프로세스를 방해합니다.
저자들은 효과적인 에이전트 실행이 계층적 구조를 따라야 한다고 생각합니다: 고수준 계획을 위한 메타 에이전트, 작업 추론 전달을 위한 조정자, 특정 작업을 위한 전문 실행 에이전트를 포함합니다.
- 계층적 추론 아키텍처: 전문화된 도구 강화 추론 에이전트를 모듈로 통합하는 새로운 계층적 추론 프레임워크를 제안하여, 기존 방법의 외부 도구 오케스트레이션이나 경직된 사전 정의 파이프라인의 필요성을 제거합니다.
- 향상된 능력 통합: 도메인 전문 실행기는 다양한 추론 능력과 도구의 플러그 앤 플레이 통합을 지원합니다. 기존 검색 에이전트는 프롬프트 엔지니어링이나 모델 재훈련 없이 직접 통합될 수 있습니다.
- 우수한 경험적 성능: 네 가지 복잡한 크로스모달 검색 작업에 대한 실험은 기존 RAG 및 현재의 에이전트 기반 방법과 비교하여 상당한 개선을 보여줍니다.
복잡한 질문 q와 사전 정의된 외부 환경 E가 주어졌을 때, 목표는 답변 A와 해당 추론 프로세스 R을 포함하는 최종 솔루션을 생성하는 프레임워크를 설계하는 것입니다. 생성 프로세스는 다음과 같이 표현됩니다:
P(R,a∣q,E)=∏t=1TRP(Rt∣R<t,q,E<t)⋅P(a∣q,R)
여기서 TR은 추론 프로세스의 토큰 생성 단계를 나타내고, E<t={E(R<s)}s<t는 시간 단계 t 이전의 모든 환경 상호작용 결과의 집합을 나타냅니다.
HiRA 프레임워크는 세 가지 핵심 모듈을 포함합니다:
- 계획, 추론 및 답변 생성을 담당합니다.
- 작업을 전문가 에이전트 전략 지침을 포함하는 고수준 하위 작업으로 분해합니다.
- 동적 하위 작업 생성을 위해 특수 토큰을 사용합니다:
PM(sk)=PM(sk∣q,O<t,{E(sj)}j<k)
세 가지 핵심 기능을 포함합니다:
추론 전달 프로세스:
Ak∗=argmaxA∈EPC(Odele(k),A∣sk,IE,Iselect)
추론 증류 프로세스:
PC(Odist(k),Rdist(k)∣sk,Oexpert(k))=PC(Odist(k)∣Oexpert(k),⋅)⋅PC(Rdist(k)∣Odist(k),Oexpert(k),⋅)
이중 채널 메모리 메커니즘: 사실 메모리 Mf와 리소스 메모리 Mr를 포함합니다.
세 가지 직교하는 에이전트 능력 차원을 기반으로 설계됩니다:
- 정보 획득: 웹에서 정보를 획득하고 통합하는 것을 담당합니다.
- 크로스모달 이해: 다중 모달 정보의 이해와 융합을 처리합니다.
- 계산 추론: 수학 계산, 파일 처리 등의 계산 추론 작업을 처리합니다.
- 분리된 설계: 고수준 전략적 계획과 저수준 실행 세부 사항을 분리하여 실행 노이즈가 계획 프로세스를 방해하는 것을 방지합니다.
- 동적 작업 할당: 작업 복잡도와 필요한 능력을 기반으로 가장 적합한 전문가 에이전트를 지능적으로 선택합니다.
- 양방향 추론 전달: 메타 에이전트에서 전문가 에이전트로의 추론 위임과 역방향의 추론 증류를 지원합니다.
- 모듈식 확장: 새로운 전문가 에이전트는 전체 시스템을 재설계할 필요 없이 원활하게 통합될 수 있습니다.
- GAIA: 다단계 추론과 검색을 포함하며, 모든 검증 샘플(텍스트, 다중 모달, 파일 기반)을 사용합니다.
- WebWalkerQA: 영어와 중국어의 웹 네비게이션과 추출을 테스트하며, 200개 질문을 샘플링합니다.
- SimpleQA: 사실 및 광범위한 지식을 평가하며, 200개 질문을 샘플링합니다.
- Humanity's Last Exam: 복잡한 추론과 외부 검색이 필요한 고난도 벤치마크이며, 500개 검증 샘플을 사용합니다.
Qwen2.5-72B-Instruct를 LLM 판정자로 사용하여 정확도를 계산합니다.
- 직접 추론: 모델의 기본 추론 능력 사용(Qwen3-32B, QwQ-32B, DeepSeek-R1-32B, GPT-4o 등)
- 단일 능력 강화: 단일 전문 도구로 추론 강화(Search-o1, WebThinker, CodeAct 등)
- 다중 능력 추론: 다중 도구 또는 구조화된 워크플로우 통합(Plan-and-Solve, ReAct)
- 기본 모델: QwQ-32B
- 조정기: Qwen2.5-Instruct
- 온도: 0.7, top_p: 0.95, top_k: 20
- 컨텍스트 윈도우: 128k 토큰
- 최대 하위 작업 수: 10
| 방법 범주 | GAIA 평균 | WebWalkerQA 평균 | HLE 평균 | SimpleQA |
|---|
| 직접 추론 (최고) | 25.2 | 10.0 | 11.1 | 42.7 |
| 단일 능력 강화 (WebThinker) | 36.2 | 52.5 | 13.0 | 78.0 |
| 다중 능력 강화 (ReAct) | 30.7 | 35.0 | 13.8 | 73.5 |
| HiRA (본 논문) | 42.5 | 54.5 | 14.2 | 81.5 |
- 전반적 성능 우위: HiRA는 모든 작업에서 기준 방법을 능가합니다.
- 복잡한 작업에서 명확한 우위: 복잡한 작업(GAIA, HLE)에서 더 큰 개선을 보여줍니다.
- 계층적 설계의 우위: 동일한 도구 세트를 사용하는 방법과 비교하여 계층적 설계가 더 나은 성능을 달성합니다.
| 구성 요소 | GAIA-B | GAIA-F | WebWalker | HLE | SimpleQA |
|---|
| 완전한 HiRA | 42.5 | 42.1 | 54.5 | 14.2 | 81.5 |
| 추론 전달 없음 | 33.9 | 36.8 | 44.5 | 10.4 | 76.5 |
| 메모리 메커니즘 없음 | 37.8 | 31.6 | 52.0 | 11.8 | 79.0 |
| 검색 에이전트 없음 | 15.7 | 31.6 | 4.0 | 12.4 | 9.5 |
| 코드 에이전트 없음 | 33.9 | 28.9 | 51.5 | 12.8 | 76.5 |
- 추론 길이: HiRA의 추론 체인은 WebThinker보다 더 짧으며, 더 효율적인 하위 작업 호출을 나타냅니다.
- 상호작용 횟수: 도구를 직접 통합하는 방법과 비교하여 HiRA의 환경 상호작용 횟수가 더 적습니다.
- 계산 오버헤드: 계층적 구조는 더 목표 지향적인 도구 사용을 실현합니다.
단계별 검색에서 쿼리 분해, 문서 정제 및 다중 라운드 검색을 포함하는 반복적 파이프라인으로 발전했습니다. 그러나 RAG 방법은 사전 정의된 워크플로우에 의존하여 적응형 의사 결정을 제한합니다.
- 동작 수준 분리: 단일 단계 작업을 위해 실행기 할당(Plan-Act, CoAct)
- 쿼리 수준 분리: 더 높은 세분성에서 문제 분해(REMA, LLMCompiler)
본 논문은 동적 추론 위임과 계층적 프레임워크의 도메인 전문 에이전트를 통해 이러한 방법의 한계를 해결합니다.
HiRA는 전략적 계획과 전문 실행을 분리함으로써 심층 검색 작업에서 단일 모델의 한계를 효과적으로 해결합니다. 다중 에이전트 아키텍처는 확장 가능하고 모듈식의 추론을 지원합니다.
- 계산 오버헤드: 다중 에이전트 아키텍처는 계산 비용을 증가시킬 수 있습니다.
- 조정 복잡성: 에이전트 간 조정 메커니즘은 신중하게 설계해야 합니다.
- 오류 전파: 하위 작업 실행 오류가 전체 성능에 영향을 미칠 수 있습니다.
- 에이전트 간 조정 메커니즘을 추가로 최적화합니다.
- 더 많은 도메인 전문 실행기를 탐색합니다.
- 동적 에이전트 선택 전략을 연구합니다.
- 혁신적인 아키텍처 설계: 계층적 분리 설계는 이론적, 실용적 가치를 가집니다.
- 포괄적인 실험 검증: 여러 복잡한 벤치마크에 대한 체계적 평가
- 높은 실용성: 프레임워크는 기존 에이전트의 플러그 앤 플레이 통합을 지원합니다.
- 심층 분석: 상세한 제거 실험과 효율성 분석을 제공합니다.
- 기준선 선택: 일부 기준선 방법이 최신 SOTA가 아닐 수 있습니다.
- 평가 한계: 주로 LLM-as-Judge를 사용하여 평가 편향이 있을 수 있습니다.
- 확장성 검증: 더 큰 규모 또는 더 많은 도메인에서의 검증이 부족합니다.
- 학술적 기여: 다중 에이전트 추론 시스템에 새로운 설계 패러다임을 제공합니다.
- 실용적 가치: 복잡한 정보 검색 시나리오에 직접 적용할 수 있습니다.
- 재현성: 상세한 구현 세부사항과 코드를 제공합니다.
- 다단계 추론이 필요한 복잡한 질의응답 시스템
- 크로스모달 정보 검색 및 통합
- 전문 도구 지원이 필요한 연구 및 분석 작업
- 엔터프라이즈급 지식 관리 및 의사 결정 지원 시스템
논문은 RAG의 기초 연구(Lewis et al. 2020), 최신 추론 모델(OpenAI o1, DeepSeek-R1) 및 다중 에이전트 시스템 관련 연구를 포함한 여러 중요 연구를 인용합니다. 이러한 인용은 저자들의 분야 발전 궤적에 대한 깊은 이해를 반영합니다.
종합 평가: 이는 혁신적인 계층적 추론 프레임워크를 제안하는 고품질 연구 논문이며, 이론적 설계와 실험 검증 모두에서 견고합니다. 이 연구는 다중 에이전트 추론 시스템의 발전에 중요한 가치를 가지며, 특히 복잡한 정보 검색 분야의 응용 전망이 광범위합니다.