Complex information needs in real-world search scenarios demand deep reasoning and knowledge synthesis across diverse sources, which traditional retrieval-augmented generation (RAG) pipelines struggle to address effectively. Current reasoning-based approaches suffer from a fundamental limitation: they use a single model to handle both high-level planning and detailed execution, leading to inefficient reasoning and limited scalability. In this paper, we introduce HiRA, a hierarchical framework that separates strategic planning from specialized execution. Our approach decomposes complex search tasks into focused subtasks, assigns each subtask to domain-specific agents equipped with external tools and reasoning capabilities, and coordinates the results through a structured integration mechanism. This separation prevents execution details from disrupting high-level reasoning while enabling the system to leverage specialized expertise for different types of information processing. Experiments on four complex, cross-modal deep search benchmarks demonstrate that HiRA significantly outperforms state-of-the-art RAG and agent-based systems. Our results show improvements in both answer quality and system efficiency, highlighting the effectiveness of decoupled planning and execution for multi-step information seeking tasks. Our code is available at https://github.com/ignorejjj/HiRA.
- ID del Artículo: 2507.02652
- Título: HiRA: A Hierarchical Reasoning Framework for Decoupled Planning and Execution in Deep Search
- Autores: Jiajie Jin, Xiaoxi Li, Yuyao Zhang, Guanting Dong, Yutao Zhu, Zhao Yang, Hongjin Qian, Zhicheng Dou
- Clasificación: cs.AI cs.CL cs.IR
- Fecha de Publicación/Conferencia: 2025 (Enviado a AAAI 2026)
- Enlace del Artículo: https://arxiv.org/abs/2507.02652
Las necesidades complejas de información en escenarios de búsqueda del mundo real requieren razonamiento profundo y síntesis de conocimiento a través de múltiples fuentes, lo que los canales tradicionales de generación aumentada por recuperación (RAG) tienen dificultades para abordar de manera efectiva. Los métodos actuales basados en razonamiento presentan una limitación fundamental: utilizan un único modelo para manejar simultáneamente la planificación de alto nivel y la ejecución detallada, lo que resulta en una eficiencia de razonamiento baja y escalabilidad limitada. Este artículo propone HiRA, un marco jerárquico que separa la planificación estratégica de la ejecución especializada. El método descompone tareas de búsqueda complejas en subtareas enfocadas, asigna cada subtarea a agentes específicos del dominio equipados con herramientas externas y capacidades de razonamiento, e integra los resultados a través de mecanismos de coordinación estructurados. Esta separación evita que los detalles de ejecución interfieran con el razonamiento de alto nivel, mientras permite que el sistema aproveche el conocimiento especializado para diferentes tipos de procesamiento de información. Los experimentos en cuatro puntos de referencia complejos de búsqueda profunda multimodal demuestran que HiRA supera significativamente a los sistemas RAG y basados en agentes de última generación.
Los motores de búsqueda tradicionales devuelven páginas web clasificadas basadas únicamente en coincidencia de palabras clave, requiriendo que los usuarios filtren y recopilen información manualmente. Aunque los modelos de lenguaje grande (LLMs) equipados con búsqueda web pueden proporcionar respuestas directas, generalmente solo utilizan información directa de los resultados de búsqueda, careciendo de capacidades de razonamiento profundo y análisis sintético.
Con la explosión de información en Internet, encontrar respuestas a consultas complejas se ha vuelto cada vez más difícil, lo que ha impulsado el rápido desarrollo de tareas de búsqueda profunda que requieren comprender necesidades de información complejas y sintetizar respuestas precisas de múltiples fuentes.
- Limitaciones de Arquitectura Monolítica: Los métodos existentes dependen de un único modelo de razonamiento para manejar todas las tareas, activando herramientas mediante la generación de tokens especiales por parte del modelo de razonamiento
- Escalabilidad Limitada de Capacidades: Agregar nuevas herramientas o capacidades requiere rediseño cuidadoso de indicaciones, enseñando al modelo cómo usar nuevos patrones de tokens
- Interferencia de Razonamiento: Los resultados de ejecución externa se inyectan directamente en la cadena de razonamiento principal, introduciendo ruido que interfiere con el proceso de razonamiento central
Los autores argumentan que la ejecución efectiva de agentes debe seguir una estructura jerárquica: incluyendo un metaagente para planificación de alto nivel, un coordinador para transferencia de razonamiento de tareas, y agentes de ejecución especializados para operaciones específicas.
- Arquitectura de Razonamiento Jerárquico: Propone un marco de razonamiento jerárquico novedoso que integra agentes de razonamiento mejorados por herramientas especializadas como módulos, eliminando la necesidad de orquestación de herramientas externas o canales predefinidos rígidos en métodos existentes
- Integración Mejorada de Capacidades: Los ejecutores especializados en el dominio soportan integración de conexión y desconexión de capacidades de razonamiento diversas y herramientas. Los agentes de búsqueda existentes pueden integrarse directamente sin ingeniería de indicaciones o reentrenamiento de modelos
- Rendimiento Empírico Superior: Los experimentos en cuatro tareas complejas de búsqueda multimodal muestran mejoras significativas en comparación con métodos RAG tradicionales y enfoques basados en agentes actuales
Dada una pregunta compleja q que requiere búsqueda de información y un entorno externo predefinido E, el objetivo es diseñar un marco que genere una solución final que contenga la respuesta A y el proceso de razonamiento correspondiente R. El proceso de generación se expresa como:
P(R,a∣q,E)=∏t=1TRP(Rt∣R<t,q,E<t)⋅P(a∣q,R)
donde TR representa los pasos de generación de tokens del proceso de razonamiento, y E<t={E(R<s)}s<t representa el conjunto de todos los resultados de interacción ambiental antes del paso de tiempo t.
El marco HiRA contiene tres módulos principales:
- Responsable de planificación, razonamiento y generación de respuestas
- Descompone tareas en subtareas de alto nivel que contienen instrucciones estratégicas para agentes expertos
- Utiliza tokens especiales para generación dinámica de subtareas:
PM(sk)=PM(sk∣q,O<t,{E(sj)}j<k)
Contiene tres funcionalidades principales:
Proceso de Transferencia de Razonamiento:
Ak∗=argmaxA∈EPC(Odele(k),A∣sk,IE,Iselect)
Proceso de Destilación de Razonamiento:
PC(Odist(k),Rdist(k)∣sk,Oexpert(k))=PC(Odist(k)∣Oexpert(k),⋅)⋅PC(Rdist(k)∣Odist(k),Oexpert(k),⋅)
Mecanismo de Memoria de Doble Canal: Incluye memoria de hechos Mf y memoria de recursos Mr
Diseñados basándose en tres dimensiones ortogonales de capacidades de agentes:
- Adquisición de Información: Responsable de obtener e integrar información de la web
- Comprensión Multimodal: Maneja la comprensión e integración de información multimodal
- Razonamiento Computacional: Maneja tareas de razonamiento computacional como cálculos matemáticos y procesamiento de archivos
- Diseño Desacoplado: Separa la planificación estratégica de alto nivel de los detalles de ejecución de bajo nivel, evitando que el ruido de ejecución interfiera con el proceso de planificación
- Asignación Dinámica de Tareas: Selecciona inteligentemente el agente experto más adecuado basándose en la complejidad de la tarea y las capacidades requeridas
- Transferencia de Razonamiento Bidireccional: Soporta delegación de razonamiento del metaagente a agentes expertos, así como destilación de razonamiento inversa
- Extensión Modular: Los nuevos agentes expertos pueden integrarse sin problemas sin necesidad de rediseñar todo el sistema
- GAIA: Abarca razonamiento multisalto y recuperación, utilizando todas las muestras de validación (texto, multimodal, basadas en archivos)
- WebWalkerQA: Prueba navegación web y extracción en inglés y chino, muestreo de 200 preguntas
- SimpleQA: Evalúa conocimiento fáctico y amplio, muestreo de 200 preguntas
- Humanity's Last Exam: Punto de referencia de alta dificultad que requiere razonamiento complejo y recuperación externa, utilizando 500 muestras de validación
Se utiliza Qwen2.5-72B-Instruct como evaluador LLM para calcular la precisión
- Razonamiento Directo: Utilizando capacidades de razonamiento nativas del modelo (Qwen3-32B, QwQ-32B, DeepSeek-R1-32B, GPT-4o, etc.)
- Mejora de Capacidad Única: Utilizando razonamiento mejorado con herramienta única especializada (Search-o1, WebThinker, CodeAct, etc.)
- Razonamiento de Capacidades Múltiples: Integrando múltiples herramientas o flujos de trabajo estructurados (Plan-and-Solve, ReAct)
- Modelo Base: QwQ-32B
- Coordinador: Qwen2.5-Instruct
- Temperatura: 0.7, top_p: 0.95, top_k: 20
- Ventana de Contexto: 128k tokens
- Número Máximo de Subtareas: 10
| Categoría de Método | Promedio GAIA | Promedio WebWalkerQA | Promedio HLE | SimpleQA |
|---|
| Razonamiento Directo (Mejor) | 25.2 | 10.0 | 11.1 | 42.7 |
| Mejora de Capacidad Única (WebThinker) | 36.2 | 52.5 | 13.0 | 78.0 |
| Mejora de Capacidades Múltiples (ReAct) | 30.7 | 35.0 | 13.8 | 73.5 |
| HiRA (Este Artículo) | 42.5 | 54.5 | 14.2 | 81.5 |
- Ventaja de Rendimiento General: HiRA supera a los métodos de referencia en todas las tareas
- Ventaja Significativa en Tareas Complejas: Las mejoras son más notables en tareas complejas (GAIA, HLE)
- Ventaja del Diseño Jerárquico: El diseño jerárquico logra mejor rendimiento en comparación con métodos que utilizan el mismo conjunto de herramientas
| Componente | GAIA-B | GAIA-F | WebWalker | HLE | SimpleQA |
|---|
| HiRA Completo | 42.5 | 42.1 | 54.5 | 14.2 | 81.5 |
| Sin Transferencia de Razonamiento | 33.9 | 36.8 | 44.5 | 10.4 | 76.5 |
| Sin Mecanismo de Memoria | 37.8 | 31.6 | 52.0 | 11.8 | 79.0 |
| Sin Agente de Búsqueda | 15.7 | 31.6 | 4.0 | 12.4 | 9.5 |
| Sin Agente de Código | 33.9 | 28.9 | 51.5 | 12.8 | 76.5 |
- Longitud de Razonamiento: La cadena de razonamiento de HiRA es más corta que la de WebThinker, indicando invocación de subtareas más eficiente
- Número de Interacciones: HiRA tiene menos interacciones ambientales en comparación con métodos que integran herramientas directamente
- Sobrecarga Computacional: La estructura jerárquica logra un uso de herramientas más específico
Evolución desde recuperación de un solo paso hasta canales iterativos con descomposición de consultas, refinamiento de documentos y búsqueda multironda. Sin embargo, los métodos RAG dependen de flujos de trabajo predefinidos, limitando la toma de decisiones adaptativa.
- Separación a Nivel de Acción: Asignación de ejecutores para tareas de un solo paso (Plan-Act, CoAct)
- Separación a Nivel de Consulta: Descomposición de problemas a mayor granularidad (REMA, LLMCompiler)
Este artículo aborda las limitaciones de estos métodos mediante delegación dinámica de razonamiento y agentes especializados en el dominio en el marco jerárquico.
HiRA aborda efectivamente las limitaciones de los modelos monolíticos en tareas de búsqueda profunda mediante la separación de planificación estratégica y ejecución especializada. La arquitectura multiagente soporta razonamiento escalable y modular.
- Sobrecarga Computacional: La arquitectura multiagente puede aumentar los costos computacionales
- Complejidad de Coordinación: Los mecanismos de coordinación entre agentes requieren diseño cuidadoso
- Propagación de Errores: Los errores en la ejecución de subtareas pueden afectar el rendimiento general
- Optimizar aún más los mecanismos de coordinación entre agentes
- Explorar más ejecutores especializados en el dominio
- Investigar estrategias de selección dinámica de agentes
- Diseño de Arquitectura Innovador: El diseño jerárquico desacoplado tiene valor teórico y práctico
- Verificación Experimental Completa: Evaluación sistemática en múltiples puntos de referencia complejos
- Fuerte Practicidad: El marco soporta integración de conexión y desconexión de agentes existentes
- Análisis Profundo: Proporciona experimentos de ablación detallados y análisis de eficiencia
- Selección de Líneas Base: Algunos métodos de referencia pueden no ser el SOTA más reciente
- Limitaciones de Evaluación: Principalmente utiliza LLM-as-Judge, que puede tener sesgos de evaluación
- Verificación de Escalabilidad: Falta verificación en escala más grande o más dominios
- Contribución Académica: Proporciona un nuevo paradigma de diseño para sistemas de razonamiento multiagente
- Valor Práctico: Puede aplicarse directamente a escenarios de recuperación de información compleja
- Reproducibilidad: Proporciona detalles de implementación detallados y código
- Sistemas de preguntas y respuestas complejos que requieren razonamiento multisalto
- Recuperación e integración de información multimodal
- Tareas de investigación y análisis que requieren soporte de herramientas especializadas
- Sistemas de gestión del conocimiento y apoyo a la toma de decisiones a nivel empresarial
El artículo cita múltiples trabajos importantes, incluyendo trabajos fundamentales en RAG (Lewis et al. 2020), modelos de razonamiento más recientes (OpenAI o1, DeepSeek-R1) e investigación relacionada en sistemas multiagente. Estas citas reflejan la comprensión profunda de los autores sobre la trayectoria del desarrollo del campo.
Evaluación General: Este es un artículo de investigación de alta calidad que propone un marco de razonamiento jerárquico innovador, con diseño teórico y verificación experimental bastante sólidos. Este trabajo tiene valor importante para el desarrollo de sistemas de razonamiento multiagente, particularmente con amplias perspectivas de aplicación en el campo de la recuperación de información compleja.