2025-11-11T07:07:11.632178

HiRA: A Hierarchical Reasoning Framework for Decoupled Planning and Execution in Deep Search

Jin, Li, Dong et al.

Complex information needs in real-world search scenarios demand deep reasoning and knowledge synthesis across diverse sources, which traditional retrieval-augmented generation (RAG) pipelines struggle to address effectively. Current reasoning-based approaches suffer from a fundamental limitation: they use a single model to handle both high-level planning and detailed execution, leading to inefficient reasoning and limited scalability. In this paper, we introduce HiRA, a hierarchical framework that separates strategic planning from specialized execution. Our approach decomposes complex search tasks into focused subtasks, assigns each subtask to domain-specific agents equipped with external tools and reasoning capabilities, and coordinates the results through a structured integration mechanism. This separation prevents execution details from disrupting high-level reasoning while enabling the system to leverage specialized expertise for different types of information processing. Experiments on four complex, cross-modal deep search benchmarks demonstrate that HiRA significantly outperforms state-of-the-art RAG and agent-based systems. Our results show improvements in both answer quality and system efficiency, highlighting the effectiveness of decoupled planning and execution for multi-step information seeking tasks. Our code is available at https://github.com/ignorejjj/HiRA.

academic

HiRA: Un Marco de Razonamiento Jerárquico para Planificación y Ejecución Desacopladas en Búsqueda Profunda

Información Básica

ID del Artículo: 2507.02652
Título: HiRA: A Hierarchical Reasoning Framework for Decoupled Planning and Execution in Deep Search
Autores: Jiajie Jin, Xiaoxi Li, Yuyao Zhang, Guanting Dong, Yutao Zhu, Zhao Yang, Hongjin Qian, Zhicheng Dou
Clasificación: cs.AI cs.CL cs.IR
Fecha de Publicación/Conferencia: 2025 (Enviado a AAAI 2026)
Enlace del Artículo: https://arxiv.org/abs/2507.02652

Resumen

Las necesidades complejas de información en escenarios de búsqueda del mundo real requieren razonamiento profundo y síntesis de conocimiento a través de múltiples fuentes, lo que los canales tradicionales de generación aumentada por recuperación (RAG) tienen dificultades para abordar de manera efectiva. Los métodos actuales basados en razonamiento presentan una limitación fundamental: utilizan un único modelo para manejar simultáneamente la planificación de alto nivel y la ejecución detallada, lo que resulta en una eficiencia de razonamiento baja y escalabilidad limitada. Este artículo propone HiRA, un marco jerárquico que separa la planificación estratégica de la ejecución especializada. El método descompone tareas de búsqueda complejas en subtareas enfocadas, asigna cada subtarea a agentes específicos del dominio equipados con herramientas externas y capacidades de razonamiento, e integra los resultados a través de mecanismos de coordinación estructurados. Esta separación evita que los detalles de ejecución interfieran con el razonamiento de alto nivel, mientras permite que el sistema aproveche el conocimiento especializado para diferentes tipos de procesamiento de información. Los experimentos en cuatro puntos de referencia complejos de búsqueda profunda multimodal demuestran que HiRA supera significativamente a los sistemas RAG y basados en agentes de última generación.

Antecedentes de Investigación y Motivación

Definición del Problema

Los motores de búsqueda tradicionales devuelven páginas web clasificadas basadas únicamente en coincidencia de palabras clave, requiriendo que los usuarios filtren y recopilen información manualmente. Aunque los modelos de lenguaje grande (LLMs) equipados con búsqueda web pueden proporcionar respuestas directas, generalmente solo utilizan información directa de los resultados de búsqueda, careciendo de capacidades de razonamiento profundo y análisis sintético.

Importancia del Problema

Con la explosión de información en Internet, encontrar respuestas a consultas complejas se ha vuelto cada vez más difícil, lo que ha impulsado el rápido desarrollo de tareas de búsqueda profunda que requieren comprender necesidades de información complejas y sintetizar respuestas precisas de múltiples fuentes.

Limitaciones de Métodos Existentes

Limitaciones de Arquitectura Monolítica: Los métodos existentes dependen de un único modelo de razonamiento para manejar todas las tareas, activando herramientas mediante la generación de tokens especiales por parte del modelo de razonamiento
Escalabilidad Limitada de Capacidades: Agregar nuevas herramientas o capacidades requiere rediseño cuidadoso de indicaciones, enseñando al modelo cómo usar nuevos patrones de tokens
Interferencia de Razonamiento: Los resultados de ejecución externa se inyectan directamente en la cadena de razonamiento principal, introduciendo ruido que interfiere con el proceso de razonamiento central

Motivación de la Investigación

Los autores argumentan que la ejecución efectiva de agentes debe seguir una estructura jerárquica: incluyendo un metaagente para planificación de alto nivel, un coordinador para transferencia de razonamiento de tareas, y agentes de ejecución especializados para operaciones específicas.

Contribuciones Principales

Arquitectura de Razonamiento Jerárquico: Propone un marco de razonamiento jerárquico novedoso que integra agentes de razonamiento mejorados por herramientas especializadas como módulos, eliminando la necesidad de orquestación de herramientas externas o canales predefinidos rígidos en métodos existentes
Integración Mejorada de Capacidades: Los ejecutores especializados en el dominio soportan integración de conexión y desconexión de capacidades de razonamiento diversas y herramientas. Los agentes de búsqueda existentes pueden integrarse directamente sin ingeniería de indicaciones o reentrenamiento de modelos
Rendimiento Empírico Superior: Los experimentos en cuatro tareas complejas de búsqueda multimodal muestran mejoras significativas en comparación con métodos RAG tradicionales y enfoques basados en agentes actuales

Explicación Detallada del Método

Definición de Tarea

Dada una pregunta compleja q que requiere búsqueda de información y un entorno externo predefinido E, el objetivo es diseñar un marco que genere una solución final que contenga la respuesta A y el proceso de razonamiento correspondiente R. El proceso de generación se expresa como:

$P(R, a | q, E) = \prod_{t=1}^{T_R} P(R_t | R_{<t}, q, E_{<t}) \cdot P(a | q, R)$

donde $T_R$ representa los pasos de generación de tokens del proceso de razonamiento, y $E_{<t} = \{E(R_{<s})\}_{s<t}$ representa el conjunto de todos los resultados de interacción ambiental antes del paso de tiempo t.

Arquitectura del Modelo

El marco HiRA contiene tres módulos principales:

1. Planificador de Razonamiento Meta (Meta Reasoning Planner)

Responsable de planificación, razonamiento y generación de respuestas
Descompone tareas en subtareas de alto nivel que contienen instrucciones estratégicas para agentes expertos
Utiliza tokens especiales para generación dinámica de subtareas:

$P_M(s_k) = P_M(s_k | q, O_{<t}, \{E(s_j)\}_{j<k})$

2. Coordinador de Razonamiento Adaptativo (Adaptive Reasoning Coordinator)

Contiene tres funcionalidades principales:

Proceso de Transferencia de Razonamiento: $A^*_k = \arg\max_{A \in E} P_C(O^{(k)}_{dele}, A | s_k, I_E, I_{select})$

Proceso de Destilación de Razonamiento: $P_C(O^{(k)}_{dist}, R^{(k)}_{dist} | s_k, O^{(k)}_{expert}) = P_C(O^{(k)}_{dist} | O^{(k)}_{expert}, \cdot) \cdot P_C(R^{(k)}_{dist} | O^{(k)}_{dist}, O^{(k)}_{expert}, \cdot)$

Mecanismo de Memoria de Doble Canal: Incluye memoria de hechos $M_f$ y memoria de recursos $M_r$

3. Ejecutores Especializados en el Dominio (Domain-Specialized Executors)

Diseñados basándose en tres dimensiones ortogonales de capacidades de agentes:

Adquisición de Información: Responsable de obtener e integrar información de la web
Comprensión Multimodal: Maneja la comprensión e integración de información multimodal
Razonamiento Computacional: Maneja tareas de razonamiento computacional como cálculos matemáticos y procesamiento de archivos

Puntos de Innovación Técnica

Diseño Desacoplado: Separa la planificación estratégica de alto nivel de los detalles de ejecución de bajo nivel, evitando que el ruido de ejecución interfiera con el proceso de planificación
Asignación Dinámica de Tareas: Selecciona inteligentemente el agente experto más adecuado basándose en la complejidad de la tarea y las capacidades requeridas
Transferencia de Razonamiento Bidireccional: Soporta delegación de razonamiento del metaagente a agentes expertos, así como destilación de razonamiento inversa
Extensión Modular: Los nuevos agentes expertos pueden integrarse sin problemas sin necesidad de rediseñar todo el sistema

Configuración Experimental

Conjuntos de Datos

GAIA: Abarca razonamiento multisalto y recuperación, utilizando todas las muestras de validación (texto, multimodal, basadas en archivos)
WebWalkerQA: Prueba navegación web y extracción en inglés y chino, muestreo de 200 preguntas
SimpleQA: Evalúa conocimiento fáctico y amplio, muestreo de 200 preguntas
Humanity's Last Exam: Punto de referencia de alta dificultad que requiere razonamiento complejo y recuperación externa, utilizando 500 muestras de validación

Métricas de Evaluación

Se utiliza Qwen2.5-72B-Instruct como evaluador LLM para calcular la precisión

Métodos de Comparación

Razonamiento Directo: Utilizando capacidades de razonamiento nativas del modelo (Qwen3-32B, QwQ-32B, DeepSeek-R1-32B, GPT-4o, etc.)
Mejora de Capacidad Única: Utilizando razonamiento mejorado con herramienta única especializada (Search-o1, WebThinker, CodeAct, etc.)
Razonamiento de Capacidades Múltiples: Integrando múltiples herramientas o flujos de trabajo estructurados (Plan-and-Solve, ReAct)

Detalles de Implementación

Modelo Base: QwQ-32B
Coordinador: Qwen2.5-Instruct
Temperatura: 0.7, top_p: 0.95, top_k: 20
Ventana de Contexto: 128k tokens
Número Máximo de Subtareas: 10

Resultados Experimentales

Resultados Principales

Categoría de Método	Promedio GAIA	Promedio WebWalkerQA	Promedio HLE	SimpleQA
Razonamiento Directo (Mejor)	25.2	10.0	11.1	42.7
Mejora de Capacidad Única (WebThinker)	36.2	52.5	13.0	78.0
Mejora de Capacidades Múltiples (ReAct)	30.7	35.0	13.8	73.5
HiRA (Este Artículo)	42.5	54.5	14.2	81.5

Hallazgos Clave

Ventaja de Rendimiento General: HiRA supera a los métodos de referencia en todas las tareas
Ventaja Significativa en Tareas Complejas: Las mejoras son más notables en tareas complejas (GAIA, HLE)
Ventaja del Diseño Jerárquico: El diseño jerárquico logra mejor rendimiento en comparación con métodos que utilizan el mismo conjunto de herramientas

Experimentos de Ablación

Componente	GAIA-B	GAIA-F	WebWalker	HLE	SimpleQA
HiRA Completo	42.5	42.1	54.5	14.2	81.5
Sin Transferencia de Razonamiento	33.9	36.8	44.5	10.4	76.5
Sin Mecanismo de Memoria	37.8	31.6	52.0	11.8	79.0
Sin Agente de Búsqueda	15.7	31.6	4.0	12.4	9.5
Sin Agente de Código	33.9	28.9	51.5	12.8	76.5

Análisis de Eficiencia

Longitud de Razonamiento: La cadena de razonamiento de HiRA es más corta que la de WebThinker, indicando invocación de subtareas más eficiente
Número de Interacciones: HiRA tiene menos interacciones ambientales en comparación con métodos que integran herramientas directamente
Sobrecarga Computacional: La estructura jerárquica logra un uso de herramientas más específico

Trabajo Relacionado

Evolución de Generación Aumentada por Recuperación a Búsqueda Profunda

Evolución desde recuperación de un solo paso hasta canales iterativos con descomposición de consultas, refinamiento de documentos y búsqueda multironda. Sin embargo, los métodos RAG dependen de flujos de trabajo predefinidos, limitando la toma de decisiones adaptativa.

Métodos de Separación Planificación-Ejecución

Separación a Nivel de Acción: Asignación de ejecutores para tareas de un solo paso (Plan-Act, CoAct)
Separación a Nivel de Consulta: Descomposición de problemas a mayor granularidad (REMA, LLMCompiler)

Este artículo aborda las limitaciones de estos métodos mediante delegación dinámica de razonamiento y agentes especializados en el dominio en el marco jerárquico.

Conclusiones y Discusión

Conclusiones Principales

HiRA aborda efectivamente las limitaciones de los modelos monolíticos en tareas de búsqueda profunda mediante la separación de planificación estratégica y ejecución especializada. La arquitectura multiagente soporta razonamiento escalable y modular.

Limitaciones

Sobrecarga Computacional: La arquitectura multiagente puede aumentar los costos computacionales
Complejidad de Coordinación: Los mecanismos de coordinación entre agentes requieren diseño cuidadoso
Propagación de Errores: Los errores en la ejecución de subtareas pueden afectar el rendimiento general

Direcciones Futuras

Optimizar aún más los mecanismos de coordinación entre agentes
Explorar más ejecutores especializados en el dominio
Investigar estrategias de selección dinámica de agentes

Evaluación Profunda

Fortalezas

Diseño de Arquitectura Innovador: El diseño jerárquico desacoplado tiene valor teórico y práctico
Verificación Experimental Completa: Evaluación sistemática en múltiples puntos de referencia complejos
Fuerte Practicidad: El marco soporta integración de conexión y desconexión de agentes existentes
Análisis Profundo: Proporciona experimentos de ablación detallados y análisis de eficiencia

Deficiencias

Selección de Líneas Base: Algunos métodos de referencia pueden no ser el SOTA más reciente
Limitaciones de Evaluación: Principalmente utiliza LLM-as-Judge, que puede tener sesgos de evaluación
Verificación de Escalabilidad: Falta verificación en escala más grande o más dominios

Impacto

Contribución Académica: Proporciona un nuevo paradigma de diseño para sistemas de razonamiento multiagente
Valor Práctico: Puede aplicarse directamente a escenarios de recuperación de información compleja
Reproducibilidad: Proporciona detalles de implementación detallados y código

Escenarios Aplicables

Sistemas de preguntas y respuestas complejos que requieren razonamiento multisalto
Recuperación e integración de información multimodal
Tareas de investigación y análisis que requieren soporte de herramientas especializadas
Sistemas de gestión del conocimiento y apoyo a la toma de decisiones a nivel empresarial

Referencias

El artículo cita múltiples trabajos importantes, incluyendo trabajos fundamentales en RAG (Lewis et al. 2020), modelos de razonamiento más recientes (OpenAI o1, DeepSeek-R1) e investigación relacionada en sistemas multiagente. Estas citas reflejan la comprensión profunda de los autores sobre la trayectoria del desarrollo del campo.

Evaluación General: Este es un artículo de investigación de alta calidad que propone un marco de razonamiento jerárquico innovador, con diseño teórico y verificación experimental bastante sólidos. Este trabajo tiene valor importante para el desarrollo de sistemas de razonamiento multiagente, particularmente con amplias perspectivas de aplicación en el campo de la recuperación de información compleja.