2025-11-11T07:07:11.632178

HiRA: A Hierarchical Reasoning Framework for Decoupled Planning and Execution in Deep Search

Jin, Li, Dong et al.
Complex information needs in real-world search scenarios demand deep reasoning and knowledge synthesis across diverse sources, which traditional retrieval-augmented generation (RAG) pipelines struggle to address effectively. Current reasoning-based approaches suffer from a fundamental limitation: they use a single model to handle both high-level planning and detailed execution, leading to inefficient reasoning and limited scalability. In this paper, we introduce HiRA, a hierarchical framework that separates strategic planning from specialized execution. Our approach decomposes complex search tasks into focused subtasks, assigns each subtask to domain-specific agents equipped with external tools and reasoning capabilities, and coordinates the results through a structured integration mechanism. This separation prevents execution details from disrupting high-level reasoning while enabling the system to leverage specialized expertise for different types of information processing. Experiments on four complex, cross-modal deep search benchmarks demonstrate that HiRA significantly outperforms state-of-the-art RAG and agent-based systems. Our results show improvements in both answer quality and system efficiency, highlighting the effectiveness of decoupled planning and execution for multi-step information seeking tasks. Our code is available at https://github.com/ignorejjj/HiRA.
academic

HiRA : Un Cadre de Raisonnement Hiérarchique pour la Planification et l'Exécution Découplées dans la Recherche Approfondie

Informations Fondamentales

  • ID de l'article : 2507.02652
  • Titre : HiRA: A Hierarchical Reasoning Framework for Decoupled Planning and Execution in Deep Search
  • Auteurs : Jiajie Jin, Xiaoxi Li, Yuyao Zhang, Guanting Dong, Yutao Zhu, Zhao Yang, Hongjin Qian, Zhicheng Dou
  • Classification : cs.AI cs.CL cs.IR
  • Date de publication/Conférence : 2025 (soumis à AAAI 2026)
  • Lien de l'article : https://arxiv.org/abs/2507.02652

Résumé

Les besoins informationnels complexes dans les scénarios de recherche du monde réel nécessitent un raisonnement approfondi et une synthèse des connaissances à travers plusieurs sources, ce que les pipelines traditionnels de génération augmentée par récupération (RAG) ne peuvent pas résoudre efficacement. Les méthodes actuelles basées sur le raisonnement présentent une limitation fondamentale : elles utilisent un modèle unique pour traiter simultanément la planification de haut niveau et l'exécution détaillée, ce qui entraîne une efficacité de raisonnement réduite et une scalabilité limitée. Cet article propose HiRA, un cadre hiérarchique qui sépare la planification stratégique de l'exécution spécialisée. La méthode décompose les tâches de recherche complexes en sous-tâches ciblées, assigne chaque sous-tâche à des agents spécialisés par domaine équipés d'outils externes et de capacités de raisonnement, et coordonne les résultats par le biais de mécanismes d'intégration structurés. Cette séparation empêche les détails d'exécution d'interférer avec le raisonnement de haut niveau, tout en permettant au système d'exploiter des expertises spécialisées pour différents types de traitement de l'information. Les expériences menées sur quatre repères complexes de recherche multimodale approfondie démontrent que HiRA surpasse significativement les systèmes RAG et basés sur les agents de pointe.

Contexte de Recherche et Motivation

Définition du Problème

Les moteurs de recherche traditionnels retournent uniquement des pages Web classées basées sur la correspondance de mots-clés, ce qui nécessite une sélection et une collecte manuelles d'informations par l'utilisateur. Bien que les grands modèles de langage (LLM) équipés de recherche Web puissent fournir des réponses directes, ils n'exploitent généralement que les informations directes des résultats de recherche, manquant de capacités de raisonnement approfondi et d'analyse synthétique.

Importance du Problème

Avec l'explosion informationnelle sur Internet, trouver des réponses à des requêtes complexes devient de plus en plus difficile, ce qui a stimulé le développement rapide des tâches de recherche approfondie nécessitant de comprendre les besoins informationnels complexes et de synthétiser des réponses précises à partir de plusieurs sources.

Limitations des Méthodes Existantes

  1. Limitations de l'architecture monolithique : Les méthodes existantes s'appuient sur un modèle de raisonnement unique pour traiter toutes les tâches, en utilisant des invites pour générer des jetons spéciaux afin de déclencher l'activation des outils
  2. Scalabilité limitée des capacités : L'ajout de nouveaux outils ou capacités nécessite une reconception minutieuse des invites, enseignant au modèle comment utiliser de nouveaux motifs de jetons
  3. Interférence du raisonnement : Les résultats d'exécution externes sont directement injectés dans la chaîne de raisonnement principale, introduisant du bruit et perturbant le processus de raisonnement fondamental

Motivation de la Recherche

Les auteurs estiment qu'une exécution efficace des agents devrait suivre une structure hiérarchique : incluant un méta-agent pour la planification de haut niveau, un coordinateur pour le transfert du raisonnement des tâches, et des agents d'exécution spécialisés pour les opérations spécifiques.

Contributions Fondamentales

  1. Architecture de raisonnement hiérarchique : Propose un cadre de raisonnement hiérarchique novateur qui intègre des agents de raisonnement augmentés par outils spécialisés en tant que modules, éliminant le besoin d'orchestration d'outils externes ou de pipelines prédéfinis rigides dans les méthodes existantes
  2. Intégration améliorée des capacités : Les exécuteurs spécialisés par domaine supportent l'intégration enfichable de capacités de raisonnement et d'outils diversifiés. Les agents de recherche existants peuvent être intégrés directement sans ingénierie d'invites ou réentraînement du modèle
  3. Performance empirique supérieure : Les expériences sur quatre tâches de recherche multimodale complexes montrent des améliorations significatives par rapport aux méthodes RAG traditionnelles et aux approches actuelles basées sur les agents

Détails de la Méthode

Définition de la Tâche

Étant donné un problème complexe q nécessitant une recherche d'informations et un environnement externe prédéfini E, l'objectif est de concevoir un cadre générant une solution finale contenant une réponse A et le processus de raisonnement correspondant R. Le processus de génération est exprimé comme :

P(R,aq,E)=t=1TRP(RtR<t,q,E<t)P(aq,R)P(R, a | q, E) = \prod_{t=1}^{T_R} P(R_t | R_{<t}, q, E_{<t}) \cdot P(a | q, R)

TRT_R représente les étapes de génération de jetons du processus de raisonnement, et E<t={E(R<s)}s<tE_{<t} = \{E(R_{<s})\}_{s<t} représente l'ensemble de tous les résultats d'interaction environnementale avant l'étape temporelle t.

Architecture du Modèle

Le cadre HiRA contient trois modules fondamentaux :

1. Planificateur de Raisonnement Méta (Meta Reasoning Planner)

  • Responsable de la planification, du raisonnement et de la génération de réponses
  • Décompose les tâches en sous-tâches de haut niveau contenant des instructions stratégiques pour les agents experts
  • Utilise des jetons spéciaux pour la génération dynamique de sous-tâches :

PM(sk)=PM(skq,O<t,{E(sj)}j<k)P_M(s_k) = P_M(s_k | q, O_{<t}, \{E(s_j)\}_{j<k})

2. Coordinateur de Raisonnement Adaptatif (Adaptive Reasoning Coordinator)

Contient trois fonctionnalités fondamentales :

Processus de transfert de raisonnement : Ak=argmaxAEPC(Odele(k),Ask,IE,Iselect)A^*_k = \arg\max_{A \in E} P_C(O^{(k)}_{dele}, A | s_k, I_E, I_{select})

Processus de distillation de raisonnement : PC(Odist(k),Rdist(k)sk,Oexpert(k))=PC(Odist(k)Oexpert(k),)PC(Rdist(k)Odist(k),Oexpert(k),)P_C(O^{(k)}_{dist}, R^{(k)}_{dist} | s_k, O^{(k)}_{expert}) = P_C(O^{(k)}_{dist} | O^{(k)}_{expert}, \cdot) \cdot P_C(R^{(k)}_{dist} | O^{(k)}_{dist}, O^{(k)}_{expert}, \cdot)

Mécanisme de mémoire à double canal : Incluant la mémoire factuelle MfM_f et la mémoire des ressources MrM_r

3. Exécuteurs Spécialisés par Domaine (Domain-Specialized Executors)

Conçus selon trois dimensions orthogonales de capacités des agents :

  • Acquisition d'informations : Responsable de l'acquisition et de l'intégration d'informations à partir du Web
  • Compréhension multimodale : Traite la compréhension et la fusion d'informations multimodales
  • Raisonnement computationnel : Gère les calculs mathématiques, le traitement de fichiers et autres tâches de raisonnement computationnel

Points d'Innovation Technique

  1. Conception découplée : Sépare la planification stratégique de haut niveau des détails d'exécution de bas niveau, empêchant le bruit d'exécution de perturber le processus de planification
  2. Allocation dynamique de tâches : Sélectionne intelligemment l'agent expert le plus approprié en fonction de la complexité de la tâche et des capacités requises
  3. Transfert de raisonnement bidirectionnel : Supporte la délégation du raisonnement du méta-agent aux agents experts, ainsi que la distillation de raisonnement inverse
  4. Extension modulaire : Les nouveaux agents experts peuvent être intégrés de manière transparente sans reconcevoir l'ensemble du système

Configuration Expérimentale

Ensembles de Données

  1. GAIA : Couvre le raisonnement multi-étapes et la récupération, utilisant tous les échantillons de validation (texte, multimodale, basés sur fichiers)
  2. WebWalkerQA : Teste la navigation Web et l'extraction en anglais et en chinois, avec 200 questions échantillonnées
  3. SimpleQA : Évalue les connaissances factuelles et générales, avec 200 questions échantillonnées
  4. Humanity's Last Exam : Repère de haute difficulté nécessitant un raisonnement complexe et une récupération externe, utilisant 500 échantillons de validation

Métriques d'Évaluation

Utilise Qwen2.5-72B-Instruct comme évaluateur LLM pour calculer la précision

Méthodes de Comparaison

  1. Raisonnement direct : Utilise les capacités de raisonnement natives du modèle (Qwen3-32B, QwQ-32B, DeepSeek-R1-32B, GPT-4o, etc.)
  2. Augmentation à capacité unique : Utilise le raisonnement augmenté par outil unique (Search-o1, WebThinker, CodeAct, etc.)
  3. Raisonnement multi-capacités : Intègre plusieurs outils ou flux de travail structurés (Plan-and-Solve, ReAct)

Détails d'Implémentation

  • Modèle de base : QwQ-32B
  • Coordinateur : Qwen2.5-Instruct
  • Température : 0,7, top_p : 0,95, top_k : 20
  • Fenêtre de contexte : 128k jetons
  • Nombre maximum de sous-tâches : 10

Résultats Expérimentaux

Résultats Principaux

Catégorie de MéthodeGAIA MoyenWebWalkerQA MoyenHLE MoyenSimpleQA
Raisonnement direct (Meilleur)25,210,011,142,7
Augmentation à capacité unique (WebThinker)36,252,513,078,0
Augmentation multi-capacités (ReAct)30,735,013,873,5
HiRA (Cet article)42,554,514,281,5

Résultats Clés

  1. Avantage de performance globale : HiRA surpasse les méthodes de base sur toutes les tâches
  2. Avantage marqué sur les tâches complexes : Les améliorations sont plus significatives sur les tâches complexes (GAIA, HLE)
  3. Avantages de la conception hiérarchique : Par rapport aux méthodes utilisant le même ensemble d'outils, la conception hiérarchique réalise une meilleure performance

Expériences d'Ablation

ComposantGAIA-BGAIA-FWebWalkerHLESimpleQA
HiRA Complet42,542,154,514,281,5
Sans transfert de raisonnement33,936,844,510,476,5
Sans mécanisme de mémoire37,831,652,011,879,0
Sans agent de recherche15,731,64,012,49,5
Sans agent de code33,928,951,512,876,5

Analyse d'Efficacité

  1. Longueur du raisonnement : La chaîne de raisonnement de HiRA est plus courte que celle de WebThinker, indiquant une invocation de sous-tâches plus efficace
  2. Nombre d'interactions : HiRA a moins d'interactions environnementales par rapport aux méthodes intégrant directement les outils
  3. Surcharge computationnelle : La structure hiérarchique réalise une utilisation d'outils plus ciblée

Travaux Connexes

Évolution de la Génération Augmentée par Récupération à la Recherche Approfondie

Évolution des étapes uniques de récupération vers des pipelines itératifs avec décomposition de requêtes, raffinement de documents et recherche multi-tours. Cependant, les méthodes RAG dépendent de flux de travail prédéfinis, limitant les décisions adaptatives.

Approches de Séparation Planification-Exécution

  • Séparation au niveau des actions : Assigne des exécuteurs pour des tâches à une seule étape (Plan-Act, CoAct)
  • Séparation au niveau des requêtes : Décompose les problèmes à une granularité plus élevée (REMA, LLMCompiler)

Cet article résout les limitations de ces méthodes par le transfert dynamique de raisonnement et les agents spécialisés par domaine dans le cadre hiérarchique.

Conclusion et Discussion

Conclusions Principales

HiRA résout efficacement les limitations des modèles monolithiques dans les tâches de recherche approfondie en séparant la planification stratégique et l'exécution spécialisée. L'architecture multi-agents supporte le raisonnement scalable et modulaire.

Limitations

  1. Surcharge computationnelle : L'architecture multi-agents peut augmenter les coûts computationnels
  2. Complexité de coordination : Les mécanismes de coordination entre agents nécessitent une conception minutieuse
  3. Propagation d'erreurs : Les erreurs d'exécution de sous-tâches peuvent affecter la performance globale

Directions Futures

  1. Optimiser davantage les mécanismes de coordination entre agents
  2. Explorer davantage d'exécuteurs spécialisés par domaine
  3. Étudier les stratégies de sélection dynamique d'agents

Évaluation Approfondie

Points Forts

  1. Conception d'architecture innovante : La conception découplée hiérarchique possède une valeur théorique et pratique
  2. Vérification expérimentale complète : Évaluation systématique sur plusieurs repères complexes
  3. Forte praticité : Le cadre supporte l'intégration enfichable des agents existants
  4. Analyse approfondie : Fournit des expériences d'ablation détaillées et une analyse d'efficacité

Insuffisances

  1. Sélection des méthodes de base : Certaines méthodes de base peuvent ne pas être les plus récentes SOTA
  2. Limitations d'évaluation : Utilise principalement LLM-as-Judge, pouvant présenter des biais d'évaluation
  3. Vérification de scalabilité : Manque de vérification à plus grande échelle ou dans plus de domaines

Impact

  1. Contribution académique : Fournit un nouveau paradigme de conception pour les systèmes de raisonnement multi-agents
  2. Valeur pratique : Peut être directement appliqué aux scénarios complexes de récupération d'informations
  3. Reproductibilité : Fournit des détails d'implémentation détaillés et du code

Scénarios Applicables

  1. Systèmes de questions-réponses complexes nécessitant un raisonnement multi-étapes
  2. Récupération et synthèse d'informations multimodales
  3. Tâches de recherche et d'analyse nécessitant un support d'outils spécialisés
  4. Systèmes de gestion des connaissances et d'aide à la décision au niveau entreprise

Références

L'article cite plusieurs travaux importants, incluant les travaux fondateurs du RAG (Lewis et al. 2020), les modèles de raisonnement les plus récents (OpenAI o1, DeepSeek-R1) et les recherches connexes sur les systèmes multi-agents. Ces citations reflètent la compréhension approfondie des auteurs de l'évolution du domaine.


Évaluation Globale : Ceci est un article de recherche de haute qualité proposant un cadre de raisonnement hiérarchique innovant, avec une conception théorique et une vérification expérimentale solides. Ce travail possède une valeur importante pour le développement des systèmes de raisonnement multi-agents, particulièrement avec des perspectives d'application prometteuses dans le domaine de la récupération d'informations complexes.