2025-11-11T07:07:11.632178

HiRA: A Hierarchical Reasoning Framework for Decoupled Planning and Execution in Deep Search

Jin, Li, Dong et al.
Complex information needs in real-world search scenarios demand deep reasoning and knowledge synthesis across diverse sources, which traditional retrieval-augmented generation (RAG) pipelines struggle to address effectively. Current reasoning-based approaches suffer from a fundamental limitation: they use a single model to handle both high-level planning and detailed execution, leading to inefficient reasoning and limited scalability. In this paper, we introduce HiRA, a hierarchical framework that separates strategic planning from specialized execution. Our approach decomposes complex search tasks into focused subtasks, assigns each subtask to domain-specific agents equipped with external tools and reasoning capabilities, and coordinates the results through a structured integration mechanism. This separation prevents execution details from disrupting high-level reasoning while enabling the system to leverage specialized expertise for different types of information processing. Experiments on four complex, cross-modal deep search benchmarks demonstrate that HiRA significantly outperforms state-of-the-art RAG and agent-based systems. Our results show improvements in both answer quality and system efficiency, highlighting the effectiveness of decoupled planning and execution for multi-step information seeking tasks. Our code is available at https://github.com/ignorejjj/HiRA.
academic

HiRA: Ein hierarchisches Reasoning-Framework für entkoppelte Planung und Ausführung in Deep Search

Grundinformationen

  • Paper-ID: 2507.02652
  • Titel: HiRA: A Hierarchical Reasoning Framework for Decoupled Planning and Execution in Deep Search
  • Autoren: Jiajie Jin, Xiaoxi Li, Yuyao Zhang, Guanting Dong, Yutao Zhu, Zhao Yang, Hongjin Qian, Zhicheng Dou
  • Klassifizierung: cs.AI cs.CL cs.IR
  • Veröffentlichungszeitpunkt/Konferenz: 2025 (eingereicht bei AAAI 2026)
  • Paper-Link: https://arxiv.org/abs/2507.02652

Zusammenfassung

Komplexe Informationsbedürfnisse in realen Suchszenarien erfordern tiefgreifendes Reasoning über mehrere Quellen hinweg und Wissenssynthese, was traditionelle Retrieval-Augmented-Generation-(RAG-)Pipelines nicht effektiv bewältigen können. Aktuelle Reasoning-basierte Methoden weisen eine grundlegende Einschränkung auf: Sie verwenden ein einzelnes Modell zur gleichzeitigen Verarbeitung von hochrangiger Planung und detaillierter Ausführung, was zu ineffizientem Reasoning und begrenzter Skalierbarkeit führt. Dieser Artikel präsentiert HiRA, ein hierarchisches Framework, das strategische Planung von spezialisierter Ausführung trennt. Der Ansatz zerlegt komplexe Suchaufgaben in fokussierte Teilaufgaben, weist jede Teilaufgabe domänenspezialisierten Agenten zu, die mit externen Tools und Reasoning-Fähigkeiten ausgestattet sind, und koordiniert Ergebnisse durch strukturierte Integrationsmechanismen. Diese Trennung verhindert, dass Ausführungsdetails das hochrangige Reasoning beeinträchtigen, während das System spezialisiertes Fachwissen für verschiedene Arten der Informationsverarbeitung nutzen kann. Experimente auf vier komplexen multimodalen Deep-Search-Benchmarks zeigen, dass HiRA erheblich besser abschneidet als modernste RAG- und agentenbasierte Systeme.

Forschungshintergrund und Motivation

Problemdefinition

Traditionelle Suchmaschinen geben nur auf Basis von Schlüsselwortabgleichung sortierte Webseiten zurück, was manuelle Filterung und Informationssammlung durch Benutzer erfordert. Obwohl große Sprachmodelle (LLMs) mit Websuchfunktion direkte Antworten liefern können, nutzen sie typischerweise nur direkte Informationen aus Suchergebnissen und verfügen nicht über tiefgreifende Reasoning- und Synthesefähigkeiten.

Bedeutung des Problems

Mit der Informationsexplosion im Internet wird es zunehmend schwieriger, Antworten auf komplexe Anfragen zu finden. Dies treibt die schnelle Entwicklung von Deep-Search-Aufgaben voran, die komplexe Informationsbedürfnisse verstehen und genaue Antworten aus mehreren Quellen synthetisieren müssen.

Einschränkungen bestehender Methoden

  1. Monolithische Architektur-Einschränkungen: Bestehende Methoden verlassen sich auf ein einzelnes Reasoning-Modell zur Verarbeitung aller Aufgaben, indem sie das Reasoning-Modell durch Prompting veranlassen, spezielle Token zu generieren, um Tool-Aktivierung auszulösen
  2. Begrenzte Fähigkeitserweiterung: Das Hinzufügen neuer Tools oder Fähigkeiten erfordert sorgfältiges Umdesign von Prompts und das Trainieren des Modells zur Verwendung neuer Token-Muster
  3. Reasoning-Interferenz: Externe Ausführungsergebnisse werden direkt in die Hauptreasoning-Kette eingespritzt, was Rauschen einführt und den Kernreasoning-Prozess beeinträchtigt

Forschungsmotivation

Die Autoren argumentieren, dass effektive Agent-Ausführung einer hierarchischen Struktur folgen sollte: einschließlich eines Meta-Agenten für hochrangige Planung, eines Koordinators für Task-Reasoning-Übertragung und spezialisierter Ausführungsagenten für spezifische Operationen.

Kernbeiträge

  1. Hierarchisches Reasoning-Framework: Präsentation eines neuartigen hierarchischen Reasoning-Frameworks, das spezialisierte Tool-erweiterte Reasoning-Agenten als Module integriert und die Notwendigkeit von Tool-Orchestrierung oder starren vordefinierten Pipelines in bestehenden Methoden eliminiert
  2. Verbesserte Fähigkeitsintegration: Domänenspezialistische Ausführer unterstützen Plug-and-Play-Integration vielfältiger Reasoning-Fähigkeiten und Tools. Bestehende Such-Agenten können direkt integriert werden ohne Prompt-Engineering oder Modell-Neutraining
  3. Überlegene empirische Leistung: Experimente auf vier komplexen multimodalen Suchaufgaben zeigen signifikante Verbesserungen gegenüber traditionellen RAG- und aktuellen agentenbasierten Methoden

Methodische Details

Aufgabendefinition

Gegeben eine komplexe Frage q, die Informationssuche erfordert, und eine vordefinierte externe Umgebung E, besteht das Ziel darin, ein Framework zu entwerfen, das eine endgültige Lösung mit Antwort A und entsprechendem Reasoning-Prozess R generiert. Der Generierungsprozess wird dargestellt als:

P(R,aq,E)=t=1TRP(RtR<t,q,E<t)P(aq,R)P(R, a | q, E) = \prod_{t=1}^{T_R} P(R_t | R_{<t}, q, E_{<t}) \cdot P(a | q, R)

wobei TRT_R die Token-Generierungsschritte des Reasoning-Prozesses darstellt und E<t={E(R<s)}s<tE_{<t} = \{E(R_{<s})\}_{s<t} die Menge aller Umgebungsinteraktionsergebnisse vor Zeitschritt t darstellt.

Modellarchitektur

Das HiRA-Framework enthält drei Kernmodule:

1. Meta-Reasoning-Planer (Meta Reasoning Planner)

  • Verantwortlich für Planung, Reasoning und Antwortgenerierung
  • Zerlegt Aufgaben in hochrangige Teilaufgaben mit strategischen Anweisungen für Experten-Agenten
  • Verwendet spezielle Token für dynamische Teilaufgabengenerierung:

PM(sk)=PM(skq,O<t,{E(sj)}j<k)P_M(s_k) = P_M(s_k | q, O_{<t}, \{E(s_j)\}_{j<k})

2. Adaptiver Reasoning-Koordinator (Adaptive Reasoning Coordinator)

Enthält drei Kernfunktionen:

Reasoning-Übertragungsprozess: Ak=argmaxAEPC(Odele(k),Ask,IE,Iselect)A^*_k = \arg\max_{A \in E} P_C(O^{(k)}_{dele}, A | s_k, I_E, I_{select})

Reasoning-Destillationsprozess: PC(Odist(k),Rdist(k)sk,Oexpert(k))=PC(Odist(k)Oexpert(k),)PC(Rdist(k)Odist(k),Oexpert(k),)P_C(O^{(k)}_{dist}, R^{(k)}_{dist} | s_k, O^{(k)}_{expert}) = P_C(O^{(k)}_{dist} | O^{(k)}_{expert}, \cdot) \cdot P_C(R^{(k)}_{dist} | O^{(k)}_{dist}, O^{(k)}_{expert}, \cdot)

Dual-Channel-Speichermechanismus: Einschließlich Faktenspeicher MfM_f und Ressourcenspeicher MrM_r

3. Domänenspezialistische Ausführer (Domain-Specialized Executors)

Entworfen basierend auf drei orthogonalen Agent-Fähigkeitsdimensionen:

  • Informationsbeschaffung: Verantwortlich für Abruf und Integration von Informationen aus dem Web
  • Multimodale Verständigung: Verarbeitet Verständnis und Fusion von Multimodal-Informationen
  • Rechnerisches Reasoning: Verarbeitet mathematische Berechnungen, Dateiverarbeitung und andere Rechneraufgaben

Technische Innovationen

  1. Entkoppeltes Design: Trennung von hochrangiger strategischer Planung und niedrigstufigen Ausführungsdetails, um Ausführungsrauschen von der Planung abzuhalten
  2. Dynamische Aufgabenzuweisung: Intelligente Auswahl des am besten geeigneten Experten-Agenten basierend auf Aufgabenkomplexität und erforderlichen Fähigkeiten
  3. Bidirektionale Reasoning-Übertragung: Unterstützt Reasoning-Delegierung vom Meta-Agenten zu Experten-Agenten sowie umgekehrte Reasoning-Destillation
  4. Modulare Erweiterbarkeit: Neue Experten-Agenten können nahtlos integriert werden ohne Neudesign des gesamten Systems

Experimentelle Einrichtung

Datensätze

  1. GAIA: Umfasst mehrstufiges Reasoning und Retrieval, verwendet alle Validierungsbeispiele (Text, Multimodal, dateibasiert)
  2. WebWalkerQA: Testet Web-Navigation und Extraktion auf Englisch und Chinesisch, 200 Fragen Stichprobe
  3. SimpleQA: Bewertet faktisches und umfassendes Wissen, 200 Fragen Stichprobe
  4. Humanity's Last Exam: Hochschwieriger Benchmark, erfordert komplexes Reasoning und externe Retrieval, 500 Validierungsbeispiele

Bewertungsmetriken

Genauigkeit berechnet mit Qwen2.5-72B-Instruct als LLM-Bewerter

Vergleichsmethoden

  1. Direktes Reasoning: Verwendung nativer Reasoning-Fähigkeiten des Modells (Qwen3-32B, QwQ-32B, DeepSeek-R1-32B, GPT-4o usw.)
  2. Einzelfähigkeits-Verbesserung: Reasoning mit einzelnen spezialisierten Tools (Search-o1, WebThinker, CodeAct usw.)
  3. Multi-Fähigkeits-Reasoning: Integration mehrerer Tools oder strukturierter Workflows (Plan-and-Solve, ReAct)

Implementierungsdetails

  • Basismodell: QwQ-32B
  • Koordinator: Qwen2.5-Instruct
  • Temperatur: 0,7, top_p: 0,95, top_k: 20
  • Kontextfenster: 128k Token
  • Maximale Anzahl von Teilaufgaben: 10

Experimentelle Ergebnisse

Hauptergebnisse

MethodenkategorieGAIA DurchschnittWebWalkerQA DurchschnittHLE DurchschnittSimpleQA
Direktes Reasoning (beste)25,210,011,142,7
Einzelfähigkeits-Verbesserung (WebThinker)36,252,513,078,0
Multi-Fähigkeits-Verbesserung (ReAct)30,735,013,873,5
HiRA (dieses Paper)42,554,514,281,5

Wichtigste Erkenntnisse

  1. Gesamtleistungsvorteil: HiRA übertrifft Basismethoden bei allen Aufgaben
  2. Deutlicher Vorteil bei komplexen Aufgaben: Verbesserungen sind bei komplexen Aufgaben (GAIA, HLE) signifikanter
  3. Hierarchisches Design-Vorteil: Das hierarchische Design erreicht bessere Leistung im Vergleich zu Methoden mit identischem Tool-Set

Ablationsstudien

KomponenteGAIA-BGAIA-FWebWalkerHLESimpleQA
Vollständiges HiRA42,542,154,514,281,5
Ohne Reasoning-Übertragung33,936,844,510,476,5
Ohne Speichermechanismus37,831,652,011,879,0
Ohne Such-Agent15,731,64,012,49,5
Ohne Code-Agent33,928,951,512,876,5

Effizienzanalyse

  1. Reasoning-Länge: HiRAs Reasoning-Kette ist kürzer als WebThinker, was auf effizientere Teilaufgaben-Aufrufe hindeutet
  2. Interaktionshäufigkeit: HiRA hat weniger Umgebungsinteraktionen im Vergleich zu Methoden mit direkter Tool-Integration
  3. Rechnerischer Overhead: Die hierarchische Struktur ermöglicht gezielteren Tool-Einsatz

Verwandte Arbeiten

Entwicklung von einschrittigem Retrieval zu iterativen Pipelines mit Query-Zerlegung, Dokument-Verfeinerung und Multi-Round-Suche. RAG-Methoden verlassen sich jedoch auf vordefinierte Workflows, was adaptive Entscheidungsfindung einschränkt.

Planungs-Ausführungs-Trennungsmethoden

  • Aktionsebenen-Trennung: Zuweisung von Ausführern für einzelne Aufgaben (Plan-Act, CoAct)
  • Query-Ebenen-Trennung: Problemzerlegung auf höherer Granularität (REMA, LLMCompiler)

Dieses Paper adressiert die Einschränkungen dieser Methoden durch dynamische Reasoning-Delegierung und domänenspezialistische Agenten im hierarchischen Framework.

Fazit und Diskussion

Hauptschlussfolgerungen

HiRA adressiert effektiv die Einschränkungen monolithischer Modelle in Deep-Search-Aufgaben durch Trennung von strategischer Planung und spezialisierter Ausführung. Die Multi-Agent-Architektur unterstützt skalierbare, modulare Reasoning.

Einschränkungen

  1. Rechnerischer Overhead: Multi-Agent-Architektur kann Rechenkosten erhöhen
  2. Koordinationskomplexität: Koordinationsmechanismen zwischen Agenten erfordern sorgfältige Gestaltung
  3. Fehlerausbreitung: Fehler bei der Teilaufgaben-Ausführung können die Gesamtleistung beeinträchtigen

Zukünftige Richtungen

  1. Weitere Optimierung der Koordinationsmechanismen zwischen Agenten
  2. Erkundung weiterer domänenspezialister Ausführer
  3. Untersuchung dynamischer Agent-Auswahlstrategien

Tiefgreifende Bewertung

Stärken

  1. Innovative Architektur-Gestaltung: Hierarchisches entkoppeltes Design hat theoretischen und praktischen Wert
  2. Umfassende experimentelle Validierung: Systematische Bewertung auf mehreren komplexen Benchmarks
  3. Hohe Praktikabilität: Framework unterstützt Plug-and-Play-Integration bestehender Agenten
  4. Tiefgreifende Analyse: Detaillierte Ablationsstudien und Effizienzanalyse

Mängel

  1. Baseline-Auswahl: Einige Baseline-Methoden könnten nicht die neuesten SOTA sein
  2. Bewertungslimitationen: Hauptsächlich LLM-as-Judge, könnte Bewertungsverzerrungen aufweisen
  3. Skalierungsvalidierung: Mangel an Validierung in größerem Maßstab oder mehr Domänen

Auswirkungen

  1. Akademischer Beitrag: Bietet neues Designparadigma für Multi-Agent-Reasoning-Systeme
  2. Praktischer Wert: Direkt anwendbar auf komplexe Informationsabruf-Szenarien
  3. Reproduzierbarkeit: Bietet detaillierte Implementierungsdetails und Code

Anwendungsszenarien

  1. Komplexe QA-Systeme, die mehrstufiges Reasoning erfordern
  2. Multimodale Informationsabruf und -synthese
  3. Forschungs- und Analyseaufgaben, die spezialisierte Tool-Unterstützung erfordern
  4. Enterprise-Level-Wissensverwaltungs- und Entscheidungsunterstützungssysteme

Literaturverzeichnis

Das Paper zitiert mehrere wichtige Arbeiten, einschließlich grundlegender RAG-Arbeiten (Lewis et al. 2020), neuester Reasoning-Modelle (OpenAI o1, DeepSeek-R1) und verwandter Forschung zu Multi-Agent-Systemen. Diese Zitate spiegeln das tiefe Verständnis der Autoren für die Entwicklungsdynamik des Feldes wider.


Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier, das ein innovatives hierarchisches Reasoning-Framework präsentiert mit solider theoretischer Gestaltung und experimenteller Validierung. Diese Arbeit hat wichtigen Wert für die Entwicklung von Multi-Agent-Reasoning-Systemen, insbesondere mit breiten Anwendungsaussichten im Bereich komplexer Informationsabruf.