2025-11-11T07:07:11.632178

HiRA: A Hierarchical Reasoning Framework for Decoupled Planning and Execution in Deep Search

Jin, Li, Dong et al.

Complex information needs in real-world search scenarios demand deep reasoning and knowledge synthesis across diverse sources, which traditional retrieval-augmented generation (RAG) pipelines struggle to address effectively. Current reasoning-based approaches suffer from a fundamental limitation: they use a single model to handle both high-level planning and detailed execution, leading to inefficient reasoning and limited scalability. In this paper, we introduce HiRA, a hierarchical framework that separates strategic planning from specialized execution. Our approach decomposes complex search tasks into focused subtasks, assigns each subtask to domain-specific agents equipped with external tools and reasoning capabilities, and coordinates the results through a structured integration mechanism. This separation prevents execution details from disrupting high-level reasoning while enabling the system to leverage specialized expertise for different types of information processing. Experiments on four complex, cross-modal deep search benchmarks demonstrate that HiRA significantly outperforms state-of-the-art RAG and agent-based systems. Our results show improvements in both answer quality and system efficiency, highlighting the effectiveness of decoupled planning and execution for multi-step information seeking tasks. Our code is available at https://github.com/ignorejjj/HiRA.

academic

HiRA: Ein hierarchisches Reasoning-Framework für entkoppelte Planung und Ausführung in Deep Search

Grundinformationen

Paper-ID: 2507.02652
Titel: HiRA: A Hierarchical Reasoning Framework for Decoupled Planning and Execution in Deep Search
Autoren: Jiajie Jin, Xiaoxi Li, Yuyao Zhang, Guanting Dong, Yutao Zhu, Zhao Yang, Hongjin Qian, Zhicheng Dou
Klassifizierung: cs.AI cs.CL cs.IR
Veröffentlichungszeitpunkt/Konferenz: 2025 (eingereicht bei AAAI 2026)
Paper-Link: https://arxiv.org/abs/2507.02652

Zusammenfassung

Komplexe Informationsbedürfnisse in realen Suchszenarien erfordern tiefgreifendes Reasoning über mehrere Quellen hinweg und Wissenssynthese, was traditionelle Retrieval-Augmented-Generation-(RAG-)Pipelines nicht effektiv bewältigen können. Aktuelle Reasoning-basierte Methoden weisen eine grundlegende Einschränkung auf: Sie verwenden ein einzelnes Modell zur gleichzeitigen Verarbeitung von hochrangiger Planung und detaillierter Ausführung, was zu ineffizientem Reasoning und begrenzter Skalierbarkeit führt. Dieser Artikel präsentiert HiRA, ein hierarchisches Framework, das strategische Planung von spezialisierter Ausführung trennt. Der Ansatz zerlegt komplexe Suchaufgaben in fokussierte Teilaufgaben, weist jede Teilaufgabe domänenspezialisierten Agenten zu, die mit externen Tools und Reasoning-Fähigkeiten ausgestattet sind, und koordiniert Ergebnisse durch strukturierte Integrationsmechanismen. Diese Trennung verhindert, dass Ausführungsdetails das hochrangige Reasoning beeinträchtigen, während das System spezialisiertes Fachwissen für verschiedene Arten der Informationsverarbeitung nutzen kann. Experimente auf vier komplexen multimodalen Deep-Search-Benchmarks zeigen, dass HiRA erheblich besser abschneidet als modernste RAG- und agentenbasierte Systeme.

Forschungshintergrund und Motivation

Problemdefinition

Traditionelle Suchmaschinen geben nur auf Basis von Schlüsselwortabgleichung sortierte Webseiten zurück, was manuelle Filterung und Informationssammlung durch Benutzer erfordert. Obwohl große Sprachmodelle (LLMs) mit Websuchfunktion direkte Antworten liefern können, nutzen sie typischerweise nur direkte Informationen aus Suchergebnissen und verfügen nicht über tiefgreifende Reasoning- und Synthesefähigkeiten.

Bedeutung des Problems

Mit der Informationsexplosion im Internet wird es zunehmend schwieriger, Antworten auf komplexe Anfragen zu finden. Dies treibt die schnelle Entwicklung von Deep-Search-Aufgaben voran, die komplexe Informationsbedürfnisse verstehen und genaue Antworten aus mehreren Quellen synthetisieren müssen.

Einschränkungen bestehender Methoden

Monolithische Architektur-Einschränkungen: Bestehende Methoden verlassen sich auf ein einzelnes Reasoning-Modell zur Verarbeitung aller Aufgaben, indem sie das Reasoning-Modell durch Prompting veranlassen, spezielle Token zu generieren, um Tool-Aktivierung auszulösen
Begrenzte Fähigkeitserweiterung: Das Hinzufügen neuer Tools oder Fähigkeiten erfordert sorgfältiges Umdesign von Prompts und das Trainieren des Modells zur Verwendung neuer Token-Muster
Reasoning-Interferenz: Externe Ausführungsergebnisse werden direkt in die Hauptreasoning-Kette eingespritzt, was Rauschen einführt und den Kernreasoning-Prozess beeinträchtigt

Forschungsmotivation

Die Autoren argumentieren, dass effektive Agent-Ausführung einer hierarchischen Struktur folgen sollte: einschließlich eines Meta-Agenten für hochrangige Planung, eines Koordinators für Task-Reasoning-Übertragung und spezialisierter Ausführungsagenten für spezifische Operationen.

Kernbeiträge

Hierarchisches Reasoning-Framework: Präsentation eines neuartigen hierarchischen Reasoning-Frameworks, das spezialisierte Tool-erweiterte Reasoning-Agenten als Module integriert und die Notwendigkeit von Tool-Orchestrierung oder starren vordefinierten Pipelines in bestehenden Methoden eliminiert
Verbesserte Fähigkeitsintegration: Domänenspezialistische Ausführer unterstützen Plug-and-Play-Integration vielfältiger Reasoning-Fähigkeiten und Tools. Bestehende Such-Agenten können direkt integriert werden ohne Prompt-Engineering oder Modell-Neutraining
Überlegene empirische Leistung: Experimente auf vier komplexen multimodalen Suchaufgaben zeigen signifikante Verbesserungen gegenüber traditionellen RAG- und aktuellen agentenbasierten Methoden

Methodische Details

Aufgabendefinition

Gegeben eine komplexe Frage q, die Informationssuche erfordert, und eine vordefinierte externe Umgebung E, besteht das Ziel darin, ein Framework zu entwerfen, das eine endgültige Lösung mit Antwort A und entsprechendem Reasoning-Prozess R generiert. Der Generierungsprozess wird dargestellt als:

$P(R, a | q, E) = \prod_{t=1}^{T_R} P(R_t | R_{<t}, q, E_{<t}) \cdot P(a | q, R)$

wobei $T_R$ die Token-Generierungsschritte des Reasoning-Prozesses darstellt und $E_{<t} = \{E(R_{<s})\}_{s<t}$ die Menge aller Umgebungsinteraktionsergebnisse vor Zeitschritt t darstellt.

Modellarchitektur

Das HiRA-Framework enthält drei Kernmodule:

1. Meta-Reasoning-Planer (Meta Reasoning Planner)

Verantwortlich für Planung, Reasoning und Antwortgenerierung
Zerlegt Aufgaben in hochrangige Teilaufgaben mit strategischen Anweisungen für Experten-Agenten
Verwendet spezielle Token für dynamische Teilaufgabengenerierung:

$P_M(s_k) = P_M(s_k | q, O_{<t}, \{E(s_j)\}_{j<k})$

2. Adaptiver Reasoning-Koordinator (Adaptive Reasoning Coordinator)

Enthält drei Kernfunktionen:

Reasoning-Übertragungsprozess: $A^*_k = \arg\max_{A \in E} P_C(O^{(k)}_{dele}, A | s_k, I_E, I_{select})$

Reasoning-Destillationsprozess: $P_C(O^{(k)}_{dist}, R^{(k)}_{dist} | s_k, O^{(k)}_{expert}) = P_C(O^{(k)}_{dist} | O^{(k)}_{expert}, \cdot) \cdot P_C(R^{(k)}_{dist} | O^{(k)}_{dist}, O^{(k)}_{expert}, \cdot)$

Dual-Channel-Speichermechanismus: Einschließlich Faktenspeicher $M_f$ und Ressourcenspeicher $M_r$

3. Domänenspezialistische Ausführer (Domain-Specialized Executors)

Entworfen basierend auf drei orthogonalen Agent-Fähigkeitsdimensionen:

Informationsbeschaffung: Verantwortlich für Abruf und Integration von Informationen aus dem Web
Multimodale Verständigung: Verarbeitet Verständnis und Fusion von Multimodal-Informationen
Rechnerisches Reasoning: Verarbeitet mathematische Berechnungen, Dateiverarbeitung und andere Rechneraufgaben

Technische Innovationen

Entkoppeltes Design: Trennung von hochrangiger strategischer Planung und niedrigstufigen Ausführungsdetails, um Ausführungsrauschen von der Planung abzuhalten
Dynamische Aufgabenzuweisung: Intelligente Auswahl des am besten geeigneten Experten-Agenten basierend auf Aufgabenkomplexität und erforderlichen Fähigkeiten
Bidirektionale Reasoning-Übertragung: Unterstützt Reasoning-Delegierung vom Meta-Agenten zu Experten-Agenten sowie umgekehrte Reasoning-Destillation
Modulare Erweiterbarkeit: Neue Experten-Agenten können nahtlos integriert werden ohne Neudesign des gesamten Systems

Experimentelle Einrichtung

Datensätze

GAIA: Umfasst mehrstufiges Reasoning und Retrieval, verwendet alle Validierungsbeispiele (Text, Multimodal, dateibasiert)
WebWalkerQA: Testet Web-Navigation und Extraktion auf Englisch und Chinesisch, 200 Fragen Stichprobe
SimpleQA: Bewertet faktisches und umfassendes Wissen, 200 Fragen Stichprobe
Humanity's Last Exam: Hochschwieriger Benchmark, erfordert komplexes Reasoning und externe Retrieval, 500 Validierungsbeispiele

Bewertungsmetriken

Genauigkeit berechnet mit Qwen2.5-72B-Instruct als LLM-Bewerter

Vergleichsmethoden

Direktes Reasoning: Verwendung nativer Reasoning-Fähigkeiten des Modells (Qwen3-32B, QwQ-32B, DeepSeek-R1-32B, GPT-4o usw.)
Einzelfähigkeits-Verbesserung: Reasoning mit einzelnen spezialisierten Tools (Search-o1, WebThinker, CodeAct usw.)
Multi-Fähigkeits-Reasoning: Integration mehrerer Tools oder strukturierter Workflows (Plan-and-Solve, ReAct)

Implementierungsdetails

Basismodell: QwQ-32B
Koordinator: Qwen2.5-Instruct
Temperatur: 0,7, top_p: 0,95, top_k: 20
Kontextfenster: 128k Token
Maximale Anzahl von Teilaufgaben: 10

Experimentelle Ergebnisse

Hauptergebnisse

Methodenkategorie	GAIA Durchschnitt	WebWalkerQA Durchschnitt	HLE Durchschnitt	SimpleQA
Direktes Reasoning (beste)	25,2	10,0	11,1	42,7
Einzelfähigkeits-Verbesserung (WebThinker)	36,2	52,5	13,0	78,0
Multi-Fähigkeits-Verbesserung (ReAct)	30,7	35,0	13,8	73,5
HiRA (dieses Paper)	42,5	54,5	14,2	81,5

Wichtigste Erkenntnisse

Gesamtleistungsvorteil: HiRA übertrifft Basismethoden bei allen Aufgaben
Deutlicher Vorteil bei komplexen Aufgaben: Verbesserungen sind bei komplexen Aufgaben (GAIA, HLE) signifikanter
Hierarchisches Design-Vorteil: Das hierarchische Design erreicht bessere Leistung im Vergleich zu Methoden mit identischem Tool-Set

Ablationsstudien

Komponente	GAIA-B	GAIA-F	WebWalker	HLE	SimpleQA
Vollständiges HiRA	42,5	42,1	54,5	14,2	81,5
Ohne Reasoning-Übertragung	33,9	36,8	44,5	10,4	76,5
Ohne Speichermechanismus	37,8	31,6	52,0	11,8	79,0
Ohne Such-Agent	15,7	31,6	4,0	12,4	9,5
Ohne Code-Agent	33,9	28,9	51,5	12,8	76,5

Effizienzanalyse

Reasoning-Länge: HiRAs Reasoning-Kette ist kürzer als WebThinker, was auf effizientere Teilaufgaben-Aufrufe hindeutet
Interaktionshäufigkeit: HiRA hat weniger Umgebungsinteraktionen im Vergleich zu Methoden mit direkter Tool-Integration
Rechnerischer Overhead: Die hierarchische Struktur ermöglicht gezielteren Tool-Einsatz

Fazit und Diskussion

Hauptschlussfolgerungen

HiRA adressiert effektiv die Einschränkungen monolithischer Modelle in Deep-Search-Aufgaben durch Trennung von strategischer Planung und spezialisierter Ausführung. Die Multi-Agent-Architektur unterstützt skalierbare, modulare Reasoning.

Einschränkungen

Rechnerischer Overhead: Multi-Agent-Architektur kann Rechenkosten erhöhen
Koordinationskomplexität: Koordinationsmechanismen zwischen Agenten erfordern sorgfältige Gestaltung
Fehlerausbreitung: Fehler bei der Teilaufgaben-Ausführung können die Gesamtleistung beeinträchtigen

Zukünftige Richtungen

Weitere Optimierung der Koordinationsmechanismen zwischen Agenten
Erkundung weiterer domänenspezialister Ausführer
Untersuchung dynamischer Agent-Auswahlstrategien

Tiefgreifende Bewertung

Stärken

Innovative Architektur-Gestaltung: Hierarchisches entkoppeltes Design hat theoretischen und praktischen Wert
Umfassende experimentelle Validierung: Systematische Bewertung auf mehreren komplexen Benchmarks
Hohe Praktikabilität: Framework unterstützt Plug-and-Play-Integration bestehender Agenten
Tiefgreifende Analyse: Detaillierte Ablationsstudien und Effizienzanalyse

Mängel

Baseline-Auswahl: Einige Baseline-Methoden könnten nicht die neuesten SOTA sein
Bewertungslimitationen: Hauptsächlich LLM-as-Judge, könnte Bewertungsverzerrungen aufweisen
Skalierungsvalidierung: Mangel an Validierung in größerem Maßstab oder mehr Domänen

Auswirkungen

Akademischer Beitrag: Bietet neues Designparadigma für Multi-Agent-Reasoning-Systeme
Praktischer Wert: Direkt anwendbar auf komplexe Informationsabruf-Szenarien
Reproduzierbarkeit: Bietet detaillierte Implementierungsdetails und Code

Anwendungsszenarien

Komplexe QA-Systeme, die mehrstufiges Reasoning erfordern
Multimodale Informationsabruf und -synthese
Forschungs- und Analyseaufgaben, die spezialisierte Tool-Unterstützung erfordern
Enterprise-Level-Wissensverwaltungs- und Entscheidungsunterstützungssysteme

Literaturverzeichnis

Das Paper zitiert mehrere wichtige Arbeiten, einschließlich grundlegender RAG-Arbeiten (Lewis et al. 2020), neuester Reasoning-Modelle (OpenAI o1, DeepSeek-R1) und verwandter Forschung zu Multi-Agent-Systemen. Diese Zitate spiegeln das tiefe Verständnis der Autoren für die Entwicklungsdynamik des Feldes wider.

Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier, das ein innovatives hierarchisches Reasoning-Framework präsentiert mit solider theoretischer Gestaltung und experimenteller Validierung. Diese Arbeit hat wichtigen Wert für die Entwicklung von Multi-Agent-Reasoning-Systemen, insbesondere mit breiten Anwendungsaussichten im Bereich komplexer Informationsabruf.