Complex information needs in real-world search scenarios demand deep reasoning and knowledge synthesis across diverse sources, which traditional retrieval-augmented generation (RAG) pipelines struggle to address effectively. Current reasoning-based approaches suffer from a fundamental limitation: they use a single model to handle both high-level planning and detailed execution, leading to inefficient reasoning and limited scalability. In this paper, we introduce HiRA, a hierarchical framework that separates strategic planning from specialized execution. Our approach decomposes complex search tasks into focused subtasks, assigns each subtask to domain-specific agents equipped with external tools and reasoning capabilities, and coordinates the results through a structured integration mechanism. This separation prevents execution details from disrupting high-level reasoning while enabling the system to leverage specialized expertise for different types of information processing. Experiments on four complex, cross-modal deep search benchmarks demonstrate that HiRA significantly outperforms state-of-the-art RAG and agent-based systems. Our results show improvements in both answer quality and system efficiency, highlighting the effectiveness of decoupled planning and execution for multi-step information seeking tasks. Our code is available at https://github.com/ignorejjj/HiRA.
- Paper-ID: 2507.02652
- Titel: HiRA: A Hierarchical Reasoning Framework for Decoupled Planning and Execution in Deep Search
- Autoren: Jiajie Jin, Xiaoxi Li, Yuyao Zhang, Guanting Dong, Yutao Zhu, Zhao Yang, Hongjin Qian, Zhicheng Dou
- Klassifizierung: cs.AI cs.CL cs.IR
- Veröffentlichungszeitpunkt/Konferenz: 2025 (eingereicht bei AAAI 2026)
- Paper-Link: https://arxiv.org/abs/2507.02652
Komplexe Informationsbedürfnisse in realen Suchszenarien erfordern tiefgreifendes Reasoning über mehrere Quellen hinweg und Wissenssynthese, was traditionelle Retrieval-Augmented-Generation-(RAG-)Pipelines nicht effektiv bewältigen können. Aktuelle Reasoning-basierte Methoden weisen eine grundlegende Einschränkung auf: Sie verwenden ein einzelnes Modell zur gleichzeitigen Verarbeitung von hochrangiger Planung und detaillierter Ausführung, was zu ineffizientem Reasoning und begrenzter Skalierbarkeit führt. Dieser Artikel präsentiert HiRA, ein hierarchisches Framework, das strategische Planung von spezialisierter Ausführung trennt. Der Ansatz zerlegt komplexe Suchaufgaben in fokussierte Teilaufgaben, weist jede Teilaufgabe domänenspezialisierten Agenten zu, die mit externen Tools und Reasoning-Fähigkeiten ausgestattet sind, und koordiniert Ergebnisse durch strukturierte Integrationsmechanismen. Diese Trennung verhindert, dass Ausführungsdetails das hochrangige Reasoning beeinträchtigen, während das System spezialisiertes Fachwissen für verschiedene Arten der Informationsverarbeitung nutzen kann. Experimente auf vier komplexen multimodalen Deep-Search-Benchmarks zeigen, dass HiRA erheblich besser abschneidet als modernste RAG- und agentenbasierte Systeme.
Traditionelle Suchmaschinen geben nur auf Basis von Schlüsselwortabgleichung sortierte Webseiten zurück, was manuelle Filterung und Informationssammlung durch Benutzer erfordert. Obwohl große Sprachmodelle (LLMs) mit Websuchfunktion direkte Antworten liefern können, nutzen sie typischerweise nur direkte Informationen aus Suchergebnissen und verfügen nicht über tiefgreifende Reasoning- und Synthesefähigkeiten.
Mit der Informationsexplosion im Internet wird es zunehmend schwieriger, Antworten auf komplexe Anfragen zu finden. Dies treibt die schnelle Entwicklung von Deep-Search-Aufgaben voran, die komplexe Informationsbedürfnisse verstehen und genaue Antworten aus mehreren Quellen synthetisieren müssen.
- Monolithische Architektur-Einschränkungen: Bestehende Methoden verlassen sich auf ein einzelnes Reasoning-Modell zur Verarbeitung aller Aufgaben, indem sie das Reasoning-Modell durch Prompting veranlassen, spezielle Token zu generieren, um Tool-Aktivierung auszulösen
- Begrenzte Fähigkeitserweiterung: Das Hinzufügen neuer Tools oder Fähigkeiten erfordert sorgfältiges Umdesign von Prompts und das Trainieren des Modells zur Verwendung neuer Token-Muster
- Reasoning-Interferenz: Externe Ausführungsergebnisse werden direkt in die Hauptreasoning-Kette eingespritzt, was Rauschen einführt und den Kernreasoning-Prozess beeinträchtigt
Die Autoren argumentieren, dass effektive Agent-Ausführung einer hierarchischen Struktur folgen sollte: einschließlich eines Meta-Agenten für hochrangige Planung, eines Koordinators für Task-Reasoning-Übertragung und spezialisierter Ausführungsagenten für spezifische Operationen.
- Hierarchisches Reasoning-Framework: Präsentation eines neuartigen hierarchischen Reasoning-Frameworks, das spezialisierte Tool-erweiterte Reasoning-Agenten als Module integriert und die Notwendigkeit von Tool-Orchestrierung oder starren vordefinierten Pipelines in bestehenden Methoden eliminiert
- Verbesserte Fähigkeitsintegration: Domänenspezialistische Ausführer unterstützen Plug-and-Play-Integration vielfältiger Reasoning-Fähigkeiten und Tools. Bestehende Such-Agenten können direkt integriert werden ohne Prompt-Engineering oder Modell-Neutraining
- Überlegene empirische Leistung: Experimente auf vier komplexen multimodalen Suchaufgaben zeigen signifikante Verbesserungen gegenüber traditionellen RAG- und aktuellen agentenbasierten Methoden
Gegeben eine komplexe Frage q, die Informationssuche erfordert, und eine vordefinierte externe Umgebung E, besteht das Ziel darin, ein Framework zu entwerfen, das eine endgültige Lösung mit Antwort A und entsprechendem Reasoning-Prozess R generiert. Der Generierungsprozess wird dargestellt als:
P(R,a∣q,E)=∏t=1TRP(Rt∣R<t,q,E<t)⋅P(a∣q,R)
wobei TR die Token-Generierungsschritte des Reasoning-Prozesses darstellt und E<t={E(R<s)}s<t die Menge aller Umgebungsinteraktionsergebnisse vor Zeitschritt t darstellt.
Das HiRA-Framework enthält drei Kernmodule:
- Verantwortlich für Planung, Reasoning und Antwortgenerierung
- Zerlegt Aufgaben in hochrangige Teilaufgaben mit strategischen Anweisungen für Experten-Agenten
- Verwendet spezielle Token für dynamische Teilaufgabengenerierung:
PM(sk)=PM(sk∣q,O<t,{E(sj)}j<k)
Enthält drei Kernfunktionen:
Reasoning-Übertragungsprozess:
Ak∗=argmaxA∈EPC(Odele(k),A∣sk,IE,Iselect)
Reasoning-Destillationsprozess:
PC(Odist(k),Rdist(k)∣sk,Oexpert(k))=PC(Odist(k)∣Oexpert(k),⋅)⋅PC(Rdist(k)∣Odist(k),Oexpert(k),⋅)
Dual-Channel-Speichermechanismus: Einschließlich Faktenspeicher Mf und Ressourcenspeicher Mr
Entworfen basierend auf drei orthogonalen Agent-Fähigkeitsdimensionen:
- Informationsbeschaffung: Verantwortlich für Abruf und Integration von Informationen aus dem Web
- Multimodale Verständigung: Verarbeitet Verständnis und Fusion von Multimodal-Informationen
- Rechnerisches Reasoning: Verarbeitet mathematische Berechnungen, Dateiverarbeitung und andere Rechneraufgaben
- Entkoppeltes Design: Trennung von hochrangiger strategischer Planung und niedrigstufigen Ausführungsdetails, um Ausführungsrauschen von der Planung abzuhalten
- Dynamische Aufgabenzuweisung: Intelligente Auswahl des am besten geeigneten Experten-Agenten basierend auf Aufgabenkomplexität und erforderlichen Fähigkeiten
- Bidirektionale Reasoning-Übertragung: Unterstützt Reasoning-Delegierung vom Meta-Agenten zu Experten-Agenten sowie umgekehrte Reasoning-Destillation
- Modulare Erweiterbarkeit: Neue Experten-Agenten können nahtlos integriert werden ohne Neudesign des gesamten Systems
- GAIA: Umfasst mehrstufiges Reasoning und Retrieval, verwendet alle Validierungsbeispiele (Text, Multimodal, dateibasiert)
- WebWalkerQA: Testet Web-Navigation und Extraktion auf Englisch und Chinesisch, 200 Fragen Stichprobe
- SimpleQA: Bewertet faktisches und umfassendes Wissen, 200 Fragen Stichprobe
- Humanity's Last Exam: Hochschwieriger Benchmark, erfordert komplexes Reasoning und externe Retrieval, 500 Validierungsbeispiele
Genauigkeit berechnet mit Qwen2.5-72B-Instruct als LLM-Bewerter
- Direktes Reasoning: Verwendung nativer Reasoning-Fähigkeiten des Modells (Qwen3-32B, QwQ-32B, DeepSeek-R1-32B, GPT-4o usw.)
- Einzelfähigkeits-Verbesserung: Reasoning mit einzelnen spezialisierten Tools (Search-o1, WebThinker, CodeAct usw.)
- Multi-Fähigkeits-Reasoning: Integration mehrerer Tools oder strukturierter Workflows (Plan-and-Solve, ReAct)
- Basismodell: QwQ-32B
- Koordinator: Qwen2.5-Instruct
- Temperatur: 0,7, top_p: 0,95, top_k: 20
- Kontextfenster: 128k Token
- Maximale Anzahl von Teilaufgaben: 10
| Methodenkategorie | GAIA Durchschnitt | WebWalkerQA Durchschnitt | HLE Durchschnitt | SimpleQA |
|---|
| Direktes Reasoning (beste) | 25,2 | 10,0 | 11,1 | 42,7 |
| Einzelfähigkeits-Verbesserung (WebThinker) | 36,2 | 52,5 | 13,0 | 78,0 |
| Multi-Fähigkeits-Verbesserung (ReAct) | 30,7 | 35,0 | 13,8 | 73,5 |
| HiRA (dieses Paper) | 42,5 | 54,5 | 14,2 | 81,5 |
- Gesamtleistungsvorteil: HiRA übertrifft Basismethoden bei allen Aufgaben
- Deutlicher Vorteil bei komplexen Aufgaben: Verbesserungen sind bei komplexen Aufgaben (GAIA, HLE) signifikanter
- Hierarchisches Design-Vorteil: Das hierarchische Design erreicht bessere Leistung im Vergleich zu Methoden mit identischem Tool-Set
| Komponente | GAIA-B | GAIA-F | WebWalker | HLE | SimpleQA |
|---|
| Vollständiges HiRA | 42,5 | 42,1 | 54,5 | 14,2 | 81,5 |
| Ohne Reasoning-Übertragung | 33,9 | 36,8 | 44,5 | 10,4 | 76,5 |
| Ohne Speichermechanismus | 37,8 | 31,6 | 52,0 | 11,8 | 79,0 |
| Ohne Such-Agent | 15,7 | 31,6 | 4,0 | 12,4 | 9,5 |
| Ohne Code-Agent | 33,9 | 28,9 | 51,5 | 12,8 | 76,5 |
- Reasoning-Länge: HiRAs Reasoning-Kette ist kürzer als WebThinker, was auf effizientere Teilaufgaben-Aufrufe hindeutet
- Interaktionshäufigkeit: HiRA hat weniger Umgebungsinteraktionen im Vergleich zu Methoden mit direkter Tool-Integration
- Rechnerischer Overhead: Die hierarchische Struktur ermöglicht gezielteren Tool-Einsatz
Entwicklung von einschrittigem Retrieval zu iterativen Pipelines mit Query-Zerlegung, Dokument-Verfeinerung und Multi-Round-Suche. RAG-Methoden verlassen sich jedoch auf vordefinierte Workflows, was adaptive Entscheidungsfindung einschränkt.
- Aktionsebenen-Trennung: Zuweisung von Ausführern für einzelne Aufgaben (Plan-Act, CoAct)
- Query-Ebenen-Trennung: Problemzerlegung auf höherer Granularität (REMA, LLMCompiler)
Dieses Paper adressiert die Einschränkungen dieser Methoden durch dynamische Reasoning-Delegierung und domänenspezialistische Agenten im hierarchischen Framework.
HiRA adressiert effektiv die Einschränkungen monolithischer Modelle in Deep-Search-Aufgaben durch Trennung von strategischer Planung und spezialisierter Ausführung. Die Multi-Agent-Architektur unterstützt skalierbare, modulare Reasoning.
- Rechnerischer Overhead: Multi-Agent-Architektur kann Rechenkosten erhöhen
- Koordinationskomplexität: Koordinationsmechanismen zwischen Agenten erfordern sorgfältige Gestaltung
- Fehlerausbreitung: Fehler bei der Teilaufgaben-Ausführung können die Gesamtleistung beeinträchtigen
- Weitere Optimierung der Koordinationsmechanismen zwischen Agenten
- Erkundung weiterer domänenspezialister Ausführer
- Untersuchung dynamischer Agent-Auswahlstrategien
- Innovative Architektur-Gestaltung: Hierarchisches entkoppeltes Design hat theoretischen und praktischen Wert
- Umfassende experimentelle Validierung: Systematische Bewertung auf mehreren komplexen Benchmarks
- Hohe Praktikabilität: Framework unterstützt Plug-and-Play-Integration bestehender Agenten
- Tiefgreifende Analyse: Detaillierte Ablationsstudien und Effizienzanalyse
- Baseline-Auswahl: Einige Baseline-Methoden könnten nicht die neuesten SOTA sein
- Bewertungslimitationen: Hauptsächlich LLM-as-Judge, könnte Bewertungsverzerrungen aufweisen
- Skalierungsvalidierung: Mangel an Validierung in größerem Maßstab oder mehr Domänen
- Akademischer Beitrag: Bietet neues Designparadigma für Multi-Agent-Reasoning-Systeme
- Praktischer Wert: Direkt anwendbar auf komplexe Informationsabruf-Szenarien
- Reproduzierbarkeit: Bietet detaillierte Implementierungsdetails und Code
- Komplexe QA-Systeme, die mehrstufiges Reasoning erfordern
- Multimodale Informationsabruf und -synthese
- Forschungs- und Analyseaufgaben, die spezialisierte Tool-Unterstützung erfordern
- Enterprise-Level-Wissensverwaltungs- und Entscheidungsunterstützungssysteme
Das Paper zitiert mehrere wichtige Arbeiten, einschließlich grundlegender RAG-Arbeiten (Lewis et al. 2020), neuester Reasoning-Modelle (OpenAI o1, DeepSeek-R1) und verwandter Forschung zu Multi-Agent-Systemen. Diese Zitate spiegeln das tiefe Verständnis der Autoren für die Entwicklungsdynamik des Feldes wider.
Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier, das ein innovatives hierarchisches Reasoning-Framework präsentiert mit solider theoretischer Gestaltung und experimenteller Validierung. Diese Arbeit hat wichtigen Wert für die Entwicklung von Multi-Agent-Reasoning-Systemen, insbesondere mit breiten Anwendungsaussichten im Bereich komplexer Informationsabruf.