Complex information needs in real-world search scenarios demand deep reasoning and knowledge synthesis across diverse sources, which traditional retrieval-augmented generation (RAG) pipelines struggle to address effectively. Current reasoning-based approaches suffer from a fundamental limitation: they use a single model to handle both high-level planning and detailed execution, leading to inefficient reasoning and limited scalability. In this paper, we introduce HiRA, a hierarchical framework that separates strategic planning from specialized execution. Our approach decomposes complex search tasks into focused subtasks, assigns each subtask to domain-specific agents equipped with external tools and reasoning capabilities, and coordinates the results through a structured integration mechanism. This separation prevents execution details from disrupting high-level reasoning while enabling the system to leverage specialized expertise for different types of information processing. Experiments on four complex, cross-modal deep search benchmarks demonstrate that HiRA significantly outperforms state-of-the-art RAG and agent-based systems. Our results show improvements in both answer quality and system efficiency, highlighting the effectiveness of decoupled planning and execution for multi-step information seeking tasks. Our code is available at https://github.com/ignorejjj/HiRA.
- ID Articolo: 2507.02652
- Titolo: HiRA: A Hierarchical Reasoning Framework for Decoupled Planning and Execution in Deep Search
- Autori: Jiajie Jin, Xiaoxi Li, Yuyao Zhang, Guanting Dong, Yutao Zhu, Zhao Yang, Hongjin Qian, Zhicheng Dou
- Classificazione: cs.AI cs.CL cs.IR
- Data di Pubblicazione/Conferenza: 2025 (sottomesso ad AAAI 2026)
- Link dell'Articolo: https://arxiv.org/abs/2507.02652
Le esigenze informative complesse negli scenari di ricerca nel mondo reale richiedono ragionamento profondo e sintesi della conoscenza attraverso molteplici fonti, mentre le tradizionali pipeline di generazione aumentata da recupero (RAG) faticano ad affrontare efficacemente questi problemi. I metodi attuali basati sul ragionamento presentano una limitazione fondamentale: utilizzano un singolo modello per gestire contemporaneamente la pianificazione di alto livello e l'esecuzione dettagliata, determinando inefficienza nel ragionamento e scalabilità limitata. Questo articolo propone HiRA, un framework gerarchico che separa la pianificazione strategica dall'esecuzione specializzata. Il metodo scompone i compiti di ricerca complessi in sottocompiti focalizzati, assegna ogni sottocompito ad agenti specializzati per dominio equipaggiati con strumenti esterni e capacità di ragionamento, e coordina i risultati attraverso meccanismi di integrazione strutturati. Questa separazione impedisce ai dettagli di esecuzione di interferire con il ragionamento di alto livello, consentendo al contempo al sistema di sfruttare competenze specializzate per diversi tipi di elaborazione delle informazioni. Gli esperimenti su quattro benchmark complessi di ricerca profonda multimodale dimostrano che HiRA supera significativamente i sistemi RAG e basati su agenti all'avanguardia.
I motori di ricerca tradizionali restituiscono solo pagine web ordinate in base alla corrispondenza di parole chiave, richiedendo agli utenti di filtrare e raccogliere manualmente le informazioni. Sebbene i modelli linguistici di grandi dimensioni (LLM) equipaggiati con ricerca web possano fornire risposte dirette, generalmente sfruttano solo informazioni dirette dai risultati di ricerca, mancando di capacità di ragionamento profondo e analisi sintetica.
Con l'esplosione delle informazioni su Internet, trovare risposte a query complesse diventa sempre più difficile, il che ha spinto il rapido sviluppo di compiti di ricerca profonda che richiedono la comprensione di esigenze informative complesse e la sintesi di risposte accurate da molteplici fonti.
- Limitazioni dell'Architettura Monolitica: I metodi esistenti si affidano a un singolo modello di ragionamento per gestire tutti i compiti, attivando gli strumenti generando token speciali tramite prompt del modello di ragionamento
- Scalabilità Limitata delle Capacità: L'aggiunta di nuovi strumenti o capacità richiede un'attenta riprogettazione dei prompt, insegnando al modello come utilizzare nuovi pattern di token
- Interferenza nel Ragionamento: I risultati dell'esecuzione esterna vengono iniettati direttamente nella catena di ragionamento principale, introducendo rumore che interferisce con il processo di ragionamento centrale
Gli autori ritengono che un'esecuzione efficace degli agenti dovrebbe seguire una struttura gerarchica: includendo un meta-agente per la pianificazione di alto livello, un coordinatore per il trasferimento del ragionamento dei compiti, e agenti di esecuzione specializzati per operazioni specifiche.
- Architettura di Ragionamento Gerarchico: Propone un nuovo framework di ragionamento gerarchico che integra agenti di ragionamento potenziati da strumenti specializzati come moduli, eliminando la necessità di orchestrazione di strumenti esterni o pipeline rigidamente predefinite nei metodi esistenti
- Integrazione Migliorata delle Capacità: Gli esecutori specializzati per dominio supportano l'integrazione plug-and-play di diverse capacità di ragionamento e strumenti. Gli agenti di ricerca esistenti possono essere integrati direttamente senza ingegneria dei prompt o riaddestramento del modello
- Prestazioni Empiriche Superiori: Gli esperimenti su quattro compiti di ricerca multimodale complessi mostrano miglioramenti significativi rispetto ai metodi RAG tradizionali e agli attuali approcci basati su agenti
Data una domanda complessa q che richiede ricerca informativa e un ambiente esterno predefinito E, l'obiettivo è progettare un framework che generi una soluzione finale contenente la risposta A e il corrispondente processo di ragionamento R. Il processo di generazione è rappresentato come:
P(R, a | q, E) = \prod_{t=1}^{T_R} P(R_t | R_{<t}, q, E_{<t}}) \cdot P(a | q, R)
dove TR rappresenta i passi di generazione di token del processo di ragionamento, e E<t={E(R<s)}s<t rappresenta l'insieme di tutti i risultati delle interazioni ambientali prima del passo temporale t.
Il framework HiRA contiene tre moduli principali:
- Responsabile della pianificazione, del ragionamento e della generazione di risposte
- Scompone i compiti in sottocompiti di alto livello contenenti istruzioni strategiche per agenti esperti
- Utilizza token speciali per la generazione dinamica di sottocompiti:
PM(sk)=PM(sk∣q,O<t,{E(sj)}j<k)
Contiene tre funzioni principali:
Processo di Trasferimento del Ragionamento:
Ak∗=argmaxA∈EPC(Odele(k),A∣sk,IE,Iselect)
Processo di Distillazione del Ragionamento:
PC(Odist(k),Rdist(k)∣sk,Oexpert(k))=PC(Odist(k)∣Oexpert(k),⋅)⋅PC(Rdist(k)∣Odist(k),Oexpert(k),⋅)
Meccanismo di Memoria Bidirezionale: Include memoria fattuale Mf e memoria delle risorse Mr
Progettati sulla base di tre dimensioni ortogonali di capacità degli agenti:
- Acquisizione di Informazioni: Responsabile dell'acquisizione e dell'integrazione di informazioni dal web
- Comprensione Multimodale: Gestisce la comprensione e la fusione di informazioni multimodali
- Ragionamento Computazionale: Gestisce il ragionamento computazionale come calcoli matematici, elaborazione di file, ecc.
- Progettazione Disaccoppiata: Separa la pianificazione strategica di alto livello dai dettagli di esecuzione di basso livello, prevenendo il rumore di esecuzione di interferire con il processo di pianificazione
- Assegnazione Dinamica dei Compiti: Seleziona intelligentemente l'agente esperto più appropriato in base alla complessità del compito e alle capacità richieste
- Trasferimento Bidirezionale del Ragionamento: Supporta la delega del ragionamento dal meta-agente agli agenti esperti, nonché la distillazione inversa del ragionamento
- Estensione Modulare: I nuovi agenti esperti possono essere integrati senza soluzione di continuità senza riprogettare l'intero sistema
- GAIA: Copre ragionamento multi-step e recupero, utilizza tutti i campioni di validazione (testo, multimodale, basato su file)
- WebWalkerQA: Testa la navigazione web e l'estrazione in inglese e cinese, campionamento di 200 domande
- SimpleQA: Valuta la conoscenza fattuale e ampia, campionamento di 200 domande
- Humanity's Last Exam: Benchmark ad alta difficoltà che richiede ragionamento complesso e recupero esterno, utilizza 500 campioni di validazione
Utilizza Qwen2.5-72B-Instruct come valutatore LLM per calcolare l'accuratezza
- Ragionamento Diretto: Utilizza capacità di ragionamento native del modello (Qwen3-32B, QwQ-32B, DeepSeek-R1-32B, GPT-4o, ecc.)
- Potenziamento a Singola Capacità: Utilizza ragionamento potenziato da singolo strumento specializzato (Search-o1, WebThinker, CodeAct, ecc.)
- Ragionamento Multi-Capacità: Integra più strumenti o flussi di lavoro strutturati (Plan-and-Solve, ReAct)
- Modello di base: QwQ-32B
- Coordinatore: Qwen2.5-Instruct
- Temperatura: 0.7, top_p: 0.95, top_k: 20
- Finestra di contesto: 128k token
- Numero massimo di sottocompiti: 10
| Categoria di Metodo | Media GAIA | Media WebWalkerQA | Media HLE | SimpleQA |
|---|
| Ragionamento Diretto (Migliore) | 25.2 | 10.0 | 11.1 | 42.7 |
| Potenziamento Singola Capacità (WebThinker) | 36.2 | 52.5 | 13.0 | 78.0 |
| Potenziamento Multi-Capacità (ReAct) | 30.7 | 35.0 | 13.8 | 73.5 |
| HiRA (Questo Articolo) | 42.5 | 54.5 | 14.2 | 81.5 |
- Vantaggio di Prestazioni Complessivo: HiRA supera i metodi di base su tutti i compiti
- Vantaggio Evidente su Compiti Complessi: I miglioramenti sono più significativi su compiti complessi (GAIA, HLE)
- Vantaggio della Progettazione Gerarchica: La progettazione gerarchica raggiunge prestazioni migliori rispetto ai metodi che utilizzano lo stesso set di strumenti
| Componente | GAIA-B | GAIA-F | WebWalker | HLE | SimpleQA |
|---|
| HiRA Completo | 42.5 | 42.1 | 54.5 | 14.2 | 81.5 |
| Senza Trasferimento di Ragionamento | 33.9 | 36.8 | 44.5 | 10.4 | 76.5 |
| Senza Meccanismo di Memoria | 37.8 | 31.6 | 52.0 | 11.8 | 79.0 |
| Senza Agente di Ricerca | 15.7 | 31.6 | 4.0 | 12.4 | 9.5 |
| Senza Agente di Codice | 33.9 | 28.9 | 51.5 | 12.8 | 76.5 |
- Lunghezza del Ragionamento: La catena di ragionamento di HiRA è più breve rispetto a WebThinker, indicando un'invocazione di sottocompiti più efficiente
- Numero di Interazioni: HiRA ha meno interazioni ambientali rispetto ai metodi che integrano direttamente gli strumenti
- Sovraccarico Computazionale: La struttura gerarchica realizza un utilizzo degli strumenti più mirato
Evoluzione da recupero a singolo passo a pipeline iterative con scomposizione di query, raffinamento di documenti e ricerca multi-round. Tuttavia, i metodi RAG si affidano a flussi di lavoro predefiniti, limitando il processo decisionale adattivo.
- Separazione a Livello di Azione: Assegna esecutori per compiti a singolo passo (Plan-Act, CoAct)
- Separazione a Livello di Query: Scompone problemi a granularità più elevata (REMA, LLMCompiler)
Questo articolo affronta le limitazioni di questi metodi attraverso delega di ragionamento dinamica e agenti specializzati per dominio nel framework gerarchico.
HiRA affronta efficacemente le limitazioni dei modelli monolitici nei compiti di ricerca profonda separando la pianificazione strategica dall'esecuzione specializzata. L'architettura multi-agente supporta il ragionamento scalabile e modulare.
- Sovraccarico Computazionale: L'architettura multi-agente potrebbe aumentare i costi computazionali
- Complessità di Coordinamento: I meccanismi di coordinamento tra agenti richiedono un'attenta progettazione
- Propagazione di Errori: Gli errori nell'esecuzione dei sottocompiti possono influenzare le prestazioni complessive
- Ottimizzare ulteriormente i meccanismi di coordinamento tra agenti
- Esplorare più esecutori specializzati per dominio
- Ricercare strategie di selezione dinamica degli agenti
- Progettazione Architettonica Innovativa: La progettazione gerarchica disaccoppiata ha valore teorico e pratico
- Verifica Sperimentale Completa: Valutazione sistematica su molteplici benchmark complessi
- Forte Praticità: Il framework supporta l'integrazione plug-and-play di agenti esistenti
- Analisi Approfondita: Fornisce esperimenti di ablazione dettagliati e analisi dell'efficienza
- Scelta dei Baseline: Alcuni metodi di base potrebbero non essere i più recenti SOTA
- Limitazioni di Valutazione: Utilizza principalmente LLM-as-Judge, che potrebbe presentare distorsioni di valutazione
- Verifica di Scalabilità: Manca la verifica su scala più ampia o in più domini
- Contributo Accademico: Fornisce un nuovo paradigma di progettazione per sistemi di ragionamento multi-agente
- Valore Pratico: Può essere direttamente applicato a scenari di recupero informativo complesso
- Riproducibilità: Fornisce dettagli di implementazione dettagliati e codice
- Sistemi di domande e risposte complesse che richiedono ragionamento multi-step
- Recupero e sintesi di informazioni multimodali
- Compiti di ricerca e analisi che richiedono supporto di strumenti specializzati
- Sistemi di gestione della conoscenza e supporto decisionale a livello aziendale
L'articolo cita numerosi lavori importanti, inclusi lavori fondamentali su RAG (Lewis et al. 2020), modelli di ragionamento più recenti (OpenAI o1, DeepSeek-R1) e ricerche correlate su sistemi multi-agente. Queste citazioni riflettono la comprensione approfondita degli autori dell'evoluzione del campo.
Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità che propone un framework innovativo di ragionamento gerarchico, con progettazione teorica e verifica sperimentale abbastanza solide. Questo lavoro ha un valore importante per lo sviluppo di sistemi di ragionamento multi-agente, in particolare con ampie prospettive di applicazione nel campo del recupero informativo complesso.