2025-11-11T07:07:11.632178

HiRA: A Hierarchical Reasoning Framework for Decoupled Planning and Execution in Deep Search

Jin, Li, Dong et al.

Complex information needs in real-world search scenarios demand deep reasoning and knowledge synthesis across diverse sources, which traditional retrieval-augmented generation (RAG) pipelines struggle to address effectively. Current reasoning-based approaches suffer from a fundamental limitation: they use a single model to handle both high-level planning and detailed execution, leading to inefficient reasoning and limited scalability. In this paper, we introduce HiRA, a hierarchical framework that separates strategic planning from specialized execution. Our approach decomposes complex search tasks into focused subtasks, assigns each subtask to domain-specific agents equipped with external tools and reasoning capabilities, and coordinates the results through a structured integration mechanism. This separation prevents execution details from disrupting high-level reasoning while enabling the system to leverage specialized expertise for different types of information processing. Experiments on four complex, cross-modal deep search benchmarks demonstrate that HiRA significantly outperforms state-of-the-art RAG and agent-based systems. Our results show improvements in both answer quality and system efficiency, highlighting the effectiveness of decoupled planning and execution for multi-step information seeking tasks. Our code is available at https://github.com/ignorejjj/HiRA.

academic

HiRA: Un Framework di Ragionamento Gerarchico per la Pianificazione e l'Esecuzione Disaccoppiate nella Ricerca Profonda

Informazioni Fondamentali

ID Articolo: 2507.02652
Titolo: HiRA: A Hierarchical Reasoning Framework for Decoupled Planning and Execution in Deep Search
Autori: Jiajie Jin, Xiaoxi Li, Yuyao Zhang, Guanting Dong, Yutao Zhu, Zhao Yang, Hongjin Qian, Zhicheng Dou
Classificazione: cs.AI cs.CL cs.IR
Data di Pubblicazione/Conferenza: 2025 (sottomesso ad AAAI 2026)
Link dell'Articolo: https://arxiv.org/abs/2507.02652

Riassunto

Le esigenze informative complesse negli scenari di ricerca nel mondo reale richiedono ragionamento profondo e sintesi della conoscenza attraverso molteplici fonti, mentre le tradizionali pipeline di generazione aumentata da recupero (RAG) faticano ad affrontare efficacemente questi problemi. I metodi attuali basati sul ragionamento presentano una limitazione fondamentale: utilizzano un singolo modello per gestire contemporaneamente la pianificazione di alto livello e l'esecuzione dettagliata, determinando inefficienza nel ragionamento e scalabilità limitata. Questo articolo propone HiRA, un framework gerarchico che separa la pianificazione strategica dall'esecuzione specializzata. Il metodo scompone i compiti di ricerca complessi in sottocompiti focalizzati, assegna ogni sottocompito ad agenti specializzati per dominio equipaggiati con strumenti esterni e capacità di ragionamento, e coordina i risultati attraverso meccanismi di integrazione strutturati. Questa separazione impedisce ai dettagli di esecuzione di interferire con il ragionamento di alto livello, consentendo al contempo al sistema di sfruttare competenze specializzate per diversi tipi di elaborazione delle informazioni. Gli esperimenti su quattro benchmark complessi di ricerca profonda multimodale dimostrano che HiRA supera significativamente i sistemi RAG e basati su agenti all'avanguardia.

Contesto di Ricerca e Motivazione

Definizione del Problema

I motori di ricerca tradizionali restituiscono solo pagine web ordinate in base alla corrispondenza di parole chiave, richiedendo agli utenti di filtrare e raccogliere manualmente le informazioni. Sebbene i modelli linguistici di grandi dimensioni (LLM) equipaggiati con ricerca web possano fornire risposte dirette, generalmente sfruttano solo informazioni dirette dai risultati di ricerca, mancando di capacità di ragionamento profondo e analisi sintetica.

Importanza del Problema

Con l'esplosione delle informazioni su Internet, trovare risposte a query complesse diventa sempre più difficile, il che ha spinto il rapido sviluppo di compiti di ricerca profonda che richiedono la comprensione di esigenze informative complesse e la sintesi di risposte accurate da molteplici fonti.

Limitazioni dei Metodi Esistenti

Limitazioni dell'Architettura Monolitica: I metodi esistenti si affidano a un singolo modello di ragionamento per gestire tutti i compiti, attivando gli strumenti generando token speciali tramite prompt del modello di ragionamento
Scalabilità Limitata delle Capacità: L'aggiunta di nuovi strumenti o capacità richiede un'attenta riprogettazione dei prompt, insegnando al modello come utilizzare nuovi pattern di token
Interferenza nel Ragionamento: I risultati dell'esecuzione esterna vengono iniettati direttamente nella catena di ragionamento principale, introducendo rumore che interferisce con il processo di ragionamento centrale

Motivazione della Ricerca

Gli autori ritengono che un'esecuzione efficace degli agenti dovrebbe seguire una struttura gerarchica: includendo un meta-agente per la pianificazione di alto livello, un coordinatore per il trasferimento del ragionamento dei compiti, e agenti di esecuzione specializzati per operazioni specifiche.

Contributi Principali

Architettura di Ragionamento Gerarchico: Propone un nuovo framework di ragionamento gerarchico che integra agenti di ragionamento potenziati da strumenti specializzati come moduli, eliminando la necessità di orchestrazione di strumenti esterni o pipeline rigidamente predefinite nei metodi esistenti
Integrazione Migliorata delle Capacità: Gli esecutori specializzati per dominio supportano l'integrazione plug-and-play di diverse capacità di ragionamento e strumenti. Gli agenti di ricerca esistenti possono essere integrati direttamente senza ingegneria dei prompt o riaddestramento del modello
Prestazioni Empiriche Superiori: Gli esperimenti su quattro compiti di ricerca multimodale complessi mostrano miglioramenti significativi rispetto ai metodi RAG tradizionali e agli attuali approcci basati su agenti

Spiegazione Dettagliata del Metodo

Definizione del Compito

Data una domanda complessa q che richiede ricerca informativa e un ambiente esterno predefinito E, l'obiettivo è progettare un framework che generi una soluzione finale contenente la risposta A e il corrispondente processo di ragionamento R. Il processo di generazione è rappresentato come:

$P(R, a | q, E) = \prod_{t=1}^{T_R} P(R_t | R_{<t}, q, E_{<t}}) \cdot P(a | q, R)$

dove $T_R$ rappresenta i passi di generazione di token del processo di ragionamento, e $E_{<t} = \{E(R_{<s})\}_{s<t}$ rappresenta l'insieme di tutti i risultati delle interazioni ambientali prima del passo temporale t.

Architettura del Modello

Il framework HiRA contiene tre moduli principali:

1. Pianificatore di Ragionamento Meta (Meta Reasoning Planner)

Responsabile della pianificazione, del ragionamento e della generazione di risposte
Scompone i compiti in sottocompiti di alto livello contenenti istruzioni strategiche per agenti esperti
Utilizza token speciali per la generazione dinamica di sottocompiti:

$P_M(s_k) = P_M(s_k | q, O_{<t}, \{E(s_j)\}_{j<k})$

2. Coordinatore di Ragionamento Adattivo (Adaptive Reasoning Coordinator)

Contiene tre funzioni principali:

Processo di Trasferimento del Ragionamento: $A^*_k = \arg\max_{A \in E} P_C(O^{(k)}_{dele}, A | s_k, I_E, I_{select})$

Processo di Distillazione del Ragionamento: $P_C(O^{(k)}_{dist}, R^{(k)}_{dist} | s_k, O^{(k)}_{expert}) = P_C(O^{(k)}_{dist} | O^{(k)}_{expert}, \cdot) \cdot P_C(R^{(k)}_{dist} | O^{(k)}_{dist}, O^{(k)}_{expert}, \cdot)$

Meccanismo di Memoria Bidirezionale: Include memoria fattuale $M_f$ e memoria delle risorse $M_r$

3. Esecutori Specializzati per Dominio (Domain-Specialized Executors)

Progettati sulla base di tre dimensioni ortogonali di capacità degli agenti:

Acquisizione di Informazioni: Responsabile dell'acquisizione e dell'integrazione di informazioni dal web
Comprensione Multimodale: Gestisce la comprensione e la fusione di informazioni multimodali
Ragionamento Computazionale: Gestisce il ragionamento computazionale come calcoli matematici, elaborazione di file, ecc.

Punti di Innovazione Tecnica

Progettazione Disaccoppiata: Separa la pianificazione strategica di alto livello dai dettagli di esecuzione di basso livello, prevenendo il rumore di esecuzione di interferire con il processo di pianificazione
Assegnazione Dinamica dei Compiti: Seleziona intelligentemente l'agente esperto più appropriato in base alla complessità del compito e alle capacità richieste
Trasferimento Bidirezionale del Ragionamento: Supporta la delega del ragionamento dal meta-agente agli agenti esperti, nonché la distillazione inversa del ragionamento
Estensione Modulare: I nuovi agenti esperti possono essere integrati senza soluzione di continuità senza riprogettare l'intero sistema

Configurazione Sperimentale

Dataset

GAIA: Copre ragionamento multi-step e recupero, utilizza tutti i campioni di validazione (testo, multimodale, basato su file)
WebWalkerQA: Testa la navigazione web e l'estrazione in inglese e cinese, campionamento di 200 domande
SimpleQA: Valuta la conoscenza fattuale e ampia, campionamento di 200 domande
Humanity's Last Exam: Benchmark ad alta difficoltà che richiede ragionamento complesso e recupero esterno, utilizza 500 campioni di validazione

Metriche di Valutazione

Utilizza Qwen2.5-72B-Instruct come valutatore LLM per calcolare l'accuratezza

Metodi di Confronto

Ragionamento Diretto: Utilizza capacità di ragionamento native del modello (Qwen3-32B, QwQ-32B, DeepSeek-R1-32B, GPT-4o, ecc.)
Potenziamento a Singola Capacità: Utilizza ragionamento potenziato da singolo strumento specializzato (Search-o1, WebThinker, CodeAct, ecc.)
Ragionamento Multi-Capacità: Integra più strumenti o flussi di lavoro strutturati (Plan-and-Solve, ReAct)

Dettagli di Implementazione

Modello di base: QwQ-32B
Coordinatore: Qwen2.5-Instruct
Temperatura: 0.7, top_p: 0.95, top_k: 20
Finestra di contesto: 128k token
Numero massimo di sottocompiti: 10

Risultati Sperimentali

Risultati Principali

Categoria di Metodo	Media GAIA	Media WebWalkerQA	Media HLE	SimpleQA
Ragionamento Diretto (Migliore)	25.2	10.0	11.1	42.7
Potenziamento Singola Capacità (WebThinker)	36.2	52.5	13.0	78.0
Potenziamento Multi-Capacità (ReAct)	30.7	35.0	13.8	73.5
HiRA (Questo Articolo)	42.5	54.5	14.2	81.5

Risultati Chiave

Vantaggio di Prestazioni Complessivo: HiRA supera i metodi di base su tutti i compiti
Vantaggio Evidente su Compiti Complessi: I miglioramenti sono più significativi su compiti complessi (GAIA, HLE)
Vantaggio della Progettazione Gerarchica: La progettazione gerarchica raggiunge prestazioni migliori rispetto ai metodi che utilizzano lo stesso set di strumenti

Esperimenti di Ablazione

Componente	GAIA-B	GAIA-F	WebWalker	HLE	SimpleQA
HiRA Completo	42.5	42.1	54.5	14.2	81.5
Senza Trasferimento di Ragionamento	33.9	36.8	44.5	10.4	76.5
Senza Meccanismo di Memoria	37.8	31.6	52.0	11.8	79.0
Senza Agente di Ricerca	15.7	31.6	4.0	12.4	9.5
Senza Agente di Codice	33.9	28.9	51.5	12.8	76.5

Analisi dell'Efficienza

Lunghezza del Ragionamento: La catena di ragionamento di HiRA è più breve rispetto a WebThinker, indicando un'invocazione di sottocompiti più efficiente
Numero di Interazioni: HiRA ha meno interazioni ambientali rispetto ai metodi che integrano direttamente gli strumenti
Sovraccarico Computazionale: La struttura gerarchica realizza un utilizzo degli strumenti più mirato

Lavori Correlati

Evoluzione dalla Generazione Aumentata da Recupero alla Ricerca Profonda

Evoluzione da recupero a singolo passo a pipeline iterative con scomposizione di query, raffinamento di documenti e ricerca multi-round. Tuttavia, i metodi RAG si affidano a flussi di lavoro predefiniti, limitando il processo decisionale adattivo.

Metodi di Separazione Pianificazione-Esecuzione

Separazione a Livello di Azione: Assegna esecutori per compiti a singolo passo (Plan-Act, CoAct)
Separazione a Livello di Query: Scompone problemi a granularità più elevata (REMA, LLMCompiler)

Questo articolo affronta le limitazioni di questi metodi attraverso delega di ragionamento dinamica e agenti specializzati per dominio nel framework gerarchico.

Conclusioni e Discussione

Conclusioni Principali

HiRA affronta efficacemente le limitazioni dei modelli monolitici nei compiti di ricerca profonda separando la pianificazione strategica dall'esecuzione specializzata. L'architettura multi-agente supporta il ragionamento scalabile e modulare.

Limitazioni

Sovraccarico Computazionale: L'architettura multi-agente potrebbe aumentare i costi computazionali
Complessità di Coordinamento: I meccanismi di coordinamento tra agenti richiedono un'attenta progettazione
Propagazione di Errori: Gli errori nell'esecuzione dei sottocompiti possono influenzare le prestazioni complessive

Direzioni Future

Ottimizzare ulteriormente i meccanismi di coordinamento tra agenti
Esplorare più esecutori specializzati per dominio
Ricercare strategie di selezione dinamica degli agenti

Valutazione Approfondita

Punti di Forza

Progettazione Architettonica Innovativa: La progettazione gerarchica disaccoppiata ha valore teorico e pratico
Verifica Sperimentale Completa: Valutazione sistematica su molteplici benchmark complessi
Forte Praticità: Il framework supporta l'integrazione plug-and-play di agenti esistenti
Analisi Approfondita: Fornisce esperimenti di ablazione dettagliati e analisi dell'efficienza

Carenze

Scelta dei Baseline: Alcuni metodi di base potrebbero non essere i più recenti SOTA
Limitazioni di Valutazione: Utilizza principalmente LLM-as-Judge, che potrebbe presentare distorsioni di valutazione
Verifica di Scalabilità: Manca la verifica su scala più ampia o in più domini

Impatto

Contributo Accademico: Fornisce un nuovo paradigma di progettazione per sistemi di ragionamento multi-agente
Valore Pratico: Può essere direttamente applicato a scenari di recupero informativo complesso
Riproducibilità: Fornisce dettagli di implementazione dettagliati e codice

Scenari Applicabili

Sistemi di domande e risposte complesse che richiedono ragionamento multi-step
Recupero e sintesi di informazioni multimodali
Compiti di ricerca e analisi che richiedono supporto di strumenti specializzati
Sistemi di gestione della conoscenza e supporto decisionale a livello aziendale

Bibliografia

L'articolo cita numerosi lavori importanti, inclusi lavori fondamentali su RAG (Lewis et al. 2020), modelli di ragionamento più recenti (OpenAI o1, DeepSeek-R1) e ricerche correlate su sistemi multi-agente. Queste citazioni riflettono la comprensione approfondita degli autori dell'evoluzione del campo.

Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità che propone un framework innovativo di ragionamento gerarchico, con progettazione teorica e verifica sperimentale abbastanza solide. Questo lavoro ha un valore importante per lo sviluppo di sistemi di ragionamento multi-agente, in particolare con ampie prospettive di applicazione nel campo del recupero informativo complesso.