2025-11-11T07:07:11.632178

HiRA: A Hierarchical Reasoning Framework for Decoupled Planning and Execution in Deep Search

Jin, Li, Dong et al.

Complex information needs in real-world search scenarios demand deep reasoning and knowledge synthesis across diverse sources, which traditional retrieval-augmented generation (RAG) pipelines struggle to address effectively. Current reasoning-based approaches suffer from a fundamental limitation: they use a single model to handle both high-level planning and detailed execution, leading to inefficient reasoning and limited scalability. In this paper, we introduce HiRA, a hierarchical framework that separates strategic planning from specialized execution. Our approach decomposes complex search tasks into focused subtasks, assigns each subtask to domain-specific agents equipped with external tools and reasoning capabilities, and coordinates the results through a structured integration mechanism. This separation prevents execution details from disrupting high-level reasoning while enabling the system to leverage specialized expertise for different types of information processing. Experiments on four complex, cross-modal deep search benchmarks demonstrate that HiRA significantly outperforms state-of-the-art RAG and agent-based systems. Our results show improvements in both answer quality and system efficiency, highlighting the effectiveness of decoupled planning and execution for multi-step information seeking tasks. Our code is available at https://github.com/ignorejjj/HiRA.

academic

HiRA: Иерархическая структура рассуждений для разделённого планирования и выполнения в глубоком поиске

Основная информация

ID статьи: 2507.02652
Название: HiRA: A Hierarchical Reasoning Framework for Decoupled Planning and Execution in Deep Search
Авторы: Jiajie Jin, Xiaoxi Li, Yuyao Zhang, Guanting Dong, Yutao Zhu, Zhao Yang, Hongjin Qian, Zhicheng Dou
Классификация: cs.AI cs.CL cs.IR
Время публикации/конференция: 2025 (подано на AAAI 2026)
Ссылка на статью: https://arxiv.org/abs/2507.02652

Аннотация

Сложные информационные потребности в реальных сценариях поиска требуют глубокого рассуждения и синтеза знаний из нескольких источников, с которыми традиционные конвейеры поиска с увеличением контекста (RAG) справляются неэффективно. Современные методы, основанные на рассуждениях, имеют фундаментальное ограничение: они используют единую модель для одновременного выполнения высокоуровневого планирования и детального исполнения, что приводит к неэффективности рассуждений и ограниченной масштабируемости. В данной работе предлагается HiRA — иерархическая структура, которая разделяет стратегическое планирование и специализированное исполнение. Метод разлагает сложные задачи поиска на сфокусированные подзадачи, назначает каждую подзадачу специализированным агентам, оснащённым внешними инструментами и возможностями рассуждения, и координирует результаты через структурированные механизмы интеграции. Такое разделение предотвращает помехи деталей исполнения высокоуровневому рассуждению, одновременно позволяя системе использовать специализированные знания для различных типов обработки информации. Эксперименты на четырёх сложных кроссмодальных бенчмарках глубокого поиска демонстрируют значительное превосходство HiRA над современными системами RAG и на основе агентов.

Исследовательский контекст и мотивация

Определение проблемы

Традиционные поисковые системы возвращают ранжированные веб-страницы на основе сопоставления ключевых слов, требуя от пользователя ручной фильтрации и сбора информации. Хотя большие языковые модели (LLM) с доступом в интернет могут предоставлять прямые ответы, они обычно используют только прямую информацию из результатов поиска, не обладая глубокими возможностями рассуждения и синтеза.

Значимость проблемы

С взрывным ростом информации в интернете поиск ответов на сложные запросы становится всё более сложным, что стимулирует быстрое развитие задач глубокого поиска, требующих понимания сложных информационных потребностей и синтеза точных ответов из нескольких источников.

Ограничения существующих методов

Ограничения монолитной архитектуры: Существующие методы полагаются на единую модель рассуждений для обработки всех задач, используя специальные токены для активации инструментов
Ограниченная масштабируемость возможностей: Добавление новых инструментов или возможностей требует тщательного переделывания подсказок и обучения модели новым паттернам токенов
Помехи рассуждению: Результаты внешнего исполнения непосредственно вводятся в основную цепь рассуждений, внося шум и нарушая основной процесс рассуждения

Исследовательская мотивация

Авторы полагают, что эффективное исполнение агентом должно следовать иерархической структуре: включая мета-агента для высокоуровневого планирования, координатора для передачи задач рассуждения и специализированных агентов исполнения для конкретных операций.

Основные вклады

Иерархическая архитектура рассуждений: Предложена новая иерархическая структура рассуждений, которая интегрирует специализированных агентов рассуждений, усиленных инструментами, как модули, устраняя необходимость в оркестровке внешних инструментов или жёстко определённых конвейеров в существующих методах
Улучшенная интеграция возможностей: Специализированные исполнители поддерживают универсальную интеграцию разнообразных возможностей рассуждения и инструментов. Существующие агенты поиска могут быть напрямую интегрированы без инженерии подсказок или переобучения модели
Превосходная эмпирическая производительность: Эксперименты на четырёх сложных кроссмодальных задачах поиска показывают значительные улучшения по сравнению с традиционными методами RAG и современными подходами на основе агентов

Подробное описание метода

Определение задачи

Дана сложная задача q, требующая информационного поиска, и предопределённая внешняя среда E. Цель — разработать структуру, которая генерирует окончательное решение, содержащее ответ A и соответствующий процесс рассуждения R. Процесс генерации представляется как:

$P(R, a | q, E) = \prod_{t=1}^{T_R} P(R_t | R_{<t}, q, E_{<t}) \cdot P(a | q, R)$

где $T_R$ обозначает этапы генерации токенов процесса рассуждения, $E_{<t} = \{E(R_{<s})\}_{s<t}$ обозначает набор результатов всех взаимодействий со средой до временного шага t.

Архитектура модели

Структура HiRA содержит три основных модуля:

1. Мета-планировщик рассуждений (Meta Reasoning Planner)

Отвечает за планирование, рассуждение и генерацию ответов
Разлагает задачи на высокоуровневые подзадачи со стратегическими инструкциями для экспертных агентов
Использует специальные токены для динамической генерации подзадач:

$P_M(s_k) = P_M(s_k | q, O_{<t}, \{E(s_j)\}_{j<k})$

2. Адаптивный координатор рассуждений (Adaptive Reasoning Coordinator)

Содержит три основные функции:

Процесс передачи рассуждения: $A^*_k = \arg\max_{A \in E} P_C(O^{(k)}_{dele}, A | s_k, I_E, I_{select})$

Процесс дистилляции рассуждения: $P_C(O^{(k)}_{dist}, R^{(k)}_{dist} | s_k, O^{(k)}_{expert}) = P_C(O^{(k)}_{dist} | O^{(k)}_{expert}, \cdot) \cdot P_C(R^{(k)}_{dist} | O^{(k)}_{dist}, O^{(k)}_{expert}, \cdot)$

Двухканальный механизм памяти: Включает память фактов $M_f$ и память ресурсов $M_r$

3. Специализированные исполнители (Domain-Specialized Executors)

Разработаны на основе трёх ортогональных измерений возможностей агентов:

Получение информации: Отвечает за получение и интеграцию информации из интернета
Кроссмодальное понимание: Обрабатывает понимание и слияние кроссмодальной информации
Вычислительное рассуждение: Обрабатывает математические вычисления, обработку файлов и другие вычислительные задачи рассуждения

Технические инновации

Разделённый дизайн: Разделение высокоуровневого стратегического планирования и низкоуровневых деталей исполнения предотвращает помехи шума исполнения процессу планирования
Динамическое распределение задач: Интеллектуальный выбор наиболее подходящего экспертного агента на основе сложности задачи и требуемых возможностей
Двусторонняя передача рассуждения: Поддерживает делегирование рассуждения от мета-агента к экспертным агентам и обратную дистилляцию рассуждения
Модульное расширение: Новые экспертные агенты могут быть беспрепятственно интегрированы без переделывания всей системы

Экспериментальная установка

Наборы данных

GAIA: Охватывает многошаговое рассуждение и поиск, использует все образцы валидации (текст, кроссмодальность, на основе файлов)
WebWalkerQA: Тестирует навигацию в интернете и извлечение на английском и китайском языках, выборка из 200 вопросов
SimpleQA: Оценивает фактические и широкие знания, выборка из 200 вопросов
Humanity's Last Exam: Высокосложный бенчмарк, требующий сложного рассуждения и внешнего поиска, использует 500 образцов валидации

Метрики оценки

Точность рассчитывается с использованием Qwen2.5-72B-Instruct в качестве оценивающего LLM

Методы сравнения

Прямое рассуждение: Использование встроенных возможностей рассуждения модели (Qwen3-32B, QwQ-32B, DeepSeek-R1-32B, GPT-4o и др.)
Односпособное усиление: Использование единственного специализированного инструмента для усиления рассуждения (Search-o1, WebThinker, CodeAct и др.)
Многоспособное рассуждение: Интеграция нескольких инструментов или структурированных рабочих процессов (Plan-and-Solve, ReAct)

Детали реализации

Базовая модель: QwQ-32B
Координатор: Qwen2.5-Instruct
Температура: 0.7, top_p: 0.95, top_k: 20
Окно контекста: 128k токенов
Максимальное количество подзадач: 10

Результаты экспериментов

Основные результаты

Категория метода	GAIA среднее	WebWalkerQA среднее	HLE среднее	SimpleQA
Прямое рассуждение (лучшее)	25.2	10.0	11.1	42.7
Односпособное усиление (WebThinker)	36.2	52.5	13.0	78.0
Многоспособное усиление (ReAct)	30.7	35.0	13.8	73.5
HiRA (данная работа)	42.5	54.5	14.2	81.5

Ключевые находки

Общее преимущество производительности: HiRA превосходит все методы-базовые линии на всех задачах
Явное преимущество на сложных задачах: Улучшения более значительны на сложных задачах (GAIA, HLE)
Преимущества иерархического дизайна: Иерархический дизайн достигает лучшей производительности по сравнению с методами, использующими тот же набор инструментов

Абляционные эксперименты

Компонент	GAIA-B	GAIA-F	WebWalker	HLE	SimpleQA
Полный HiRA	42.5	42.1	54.5	14.2	81.5
Без передачи рассуждения	33.9	36.8	44.5	10.4	76.5
Без механизма памяти	37.8	31.6	52.0	11.8	79.0
Без агента поиска	15.7	31.6	4.0	12.4	9.5
Без агента кода	33.9	28.9	51.5	12.8	76.5

Анализ эффективности

Длина рассуждения: Цепь рассуждений HiRA короче, чем у WebThinker, что указывает на более эффективное вызывание подзадач
Количество взаимодействий: HiRA имеет меньше взаимодействий со средой по сравнению с методами прямой интеграции инструментов
Вычислительные издержки: Иерархическая структура достигает более целевого использования инструментов

Связанные работы

Эволюция от поиска с увеличением контекста к глубокому поиску

От одношагового поиска к итеративным конвейерам с разложением запросов, уточнением документов и многораундовым поиском. Однако методы RAG полагаются на предопределённые рабочие процессы, ограничивая адаптивное принятие решений.

Методы разделения планирования и исполнения

Разделение на уровне действий: Назначение исполнителей для одношаговых задач (Plan-Act, CoAct)
Разделение на уровне запросов: Разложение проблем на более высокой гранулярности (REMA, LLMCompiler)

Данная работа решает ограничения этих методов через динамическую передачу рассуждения и специализированных агентов в иерархической структуре.

Заключение и обсуждение

Основные выводы

HiRA эффективно решает ограничения монолитных моделей в задачах глубокого поиска путём разделения стратегического планирования и специализированного исполнения. Архитектура на основе нескольких агентов поддерживает масштабируемое и модульное рассуждение.

Ограничения

Вычислительные издержки: Архитектура на основе нескольких агентов может увеличить вычислительные затраты
Сложность координации: Механизмы координации между агентами требуют тщательного проектирования
Распространение ошибок: Ошибки в исполнении подзадач могут влиять на общую производительность

Будущие направления

Дальнейшая оптимизация механизмов координации между агентами
Исследование большего количества специализированных исполнителей для конкретных областей
Изучение стратегий динамического выбора агентов

Глубокая оценка

Преимущества

Инновационный дизайн архитектуры: Иерархический разделённый дизайн имеет теоретическую и практическую ценность
Комплексная экспериментальная верификация: Систематическая оценка на нескольких сложных бенчмарках
Высокая практичность: Структура поддерживает беспрепятственную интеграцию существующих агентов
Глубокий анализ: Предоставляет подробные абляционные эксперименты и анализ эффективности

Недостатки

Выбор методов сравнения: Некоторые методы-базовые линии могут быть не самыми современными SOTA
Ограничения оценки: Главным образом использует LLM-as-Judge, что может привести к предвзятости оценки
Верификация масштабируемости: Отсутствует верификация в более крупных масштабах или большем количестве областей

Влияние

Академический вклад: Предоставляет новую парадигму проектирования для систем рассуждения на основе нескольких агентов
Практическая ценность: Может быть напрямую применена к сценариям сложного информационного поиска
Воспроизводимость: Предоставляет подробные детали реализации и код

Применимые сценарии

Системы сложного вопросно-ответного взаимодействия, требующие многошагового рассуждения
Поиск и синтез кроссмодальной информации
Задачи исследования и анализа, требующие специализированной поддержки инструментами
Системы управления знаниями и поддержки принятия решений на уровне предприятия

Библиография

Статья ссылается на множество важных работ, включая основополагающие работы по RAG (Lewis et al. 2020), современные модели рассуждения (OpenAI o1, DeepSeek-R1) и связанные исследования многоагентных систем. Эти ссылки отражают глубокое понимание авторами траектории развития области.

Общая оценка: Это высококачественная исследовательская статья, которая предлагает инновационную иерархическую структуру рассуждений с достаточно твёрдым теоретическим дизайном и экспериментальной верификацией. Данная работа имеет важное значение для развития систем рассуждения на основе нескольких агентов, особенно с широкими перспективами применения в области сложного информационного поиска.