2025-11-11T07:07:11.632178

HiRA: A Hierarchical Reasoning Framework for Decoupled Planning and Execution in Deep Search

Jin, Li, Dong et al.
Complex information needs in real-world search scenarios demand deep reasoning and knowledge synthesis across diverse sources, which traditional retrieval-augmented generation (RAG) pipelines struggle to address effectively. Current reasoning-based approaches suffer from a fundamental limitation: they use a single model to handle both high-level planning and detailed execution, leading to inefficient reasoning and limited scalability. In this paper, we introduce HiRA, a hierarchical framework that separates strategic planning from specialized execution. Our approach decomposes complex search tasks into focused subtasks, assigns each subtask to domain-specific agents equipped with external tools and reasoning capabilities, and coordinates the results through a structured integration mechanism. This separation prevents execution details from disrupting high-level reasoning while enabling the system to leverage specialized expertise for different types of information processing. Experiments on four complex, cross-modal deep search benchmarks demonstrate that HiRA significantly outperforms state-of-the-art RAG and agent-based systems. Our results show improvements in both answer quality and system efficiency, highlighting the effectiveness of decoupled planning and execution for multi-step information seeking tasks. Our code is available at https://github.com/ignorejjj/HiRA.
academic

HiRA: إطار عمل للاستدلال الهرمي للتخطيط والتنفيذ المنفصلين في البحث العميق

المعلومات الأساسية

  • معرّف الورقة: 2507.02652
  • العنوان: HiRA: A Hierarchical Reasoning Framework for Decoupled Planning and Execution in Deep Search
  • المؤلفون: Jiajie Jin, Xiaoxi Li, Yuyao Zhang, Guanting Dong, Yutao Zhu, Zhao Yang, Hongjin Qian, Zhicheng Dou
  • التصنيف: cs.AI cs.CL cs.IR
  • تاريخ النشر/المؤتمر: 2025 (مقدمة إلى AAAI 2026)
  • رابط الورقة: https://arxiv.org/abs/2507.02652

الملخص

تتطلب الاحتياجات المعلوماتية المعقدة في سيناريوهات البحث الواقعية استدلالاً عميقاً وتوليفة معرفة عبر مصادر متعددة، وهو ما تواجه فيه خطوط أنابيب الإنشاء المعزز بالاسترجاع (RAG) التقليدية صعوبات كبيرة. تعاني الطرق الحالية القائمة على الاستدلال من حد أساسي: فهي تستخدم نموذجاً واحداً للتعامل مع التخطيط عالي المستوى والتنفيذ التفصيلي في نفس الوقت، مما يؤدي إلى كفاءة استدلال منخفضة وقابلية توسع محدودة. تقترح هذه الورقة HiRA، وهو إطار عمل هرمي يفصل بين التخطيط الاستراتيجي والتنفيذ المتخصص. تقوم الطريقة بتحليل مهام البحث المعقدة إلى مهام فرعية مركزة، وتسند كل مهمة فرعية إلى وكلاء متخصصين في المجال مزودين بأدوات خارجية وقدرات استدلالية، وتنسق النتائج من خلال آليات تكامل منظمة. يمنع هذا الفصل تفاصيل التنفيذ من التدخل في الاستدلال عالي المستوى، بينما يمكّن النظام من الاستفادة من المعرفة المتخصصة للمجالات المختلفة لمعالجة المعلومات. تُظهر التجارب على أربع معايير بحث عميق متعددة الأنماط معقدة أن HiRA يتفوق بشكل كبير على أحدث أنظمة RAG والأنظمة القائمة على الوكلاء.

خلفية البحث والدافع

تعريف المشكلة

تعيد محركات البحث التقليدية صفحات ويب مرتبة بناءً على مطابقة الكلمات الرئيسية فقط، مما يتطلب من المستخدمين فحص وجمع المعلومات يدويًا. على الرغم من أن نماذج اللغة الكبيرة (LLMs) المزودة بالبحث على الويب يمكنها تقديم إجابات مباشرة، إلا أنها عادة ما تستفيد فقط من المعلومات المباشرة في نتائج البحث، وتفتقر إلى القدرة على الاستدلال العميق والتحليل الشامل.

أهمية المشكلة

مع انفجار المعلومات على الإنترنت، أصبح العثور على إجابات للاستفسارات المعقدة أكثر صعوبة، مما دفع التطور السريع لمهام البحث العميق التي تتطلب فهم الاحتياجات المعلوماتية المعقدة وتوليف إجابات دقيقة من مصادر متعددة.

قيود الطرق الموجودة

  1. قيود البنية الموحدة: تعتمد الطرق الموجودة على نموذج استدلال واحد للتعامل مع جميع المهام، من خلال توجيه نموذج الاستدلال لإنشاء رموز خاصة لتفعيل الأدوات
  2. قابلية توسع القدرات محدودة: إضافة أدوات أو قدرات جديدة تتطلب إعادة تصميم دقيقة للمطالبات، وتعليم النموذج كيفية استخدام أنماط الرموز الجديدة
  3. تداخل الاستدلال: يتم حقن نتائج التنفيذ الخارجي مباشرة في سلسلة الاستدلال الرئيسية، مما يدخل الضوضاء ويعطل عملية الاستدلال الأساسية

دافع البحث

يعتقد المؤلفون أن التنفيذ الفعال للوكيل يجب أن يتبع بنية هرمية: تشمل وكيل فوقي للتخطيط عالي المستوى، ومنسقاً لنقل استدلال المهام، ووكلاء تنفيذ متخصصين للعمليات المحددة.

المساهمات الأساسية

  1. بنية الاستدلال الهرمي: تقترح إطار عمل استدلال هرمي جديد يدمج وكلاء استدلال معززين بأدوات متخصصة في المجال كوحدات، مما يلغي الحاجة إلى تنسيق الأدوات الخارجية أو الأنابيب المحددة مسبقاً الجامدة في الطرق الموجودة
  2. تكامل القدرات المحسّن: يدعم المنفذون المتخصصون في المجال تكاملاً سهل الاستخدام لقدرات الاستدلال والأدوات المتنوعة. يمكن دمج وكلاء البحث الموجودين مباشرة دون هندسة المطالبات أو إعادة تدريب النموذج
  3. الأداء التجريبي المتفوق: تُظهر التجارب على أربع مهام بحث متعددة الأنماط معقدة تحسناً كبيراً مقارنة بـ RAG التقليدي والطرق الحالية القائمة على الوكلاء

شرح الطريقة

تعريف المهمة

بالنظر إلى مشكلة معقدة q تتطلب البحث عن معلومات وبيئة خارجية محددة مسبقاً E، الهدف هو تصميم إطار عمل ينتج حلاً نهائياً يتضمن الإجابة A وعملية الاستدلال المقابلة R. يتم تمثيل عملية الإنشاء على النحو التالي:

P(R,aq,E)=t=1TRP(RtR<t,q,E<t)P(aq,R)P(R, a | q, E) = \prod_{t=1}^{T_R} P(R_t | R_{<t}, q, E_{<t}) \cdot P(a | q, R)

حيث TRT_R يمثل خطوات إنشاء الرموز في عملية الاستدلال، و E<t={E(R<s)}s<tE_{<t} = \{E(R_{<s})\}_{s<t} يمثل مجموعة جميع نتائج التفاعلات البيئية قبل الخطوة الزمنية t.

بنية النموذج

يتضمن إطار عمل HiRA ثلاث وحدات أساسية:

1. منسق التخطيط الفوقي (Meta Reasoning Planner)

  • مسؤول عن التخطيط والاستدلال وإنشاء الإجابات
  • يحلل المهام إلى مهام فرعية عالية المستوى تحتوي على تعليمات استراتيجية للوكلاء الخبراء
  • يستخدم رموزاً خاصة لإنشاء مهام فرعية ديناميكية:

PM(sk)=PM(skq,O<t,{E(sj)}j<k)P_M(s_k) = P_M(s_k | q, O_{<t}, \{E(s_j)\}_{j<k})

2. منسق الاستدلال التكيفي (Adaptive Reasoning Coordinator)

يتضمن ثلاث وظائف أساسية:

عملية نقل الاستدلال: Ak=argmaxAEPC(Odele(k),Ask,IE,Iselect)A^*_k = \arg\max_{A \in E} P_C(O^{(k)}_{dele}, A | s_k, I_E, I_{select})

عملية تقطير الاستدلال: PC(Odist(k),Rdist(k)sk,Oexpert(k))=PC(Odist(k)Oexpert(k),)PC(Rdist(k)Odist(k),Oexpert(k),)P_C(O^{(k)}_{dist}, R^{(k)}_{dist} | s_k, O^{(k)}_{expert}) = P_C(O^{(k)}_{dist} | O^{(k)}_{expert}, \cdot) \cdot P_C(R^{(k)}_{dist} | O^{(k)}_{dist}, O^{(k)}_{expert}, \cdot)

آلية الذاكرة ثنائية القناة: تتضمن ذاكرة الحقائق MfM_f وذاكرة الموارد MrM_r

3. المنفذون المتخصصون في المجال (Domain-Specialized Executors)

مصممة بناءً على ثلاثة أبعاد قدرات وكيل متعامدة:

  • الحصول على المعلومات: مسؤول عن جلب وتكامل المعلومات من الويب
  • الفهم متعدد الأنماط: يتعامل مع فهم وتمازج المعلومات متعددة الأنماط
  • الاستدلال الحسابي: يتعامل مع المهام الحسابية والاستدلال الحسابي مثل الحسابات الرياضية ومعالجة الملفات

نقاط الابتكار التقني

  1. التصميم المنفصل: فصل التخطيط الاستراتيجي عالي المستوى عن تفاصيل التنفيذ منخفضة المستوى، مما يمنع ضوضاء التنفيذ من التدخل في عملية التخطيط
  2. تخصيص المهام الديناميكي: اختيار ذكي لأنسب وكيل خبير بناءً على تعقيد المهمة والقدرات المطلوبة
  3. نقل الاستدلال ثنائي الاتجاه: يدعم تفويض الاستدلال من الوكيل الفوقي إلى وكلاء الخبراء، وكذلك تقطير الاستدلال العكسي
  4. التوسع المعياري: يمكن دمج وكلاء خبراء جدد بسلاسة دون الحاجة إلى إعادة تصميم النظام بأكمله

إعداد التجارب

مجموعات البيانات

  1. GAIA: تغطي الاستدلال متعدد الخطوات والاسترجاع، باستخدام جميع عينات التحقق (نصية، متعددة الأنماط، قائمة على الملفات)
  2. WebWalkerQA: اختبار الملاحة على الويب والاستخراج باللغة الإنجليزية والصينية، عينة 200 سؤال
  3. SimpleQA: تقييم المعرفة الواقعية والموسعة، عينة 200 سؤال
  4. Humanity's Last Exam: معيار عالي الصعوبة يتطلب استدلالاً معقداً واسترجاعاً خارجياً، باستخدام 500 عينة تحقق

مقاييس التقييم

استخدام Qwen2.5-72B-Instruct كمقيّم LLM لحساب الدقة

الطرق المقارنة

  1. الاستدلال المباشر: استخدام قدرات الاستدلال الأصلية للنموذج (Qwen3-32B, QwQ-32B, DeepSeek-R1-32B, GPT-4o، إلخ)
  2. التعزيز بقدرة واحدة: استخدام استدلال معزز بأداة متخصصة واحدة (Search-o1, WebThinker, CodeAct، إلخ)
  3. الاستدلال متعدد القدرات: تكامل أدوات متعددة أو سير عمل منظم (Plan-and-Solve, ReAct)

تفاصيل التنفيذ

  • النموذج الأساسي: QwQ-32B
  • المنسق: Qwen2.5-Instruct
  • درجة الحرارة: 0.7، top_p: 0.95، top_k: 20
  • نافذة السياق: 128k tokens
  • الحد الأقصى للمهام الفرعية: 10

نتائج التجارب

النتائج الرئيسية

فئة الطريقةمتوسط GAIAمتوسط WebWalkerQAمتوسط HLESimpleQA
الاستدلال المباشر (الأفضل)25.210.011.142.7
التعزيز بقدرة واحدة (WebThinker)36.252.513.078.0
التعزيز متعدد القدرات (ReAct)30.735.013.873.5
HiRA (هذه الورقة)42.554.514.281.5

النتائج الرئيسية

  1. ميزة الأداء الشاملة: يتفوق HiRA على جميع الطرق الأساسية في جميع المهام
  2. ميزة واضحة في المهام المعقدة: التحسن أكثر وضوحاً في المهام المعقدة (GAIA, HLE)
  3. ميزة التصميم الهرمي: يحقق التصميم الهرمي أداءً أفضل مقارنة بالطرق التي تستخدم نفس مجموعة الأدوات

تجارب الاستئصال

المكونGAIA-BGAIA-FWebWalkerHLESimpleQA
HiRA الكامل42.542.154.514.281.5
بدون نقل الاستدلال33.936.844.510.476.5
بدون آلية الذاكرة37.831.652.011.879.0
بدون وكيل البحث15.731.64.012.49.5
بدون وكيل الأكواد33.928.951.512.876.5

تحليل الكفاءة

  1. طول الاستدلال: سلسلة الاستدلال في HiRA أقصر من WebThinker، مما يشير إلى استدعاء مهام فرعية أكثر كفاءة
  2. عدد التفاعلات: عدد التفاعلات البيئية في HiRA أقل من الطرق التي تدمج الأدوات مباشرة
  3. التكلفة الحسابية: يحقق الهيكل الهرمي استخدام أدوات أكثر استهدافاً

الأعمال ذات الصلة

التطور من الإنشاء المعزز بالاسترجاع إلى البحث العميق

التطور من الاسترجاع بخطوة واحدة إلى خطوط أنابيب تكرارية مع تحليل الاستفسارات وتحسين المستندات والبحث متعدد الجولات. لكن طرق RAG تعتمد على سير عمل محدد مسبقاً، مما يحد من القرارات التكيفية.

طرق فصل التخطيط والتنفيذ

  • الفصل على مستوى الإجراء: تخصيص منفذين للمهام بخطوة واحدة (Plan-Act, CoAct)
  • الفصل على مستوى الاستفسار: تحليل المشاكل بحبيبات أكبر (REMA, LLMCompiler)

تعالج هذه الورقة قيود هذه الطرق من خلال نقل الاستدلال الديناميكي ووكلاء المجال المتخصصين في الإطار الهرمي.

الخلاصة والمناقشة

الاستنتاجات الرئيسية

يعالج HiRA بفعالية قيود النموذج الموحد في مهام البحث العميق من خلال فصل التخطيط الاستراتيجي والتنفيذ المتخصص. تدعم بنية الوكلاء المتعددين الاستدلال القابل للتوسع والمعياري.

القيود

  1. التكلفة الحسابية: قد تزيد بنية الوكلاء المتعددين من التكاليف الحسابية
  2. تعقيد التنسيق: تتطلب آليات التنسيق بين الوكلاء تصميماً دقيقاً
  3. انتشار الأخطاء: قد تؤثر أخطاء تنفيذ المهام الفرعية على الأداء الإجمالي

الاتجاهات المستقبلية

  1. تحسين آليات التنسيق بين الوكلاء
  2. استكشاف المزيد من المنفذين المتخصصين في المجال
  3. دراسة استراتيجيات اختيار الوكيل الديناميكي

التقييم المتعمق

المميزات

  1. تصميم معماري مبتكر: يتمتع التصميم الهرمي المنفصل بقيمة نظرية وعملية
  2. التحقق التجريبي الشامل: تقييم منهجي على معايير معقدة متعددة
  3. قوة عملية عالية: يدعم الإطار التكامل السهل للوكلاء الموجودين
  4. تحليل متعمق: يوفر تجارب استئصال تفصيلية وتحليل الكفاءة

أوجه القصور

  1. اختيار الخطوط الأساسية: قد تكون بعض طرق الخطوط الأساسية ليست أحدث SOTA
  2. قيود التقييم: يستخدم بشكل أساسي LLM-as-Judge، قد يكون هناك انحياز في التقييم
  3. التحقق من قابلية التوسع: نقص التحقق على نطاق أوسع أو مجالات أكثر

التأثير

  1. المساهمة الأكاديمية: توفر نموذج تصميم جديد لأنظمة الاستدلال متعددة الوكلاء
  2. القيمة العملية: يمكن تطبيقها مباشرة على سيناريوهات استرجاع المعلومات المعقدة
  3. قابلية التكرار: توفر تفاصيل تنفيذ شاملة وأكواد

السيناريوهات المعمول بها

  1. أنظمة الإجابة على الأسئلة المعقدة التي تتطلب استدلالاً متعدد الخطوات
  2. استرجاع وتوليف المعلومات متعددة الأنماط
  3. مهام البحث والتحليل التي تتطلب دعم أدوات متخصصة
  4. أنظمة إدارة المعرفة على مستوى المؤسسات وأنظمة دعم القرار

المراجع

تستشهد الورقة بأعمال مهمة متعددة، بما في ذلك الأعمال الأساسية لـ RAG (Lewis et al. 2020)، وأحدث نماذج الاستدلال (OpenAI o1, DeepSeek-R1)، والأبحاث ذات الصلة بأنظمة الوكلاء المتعددين. تعكس هذه الاستشهادات فهماً عميقاً للمؤلفين لمسار تطور المجال.


التقييم الشامل: هذه ورقة بحثية عالية الجودة تقترح إطار عمل استدلال هرمي مبتكر، مع تصميم نظري وتحقق تجريبي متين. يتمتع هذا العمل بقيمة مهمة لتطور أنظمة الاستدلال متعددة الوكلاء، خاصة في آفاق التطبيق الواسعة في مجال استرجاع المعلومات المعقدة.