2025-11-14T03:13:11.609221

Beyond the limitation of a single query: Train your LLM for query expansion with Reinforcement Learning

Zhao, Yu, Xu
Reasoning-augmented search agents, such as Search-R1, are trained to reason, search, and generate the final answer iteratively. Nevertheless, due to their limited capabilities in reasoning and search, their performance on multi-hop QA benchmarks remains far from satisfactory. To handle complex or compound queries, we train an LLM-based search agent with the native capability of query expansion through reinforcement learning. In each turn, our search agent proposes several query variants, which are searched simultaneously to cover more relevant information. Meanwhile, given limited post-training data and computing resources, it is very challenging for a search agent to master multiple tasks, including query generation, retrieved information understanding, and answer generation. Therefore, we propose incorporating a pre-trained squeezer model that helps the search agent understand the retrieved documents, allowing the search agent to focus on query generation for high retrieval recall. With the assistance of the squeezer model, we discover that even a small-scale 3B LLM can demonstrate a strong capability of query expansion and achieve state-of-the-art accuracy on the multi-hop QA benchmarks. To be specific, our experiments across seven question-answering benchmarks demonstrate that our method, named ExpandSearch, achieves an average improvement of 4.4% compared to state-of-the-art baselines, with strong gains on multi-hop reasoning tasks requiring diverse evidence aggregation.
academic

ما وراء قيود الاستعلام الواحد: تدريب نموذج اللغة الكبير الخاص بك لتوسيع الاستعلام باستخدام التعلم المعزز

المعلومات الأساسية

  • معرّف الورقة: 2510.10009
  • العنوان: ما وراء قيود الاستعلام الواحد: تدريب نموذج اللغة الكبير الخاص بك لتوسيع الاستعلام باستخدام التعلم المعزز
  • المؤلفون: Shu Zhao (NVIDIA وجامعة بنسلفانيا الحكومية)، Tan Yu (NVIDIA)، Anbang Xu (NVIDIA)
  • التصنيف: cs.CL cs.AI cs.IR
  • تاريخ النشر: 2025-10-14 (نسخة أولية على arXiv)
  • رابط الورقة: https://arxiv.org/abs/2510.10009

الملخص

يتم تدريب وكلاء البحث المعززة بالاستدلال (مثل Search-R1) للاستدلال والبحث وتوليد الإجابة النهائية بشكل متكرر. ومع ذلك، نظراً لقدراتهم المحدودة في الاستدلال والبحث، فإن أدائهم على معايير الإجابة على الأسئلة متعددة القفزات لا يزال دون المستوى المطلوب. للتعامل مع الاستعلامات المعقدة أو المركبة، قام المؤلفون بتدريب وكيل بحث قائم على نموذج اللغة الكبير مع قدرات توسيع الاستعلام الأصلية من خلال التعلم المعزز. في كل جولة، يقترح وكيل البحث متغيرات استعلام متعددة أثناء البحث لتغطية المزيد من المعلومات ذات الصلة. في الوقت نفسه، مع الأخذ في الاعتبار البيانات المحدودة بعد التدريب والموارد الحسابية المحدودة، يجد وكيل البحث صعوبة في إتقان مهام متعددة، بما في ذلك توليد الاستعلام وفهم المعلومات المسترجعة وتوليد الإجابة. لذلك، يقترح المؤلفون دمج نموذج ضاغط مدرب مسبقاً لمساعدة وكيل البحث على فهم المستندات المسترجعة، مما يسمح لوكيل البحث بالتركيز على توليد الاستعلام لتحقيق معدل استدعاء استرجاع عالي. بمساعدة نموذج الضاغط، يكتشف المؤلفون أنه حتى نموذج لغة كبير بحجم 3B يمكن أن يظهر قدرات قوية على توسيع الاستعلام ويحقق دقة متقدمة على معايير الإجابة على الأسئلة متعددة القفزات. على وجه التحديد، تُظهر التجارب على سبعة معايير للإجابة على الأسئلة أن الطريقة ExpandSearch تحقق تحسناً متوسطاً بنسبة 4.4% مقارنة بأفضل الخطوط الأساسية الحالية، مع تحسينات كبيرة في مهام الاستدلال متعددة القفزات التي تتطلب تجميع أدلة متنوعة.

خلفية البحث والدافع

تعريف المشكلة

يواجه وكلاء البحث المعززة بالاستدلال الحالية تحديين أساسيين:

  1. عدم الاكتمال الدلالي: الاستعلامات المولدة تفتقر إلى الثراء الدلالي، وغير قادرة على التقاط النطاق الكامل للمعلومات ذات الصلة، خاصة عند التعامل مع الأسئلة متعددة الجوانب التي تتطلب أدلة متنوعة
  2. الإرهاق المعلوماتي: المحتوى المسترجع يحتوي على كمية كبيرة من المعلومات غير ذات الصلة، مما يحجب الحقائق الرئيسية ويقلل من جودة الاستدلال

أهمية البحث

تتطلب مهام الإجابة على الأسئلة متعددة القفزات تجميع الأدلة من زوايا متعددة، والقيود الدلالية للاستعلام الواحد والقيود النظرية للاسترجاع القائم على التضمين أحادي الاتجاه تقيد بشدة أداء النظام. هذه المشكلة بارزة بشكل خاص في سيناريوهات الاستدلال المعقدة، حيث يجب على الوكيل التنقل عبر عدد كبير من نتائج البحث لتحديد الأدلة النادرة لكن الحاسمة.

قيود الطرق الموجودة

  • طرق مثل Search-R1 تولد استعلاماً واحداً فقط في كل جولة، مما يسهل فقدان المعلومات الدلالية الرئيسية
  • المحتوى المسترجع الطويل يؤدي إلى تكاليف حسابية عالية واستهلاك ذاكرة GPU كبير، مما يقلل بشكل كبير من سرعة التدريب
  • مشكلة نسبة الإشارة إلى الضوضاء بارزة بشكل خاص في مهام الاستدلال متعددة القفزات

دافع البحث

الرؤية الأساسية للمؤلفين هي أن الاسترجاع الفعال للمعلومات يتطلب استراتيجية مزدوجة - توسيع فضاء الاستعلام لتعظيم تغطية المعلومات ذات الصلة، ثم تكرير المحتوى المسترجع بشكل انتقائي للاحتفاظ بالحقائق الحاسمة للاستدلال فقط. يعكس هذا النموذج "التوسيع-الضغط" سلوك البحث عن المعلومات البشري.

المساهمات الأساسية

  1. تحديد وتشكيل المشكلة المزدوجة: تأثير عدم الاكتمال الدلالي والإرهاق المعلوماتي في وكلاء البحث المعززة بالاستدلال، مع إثبات تجريبي أن كلا المشكلتين يقللان بشكل كبير من أداء مهام الاستدلال المعقدة
  2. اقتراح إطار عمل ExpandSearch: إطار عمل "التوسيع-الضغط" يجمع بين توسيع الاستعلام القائم على التعلم المعزز والتكرير الانتقائي للمعلومات المستحث، لتحقيق معدل استدعاء عالي مع الحفاظ على الدقة في سيناريوهات الاستدلال متعددة الخطوات
  3. تحقيق تحسينات أداء كبيرة: تحسينات جوهرية مقارنة بأفضل الخطوط الأساسية على سبعة معايير، مع أداء متميز بشكل خاص في مهام الاستدلال متعددة القفزات التي تتطلب تجميع أدلة متنوعة

شرح الطريقة

تعريف المهمة

بالنظر إلى استعلام الإدخال x، يحتاج وكيل البحث إلى توليد الإجابة النهائية y من خلال عملية استدلال-بحث متكررة، حيث يمكن في كل جولة استدعاء محرك البحث R للحصول على كتل المستندات ذات الصلة، والاستدلال بناءً على المعلومات المسترجعة.

معمارية النموذج

استراتيجية التوسيع ثم الضغط

مرحلة التوسيع:

  • يولد نموذج اللغة الكبير كتل <search></search> تحتوي على n استعلام متنوع {qi}
  • يتم استرجاع كل استعلام qi من خلال محرك البحث R لـ k كتل الأكثر صلة: Ci = c1i, ..., cki ← R(qi)
  • يتغلب بفعالية على قيود الاسترجاع بالاستعلام الواحد، مما يحسن معدل الاستدعاء

مرحلة الضغط:

  • إدخال الاستعلامات المولدة q1, ..., qn والكتل المسترجعة C1, ..., Cn إلى نموذج الضاغط المجمد πs
  • توليد ملخص: s = πs(q1, ..., qn, C1, ..., Cn)
  • يتم تغليف المعلومات المضغوطة s في كتل <information></information> وإدراجها في سلسلة التوليد الجارية

نقاط الابتكار التقني

1. أنواع توسيع الاستعلام

تم اكتشاف نوعين متكاملين من التوسيع بشكل طبيعي من خلال التعلم المعزز:

  • التوسيع النحوي: التعامل مع تغييرات الشكل السطحي، مثل "where did he die" → "his death place"
  • التوسيع الدلالي: توسيع نطاق المعلومات، مثل "Alex's father" → "Alex's family"

2. تصميم المعمارية المعيارية

  • وكيل البحث: يركز على توليد الاستعلام لتحقيق معدل استدعاء استرجاع عالي
  • نموذج الضاغط: يتعامل بشكل مستقل مع فهم المستندات المسترجعة، مع تحقيق فك الارتباط من خلال استدعاءات API

3. تصميم دالة المكافأة

استخدام دالة مكافأة مركبة مرجحة: r = rEM + λrf

  • rEM: مكافأة المطابقة الدقيقة، تساوي 1 عندما تطابق الإجابة المتنبأ بها الإجابة الحقيقية تماماً
  • rf: مكافأة التنسيق، تساوي 1 عندما تتبع الإجابة المتنبأ بها التنسيق بدقة
  • λ يساوي 0.2 افتراضياً

إعداد التجربة

مجموعات البيانات

تغطي سبعة معايير، مقسمة إلى فئتين:

  1. الإجابة على الأسئلة العامة: NQ و TriviaQA و PopQA
  2. الإجابة على الأسئلة متعددة القفزات: HotpotQA و 2WikiMultiHopQA و Musique و Bamboogle

تتبع إعداد Jin وآخرين، مع دمج مجموعات تدريب NQ و HotpotQA، والتقييم على مجموعات التحقق/الاختبار لتقييم القدرة على التعميم داخل وخارج المجال.

مقاييس التقييم

استخدام المطابقة الدقيقة (Exact Match, EM) كمقياس تقييم أساسي.

طرق المقارنة

  • R1 بدون محرك بحث
  • Search-R1
  • ZeroSearch
  • StepSearch
  • Router-R1
  • ParallelSearch

تفاصيل التنفيذ

  • نموذج العمود الفقري: Qwen-2.5-Base/Instruct (3B/7B)
  • نموذج التضمين: E5
  • المكتبة: تفريغ ويكيبيديا 2018
  • الأجهزة: 8×NVIDIA H100 GPU
  • الخوارزمية: PPO (Proximal Policy Optimization)
  • معالجة الدفعات: إجمالي حجم الدفعة 512، دفعة صغيرة 256، دفعة دقيقة 64

نتائج التجربة

النتائج الرئيسية

تحقيق تحسينات متسقة وكبيرة في جميع التكوينات:

  • تحسن متوسط بنسبة 4.4%: تحسن مطلق مقارنة بأقوى خط أساسي
  • ميزة النموذج الصغير: نموذج 3B-Instruct (0.457 متوسط EM) يتفوق على طرق الخط الأساسي 7B
  • تأثير المعمارية: في نموذج 3B، متغير instruct أفضل من نموذج base بنسبة 2.2%؛ في نموذج 7B، متغير base أفضل من instruct بنسبة 3.1%

تجارب الاستئصال

تأثير عدد توسيعات الاستعلام

زيادة من استعلام واحد إلى 3 استعلامات تحسن الأداء بشكل كبير:

  • من n=1 إلى n=2: تحسن متوسط بنسبة 6.7%
  • استمرار التحسن عند n=3، لكن العوائد تتناقص

أهمية التدريب من طرف إلى طرف

  • ExpandSearch (n=3, k=5) مقابل Search-R1 (k=15) تحسن بنسبة 34.3%
  • إضافة موجه التوسيع فقط دون تدريب RL يقلل الأداء حتى
  • يثبت أن التدريب من طرف إلى طرف حاسم لتعلم استراتيجيات توسيع الاستعلام الفعالة

تحليل نوع التوسيع

  • التوسيع النحوي يشكل 63.35%، والتوسيع الدلالي يشكل 36.65%
  • إزالة أي نوع تؤدي إلى انخفاض الأداء، مما يثبت تكاملهما

تحليل سلوك الضاغط

  • عمق الاسترجاع: الزيادة من k=3 إلى k=10 تظهر عوائد متسقة لكن متناقصة
  • اختيار النموذج: LLaMA-3.1-70B يظهر أداء أفضل على الإجابة على الأسئلة العامة، LLaMA-4-17B أفضل على الاستدلال متعدد القفزات
  • القدرة على التعميم: استخدام نماذج ضاغط مختلفة أثناء التدريب والاستدلال يحافظ على أداء قابلة للمقارنة

ديناميكيات التدريب

  • المكافأة وطول الاستجابة وتكرار البحث تنمو بشكل متزامن
  • يتعلم النموذج بشكل مستقل زيادة تكرار البحث كاستراتيجية لتحسين جودة الإجابة
  • منحنى التدريب السلس يشير إلى عملية تحسين مستقرة

الأعمال ذات الصلة

وكلاء البحث العميق

  • أنظمة RAG: خط أنابيب ثنائي المراحل، استرجاع أولاً ثم توليد، لكن غالباً ما تحتوي على معلومات غير ذات صلة
  • أطر عمل أدوات البحث: مثل IRCoT و ReAct الموجهة بالمحفزات، Toolformer من خلال الضبط الدقيق الخاضع للإشراف
  • طرق التعلم المعزز: Search-R1 تطبيق رائد لتقنيات RL، التطورات اللاحقة تشمل ZeroSearch و MaskSearch وغيرها

التعلم المعزز

  • RLHF: التدريب من خلال تعليقات التفضيل البشري
  • تحسين الكفاءة: DPO و SimPO و ORPO وغيرها تتجاوز تدريب نموذج المكافأة
  • التقنيات الناشئة: GRPO و RLOO توفر بدائل واعدة من خلال تقييم السياسة بطريقة المجموعة

الخلاصة والمناقشة

الاستنتاجات الرئيسية

  1. ExpandSearch يحل بفعالية قيود الاسترجاع بالاستعلام الواحد من خلال توسيع الاستعلام المتعلم والتكرير الانتقائي للمعلومات
  2. نموذج "التوسيع-الضغط" ينجح في حل التحديات المزدوجة لعدم الاكتمال الدلالي والإرهاق المعلوماتي
  3. حتى نماذج بحجم 3B يمكن أن تظهر قدرات قوية على توسيع الاستعلام وتحقق أداء متقدمة

القيود

  1. التكلفة الحسابية: الاسترجاع متعدد الاستعلامات واستدعاءات الضاغط تزيد من وقت الاستدلال
  2. الاعتمادية: الأداء تعتمد على جودة نموذج الضاغط
  3. تشبع التوسيع: العوائد من زيادة عدد الاستعلامات لها تأثير متناقص

الاتجاهات المستقبلية

  1. استراتيجيات الاسترجاع التكيفية: ضبط عدد التوسيعات ديناميكياً بناءً على تعقيد الاستعلام
  2. طرق تدريب أكثر كفاءة: تقليل الاعتماد على موارد الحوسبة الكبيرة
  3. التحسين من طرف إلى طرف: التدريب المشترك لوكيل البحث ونموذج الضاغط

التقييم المتعمق

المميزات

  1. ابتكار الطريقة: أول من يجمع بين توسيع الاستعلام والتعلم المعزز، تصميم نموذج "التوسيع-الضغط" ذكي
  2. كفاية التجارب: سبعة معايير، أحجام نماذج متعددة، تجارب استئصال مفصلة
  3. الرؤى التقنية: اكتشاف التكامل بين التوسيع النحوي والدلالي، توفير رؤى تقنية قيمة
  4. القيمة العملية: نماذج صغيرة يمكن أن تحقق أداء ممتازة، لها قيمة نشر عملية

أوجه القصور

  1. نقص التحليل النظري: افتقار إلى شرح نظري لسبب فعالية هذه الطريقة
  2. كفاءة الحوسبة: تحليل تكاليف الحوسبة للاسترجاع متعدد الاستعلامات غير عميق بما فيه الكفاية
  3. القدرة على التعميم: التحقق الرئيسي على مهام الإجابة على الأسئلة، قابلية التطبيق على المهام الأخرى غير معروفة
  4. اعتماد الضاغط: الاعتماد على نموذج ضاغط خارجي قد يحد من سيناريوهات التطبيق

التأثير

  1. المساهمة الأكاديمية: توفير اتجاه بحثي جديد لمجال الاسترجاع المعزز للتوليد
  2. القيمة العملية: التصميم المعياري يسهل التطبيق العملي والنشر
  3. قابلية التكرار: توفير تفاصيل تنفيذ مفصلة والتزام بالمصدر المفتوح

السيناريوهات المناسبة

  1. أنظمة الإجابة على الأسئلة متعددة القفزات: مناسبة بشكل خاص لمهام الإجابة على الأسئلة التي تتطلب استدلالاً معقداً
  2. أنظمة استرجاع المعلومات: يمكن تطبيقها على سيناريوهات الاسترجاع التي تتطلب معدل استدعاء عالي
  3. أنظمة الحوار: يمكن دمجها في وكلاء الحوار الذين يحتاجون إلى معرفة خارجية

المراجع

تستشهد الورقة بأعمال مهمة متعددة، بما في ذلك:

  • Search-R1 (Jin et al., 2025b): عمل وكيل البحث RL الرائد
  • أعمال RLHF ذات الصلة (Ouyang et al., 2022): أساس التعلم المعزز لتدريب نماذج اللغة الكبيرة
  • مجموعات بيانات الإجابة على الأسئلة المتعددة: معايير قياسية مثل NQ و HotpotQA و TriviaQA

تقترح هذه الورقة حلاً مبتكراً للتعامل مع التحديات الأساسية لوكلاء البحث الحالية، وتحقق تحسينات أداء كبيرة من خلال تصميم "التوسيع-الضغط" الذكي. على الرغم من وجود مجال للتحسين في التحليل النظري وكفاءة الحوسبة، فإن ابتكارها التقني والتحقق التجريبي يصلان إلى مستوى عالي، مما يوفر دفعة مهمة لمجال الاسترجاع المعزز للتوليد.