2025-11-25T18:49:17.995403

Haystack Engineering: Context Engineering for Heterogeneous and Agentic Long-Context Evaluation

Li, Fu, Wang et al.
Modern long-context large language models (LLMs) perform well on synthetic "needle-in-a-haystack" (NIAH) benchmarks, but such tests overlook how noisy contexts arise from biased retrieval and agentic workflows. We argue that haystack engineering is necessary to construct noisy long contexts that faithfully capture key real-world factors -- distraction from heterogeneous biased retrievers and cascading errors in agentic workflows -- to test models' long-context robustness. We instantiate it through HaystackCraft, a new NIAH benchmark built on the full English Wikipedia hyperlink network with multi-hop questions. HaystackCraft evaluates how heterogeneous retrieval strategies (e.g., sparse, dense, hybrid, and graph-based) affect distractor composition, haystack ordering, and downstream LLM performance. HaystackCraft further extends NIAH to dynamic, LLM-dependent settings that simulate agentic operations, where models refine queries, reflect on their past reasonings, and decide when to stop. Experiments with 15 long-context models show that (1) while stronger dense retrievers can introduce more challenging distractors, graph-based reranking simultaneously improves retrieval effectiveness and mitigates more harmful distractors; (2) in agentic tests, even advanced models like Gemini 2.5 Pro and GPT-5 suffer cascading failures from self-generated distractors or struggle to perform early stops. These results highlight persistent challenges in agentic long-context reasoning and establish HaystackCraft as a valuable testbed for future progress.
academic

هندسة الكومة: هندسة السياق للتقييم الطويل السياق غير المتجانس والموجه بالوكيل

المعلومات الأساسية

  • معرّف الورقة: 2510.07414
  • العنوان: Haystack Engineering: Context Engineering for Heterogeneous and Agentic Long-Context Evaluation
  • المؤلفون: Mufei Li, Dongqi Fu, Limei Wang, Si Zhang, Hanqing Zeng, Kaan Sancak, Ruizhong Qiu, Haoyu Wang, Xiaoxin He, Xavier Bresson, Yinglong Xia, Chonglin Sun, Pan Li
  • المؤسسات: معهد جورجيا للتكنولوجيا، Meta AI، جامعة إلينوي أوربانا-شامبين، الجامعة الوطنية بسنغافورة
  • التصنيف: cs.CL, cs.AI, cs.IR
  • تاريخ النشر: أكتوبر 2025 (نسخة أولية)
  • رابط الورقة: https://arxiv.org/abs/2510.07414

الملخص

تُظهر نماذج اللغة الكبيرة الحديثة ذات السياق الطويل أداءً جيداً في معايير "البحث عن الإبرة في كومة القش" (NIAH) الاصطناعية، لكن هذه الاختبارات تتجاهل كيفية نشوء السياق الضوضائي من الاسترجاع المنحاز والعمليات الموجهة بالوكيل. تقترح هذه الورقة مفهوم هندسة الكومة لبناء سياق طويل ضوضائي يعكس بأمانة العوامل الواقعية الحاسمة—التداخل من أجهزة الاسترجاع المنحازة غير المتجانسة والأخطاء المتسلسلة في سير العمل الموجه بالوكيل—لاختبار متانة السياق الطويل للنموذج. يتم تنفيذ هذا المفهوم من خلال HaystackCraft، وهو معيار NIAH جديد مبني على شبكة الارتباطات الفائقة الكاملة لويكيبيديا الإنجليزية وأسئلة متعددة القفزات. تُظهر النتائج التجريبية أن النماذج المتقدمة حتى Gemini 2.5 Pro و GPT-5 تعاني من الفشل المتسلسل أو تواجه صعوبة في تنفيذ الإيقاف المبكر في اختبارات الوكيل.

خلفية البحث والدافع

المشكلة الأساسية

تُظهر معايير تقييم السياق الطويل الحالية فجوة كبيرة بين المحاكاة والواقع:

  1. قيود المعايير الاصطناعية الثابتة: تستخدم اختبارات NIAH التقليدية عناصر تشويش مستقلة عن الاستعلام، بينما يتم بناء السياق الطويل في التطبيقات الفعلية من خلال استراتيجيات الاسترجاع مثل RAG، والتي تتمتع بخصائص تعتمد على أجهزة الاسترجاع.
  2. تجاهل عدم التجانس في الاسترجاع: تُدخل استراتيجيات الاسترجاع المختلفة (المتفرقة والكثيفة والمختلطة والقائمة على الرسوم البيانية) أنواعاً مختلفة من عناصر التشويش، لكن المعايير الحالية لا تأخذ في الاعتبار تأثير هذا عدم التجانس على أداء النموذج.
  3. غياب التقييم الديناميكي الموجه بالوكيل: جميع المعايير الحالية ثابتة وأحادية الدور وغير مرتبطة بـ LLM، وبالتالي لا يمكنها تقييم مشكلة الأخطاء المتسلسلة في هندسة السياق الموجهة بالوكيل.

دافع البحث

يرى المؤلفون أن هناك حاجة إلى "هندسة الكومة" لبناء سياق طويل ضوضائي واقعي يعكس بأمانة التعقيد وأنماط الفشل في التطبيقات الفعلية. يتناقض هذا مع "هندسة السياق": الأخيرة تسعى للظروف المثلى، بينما الأولى تؤكد على بناء كومة أمين.

المساهمات الأساسية

  1. اقتراح مفهوم هندسة الكومة: أول دراسة منهجية لتأثير استراتيجيات الاسترجاع على تقييم السياق الطويل، وإعادة صياغة مشكلة NIAH من منظور RAG.
  2. بناء معيار HaystackCraft:
    • مبني على شبكة الارتباطات الفائقة الكاملة لويكيبيديا الإنجليزية (6,954,909 مقالة، 97,442,472 ارتباط فائق)
    • يتضمن مهام الإجابة على الأسئلة متعددة القفزات، مع دعم تقييم استراتيجيات الاسترجاع غير المتجانسة
    • أول بيئة اختبار NIAH ديناميكية ومتعددة الأدوار وتعتمد على LLM
  3. تقييم شامل للاسترجاع غير المتجانس: تقييم منهجي لاستراتيجيات الاسترجاع المتفرقة (BM25) والكثيفة (Qwen3-Embedding) والمختلطة والقائمة على الرسوم البيانية (PPR) على تكوين عناصر التشويش وأداء النموذج.
  4. الكشف عن تحديات السياق الطويل الموجهة بالوكيل: من خلال اختبار NIAH الديناميكي، يكتشف أن النماذج المتقدمة حتى تعاني من الفشل المتسلسل في سير العمل الموجه بالوكيل، وأن النماذج أكثر متانة تجاه "العرض" (السياق الطويل) مقابل "العمق" (تكرارات الاستدلال).

شرح الطريقة

تعريف المهمة

إعادة صياغة مشكلة NIAH من منظور RAG:

  • بالنظر إلى مجموعة المستندات D والاستعلام q
  • مجموعة المستندات الداعمة الحقيقية Nq ⊂ D (الإبرة)
  • استراتيجية الاسترجاع R تصنف جميع المستندات في D
  • بناء كومة القش H^R_q(S): تتضمن جميع مستندات الإبرة والعناصر الأعلى تصنيفاً، بإجمالي S رمز

تقييم NIAH الثابت

استراتيجيات الاسترجاع غير المتجانسة

  1. الاسترجاع المتفرق (BM25): الطريقة الكلاسيكية المستندة إلى التشابه المعجمي
  2. الاسترجاع الكثيف (Qwen3-Embedding-0.6B): التقاط التشابه الدلالي
  3. الاسترجاع المختلط: استخدام الانصهار بالترتيب المتبادل (RRF) لدمج الاسترجاع المتفرق والكثيف
  4. إعادة الترتيب القائمة على الرسوم البيانية: استخدام PageRank الشخصي (PPR) لدمج المعلومات الهيكلية

استراتيجيات ترتيب كومة القش

  • ترتيب أجهزة الاسترجاع: الترتيب حسب درجة الاسترجاع (إعداد RAG الواقعي)
  • الترتيب العشوائي: الترتيب العشوائي (تشخيص انحياز الموضع)

تقييم NIAH الديناميكي

نمذجة العمليات الموجهة بالوكيل

توسيع NIAH الثابت لدعم التفاعل متعدد الأدوار:

  • تحسين الاستعلام: تحسين الاستعلام بناءً على نتائج الاسترجاع
  • التأمل الذاتي: تلخيص التحليلات السابقة
  • قرار الإيقاف: تحديد متى يتم إنهاء الاستدلال

إعدادان ديناميكيان

  1. الأدوار المتعددة المفروضة: عدد ثابت من تكرارات الاستدلال، اختبار متانة الأخطاء المتسلسلة
  2. الأدوار المتغيرة: يقرر النموذج بشكل مستقل متى يتوقف، اختبار القدرة على الإيقاف المبكر

نقاط الابتكار التقني

  1. خريطة تكوين أجهزة الاسترجاع والتشويش: أول دراسة منهجية لكيفية تشكيل استراتيجيات الاسترجاع المختلفة لخصائص عناصر التشويش
  2. استخدام البنية الرسومية: نمذجة الإجابة على الأسئلة متعددة القفزات كمشكلة تحديد "الرسم البياني الفرعي للإبرة"
  3. هندسة السياق الديناميكية: نموذج تقييم جديد حيث يكون LLM محلل ومصدر تشويش في نفس الوقت
  4. تحليل العرض مقابل العمق: التمييز بين تأثير "العرض" للسياق الطويل و"العمق" للاستدلال

إعداد التجربة

مجموعة البيانات

  • المجموعة: تفريغ ويكيبيديا الإنجليزية من 2025-04-04، باستخدام المقالات الكاملة كوحدات استرجاع
  • مجموعة بيانات الإجابة على الأسئلة:
    • الأسئلة الطبيعية (NQ): أسئلة أحادية القفزة
    • MuSiQue: أسئلة متعددة القفزات (حتى 4 مستندات داعمة)
    • تم تصفيتها يدوياً، بإجمالي 500 عينة عالية الجودة

تغطية النموذج

تقييم 15 نموذج LLM بسياق طويل:

  • نماذج الاستدلال: سلسلة Qwen3، Gemini 2.5 Flash-Lite، o4-mini
  • النماذج العامة: GPT-4.1 mini، سلسلة Llama-3.1، Qwen2.5-1M، سلسلة Gemma 3
  • النماذج الأعلى: Gemini 2.5 Pro، GPT-5 (الاختبار الديناميكي)

مقاييس التقييم

  • فعالية الاسترجاع: Recall@N، NDCG@N
  • أداء الإجابة على الأسئلة: درجة F1
  • حجم السياق: 8K، 16K، 32K، 64K، 128K رموز

تفاصيل التنفيذ

  • استخدام محلل Qwen2.5-1M لعد الرموز الموحد
  • تحسين معاملات PPR من خلال البحث الشبكي
  • استخدام vLLM لتسريع الاستدلال

نتائج التجربة

الاكتشافات الرئيسية

1. استراتيجية الاسترجاع تؤثر بشكل كبير على صعوبة كومة القش

  • الاسترجاع الكثيف أكثر تحدياً: في 11 من 12 حالة، أجهزة الاسترجاع الكثيفة تُدخل عناصر تشويش أكثر صعوبة من أجهزة الاسترجاع المتفرقة
  • الاسترجاع المختلط ليس بالضرورة أصعب: على الرغم من فعالية الاسترجاع الأفضل، إلا أنه لا يؤدي بالضرورة إلى إدخال عناصر تشويش أكثر تحدياً
  • إعادة الترتيب القائمة على الرسوم البيانية فائدة مزدوجة: تحسين فعالية الاسترجاع وتخفيف عناصر التشويش الضارة، مع تحسن أداء NIAH يصل إلى 44%

2. تأثير ترتيب كومة القش المرتبط بالنموذج

  • ارتباط عالي بالنموذج: الاختلافات الهائلة بين النماذج المختلفة في الاستجابة لترتيب أجهزة الاسترجاع
  • استفادة كبيرة لبعض النماذج: سلاسل Gemma-3 و Qwen2.5-1M تحصل على فوائد كبيرة ومتزايدة من ترتيب أجهزة الاسترجاع
  • ضرورة التقييم: الحاجة إلى تقييم كل من ترتيب أجهزة الاسترجاع والترتيب العشوائي لفهم سلوك النموذج بشكل شامل

3. كشف NIAH الديناميكي عن ضعف الوكيل

نتائج الأدوار المتعددة المفروضة:

  • جميع النماذج (بما فيها GPT-5 و Gemini 2.5 Pro) عرضة للأخطاء المتسلسلة
  • تتدهور الأداء مع زيادة عدد الأدوار، حيث غالباً ما تضخم التكرارات الإضافية الأخطاء المبكرة
  • لا يمكن لأداء NIAH الثابت التنبؤ بالمتانة متعددة الأدوار

نتائج الأدوار المتغيرة:

  • لا يوجد نموذج يمكنه تحسين أداء الدور الواحد بشكل موثوق
  • يُظهر GPT-5 أفضل أداء نسبية لكنه لا يزال غير قادر على تحويل الاستدلال متعدد الأدوار إلى تحسن مستمر
  • تفتقر النماذج بشكل عام إلى آليات فعالة للإيقاف المبكر

نتائج رقمية محددة

فعالية الاسترجاع (Recall@160)

  • BM25: 58.73% → BM25+PPR: 66.58% (+7.85%)
  • Qwen3-0.6B: 61.43% → +PPR: 74.28% (+12.85%)
  • Hybrid: 67.2% → +PPR: 76.55% (+9.35%)

مثال على أداء NIAH (128K context, Hybrid+PPR)

  • Llama-3.1-70B: 25.11% → 36.22% (+44% تحسن)
  • GPT-4.1 mini: 58.27% → 62.09%
  • Gemini 2.5 Flash-Lite: 62.78% → 66.07%

تحليل أنماط الفشل

تحديد ثلاثة أنماط فشل رئيسية من خلال دراسات الحالة:

  1. انتشار الأخطاء المتسلسلة: تضخيم الأخطاء المبكرة من خلال تحسين الاستعلام والتلخيص
  2. انحراف نية الاستعلام: تغيير طبيعة أو شكل السؤال الأصلي
  3. استمرار تحديات السياق الطويل: صعوبة تحديد المعلومات ذات الصلة حتى في الإعدادات متعددة الأدوار

الأعمال ذات الصلة

معايير السياق الطويل

  • NIAH الكلاسيكي: اختبار الإبرة الواحدة من Kamradt (2023)
  • الإصدارات الموسعة: LV-Eval، RULER، BABILong وغيرها توسع أنواع الأسئلة والمجموعات
  • HELMET: أول من استخدم الاسترجاع الكثيف لبناء عناصر التشويش، لكن بدون النظر في عدم التجانس
  • القيود: جميع المعايير الحالية تستخدم سياق ثابت وغير مرتبط بـ LLM

معايير متعددة الأدوار

  • تقييم الحوار: MT-bench والأعمال اللاحقة تركز على الحوار متعدد الأدوار
  • معايير الوكيل: AgentBench وغيرها تقدم مهام وكيل متعددة الأدوار
  • الفرق: الأعمال الحالية لم تدرس التحديات المشتركة للسياق الطويل "العرض" و"العمق"

الخلاصة والمناقشة

الاستنتاجات الرئيسية

  1. استراتيجية الاسترجاع حاسمة: تؤثر الطرق المختلفة للاسترجاع بشكل كبير على صعوبة وواقعية تقييم السياق الطويل
  2. فعالية البنية الرسومية: إعادة ترتيب PPR تحسن فعالية الاسترجاع وأداء النموذج في نفس الوقت
  3. تحديات الوكيل لم تُحل: حتى النماذج الأكثر تقدماً تبقى ضعيفة في الاستدلال الديناميكي للسياق الطويل
  4. العرض مقابل العمق: النماذج أكثر متانة تجاه "عرض" السياق الطويل مقابل "عمق" الاستدلال

القيود

  1. قيود المجموعة: مبني فقط على ويكيبيديا الإنجليزية، قد يحد من القابلية للتعميم
  2. التركيز على مهام الإجابة على الأسئلة: يركز بشكل أساسي على مهام الإجابة على الأسئلة، مع تغطية محدودة للتطبيقات الأخرى للسياق الطويل
  3. اختيار استراتيجية الاسترجاع: على الرغم من تغطية الفئات الرئيسية، إلا أنه لم يستنفد جميع طرق الاسترجاع الممكنة
  4. تبسيط الإعدادات الديناميكية: نمذجة العمليات الموجهة بالوكيل نسبياً بسيطة، قد لا تعكس بالكامل الأنظمة الموجهة بالوكيل المعقدة

الاتجاهات المستقبلية

  1. توسيع المجموعة: دعم التقييم متعدد اللغات والمتعدد المجالات
  2. وكلاء أكثر تعقيداً: دمج استخدام الأدوات والوصول إلى قواعد المعرفة الخارجية وغيرها
  3. استراتيجيات متكيفة: تطوير استراتيجيات استرجاع يمكنها التكيف ديناميكياً بناءً على السياق
  4. التحليل النظري: فهم أعمق لسبب إدخال بعض استراتيجيات الاسترجاع عناصر تشويش أكثر صعوبة

التقييم المتعمق

المزايا

  1. تحديد المشكلة دقيق: تحديد دقيق للعيوب الرئيسية في تقييم السياق الطويل الحالي
  2. ابتكار منهجي: مفهوم هندسة الكومة يملأ فجوة تقييم مهمة
  3. تصميم تجربة شامل: يغطي 15 نموذج واستراتيجيات استرجاع متعددة وإعدادات ثابتة وديناميكية
  4. قيمة عملية عالية: توفير تقييم واقعي لتحديات السياق الطويل في أنظمة RAG الفعلية
  5. رؤى عميقة: الكشف عن التحديات الأساسية في الاستدلال الديناميكي للسياق الطويل الموجه بالوكيل

أوجه القصور

  1. تكلفة حسابية عالية: مجموعة ويكيبيديا الكبيرة وتقييم النماذج المتعددة يتطلب موارد حسابية كبيرة
  2. خطر تلوث البيانات: على الرغم من تدابير التخفيف، لا تزال هناك مخاطر معينة بناءً على ويكيبيديا
  3. تبسيط نمذجة الوكيل: قد لا يتمكن NIAH الديناميكي من التقاط السلوك المعقد للوكيل بالكامل
  4. اختيار أجهزة الاسترجاع محدود: يمكن النظر في المزيد من طرق الاسترجاع الحديثة

التأثير

  1. المساهمة الأكاديمية: إنشاء معايير ومنهجيات جديدة لتقييم السياق الطويل
  2. التوجيه العملي: توفير رؤى مهمة لتحسين أنظمة RAG
  3. قيمة الأداة: سيصبح HaystackCraft أداة تقييم مهمة
  4. الإلهام البحثي: فتح اتجاهات بحثية جديدة في الاستدلال الديناميكي للسياق الطويل الموجه بالوكيل

السيناريوهات المعمول بها

  1. تقييم أنظمة RAG: تقييم تأثير استراتيجيات الاسترجاع المختلفة على أداء السياق الطويل
  2. اختيار النموذج: اختيار نماذج السياق الطويل المناسبة لسيناريوهات تطبيق محددة
  3. تطوير الوكيل: تقييم وتحسين قدرة الوكيل على الاستدلال بالسياق الطويل
  4. تطوير المعايير: توفير منهجية لمطوري البحث الآخرين لبناء معايير السياق الطويل الواقعية

المراجع

تستشهد الورقة بعدد كبير من الأعمال ذات الصلة، تشمل بشكل أساسي:

  • الأعمال المتعلقة بنماذج السياق الطويل ومعايير التقييم
  • أبحاث نظام الاسترجاع المعزز (RAG)
  • معايير الحوار متعدد الأدوار وتقييم الوكيل
  • طرق الشبكات العصبية الرسومية واسترجاع المعلومات

التقييم الشامل: هذه ورقة بحثية عالية الجودة تحدد بدقة مشاكل مهمة في تقييم السياق الطويل، وتقترح حلولاً مبتكرة، وتتحقق من فعالية الطريقة من خلال تجارب شاملة. سيكون لمعيار HaystackCraft تأثير مهم على تقييم وتحسين نماذج LLM ذات السياق الطويل.