2025-11-25T18:49:17.995403

Haystack Engineering: Context Engineering for Heterogeneous and Agentic Long-Context Evaluation

Li, Fu, Wang et al.

Modern long-context large language models (LLMs) perform well on synthetic "needle-in-a-haystack" (NIAH) benchmarks, but such tests overlook how noisy contexts arise from biased retrieval and agentic workflows. We argue that haystack engineering is necessary to construct noisy long contexts that faithfully capture key real-world factors -- distraction from heterogeneous biased retrievers and cascading errors in agentic workflows -- to test models' long-context robustness. We instantiate it through HaystackCraft, a new NIAH benchmark built on the full English Wikipedia hyperlink network with multi-hop questions. HaystackCraft evaluates how heterogeneous retrieval strategies (e.g., sparse, dense, hybrid, and graph-based) affect distractor composition, haystack ordering, and downstream LLM performance. HaystackCraft further extends NIAH to dynamic, LLM-dependent settings that simulate agentic operations, where models refine queries, reflect on their past reasonings, and decide when to stop. Experiments with 15 long-context models show that (1) while stronger dense retrievers can introduce more challenging distractors, graph-based reranking simultaneously improves retrieval effectiveness and mitigates more harmful distractors; (2) in agentic tests, even advanced models like Gemini 2.5 Pro and GPT-5 suffer cascading failures from self-generated distractors or struggle to perform early stops. These results highlight persistent challenges in agentic long-context reasoning and establish HaystackCraft as a valuable testbed for future progress.

academic

हेस्टैक इंजीनियरिंग: विषमांगी और एजेंटिक लंबे-संदर्भ मूल्यांकन के लिए संदर्भ इंजीनियरिंग

बुनियादी जानकारी

पेपर आईडी: 2510.07414
शीर्षक: Haystack Engineering: Context Engineering for Heterogeneous and Agentic Long-Context Evaluation
लेखक: Mufei Li, Dongqi Fu, Limei Wang, Si Zhang, Hanqing Zeng, Kaan Sancak, Ruizhong Qiu, Haoyu Wang, Xiaoxin He, Xavier Bresson, Yinglong Xia, Chonglin Sun, Pan Li
संस्थान: जॉर्जिया इंस्टीट्यूट ऑफ टेक्नोलॉजी, Meta AI, University of Illinois Urbana-Champaign, National University of Singapore
वर्गीकरण: cs.CL, cs.AI, cs.IR
प्रकाशन समय: अक्टूबर 2025 (Preprint)
पेपर लिंक: https://arxiv.org/abs/2510.07414

सारांश

आधुनिक लंबे-संदर्भ वाले बड़े भाषा मॉडल (LLM) सिंथेटिक "सुई ढूंढो घास के ढेर में" (NIAH) बेंचमार्क परीक्षणों में अच्छा प्रदर्शन करते हैं, लेकिन ये परीक्षण इस बात को नजरअंदाज करते हैं कि शोर संदर्भ पक्षपाती पुनर्प्राप्ति और एजेंट वर्कफ़्लो से कैसे उत्पन्न होता है। यह पेपर हेस्टैक इंजीनियरिंग की अवधारणा प्रस्तावित करता है, जो महत्वपूर्ण वास्तविक कारकों को सटीकता से कैप्चर करने वाले शोर लंबे-संदर्भ को बनाने के लिए है—विषमांगी पक्षपाती रिट्रीवर्स से व्यवधान और एजेंट वर्कफ़्लो में कैस्केडिंग त्रुटियां—मॉडल की लंबे-संदर्भ मजबूती का परीक्षण करने के लिए। लेखकों ने HaystackCraft के माध्यम से इस अवधारणा को लागू किया है, जो संपूर्ण अंग्रेजी विकिपीडिया हाइपरलिंक नेटवर्क और बहु-हॉप प्रश्नों पर निर्मित एक नया NIAH बेंचमार्क है। प्रायोगिक परिणाम दिखाते हैं कि Gemini 2.5 Pro और GPT-5 जैसे उन्नत मॉडल भी एजेंट परीक्षणों में कैस्केडिंग विफलता से पीड़ित होते हैं या प्रारंभिक रोकथाम को निष्पादित करने में कठिनाई का सामना करते हैं।

अनुसंधान पृष्ठभूमि और प्रेरणा

मुख्य समस्या

मौजूदा लंबे-संदर्भ मूल्यांकन बेंचमार्क में सिमुलेशन और वास्तविकता के बीच महत्वपूर्ण अंतर है:

स्थिर सिंथेटिक बेंचमार्क की सीमाएं: पारंपरिक NIAH परीक्षण क्वेरी-अनिर्भर व्यवधान आइटम का उपयोग करते हैं, जबकि वास्तविक अनुप्रयोगों में लंबे-संदर्भ RAG जैसी पुनर्प्राप्ति रणनीतियों के माध्यम से निर्मित होते हैं, जिनमें रिट्रीवर-निर्भर विशेषताएं होती हैं।
पुनर्प्राप्ति विषमांगिता को नजरअंदाज करना: विभिन्न पुनर्प्राप्ति रणनीतियां (विरल, सघन, हाइब्रिड, ग्राफ-आधारित पुनर्प्राप्ति) विभिन्न प्रकार के व्यवधान आइटम पेश करती हैं, लेकिन मौजूदा बेंचमार्क मॉडल प्रदर्शन पर इस विषमांगिता के प्रभाव पर विचार नहीं करते हैं।
गतिशील एजेंट मूल्यांकन की कमी: मौजूदा बेंचमार्क सभी स्थिर, एकल-मोड़, LLM-अनिर्भर हैं, और एजेंट संदर्भ इंजीनियरिंग में कैस्केडिंग त्रुटि समस्या का मूल्यांकन नहीं कर सकते हैं।

अनुसंधान प्रेरणा

लेखकों का मानना है कि वास्तविक लंबे-संदर्भ को बनाने के लिए "हेस्टैक इंजीनियरिंग" की आवश्यकता है, जो वास्तविक अनुप्रयोगों में जटिलता और विफलता पैटर्न को सटीकता से अनुकरण करता है। यह "संदर्भ इंजीनियरिंग" के विपरीत है: उत्तरार्द्ध इष्टतम स्थितियों की तलाश करता है, जबकि पूर्वार्द्ध सटीक हेस्टैक निर्माण पर जोर देता है।

मुख्य योगदान

हेस्टैक इंजीनियरिंग अवधारणा प्रस्तावित करना: पहली बार लंबे-संदर्भ मूल्यांकन पर पुनर्प्राप्ति रणनीति के प्रभाव का व्यवस्थित अध्ययन, NIAH समस्या को RAG दृष्टिकोण से पुनः औपचारिक करना।
HaystackCraft बेंचमार्क का निर्माण:
- संपूर्ण अंग्रेजी विकिपीडिया हाइपरलिंक नेटवर्क पर आधारित (6,954,909 लेख, 97,442,472 हाइपरलिंक)
- बहु-हॉप प्रश्नोत्तर कार्य शामिल हैं, विषमांगी पुनर्प्राप्ति रणनीति मूल्यांकन का समर्थन करता है
- पहला गतिशील, बहु-मोड़, LLM-निर्भर NIAH परीक्षण वातावरण
व्यापक विषमांगी पुनर्प्राप्ति मूल्यांकन: विरल (BM25), सघन (Qwen3-Embedding), हाइब्रिड और ग्राफ-आधारित (PPR) पुनर्प्राप्ति रणनीतियों का व्यवस्थित मूल्यांकन व्यवधान आइटम संरचना और मॉडल प्रदर्शन पर प्रभाव के लिए।
एजेंट लंबे-संदर्भ चुनौतियों को उजागर करना: गतिशील NIAH परीक्षण के माध्यम से यह खोज कि यहां तक कि उन्नत मॉडल भी एजेंट वर्कफ़्लो में कैस्केडिंग विफलता के लिए प्रवण हैं, और मॉडल "गहराई" (तर्क पुनरावृत्ति) की तुलना में "चौड़ाई" (लंबे-संदर्भ) के लिए अधिक मजबूत हैं।

विधि विवरण

कार्य परिभाषा

RAG दृष्टिकोण से NIAH समस्या को पुनः औपचारिक करना:

दस्तावेज़ कॉर्पस D और क्वेरी q दिया गया
वास्तविक समर्थन दस्तावेज़ सेट Nq ⊂ D (सुई)
पुनर्प्राप्ति रणनीति R D में सभी दस्तावेज़ों को स्कोर करती है और रैंक करती है
हेस्टैक H^R_q(S) का निर्माण: सभी सुई दस्तावेज़ और शीर्ष-रैंक व्यवधान आइटम शामिल हैं, कुल S टोकन

स्थिर NIAH मूल्यांकन

विषमांगी पुनर्प्राप्ति रणनीतियां

विरल पुनर्प्राप्ति (BM25): शब्दावली समानता पर आधारित शास्त्रीय विधि
सघन पुनर्प्राप्ति (Qwen3-Embedding-0.6B): शब्दार्थ समानता को कैप्चर करता है
हाइब्रिड पुनर्प्राप्ति: विरल और सघन पुनर्प्राप्ति को संयोजित करने के लिए पारस्परिक रैंक फ्यूजन (RRF) का उपयोग करता है
ग्राफ-आधारित पुनः रैंकिंग: संरचनात्मक जानकारी को एकीकृत करने के लिए व्यक्तिगतकृत PageRank (PPR) का उपयोग करता है

हेस्टैक रैंकिंग रणनीतियां

रिट्रीवर रैंकिंग: पुनर्प्राप्ति स्कोर के अनुसार रैंक किया गया (वास्तविक RAG सेटिंग)
यादृच्छिक रैंकिंग: यादृच्छिक रूप से व्यवस्थित (स्थिति पूर्वाग्रह निदान)

गतिशील NIAH मूल्यांकन

एजेंट संचालन मॉडलिंग

बहु-मोड़ इंटरैक्शन का समर्थन करने के लिए स्थिर NIAH का विस्तार:

क्वेरी परिशोधन: पुनर्प्राप्ति परिणामों के आधार पर क्वेरी को अनुकूलित करना
स्व-प्रतिबिंब: पिछले विश्लेषण को सारांशित करना
रोकथाम निर्णय: यह निर्धारित करना कि तर्क को कब समाप्त करें

दो गतिशील सेटिंग्स

बाध्य बहु-मोड़: निश्चित तर्क मोड़, कैस्केडिंग त्रुटि मजबूती का परीक्षण करता है
परिवर्तनशील मोड़: मॉडल स्वायत्त रूप से रोकथाम समय निर्धारित करता है, प्रारंभिक रोकथाम क्षमता का परीक्षण करता है

तकनीकी नवाचार बिंदु

रिट्रीवर-व्यवधान आइटम संरचना मैपिंग: पहली बार विभिन्न पुनर्प्राप्ति रणनीतियां कैसे व्यवधान आइटम विशेषताओं को आकार देती हैं, इसका व्यवस्थित अध्ययन
ग्राफ संरचना उपयोग: बहु-हॉप QA को "सुई उप-ग्राफ" पहचान समस्या के रूप में मॉडलिंग करना
गतिशील संदर्भ इंजीनियरिंग: LLM तर्क कर्ता और व्यवधान स्रोत दोनों होने का नया मूल्यांकन प्रतिमान
चौड़ाई बनाम गहराई विश्लेषण: लंबे-संदर्भ "चौड़ाई" और तर्क "गहराई" के प्रभाव को अलग करना

प्रायोगिक सेटअप

डेटासेट

कॉर्पस: 2025-04-04 अंग्रेजी विकिपीडिया डंप, पुनर्प्राप्ति इकाई के रूप में संपूर्ण लेख का उपयोग करता है
QA डेटासेट:
- Natural Questions (NQ): एकल-हॉप प्रश्न
- MuSiQue: बहु-हॉप प्रश्न (अधिकतम 4 समर्थन दस्तावेज़)
- मैनुअल फ़िल्टरिंग के माध्यम से, अंतिम 500 उच्च-गुणवत्ता नमूने

मॉडल कवरेज

15 लंबे-संदर्भ LLM का मूल्यांकन:

तर्क मॉडल: Qwen3 श्रृंखला, Gemini 2.5 Flash-Lite, o4-mini
सामान्य मॉडल: GPT-4.1 mini, Llama-3.1 श्रृंखला, Qwen2.5-1M, Gemma 3 श्रृंखला
शीर्ष मॉडल: Gemini 2.5 Pro, GPT-5 (गतिशील परीक्षण)

मूल्यांकन मेट्रिक्स

पुनर्प्राप्ति प्रभाव: Recall@N, NDCG@N
QA प्रदर्शन: F1 स्कोर
संदर्भ आकार: 8K, 16K, 32K, 64K, 128K टोकन

कार्यान्वयन विवरण

टोकन गणना को एकीकृत करने के लिए Qwen2.5-1M टोकनाइज़र का उपयोग करता है
ग्रिड खोज के माध्यम से PPR हाइपरपैरामीटर अनुकूलित करता है
अनुमान त्वरण के लिए vLLM का उपयोग करता है

प्रायोगिक परिणाम

मुख्य निष्कर्ष

1. पुनर्प्राप्ति रणनीति हेस्टैक कठिनाई को महत्वपूर्ण रूप से प्रभावित करती है

सघन पुनर्प्राप्ति अधिक चुनौतीपूर्ण है: 12 में से 11 मामलों में, सघन रिट्रीवर विरल रिट्रीवर की तुलना में अधिक कठिन व्यवधान आइटम पेश करते हैं
हाइब्रिड पुनर्प्राप्ति आवश्यक रूप से कठिन नहीं है: बेहतर पुनर्प्राप्ति प्रभाव के बावजूद, यह आवश्यक रूप से अधिक चुनौतीपूर्ण व्यवधान आइटम पेश नहीं करता है
ग्राफ-आधारित पुनः रैंकिंग दोहरा लाभ: पुनर्प्राप्ति प्रभाव में सुधार और हानिकारक व्यवधान आइटम को कम करता है, NIAH प्रदर्शन में 44% तक सुधार

2. हेस्टैक रैंकिंग का मॉडल-निर्भर प्रभाव

उच्च मॉडल सहसंबंध: विभिन्न मॉडलों की पुनर्प्राप्ति रणनीति रैंकिंग के प्रति प्रतिक्रिया में विशाल अंतर है
कुछ मॉडलों को महत्वपूर्ण लाभ: Gemma-3 और Qwen2.5-1M श्रृंखला पुनर्प्राप्ति रणनीति रैंकिंग से महत्वपूर्ण और बढ़ते लाभ प्राप्त करते हैं
मूल्यांकन आवश्यकता: मॉडल व्यवहार को व्यापक रूप से समझने के लिए पुनर्प्राप्ति रणनीति रैंकिंग और यादृच्छिक रैंकिंग दोनों का मूल्यांकन करने की आवश्यकता है

3. गतिशील NIAH एजेंट कमजोरी को उजागर करता है

बाध्य बहु-मोड़ परिणाम:

सभी मॉडल (GPT-5, Gemini 2.5 Pro सहित) कैस्केडिंग त्रुटि के लिए प्रवण हैं
प्रदर्शन मोड़ संख्या के साथ बिगड़ता है, अतिरिक्त पुनरावृत्तियां अक्सर प्रारंभिक त्रुटियों को बढ़ाती हैं
स्थिर NIAH प्रदर्शन बहु-मोड़ मजबूती की भविष्यवाणी नहीं कर सकता है

परिवर्तनशील मोड़ परिणाम:

कोई भी मॉडल विश्वसनीय रूप से एकल-मोड़ प्रदर्शन में सुधार नहीं कर सकता है
GPT-5 सापेक्ष सर्वश्रेष्ठ प्रदर्शन करता है लेकिन फिर भी बहु-मोड़ तर्क को निरंतर सुधार में परिवर्तित नहीं कर सकता है
मॉडलों में प्रभावी प्रारंभिक रोकथाम तंत्र की सार्वभौमिक कमी है

विशिष्ट संख्यात्मक परिणाम

पुनर्प्राप्ति प्रभाव (Recall@160)

BM25: 58.73% → BM25+PPR: 66.58% (+7.85%)
Qwen3-0.6B: 61.43% → +PPR: 74.28% (+12.85%)
Hybrid: 67.2% → +PPR: 76.55% (+9.35%)

NIAH प्रदर्शन उदाहरण (128K संदर्भ, Hybrid+PPR)

Llama-3.1-70B: 25.11% → 36.22% (+44% सुधार)
GPT-4.1 mini: 58.27% → 62.09%
Gemini 2.5 Flash-Lite: 62.78% → 66.07%

विफलता पैटर्न विश्लेषण

केस स्टडी के माध्यम से तीन मुख्य विफलता पैटर्न की पहचान:

कैस्केडिंग त्रुटि प्रसार: प्रारंभिक त्रुटियां क्वेरी परिशोधन और सारांश के माध्यम से बढ़ाई जाती हैं
क्वेरी इरादा विचलन: मूल प्रश्न की प्रकृति या रूप को बदलना
लंबे-संदर्भ चुनौति निरंतर: बहु-मोड़ सेटिंग में भी प्रासंगिक जानकारी खोजना कठिन है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

पुनर्प्राप्ति रणनीति महत्वपूर्ण है: विभिन्न पुनर्प्राप्ति विधियां लंबे-संदर्भ मूल्यांकन की कठिनाई और वास्तविकता को महत्वपूर्ण रूप से प्रभावित करती हैं
ग्राफ संरचना प्रभावी है: PPR पुनः रैंकिंग पुनर्प्राप्ति प्रभाव और मॉडल प्रदर्शन दोनों में सुधार करता है
एजेंट चुनौति अनसुलझी है: यहां तक कि सबसे उन्नत मॉडल भी गतिशील लंबे-संदर्भ तर्क में कमजोर हैं
चौड़ाई बनाम गहराई: मॉडल तर्क "गहराई" की तुलना में लंबे-संदर्भ "चौड़ाई" के लिए अधिक मजबूत हैं

सीमाएं

कॉर्पस सीमा: केवल अंग्रेजी विकिपीडिया पर आधारित, सामान्यीकरण को सीमित कर सकता है
QA कार्य फोकस: मुख्य रूप से प्रश्नोत्तर कार्यों पर ध्यान केंद्रित करता है, अन्य लंबे-संदर्भ अनुप्रयोग कवरेज सीमित है
पुनर्प्राप्ति रणनीति चयन: मुख्य श्रेणियों को शामिल करने के बावजूद, सभी संभावित पुनर्प्राप्ति विधियों को समाप्त नहीं करता है
गतिशील सेटिंग सरलीकरण: एजेंट संचालन मॉडलिंग अपेक्षाकृत सरल है, जटिल एजेंट सिस्टम को पूरी तरह से प्रतिबिंबित नहीं कर सकता है

भविष्य की दिशाएं

कॉर्पस का विस्तार: बहुभाषी, बहु-डोमेन मूल्यांकन का समर्थन करता है
अधिक जटिल एजेंट: उपकरण उपयोग, बाहरी ज्ञान आधार पहुंच आदि को एकीकृत करता है
अनुकूली रणनीतियां: संदर्भ के आधार पर गतिशील रूप से समायोजित करने वाली पुनर्प्राप्ति रणनीतियां विकसित करता है
सैद्धांतिक विश्लेषण: यह समझना कि कुछ पुनर्प्राप्ति रणनीतियां अधिक कठिन व्यवधान आइटम क्यों पेश करती हैं

गहन मूल्यांकन

शक्तियां

समस्या पहचान सटीक: मौजूदा लंबे-संदर्भ मूल्यांकन की मुख्य कमियों की सटीक पहचान
पद्धति नवाचार: हेस्टैक इंजीनियरिंग अवधारणा महत्वपूर्ण मूल्यांकन अंतर को भरती है
संपूर्ण प्रायोगिक डिजाइन: 15 मॉडल, कई पुनर्प्राप्ति रणनीतियां, स्थिर और गतिशील सेटिंग्स को कवर करता है
उच्च व्यावहारिक मूल्य: वास्तविक RAG सिस्टम की लंबे-संदर्भ चुनौतियों के लिए वास्तविक मूल्यांकन प्रदान करता है
गहन अंतर्दृष्टि: एजेंट लंबे-संदर्भ तर्क की मौलिक चुनौतियों को उजागर करता है

कमियां

उच्च कम्प्यूटेशनल लागत: बड़े पैमाने पर विकिपीडिया कॉर्पस और बहु-मॉडल मूल्यांकन को बड़ी कम्प्यूटेशनल संसाधनों की आवश्यकता है
डेटा प्रदूषण जोखिम: कमजोर उपायों के बावजूद, विकिपीडिया पर आधारित होने से कुछ जोखिम बना रहता है
एजेंट मॉडलिंग सरलीकरण: गतिशील NIAH जटिल एजेंट व्यवहार को पूरी तरह से कैप्चर नहीं कर सकता है
सीमित रिट्रीवर विकल्प: अधिक आधुनिक पुनर्प्राप्ति विधियों पर विचार किया जा सकता है

प्रभाव

शैक्षणिक योगदान: लंबे-संदर्भ मूल्यांकन के लिए नए मानक और पद्धति स्थापित करता है
व्यावहारिक मार्गदर्शन: RAG सिस्टम अनुकूलन के लिए महत्वपूर्ण अंतर्दृष्टि प्रदान करता है
उपकरण मूल्य: HaystackCraft एक महत्वपूर्ण मूल्यांकन उपकरण बन जाएगा
अनुसंधान प्रेरणा: एजेंट लंबे-संदर्भ तर्क के नए अनुसंधान दिशा खोलता है

लागू दृश्य

RAG सिस्टम मूल्यांकन: विभिन्न पुनर्प्राप्ति रणनीतियों के लंबे-संदर्भ प्रदर्शन पर प्रभाव का मूल्यांकन करता है
मॉडल चयन: विशिष्ट अनुप्रयोग परिदृश्यों के लिए उपयुक्त लंबे-संदर्भ मॉडल चुनना
एजेंट विकास: एजेंट की लंबे-संदर्भ तर्क क्षमता का मूल्यांकन और सुधार करता है
बेंचमार्क विकास: अन्य शोधकर्ताओं को वास्तविक लंबे-संदर्भ बेंचमार्क बनाने के लिए पद्धति प्रदान करता है

संदर्भ

पेपर में बड़ी संख्या में संबंधित कार्यों का उल्लेख है, मुख्य रूप से:

लंबे-संदर्भ मॉडल और मूल्यांकन बेंचमार्क संबंधित कार्य
पुनर्प्राप्ति-संवर्धित जनरेशन (RAG) सिस्टम अनुसंधान
बहु-मोड़ संवाद और एजेंट मूल्यांकन बेंचमार्क
ग्राफ न्यूरल नेटवर्क और सूचना पुनर्प्राप्ति विधियां

समग्र मूल्यांकन: यह एक उच्च-गुणवत्ता वाला अनुसंधान पत्र है जो लंबे-संदर्भ मूल्यांकन में महत्वपूर्ण समस्याओं की सटीक पहचान करता है, नवीन समाधान प्रस्तावित करता है, और व्यापक प्रयोगों के माध्यम से विधि की प्रभावशीलता को सत्यापित करता है। HaystackCraft बेंचमार्क लंबे-संदर्भ LLM के मूल्यांकन और सुधार पर महत्वपूर्ण प्रभाव डालेगा।