Modern long-context large language models (LLMs) perform well on synthetic "needle-in-a-haystack" (NIAH) benchmarks, but such tests overlook how noisy contexts arise from biased retrieval and agentic workflows. We argue that haystack engineering is necessary to construct noisy long contexts that faithfully capture key real-world factors -- distraction from heterogeneous biased retrievers and cascading errors in agentic workflows -- to test models' long-context robustness. We instantiate it through HaystackCraft, a new NIAH benchmark built on the full English Wikipedia hyperlink network with multi-hop questions. HaystackCraft evaluates how heterogeneous retrieval strategies (e.g., sparse, dense, hybrid, and graph-based) affect distractor composition, haystack ordering, and downstream LLM performance. HaystackCraft further extends NIAH to dynamic, LLM-dependent settings that simulate agentic operations, where models refine queries, reflect on their past reasonings, and decide when to stop. Experiments with 15 long-context models show that (1) while stronger dense retrievers can introduce more challenging distractors, graph-based reranking simultaneously improves retrieval effectiveness and mitigates more harmful distractors; (2) in agentic tests, even advanced models like Gemini 2.5 Pro and GPT-5 suffer cascading failures from self-generated distractors or struggle to perform early stops. These results highlight persistent challenges in agentic long-context reasoning and establish HaystackCraft as a valuable testbed for future progress.
academicHaystack Engineering: Context Engineering for Heterogeneous and Agentic Long-Context Evaluation
- 论文ID: 2510.07414
- 标题: Haystack Engineering: Context Engineering for Heterogeneous and Agentic Long-Context Evaluation
- 作者: Mufei Li, Dongqi Fu, Limei Wang, Si Zhang, Hanqing Zeng, Kaan Sancak, Ruizhong Qiu, Haoyu Wang, Xiaoxin He, Xavier Bresson, Yinglong Xia, Chonglin Sun, Pan Li
- 机构: Georgia Institute of Technology, Meta AI, University of Illinois Urbana-Champaign, National University of Singapore
- 分类: cs.CL, cs.AI, cs.IR
- 发表时间: 2025年10月 (Preprint)
- 论文链接: https://arxiv.org/abs/2510.07414
现代长上下文大语言模型在合成的"大海捞针"(NIAH)基准测试中表现良好,但这些测试忽略了噪声上下文如何从有偏检索和智能体工作流中产生。本文提出了干草堆工程(haystack engineering)的概念,用于构建忠实捕获关键现实因素的噪声长上下文——来自异构有偏检索器的干扰和智能体工作流中的级联错误——以测试模型的长上下文鲁棒性。作者通过HaystackCraft实现了这一概念,这是一个基于完整英文维基百科超链接网络和多跳问题构建的新NIAH基准。实验结果显示,即使是Gemini 2.5 Pro和GPT-5等先进模型在智能体测试中也会遭受级联失败或难以执行早期停止。
现有的长上下文评估基准存在显著的模拟与现实差距:
- 静态合成基准的局限性:传统的NIAH测试使用查询无关的干扰项,而实际应用中的长上下文是通过RAG等检索策略构建的,具有检索器依赖的特性。
- 忽略检索异构性:不同检索策略(稀疏、密集、混合、图基检索)会引入不同类型的干扰项,但现有基准未考虑这种异构性对模型性能的影响。
- 缺乏动态智能体评估:现有基准都是静态的、单轮的、LLM无关的,无法评估智能体上下文工程中的级联错误问题。
作者认为需要"干草堆工程"来构建现实的噪声长上下文,以忠实地模拟实际应用中的复杂性和失败模式。这与"上下文工程"形成对比:后者寻求最优条件,前者强调忠实的干草堆构建。
- 提出干草堆工程概念:首次系统性地研究了检索策略对长上下文评估的影响,将NIAH问题从RAG角度重新形式化。
- 构建HaystackCraft基准:
- 基于完整英文维基百科超链接网络(6,954,909篇文章,97,442,472个超链接)
- 包含多跳问答任务,支持异构检索策略评估
- 首个动态、多轮、LLM依赖的NIAH测试环境
- 全面的异构检索评估:系统评估了稀疏(BM25)、密集(Qwen3-Embedding)、混合和图基(PPR)检索策略对干扰项组成和模型性能的影响。
- 揭示智能体长上下文挑战:通过动态NIAH测试发现,即使先进模型在智能体工作流中也容易出现级联失败,且模型对"宽度"(长上下文)比对"深度"(推理迭代)更鲁棒。
从RAG角度重新形式化NIAH问题:
- 给定文档语料库D和查询q
- 真实支撑文档集合Nq ⊂ D(针)
- 检索策略R对D中所有文档评分排序
- 构建干草堆H^R_q(S):包含所有针文档和top-ranked干扰项,总计S个token
- 稀疏检索(BM25):基于词汇相似性的经典方法
- 密集检索(Qwen3-Embedding-0.6B):捕获语义相似性
- 混合检索:使用倒数排名融合(RRF)结合稀疏和密集检索
- 图基重排序:使用个性化PageRank(PPR)整合结构信息
- 检索器排序:按检索分数排序(现实RAG设置)
- 随机排序:随机排列(诊断位置偏差)
扩展静态NIAH以支持多轮交互:
- 查询精炼:根据检索结果优化查询
- 自我反思:总结过往分析
- 停止决策:判断何时终止推理
- 强制多轮:固定推理轮数,测试级联错误鲁棒性
- 可变轮数:模型自主决定停止时机,测试早期停止能力
- 检索器-干扰项组成映射:首次系统研究不同检索策略如何塑造干扰项特征
- 图结构利用:将多跳QA建模为"针子图"识别问题
- 动态上下文工程:LLM既是推理者也是干扰源的新评估范式
- 宽度vs深度分析:区分长上下文"宽度"和推理"深度"的影响
- 语料库:2025-04-04英文维基百科转储,使用完整文章作为检索单元
- QA数据集:
- Natural Questions (NQ):单跳问题
- MuSiQue:多跳问题(最多4个支撑文档)
- 经过手动过滤,最终500个高质量样本
评估15个长上下文LLM:
- 推理模型:Qwen3系列、Gemini 2.5 Flash-Lite、o4-mini
- 通用模型:GPT-4.1 mini、Llama-3.1系列、Qwen2.5-1M、Gemma 3系列
- 顶级模型:Gemini 2.5 Pro、GPT-5(动态测试)
- 检索效果:Recall@N、NDCG@N
- QA性能:F1分数
- 上下文大小:8K、16K、32K、64K、128K tokens
- 使用Qwen2.5-1M分词器统一token计数
- PPR超参数通过网格搜索优化
- 使用vLLM进行推理加速
- 密集检索更具挑战性:在11/12个案例中,密集检索器比稀疏检索器引入更困难的干扰项
- 混合检索未必更难:尽管检索效果更好,但不一定引入更具挑战性的干扰项
- 图基重排序双重效益:同时改善检索效果和缓解有害干扰项,NIAH性能提升高达44%
- 高度模型相关:不同模型对检索器排序的响应差异巨大
- 部分模型受益显著:Gemma-3和Qwen2.5-1M系列从检索器排序中获得显著且递增的收益
- 评估必要性:需要同时评估检索器排序和随机排序以全面理解模型行为
强制多轮结果:
- 所有模型(包括GPT-5、Gemini 2.5 Pro)都容易遭受级联错误
- 性能随轮数增加而恶化,额外迭代往往放大早期错误
- 静态NIAH性能无法预测多轮鲁棒性
可变轮数结果:
- 没有模型能可靠地改善单轮性能
- GPT-5表现相对最佳但仍未能将多轮推理转化为持续改进
- 模型普遍缺乏有效的早期停止机制
- BM25: 58.73% → BM25+PPR: 66.58% (+7.85%)
- Qwen3-0.6B: 61.43% → +PPR: 74.28% (+12.85%)
- Hybrid: 67.2% → +PPR: 76.55% (+9.35%)
- Llama-3.1-70B: 25.11% → 36.22% (+44%改进)
- GPT-4.1 mini: 58.27% → 62.09%
- Gemini 2.5 Flash-Lite: 62.78% → 66.07%
通过案例研究识别三种主要失败模式:
- 级联错误传播:早期错误通过查询精炼和总结放大
- 查询意图偏离:改变原始问题的性质或形式
- 长上下文挑战持续:即使在多轮设置中仍难以定位相关信息
- 经典NIAH:Kamradt (2023)的单针测试
- 扩展版本:LV-Eval、RULER、BABILong等扩展了问题类型和语料库
- HELMET:首次使用密集检索构建干扰项,但缺乏异构性考虑
- 局限性:所有现有基准都使用静态、LLM无关的上下文
- 对话评估:MT-bench及其后续工作关注多轮对话
- 智能体基准:AgentBench等引入多轮智能体任务
- 差异性:现有工作未研究"宽度"和"深度"的联合长上下文挑战
- 检索策略至关重要:不同检索方法显著影响长上下文评估的难度和现实性
- 图结构有效:PPR重排序同时改善检索效果和模型性能
- 智能体挑战未解决:即使最先进的模型在动态长上下文推理中仍然脆弱
- 宽度vs深度:模型对长上下文"宽度"比推理"深度"更鲁棒
- 语料库限制:仅基于英文维基百科,可能限制泛化性
- QA任务焦点:主要关注问答任务,其他长上下文应用覆盖有限
- 检索策略选择:虽然涵盖主要类别,但未穷尽所有可能的检索方法
- 动态设置简化:智能体操作建模相对简单,可能不完全反映复杂智能体系统
- 扩展语料库:支持多语言、多领域的评估
- 更复杂智能体:集成工具使用、外部知识库访问等
- 自适应策略:开发能够根据上下文动态调整的检索策略
- 理论分析:深入理解为什么某些检索策略引入更困难的干扰项
- 问题识别精准:准确识别现有长上下文评估的关键缺陷
- 方法论创新:干草堆工程概念填补了重要的评估空白
- 实验设计完整:涵盖15个模型、多种检索策略、静态和动态设置
- 实用价值高:为实际RAG系统的长上下文挑战提供现实评估
- 洞察深刻:揭示了智能体长上下文推理的根本性挑战
- 计算成本高:大规模维基百科语料库和多模型评估需要大量计算资源
- 数据污染风险:尽管有缓解措施,但基于维基百科仍存在一定风险
- 智能体建模简化:动态NIAH可能无法完全捕获复杂智能体行为
- 检索器选择有限:可以考虑更多最新的检索方法
- 学术贡献:为长上下文评估建立新的标准和方法论
- 实践指导:为RAG系统优化提供重要洞察
- 工具价值:HaystackCraft将成为重要的评估工具
- 研究启发:开辟了智能体长上下文推理的新研究方向
- RAG系统评估:评估不同检索策略对长上下文性能的影响
- 模型选择:为特定应用场景选择合适的长上下文模型
- 智能体开发:评估和改进智能体的长上下文推理能力
- 基准开发:为其他研究者提供构建现实长上下文基准的方法论
论文引用了大量相关工作,主要包括:
- 长上下文模型和评估基准相关工作
- 检索增强生成(RAG)系统研究
- 多轮对话和智能体评估基准
- 图神经网络和信息检索方法
总体评价:这是一篇高质量的研究论文,准确识别了长上下文评估中的重要问题,提出了创新的解决方案,并通过全面的实验验证了方法的有效性。HaystackCraft基准将对长上下文LLM的评估和改进产生重要影响。