2025-11-25T18:49:17.995403

Haystack Engineering: Context Engineering for Heterogeneous and Agentic Long-Context Evaluation

Li, Fu, Wang et al.

Modern long-context large language models (LLMs) perform well on synthetic "needle-in-a-haystack" (NIAH) benchmarks, but such tests overlook how noisy contexts arise from biased retrieval and agentic workflows. We argue that haystack engineering is necessary to construct noisy long contexts that faithfully capture key real-world factors -- distraction from heterogeneous biased retrievers and cascading errors in agentic workflows -- to test models' long-context robustness. We instantiate it through HaystackCraft, a new NIAH benchmark built on the full English Wikipedia hyperlink network with multi-hop questions. HaystackCraft evaluates how heterogeneous retrieval strategies (e.g., sparse, dense, hybrid, and graph-based) affect distractor composition, haystack ordering, and downstream LLM performance. HaystackCraft further extends NIAH to dynamic, LLM-dependent settings that simulate agentic operations, where models refine queries, reflect on their past reasonings, and decide when to stop. Experiments with 15 long-context models show that (1) while stronger dense retrievers can introduce more challenging distractors, graph-based reranking simultaneously improves retrieval effectiveness and mitigates more harmful distractors; (2) in agentic tests, even advanced models like Gemini 2.5 Pro and GPT-5 suffer cascading failures from self-generated distractors or struggle to perform early stops. These results highlight persistent challenges in agentic long-context reasoning and establish HaystackCraft as a valuable testbed for future progress.

academic

ヘイスタック工学：異種および自律型長文脈評価のための文脈工学

基本情報

論文ID: 2510.07414
タイトル: Haystack Engineering: Context Engineering for Heterogeneous and Agentic Long-Context Evaluation
著者: Mufei Li, Dongqi Fu, Limei Wang, Si Zhang, Hanqing Zeng, Kaan Sancak, Ruizhong Qiu, Haoyu Wang, Xiaoxin He, Xavier Bresson, Yinglong Xia, Chonglin Sun, Pan Li
所属機関: ジョージア工科大学、Meta AI、イリノイ大学アーバナ・シャンペーン校、シンガポール国立大学
分類: cs.CL, cs.AI, cs.IR
発表時期: 2025年10月（プレプリント）
論文リンク: https://arxiv.org/abs/2510.07414

要約

現代の長文脈大規模言語モデルは、合成的な「干し草の中の針」(NIAH)ベンチマークでは良好な性能を示していますが、これらのテストは、ノイズを含む文脈がバイアスのある検索と自律型ワークフローからどのように生じるかを見落としています。本論文は、ヘイスタック工学の概念を提案し、異種バイアス検索器からの干渉と自律型ワークフロー内の連鎖エラーなど、重要な現実的要因を忠実に捉えるノイズを含む長文脈を構築し、モデルの長文脈ロバスト性をテストします。著者らはこの概念をHaystackCraftで実装しました。これは完全な英語ウィキペディアハイパーリンクネットワークとマルチホップ質問に基づいて構築された新しいNIAHベンチマークです。実験結果は、Gemini 2.5 ProやGPT-5などの最先端モデルでさえ、自律型テストで連鎖失敗に苦しむか、早期停止を実行するのが困難であることを示しています。

研究背景と動機

核心的な問題

既存の長文脈評価ベンチマークには、シミュレーションと現実の間に大きなギャップが存在します：

静的合成ベンチマークの限界：従来のNIAHテストは、クエリに無関係な干渉項を使用していますが、実際のアプリケーションにおける長文脈はRAGなどの検索戦略を通じて構築され、検索器依存の特性を持っています。
検索の異種性を無視：異なる検索戦略（スパース、密集、ハイブリッド、グラフベース検索）は異なるタイプの干渉項を導入しますが、既存のベンチマークはこの異種性がモデル性能に与える影響を考慮していません。
動的自律型評価の欠如：既存のベンチマークはすべて静的、単一ターン、LLM非依存であり、自律型文脈工学における連鎖エラー問題を評価できません。

研究の動機

著者らは、実際のアプリケーションの複雑性と失敗パターンを忠実にシミュレートするために、現実的なノイズを含む長文脈を構築する「ヘイスタック工学」が必要であると考えています。これは「文脈工学」と対比されます。後者は最適な条件を求めるのに対し、前者は忠実なヘイスタック構築を強調しています。

核心的な貢献

ヘイスタック工学の概念を提案：検索戦略が長文脈評価に与える影響を初めて体系的に研究し、NIAH問題をRAGの観点から再形式化しました。
HaystackCraftベンチマークの構築：
- 完全な英語ウィキペディアハイパーリンクネットワークに基づく（6,954,909記事、97,442,472ハイパーリンク）
- マルチホップ質問応答タスクを含み、異種検索戦略評価をサポート
- 初の動的、マルチターン、LLM依存のNIAHテスト環境
包括的な異種検索評価：スパース(BM25)、密集(Qwen3-Embedding)、ハイブリッド、グラフベース(PPR)検索戦略が干渉項の構成とモデル性能に与える影響を体系的に評価しました。
自律型長文脈の課題を明らかに：動的NIAHテストを通じて、最先端モデルでさえ自律型ワークフロー内で連鎖失敗に陥りやすく、モデルが「深さ」（推論反復）よりも「幅」（長文脈）に対してより堅牢であることを発見しました。

方法の詳細

タスク定義

RAGの観点からNIAH問題を再形式化：

文書コーパスDとクエリqが与えられた場合
真の支持文書集合Nq ⊂ D（針）
検索戦略RがD内のすべての文書をスコアリングして順序付け
ヘイスタックH^R_q(S)を構築：すべての針文書とトップランク付けされた干渉項を含み、合計Sトークン

静的NIAH評価

異種検索戦略

スパース検索(BM25)：語彙類似性に基づく古典的方法
密集検索(Qwen3-Embedding-0.6B)：意味的類似性を捉える
ハイブリッド検索：逆数ランク融合(RRF)を使用してスパースと密集検索を組み合わせ
グラフベース再ランキング：個性化PageRank(PPR)を使用して構造情報を統合

ヘイスタックランキング戦略

検索器ランキング：検索スコアでランキング（現実的なRAG設定）
ランダムランキング：ランダムに配置（位置バイアスの診断）

動的NIAH評価

自律型操作のモデリング

静的NIAHを拡張してマルチターン相互作用をサポート：

クエリ精緻化：検索結果に基づいてクエリを最適化
自己反省：過去の分析を要約
停止決定：推論をいつ終了するかを判断

2つの動的設定

強制マルチターン：固定推論ターン数、連鎖エラーロバスト性をテスト
可変ターン数：モデルが自律的に停止時期を決定、早期停止能力をテスト

技術的革新点

検索器-干渉項構成マッピング：異なる検索戦略が干渉項特性をどのように形成するかを初めて体系的に研究
グラフ構造の活用：マルチホップQAを「針部分グラフ」識別問題としてモデル化
動的文脈工学：LLMが推論者かつ干渉源である新しい評価パラダイム
幅対深さ分析：長文脈の「幅」と推論の「深さ」の影響を区別

実験設定

データセット

コーパス：2025-04-04英語ウィキペディアダンプ、検索単位として完全記事を使用
QAデータセット：
- Natural Questions (NQ)：単一ホップ質問
- MuSiQue：マルチホップ質問（最大4つの支持文書）
- 手動フィルタリング後、最終的に500の高品質サンプル