Modern long-context large language models (LLMs) perform well on synthetic "needle-in-a-haystack" (NIAH) benchmarks, but such tests overlook how noisy contexts arise from biased retrieval and agentic workflows. We argue that haystack engineering is necessary to construct noisy long contexts that faithfully capture key real-world factors -- distraction from heterogeneous biased retrievers and cascading errors in agentic workflows -- to test models' long-context robustness. We instantiate it through HaystackCraft, a new NIAH benchmark built on the full English Wikipedia hyperlink network with multi-hop questions. HaystackCraft evaluates how heterogeneous retrieval strategies (e.g., sparse, dense, hybrid, and graph-based) affect distractor composition, haystack ordering, and downstream LLM performance. HaystackCraft further extends NIAH to dynamic, LLM-dependent settings that simulate agentic operations, where models refine queries, reflect on their past reasonings, and decide when to stop. Experiments with 15 long-context models show that (1) while stronger dense retrievers can introduce more challenging distractors, graph-based reranking simultaneously improves retrieval effectiveness and mitigates more harmful distractors; (2) in agentic tests, even advanced models like Gemini 2.5 Pro and GPT-5 suffer cascading failures from self-generated distractors or struggle to perform early stops. These results highlight persistent challenges in agentic long-context reasoning and establish HaystackCraft as a valuable testbed for future progress.
- Paper-ID: 2510.07414
- Titel: Haystack Engineering: Context Engineering for Heterogeneous and Agentic Long-Context Evaluation
- Autoren: Mufei Li, Dongqi Fu, Limei Wang, Si Zhang, Hanqing Zeng, Kaan Sancak, Ruizhong Qiu, Haoyu Wang, Xiaoxin He, Xavier Bresson, Yinglong Xia, Chonglin Sun, Pan Li
- Institutionen: Georgia Institute of Technology, Meta AI, University of Illinois Urbana-Champaign, National University of Singapore
- Klassifizierung: cs.CL, cs.AI, cs.IR
- Veröffentlichungsdatum: Oktober 2025 (Preprint)
- Paper-Link: https://arxiv.org/abs/2510.07414
Moderne Großsprachmodelle mit langem Kontext zeigen gute Leistungen in synthetischen „Needle-in-a-Haystack" (NIAH)-Benchmarks, doch diese Tests ignorieren, wie verrauschte Kontexte aus voreingenommenen Abrufvorgängen und Agenten-Workflows entstehen. Dieses Paper führt das Konzept des Haystack Engineering ein, um verrauschte lange Kontexte zu konstruieren, die kritische reale Faktoren authentisch erfassen – Störungen aus heterogenen voreingenommenen Abrufern und Kaskadenfehler in Agenten-Workflows – um die Robustheit von Modellen bei langem Kontext zu testen. Die Autoren realisieren dieses Konzept durch HaystackCraft, einen neuen NIAH-Benchmark, der auf dem vollständigen englischen Wikipedia-Hyperlink-Netzwerk und Multi-Hop-Fragen basiert. Experimentelle Ergebnisse zeigen, dass selbst fortschrittliche Modelle wie Gemini 2.5 Pro und GPT-5 in Agenten-Tests unter Kaskadenfehlern leiden oder Schwierigkeiten bei der Früherkennung haben.
Bestehende Langkontext-Evaluierungsbenchmarks weisen erhebliche Lücken zwischen Simulation und Realität auf:
- Einschränkungen statischer synthetischer Benchmarks: Traditionelle NIAH-Tests verwenden abfrageinvariante Störelemente, während lange Kontexte in praktischen Anwendungen durch Abrufstrategien wie RAG konstruiert werden und abruferabhängige Eigenschaften aufweisen.
- Vernachlässigung der Abruf-Heterogenität: Verschiedene Abrufstrategien (dünn besetzt, dicht, hybrid, graphbasiert) führen verschiedene Arten von Störelementen ein, doch bestehende Benchmarks berücksichtigen diese Heterogenität nicht.
- Mangel an dynamischer Agenten-Evaluierung: Alle bestehenden Benchmarks sind statisch, einmalig und modellunabhängig und können Kaskadenfehler in der Agenten-Kontextgestaltung nicht evaluieren.
Die Autoren argumentieren, dass „Haystack Engineering" erforderlich ist, um realistische verrauschte lange Kontexte zu konstruieren, die die Komplexität und Fehlermuster praktischer Anwendungen authentisch modellieren. Dies steht im Gegensatz zu „Kontextingenieurwesen", das optimale Bedingungen anstrebt, während Haystack Engineering die authentische Heuhaufen-Konstruktion betont.
- Einführung des Haystack-Engineering-Konzepts: Erste systematische Untersuchung der Auswirkungen von Abrufstrategien auf die Langkontext-Evaluierung, Neuformulierung des NIAH-Problems aus RAG-Perspektive.
- Konstruktion des HaystackCraft-Benchmarks:
- Basierend auf dem vollständigen englischen Wikipedia-Hyperlink-Netzwerk (6.954.909 Artikel, 97.442.472 Hyperlinks)
- Umfasst Multi-Hop-QA-Aufgaben mit Unterstützung für heterogene Abrufstrategien-Evaluierung
- Erste dynamische, mehrrundige, modellabhängige NIAH-Testumgebung
- Umfassende heterogene Abruf-Evaluierung: Systematische Evaluierung von dünn besetzten (BM25), dichten (Qwen3-Embedding), hybriden und graphbasierten (PPR) Abrufstrategien auf ihre Auswirkungen auf die Zusammensetzung von Störelementen und Modellleistung.
- Offenlegung von Agenten-Langkontext-Herausforderungen: Durch dynamische NIAH-Tests wird gezeigt, dass selbst fortschrittliche Modelle in Agenten-Workflows anfällig für Kaskadenfehler sind und Modelle robuster gegenüber der „Breite" (langer Kontext) als gegenüber der „Tiefe" (Reasoning-Iterationen) sind.
Neuformulierung des NIAH-Problems aus RAG-Perspektive:
- Gegeben: Dokumentenkorpus D und Abfrage q
- Echte unterstützende Dokumentmenge Nq ⊂ D (Nadeln)
- Abrufstrategie R bewertet und ordnet alle Dokumente in D
- Konstruktion des Heuhaufens H^R_q(S): enthält alle Nadeldokumente und top-ranked Störelemente mit insgesamt S Token
- Dünn besetzter Abruf (BM25): Klassische Methode basierend auf lexikalischer Ähnlichkeit
- Dichter Abruf (Qwen3-Embedding-0.6B): Erfasst semantische Ähnlichkeit
- Hybrider Abruf: Kombiniert dünn besetzten und dichten Abruf mittels Reciprocal Rank Fusion (RRF)
- Graphbasierte Neuordnung: Nutzt Personalized PageRank (PPR) zur Integration von Strukturinformationen
- Abrufer-Ordnung: Nach Abrufscore geordnet (realistische RAG-Einstellung)
- Zufällige Ordnung: Zufällig angeordnet (Diagnose von Positionsverzerrung)
Erweiterung der statischen NIAH zur Unterstützung mehrrundiger Interaktionen:
- Abfrageverfeinerung: Optimierung der Abfrage basierend auf Abrufergebnissen
- Selbstreflexion: Zusammenfassung bisheriger Analysen
- Stoppentscheidung: Bestimmung des Endzeitpunkts des Reasoning
- Erzwungene Mehrrundenrunden: Feste Reasoning-Runden, Test der Robustheit gegen Kaskadenfehler
- Variable Runden: Modell entscheidet autonom über Stoppzeitpunkt, Test der Früherkennung
- Abrufer-Störelement-Zusammensetzungs-Mapping: Erste systematische Untersuchung, wie verschiedene Abrufstrategien Störelement-Merkmale prägen
- Graphstruktur-Nutzung: Modellierung von Multi-Hop-QA als „Nadel-Subgraph"-Identifikationsproblem
- Dynamische Kontextgestaltung: Neues Evaluierungsparadigma, bei dem LLM sowohl Reasoner als auch Störungsquelle ist
- Breite vs. Tiefe-Analyse: Unterscheidung der Auswirkungen von Langkontext-„Breite" und Reasoning-„Tiefe"
- Korpus: English Wikipedia Dump vom 2025-04-04, vollständige Artikel als Abrufeinheiten
- QA-Datensätze:
- Natural Questions (NQ): Single-Hop-Fragen
- MuSiQue: Multi-Hop-Fragen (bis zu 4 unterstützende Dokumente)
- Nach manueller Filterung: 500 hochwertige Stichproben
Evaluierung von 15 Langkontext-LLMs:
- Reasoning-Modelle: Qwen3-Serie, Gemini 2.5 Flash-Lite, o4-mini
- Universelle Modelle: GPT-4.1 mini, Llama-3.1-Serie, Qwen2.5-1M, Gemma 3-Serie
- Top-Modelle: Gemini 2.5 Pro, GPT-5 (dynamische Tests)
- Abrufergebnisse: Recall@N, NDCG@N
- QA-Leistung: F1-Score
- Kontextgröße: 8K, 16K, 32K, 64K, 128K Token
- Einheitliche Token-Zählung mittels Qwen2.5-1M-Tokenizer
- PPR-Hyperparameter durch Gittersuche optimiert
- vLLM für Inference-Beschleunigung verwendet
- Dichter Abruf ist anspruchsvoller: In 11/12 Fällen führt dichter Abruf zu schwierigeren Störelementen als dünn besetzter Abruf
- Hybrider Abruf ist nicht notwendigerweise schwieriger: Trotz besserer Abrufergebnisse führt er nicht unbedingt zu anspruchsvolleren Störelementen
- Graphbasierte Neuordnung mit doppeltem Vorteil: Verbessert gleichzeitig Abrufergebnisse und mildert schädliche Störelemente, NIAH-Leistungsverbesserung bis zu 44%
- Hochgradig modellabhängig: Unterschiedliche Modelle reagieren sehr unterschiedlich auf Abrufer-Ordnung
- Einige Modelle profitieren erheblich: Gemma-3 und Qwen2.5-1M-Serien erhalten signifikante und zunehmende Vorteile aus Abrufer-Ordnung
- Evaluierungsnotwendigkeit: Gleichzeitige Evaluierung von Abrufer-Ordnung und zufälliger Ordnung erforderlich
Ergebnisse erzwungener Mehrrundenrunden:
- Alle Modelle (einschließlich GPT-5, Gemini 2.5 Pro) sind anfällig für Kaskadenfehler
- Leistung verschlechtert sich mit zunehmenden Runden, zusätzliche Iterationen verstärken oft frühe Fehler
- Statische NIAH-Leistung kann Mehrrundenrobustheit nicht vorhersagen
Ergebnisse variabler Runden:
- Kein Modell kann zuverlässig die Single-Round-Leistung verbessern
- GPT-5 zeigt relativ beste Leistung, kann aber Mehrrundenreasoning nicht in kontinuierliche Verbesserung umwandeln
- Modelle mangelt es an effektiven Früherkennung-Mechanismen
- BM25: 58,73% → BM25+PPR: 66,58% (+7,85%)
- Qwen3-0.6B: 61,43% → +PPR: 74,28% (+12,85%)
- Hybrid: 67,2% → +PPR: 76,55% (+9,35%)
- Llama-3.1-70B: 25,11% → 36,22% (+44% Verbesserung)
- GPT-4.1 mini: 58,27% → 62,09%
- Gemini 2.5 Flash-Lite: 62,78% → 66,07%
Fallstudien identifizieren drei Hauptfehlermuster:
- Kaskadenfehler-Ausbreitung: Frühe Fehler werden durch Abfrageverfeinerung und Zusammenfassung verstärkt
- Abfrage-Intent-Abweichung: Änderung der Natur oder Form der ursprünglichen Frage
- Anhaltende Langkontext-Herausforderungen: Schwierigkeiten bei der Lokalisierung relevanter Informationen auch in Mehrrundeneinstellungen
- Klassisches NIAH: Kamradts (2023) Single-Needle-Test
- Erweiterte Versionen: LV-Eval, RULER, BABILong und andere erweitern Fragetypen und Korpora
- HELMET: Erste Verwendung dichter Abrufvorgänge zur Konstruktion von Störelementen, aber ohne Heterogenitätsberücksichtigung
- Einschränkungen: Alle bestehenden Benchmarks verwenden statische, modellunabhängige Kontexte
- Dialog-Evaluierung: MT-bench und Nachfolgearbeiten konzentrieren sich auf mehrrundige Dialoge
- Agenten-Benchmarks: AgentBench und andere führen mehrrundige Agenten-Aufgaben ein
- Unterschied: Bestehende Arbeiten untersuchen nicht die gemeinsamen Langkontext-Herausforderungen von „Breite" und „Tiefe"
- Abrufstrategie ist entscheidend: Verschiedene Abrufmethoden beeinflussen die Schwierigkeit und Realitätsnähe der Langkontext-Evaluierung erheblich
- Graphstruktur ist wirksam: PPR-Neuordnung verbessert gleichzeitig Abrufergebnisse und Modellleistung
- Agenten-Herausforderungen ungelöst: Selbst die fortschrittlichsten Modelle sind bei dynamischem Langkontext-Reasoning anfällig
- Breite vs. Tiefe: Modelle sind robuster gegenüber Langkontext-„Breite" als gegenüber Reasoning-„Tiefe"
- Korpus-Einschränkungen: Nur auf englischer Wikipedia basierend, kann die Generalisierbarkeit einschränken
- QA-Aufgaben-Fokus: Konzentriert sich hauptsächlich auf Frage-Antwort-Aufgaben, begrenzte Abdeckung anderer Langkontext-Anwendungen
- Abrufstrategie-Auswahl: Obwohl Hauptkategorien abgedeckt sind, nicht alle möglichen Abrufmethoden
- Vereinfachte dynamische Einstellungen: Agenten-Operationen-Modellierung ist relativ einfach, kann komplexe Agenten-Systeme möglicherweise nicht vollständig widerspiegeln
- Korpus-Erweiterung: Unterstützung mehrsprachiger, multidisziplinärer Evaluierung
- Komplexere Agenten: Integration von Werkzeugnutzung, externem Wissenszugriff usw.
- Adaptive Strategien: Entwicklung von Abrufstrategien, die sich dynamisch an den Kontext anpassen
- Theoretische Analyse: Tieferes Verständnis, warum bestimmte Abrufstrategien schwierigere Störelemente einführen
- Präzise Problemidentifikation: Genaue Identifikation kritischer Mängel in bestehenden Langkontext-Evaluierungen
- Methodische Innovation: Das Haystack-Engineering-Konzept füllt eine wichtige Evaluierungslücke
- Vollständiges Experimentdesign: Umfasst 15 Modelle, mehrere Abrufstrategien, statische und dynamische Einstellungen
- Hoher praktischer Wert: Bietet realistische Evaluierung für Langkontext-Herausforderungen praktischer RAG-Systeme
- Tiefe Einsichten: Offenlegung grundlegender Herausforderungen beim Agenten-Langkontext-Reasoning
- Hohe Rechenkosten: Großflächiges Wikipedia-Korpus und Multi-Modell-Evaluierung erfordern erhebliche Rechenressourcen
- Datenverschmutzungsrisiko: Trotz Minderungsmaßnahmen besteht gewisses Risiko bei Wikipedia-Basis
- Vereinfachte Agenten-Modellierung: Dynamische NIAH kann komplexes Agenten-Verhalten möglicherweise nicht vollständig erfassen
- Begrenzte Abrufer-Auswahl: Könnte mehr neueste Abrufmethoden berücksichtigen
- Akademischer Beitrag: Etabliert neue Standards und Methodologie für Langkontext-Evaluierung
- Praktische Anleitung: Bietet wichtige Einsichten für RAG-System-Optimierung
- Werkzeugwert: HaystackCraft wird zu wichtigem Evaluierungswerkzeug
- Forschungsimpuls: Eröffnet neue Forschungsrichtungen im Agenten-Langkontext-Reasoning
- RAG-System-Evaluierung: Evaluierung der Auswirkungen verschiedener Abrufstrategien auf Langkontext-Leistung
- Modellauswahl: Auswahl geeigneter Langkontext-Modelle für spezifische Anwendungsszenarien
- Agenten-Entwicklung: Evaluierung und Verbesserung der Langkontext-Reasoning-Fähigkeiten von Agenten
- Benchmark-Entwicklung: Bereitstellung von Methodologie für andere Forscher zur Konstruktion realistischer Langkontext-Benchmarks
Das Paper zitiert umfangreiche verwandte Arbeiten, hauptsächlich zu:
- Langkontext-Modellen und Evaluierungsbenchmarks
- Retrieval-Augmented Generation (RAG)-Systemen
- Mehrrunden-Dialog- und Agenten-Evaluierungsbenchmarks
- Graphneuralen Netzen und Informationsabruf-Methoden
Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier, das wichtige Probleme in der Langkontext-Evaluierung präzise identifiziert, innovative Lösungen vorschlägt und deren Wirksamkeit durch umfassende Experimente validiert. Der HaystackCraft-Benchmark wird erhebliche Auswirkungen auf die Evaluierung und Verbesserung von Langkontext-LLMs haben.