2025-11-25T18:49:17.995403

Haystack Engineering: Context Engineering for Heterogeneous and Agentic Long-Context Evaluation

Li, Fu, Wang et al.

Modern long-context large language models (LLMs) perform well on synthetic "needle-in-a-haystack" (NIAH) benchmarks, but such tests overlook how noisy contexts arise from biased retrieval and agentic workflows. We argue that haystack engineering is necessary to construct noisy long contexts that faithfully capture key real-world factors -- distraction from heterogeneous biased retrievers and cascading errors in agentic workflows -- to test models' long-context robustness. We instantiate it through HaystackCraft, a new NIAH benchmark built on the full English Wikipedia hyperlink network with multi-hop questions. HaystackCraft evaluates how heterogeneous retrieval strategies (e.g., sparse, dense, hybrid, and graph-based) affect distractor composition, haystack ordering, and downstream LLM performance. HaystackCraft further extends NIAH to dynamic, LLM-dependent settings that simulate agentic operations, where models refine queries, reflect on their past reasonings, and decide when to stop. Experiments with 15 long-context models show that (1) while stronger dense retrievers can introduce more challenging distractors, graph-based reranking simultaneously improves retrieval effectiveness and mitigates more harmful distractors; (2) in agentic tests, even advanced models like Gemini 2.5 Pro and GPT-5 suffer cascading failures from self-generated distractors or struggle to perform early stops. These results highlight persistent challenges in agentic long-context reasoning and establish HaystackCraft as a valuable testbed for future progress.

academic

Ingénierie Haystack : Ingénierie du Contexte pour l'Évaluation Longue Contexte Hétérogène et Agentive

Informations Fondamentales

ID de l'article : 2510.07414
Titre : Haystack Engineering: Context Engineering for Heterogeneous and Agentic Long-Context Evaluation
Auteurs : Mufei Li, Dongqi Fu, Limei Wang, Si Zhang, Hanqing Zeng, Kaan Sancak, Ruizhong Qiu, Haoyu Wang, Xiaoxin He, Xavier Bresson, Yinglong Xia, Chonglin Sun, Pan Li
Institutions : Georgia Institute of Technology, Meta AI, University of Illinois Urbana-Champaign, National University of Singapore
Classification : cs.CL, cs.AI, cs.IR
Date de publication : Octobre 2025 (Prépublication)
Lien de l'article : https://arxiv.org/abs/2510.07414

Résumé

Les modèles de langage de grande taille modernes avec long contexte performent bien sur les benchmarks synthétiques « Aiguille dans une Meule de Foin » (NIAH), mais ces tests ignorent comment le contexte bruyant émerge de la récupération biaisée et des flux de travail agentifs. Cet article propose le concept d'ingénierie haystack pour construire des contextes longs bruyants qui capturent fidèlement les facteurs réalistes clés — les interférences provenant de récupérateurs biaisés hétérogènes et les erreurs en cascade dans les flux de travail agentifs — afin de tester la robustesse du contexte long des modèles. Les auteurs implémentent ce concept via HaystackCraft, un nouveau benchmark NIAH construit sur le réseau complet de liens hypertextes de Wikipédia en anglais et des questions multi-sauts. Les résultats expérimentaux montrent que même les modèles avancés comme Gemini 2.5 Pro et GPT-5 souffrent d'échecs en cascade dans les tests agentifs ou ont du mal à exécuter l'arrêt précoce.

Contexte de Recherche et Motivation

Problèmes Fondamentaux

Les benchmarks d'évaluation du contexte long existants présentent un écart significatif entre la simulation et la réalité :

Limitations des benchmarks synthétiques statiques : Les tests NIAH traditionnels utilisent des éléments de distraction indépendants des requêtes, tandis que les contextes longs dans les applications réelles sont construits via des stratégies de récupération comme RAG, avec des caractéristiques dépendantes du récupérateur.
Négligence de l'hétérogénéité de la récupération : Différentes stratégies de récupération (creuse, dense, hybride, basée sur graphe) introduisent différents types d'éléments de distraction, mais les benchmarks existants ne considèrent pas cet impact sur la performance du modèle.
Absence d'évaluation agentive dynamique : Les benchmarks existants sont tous statiques, unilatéraux et indépendants du LLM, incapables d'évaluer les problèmes d'erreurs en cascade dans l'ingénierie du contexte agentif.

Motivation de la Recherche

Les auteurs estiment qu'il est nécessaire d'avoir une « ingénierie haystack » pour construire des contextes longs bruyants réalistes, afin de modéliser fidèlement la complexité et les modes de défaillance des applications réelles. Ceci contraste avec l'« ingénierie du contexte » : cette dernière recherche des conditions optimales, tandis que la première met l'accent sur la construction fidèle de la meule de foin.

Contributions Fondamentales

Proposition du concept d'ingénierie haystack : Première étude systématique de l'impact des stratégies de récupération sur l'évaluation du contexte long, reformulation du problème NIAH sous l'angle RAG.
Construction du benchmark HaystackCraft :
- Basé sur le réseau complet de liens hypertextes de Wikipédia en anglais (6 954 909 articles, 97 442 472 hyperliens)
- Inclut des tâches de questions-réponses multi-sauts, supportant l'évaluation de stratégies de récupération hétérogènes
- Premier environnement de test NIAH dynamique, multi-tour et dépendant du LLM
Évaluation complète de la récupération hétérogène : Évaluation systématique des stratégies de récupération creuse (BM25), dense (Qwen3-Embedding), hybride et basée sur graphe (PPR) sur la composition des éléments de distraction et la performance du modèle.
Révélation des défis du contexte long agentif : Découverte via les tests NIAH dynamiques que même les modèles avancés sont sujets aux erreurs en cascade dans les flux de travail agentifs, et que les modèles sont plus robustes à la « largeur » (contexte long) qu'à la « profondeur » (itérations de raisonnement).

Détails Méthodologiques

Définition de la Tâche

Reformulation du problème NIAH sous l'angle RAG :

Étant donné un corpus de documents D et une requête q
Ensemble de documents de support véritables Nq ⊂ D (aiguilles)
Stratégie de récupération R classant tous les documents de D
Construction de la meule de foin H^R_q(S) : contenant tous les documents aiguilles et les éléments de distraction les mieux classés, totalisant S tokens

Évaluation NIAH Statique

Stratégies de Récupération Hétérogènes

Récupération creuse (BM25) : Méthode classique basée sur la similarité lexicale
Récupération dense (Qwen3-Embedding-0.6B) : Capture la similarité sémantique
Récupération hybride : Combine récupération creuse et dense via fusion par rang réciproque (RRF)
Réordonnancement basé sur graphe : Utilise PageRank personnalisé (PPR) intégrant l'information structurelle

Stratégies de Classement de la Meule de Foin

Classement par récupérateur : Classement par score de récupération (paramètre RAG réaliste)
Classement aléatoire : Arrangement aléatoire (diagnostic du biais de position)

Évaluation NIAH Dynamique

Modélisation des Opérations Agentives

Extension du NIAH statique pour supporter les interactions multi-tour :

Affinage de requête : Optimisation de la requête selon les résultats de récupération
Auto-réflexion : Résumé de l'analyse antérieure
Décision d'arrêt : Détermination du moment d'arrêt du raisonnement

Deux Paramètres Dynamiques

Multi-tour forcé : Nombre d'itérations de raisonnement fixe, test de robustesse aux erreurs en cascade
Nombre de tours variable : Le modèle décide autonomiquement du moment d'arrêt, test de la capacité d'arrêt précoce

Points d'Innovation Technique

Cartographie composition récupérateur-éléments de distraction : Première étude systématique de la façon dont différentes stratégies de récupération façonnent les caractéristiques des éléments de distraction
Utilisation de la structure graphique : Modélisation des QA multi-sauts comme problème d'identification de « sous-graphe d'aiguilles »
Ingénierie du contexte dynamique : Nouveau paradigme d'évaluation où le LLM est à la fois raisonneur et source de distraction
Analyse largeur vs profondeur : Distinction entre l'impact de la « largeur » du contexte long et de la « profondeur » du raisonnement

Configuration Expérimentale

Ensemble de Données

Corpus : Dump de Wikipédia en anglais du 2025-04-04, utilisant les articles complets comme unités de récupération
Ensemble de données QA :
- Natural Questions (NQ) : Questions unilatérales
- MuSiQue : Questions multi-sauts (jusqu'à 4 documents de support)
- Filtrage manuel, 500 échantillons de haute qualité finaux

Couverture des Modèles

Évaluation de 15 LLM avec contexte long :

Modèles de raisonnement : Série Qwen3, Gemini 2.5 Flash-Lite, o4-mini
Modèles généraux : GPT-4.1 mini, série Llama-3.1, Qwen2.5-1M, série Gemma 3
Modèles de pointe : Gemini 2.5 Pro, GPT-5 (tests dynamiques)

Métriques d'Évaluation

Performance de récupération : Recall@N, NDCG@N
Performance QA : Score F1
Taille du contexte : 8K, 16K, 32K, 64K, 128K tokens

Détails d'Implémentation

Utilisation du tokeniseur Qwen2.5-1M pour le comptage uniforme des tokens
Hyperparamètres PPR optimisés via recherche en grille
Utilisation de vLLM pour l'accélération de l'inférence

Résultats Expérimentaux

Découvertes Principales

1. L'Impact Significatif de la Stratégie de Récupération sur la Difficulté de la Meule de Foin

La récupération dense est plus difficile : Dans 11/12 cas, les récupérateurs denses introduisent des éléments de distraction plus difficiles que les récupérateurs creux
La récupération hybride n'est pas nécessairement plus difficile : Bien que la performance de récupération soit meilleure, elle n'introduit pas nécessairement des éléments de distraction plus difficiles
Double bénéfice du réordonnancement basé sur graphe : Améliore à la fois la performance de récupération et atténue les éléments de distraction nuisibles, avec une amélioration de performance NIAH jusqu'à 44%

2. Effet Dépendant du Modèle du Classement de la Meule de Foin

Hautement corrélé au modèle : Les différences de réponse des modèles au classement par récupérateur sont énormes
Bénéfice significatif pour certains modèles : Les séries Gemma-3 et Qwen2.5-1M bénéficient significativement et progressivement du classement par récupérateur
Nécessité d'évaluation : Évaluation simultanée du classement par récupérateur et du classement aléatoire pour une compréhension complète du comportement du modèle

3. NIAH Dynamique Révèle la Fragilité Agentive

Résultats multi-tour forcés :

Tous les modèles (y compris GPT-5 et Gemini 2.5 Pro) sont sujets aux erreurs en cascade
La performance se détériore avec l'augmentation du nombre de tours, les itérations supplémentaires amplifiant souvent les erreurs précoces
La performance NIAH statique ne peut pas prédire la robustesse multi-tour

Résultats multi-tour variable :

Aucun modèle ne peut améliorer de manière fiable la performance unilatérale
GPT-5 affiche les meilleures performances relatives mais ne peut toujours pas convertir le raisonnement multi-tour en amélioration continue
Les modèles manquent généralement de mécanismes d'arrêt précoce efficaces

Résultats Numériques Spécifiques

Performance de Récupération (Recall@160)

BM25 : 58,73% → BM25+PPR : 66,58% (+7,85%)
Qwen3-0.6B : 61,43% → +PPR : 74,28% (+12,85%)
Hybride : 67,2% → +PPR : 76,55% (+9,35%)

Exemple de Performance NIAH (contexte 128K, Hybride+PPR)

Llama-3.1-70B : 25,11% → 36,22% (+44% d'amélioration)
GPT-4.1 mini : 58,27% → 62,09%
Gemini 2.5 Flash-Lite : 62,78% → 66,07%

Analyse des Modes de Défaillance

Identification de trois modes de défaillance principaux via études de cas :

Propagation d'erreurs en cascade : Les erreurs précoces sont amplifiées via l'affinage de requête et les résumés
Déviation de l'intention de requête : Modification de la nature ou de la forme de la question originale
Persistance des défis du contexte long : Difficulté continue à localiser les informations pertinentes même dans les paramètres multi-tour

Travaux Connexes

Benchmarks de Contexte Long

NIAH classique : Test d'aiguille unique de Kamradt (2023)
Versions étendues : LV-Eval, RULER, BABILong et autres étendant les types de questions et corpus
HELMET : Première utilisation de récupération dense pour construire des éléments de distraction, mais manquant de considération d'hétérogénéité
Limitations : Tous les benchmarks existants utilisent des contextes statiques et indépendants du LLM

Benchmarks Multi-tour

Évaluation de dialogue : MT-bench et travaux ultérieurs se concentrant sur le dialogue multi-tour
Benchmarks agentifs : AgentBench et autres introduisant des tâches agentives multi-tour
Différence : Les travaux existants n'étudient pas les défis du contexte long combinés de « largeur » et « profondeur »

Conclusion et Discussion

Conclusions Principales

La stratégie de récupération est cruciale : Différentes méthodes de récupération affectent significativement la difficulté et la réalité de l'évaluation du contexte long
L'efficacité de la structure graphique : Le réordonnancement PPR améliore à la fois la performance de récupération et celle du modèle
Les défis agentifs restent non résolus : Même les modèles les plus avancés restent fragiles dans le raisonnement dynamique du contexte long
Largeur vs profondeur : Les modèles sont plus robustes à la « largeur » du contexte long qu'à la « profondeur » du raisonnement

Limitations

Limitation du corpus : Basé uniquement sur Wikipédia en anglais, peut limiter la généralisation
Focus sur les tâches QA : Principalement concentré sur les tâches de questions-réponses, couverture limitée d'autres applications du contexte long
Choix de stratégies de récupération : Bien que couvrant les catégories principales, n'épuise pas toutes les méthodes de récupération possibles
Simplification des paramètres dynamiques : La modélisation des opérations agentives est relativement simple, peut ne pas refléter complètement les systèmes agentifs complexes

Directions Futures

Extension du corpus : Support pour l'évaluation multilingue et multi-domaine
Agents plus complexes : Intégration de l'utilisation d'outils, accès à des bases de connaissances externes, etc.
Stratégies adaptatives : Développement de stratégies de récupération pouvant s'adapter dynamiquement au contexte
Analyse théorique : Compréhension approfondie de pourquoi certaines stratégies de récupération introduisent des éléments de distraction plus difficiles

Évaluation Approfondie

Points Forts

Identification précise du problème : Identification exacte des défauts clés dans l'évaluation existante du contexte long
Innovation méthodologique : Le concept d'ingénierie haystack comble un vide d'évaluation important
Conception expérimentale complète : Couvre 15 modèles, plusieurs stratégies de récupération, paramètres statiques et dynamiques
Valeur pratique élevée : Fournit une évaluation réaliste des défis du contexte long dans les systèmes RAG réels
Insights profonds : Révèle les défis fondamentaux du raisonnement du contexte long agentif

Insuffisances

Coût computationnel élevé : Le grand corpus Wikipédia et l'évaluation multi-modèles nécessitent d'importantes ressources de calcul
Risque de contamination des données : Bien que des mesures d'atténuation existent, l'utilisation de Wikipédia présente un certain risque
Simplification de la modélisation agentive : Le NIAH dynamique peut ne pas capturer complètement le comportement agentif complexe
Choix de récupérateurs limités : Pourrait considérer plus de méthodes de récupération récentes

Impact

Contribution académique : Établit de nouvelles normes et méthodologies pour l'évaluation du contexte long
Orientation pratique : Fournit des insights importants pour l'optimisation des systèmes RAG
Valeur d'outil : HaystackCraft deviendra un outil d'évaluation important
Inspiration de recherche : Ouvre de nouvelles directions de recherche pour le raisonnement du contexte long agentif

Scénarios Applicables

Évaluation des systèmes RAG : Évaluation de l'impact de différentes stratégies de récupération sur la performance du contexte long
Sélection de modèles : Sélection de modèles de contexte long appropriés pour des scénarios d'application spécifiques
Développement agentif : Évaluation et amélioration de la capacité de raisonnement du contexte long des agents
Développement de benchmarks : Fournit une méthodologie aux autres chercheurs pour construire des benchmarks réalistes du contexte long

Références

L'article cite de nombreux travaux connexes, incluant principalement :

Travaux connexes sur les modèles et benchmarks de contexte long
Recherche sur les systèmes de génération augmentée par récupération (RAG)
Benchmarks de dialogue multi-tour et d'évaluation agentive
Méthodes de réseaux de neurones graphiques et de récupération d'information

Évaluation globale : Ceci est un article de recherche de haute qualité qui identifie précisément les problèmes importants dans l'évaluation du contexte long, propose des solutions innovantes et valide l'efficacité de la méthode par des expériences complètes. Le benchmark HaystackCraft aura un impact important sur l'évaluation et l'amélioration des LLM avec contexte long.