Modern long-context large language models (LLMs) perform well on synthetic "needle-in-a-haystack" (NIAH) benchmarks, but such tests overlook how noisy contexts arise from biased retrieval and agentic workflows. We argue that haystack engineering is necessary to construct noisy long contexts that faithfully capture key real-world factors -- distraction from heterogeneous biased retrievers and cascading errors in agentic workflows -- to test models' long-context robustness. We instantiate it through HaystackCraft, a new NIAH benchmark built on the full English Wikipedia hyperlink network with multi-hop questions. HaystackCraft evaluates how heterogeneous retrieval strategies (e.g., sparse, dense, hybrid, and graph-based) affect distractor composition, haystack ordering, and downstream LLM performance. HaystackCraft further extends NIAH to dynamic, LLM-dependent settings that simulate agentic operations, where models refine queries, reflect on their past reasonings, and decide when to stop. Experiments with 15 long-context models show that (1) while stronger dense retrievers can introduce more challenging distractors, graph-based reranking simultaneously improves retrieval effectiveness and mitigates more harmful distractors; (2) in agentic tests, even advanced models like Gemini 2.5 Pro and GPT-5 suffer cascading failures from self-generated distractors or struggle to perform early stops. These results highlight persistent challenges in agentic long-context reasoning and establish HaystackCraft as a valuable testbed for future progress.
- ID del Artículo: 2510.07414
- Título: Haystack Engineering: Context Engineering for Heterogeneous and Agentic Long-Context Evaluation
- Autores: Mufei Li, Dongqi Fu, Limei Wang, Si Zhang, Hanqing Zeng, Kaan Sancak, Ruizhong Qiu, Haoyu Wang, Xiaoxin He, Xavier Bresson, Yinglong Xia, Chonglin Sun, Pan Li
- Instituciones: Georgia Institute of Technology, Meta AI, University of Illinois Urbana-Champaign, National University of Singapore
- Clasificación: cs.CL, cs.AI, cs.IR
- Fecha de Publicación: Octubre de 2025 (Preprint)
- Enlace del Artículo: https://arxiv.org/abs/2510.07414
Los modelos de lenguaje grande de contexto largo moderno funcionan bien en puntos de referencia sintéticos de "búsqueda de aguja en un pajar" (NIAH), pero estas pruebas ignoran cómo el contexto ruidoso surge de la recuperación sesgada y los flujos de trabajo agénticos. Este artículo propone el concepto de ingeniería de haystack para construir contextos largos ruidosos que capturen fielmente factores clave de la realidad—interferencias de recuperadores sesgados heterogéneos y errores en cascada en flujos de trabajo agénticos—para probar la robustez del contexto largo del modelo. Los autores implementan este concepto a través de HaystackCraft, un nuevo punto de referencia NIAH construido sobre la red completa de hipervínculos de Wikipedia en inglés y preguntas de múltiples saltos. Los resultados experimentales muestran que incluso modelos avanzados como Gemini 2.5 Pro y GPT-5 sufren fallos en cascada en pruebas agénticas o tienen dificultades para ejecutar parada temprana.
Los puntos de referencia de evaluación de contexto largo existentes presentan una brecha significativa entre simulación y realidad:
- Limitaciones de los puntos de referencia sintéticos estáticos: Las pruebas NIAH tradicionales utilizan elementos de interferencia independientes de la consulta, mientras que el contexto largo en aplicaciones reales se construye a través de estrategias de recuperación como RAG, con características dependientes del recuperador.
- Ignorancia de la heterogeneidad de recuperación: Diferentes estrategias de recuperación (dispersa, densa, híbrida, basada en grafos) introducen diferentes tipos de elementos de interferencia, pero los puntos de referencia existentes no consideran el impacto de esta heterogeneidad en el rendimiento del modelo.
- Falta de evaluación dinámica de agentes: Los puntos de referencia existentes son estáticos, de una sola ronda e independientes del LLM, incapaces de evaluar problemas de errores en cascada en la ingeniería de contexto de agentes.
Los autores argumentan que se necesita "ingeniería de haystack" para construir contextos largos ruidosos realistas que simulen fielmente la complejidad y patrones de fallo en aplicaciones reales. Esto contrasta con la "ingeniería de contexto": la última busca condiciones óptimas, mientras que la primera enfatiza la construcción fiel del haystack.
- Propuesta del concepto de ingeniería de haystack: Primer estudio sistemático del impacto de estrategias de recuperación en la evaluación de contexto largo, reformulando el problema NIAH desde la perspectiva de RAG.
- Construcción del punto de referencia HaystackCraft:
- Basado en la red completa de hipervínculos de Wikipedia en inglés (6,954,909 artículos, 97,442,472 hipervínculos)
- Incluye tareas de preguntas y respuestas de múltiples saltos, apoyando evaluación de estrategias de recuperación heterogéneas
- Primer entorno de prueba NIAH dinámico, multironda y dependiente del LLM
- Evaluación exhaustiva de recuperación heterogénea: Evaluación sistemática de estrategias de recuperación dispersa (BM25), densa (Qwen3-Embedding), híbrida y basada en grafos (PPR) sobre la composición de elementos de interferencia y el rendimiento del modelo.
- Revelación de desafíos de contexto largo agéntico: A través de pruebas NIAH dinámicas, se descubre que incluso modelos avanzados son propensos a fallos en cascada en flujos de trabajo agénticos, y los modelos son más robustos a la "amplitud" (contexto largo) que a la "profundidad" (iteraciones de razonamiento).
Reformulación del problema NIAH desde la perspectiva de RAG:
- Dado un corpus de documentos D y una consulta q
- Conjunto de documentos de apoyo verdaderos Nq ⊂ D (agujas)
- Estrategia de recuperación R que califica y ordena todos los documentos en D
- Construcción del haystack H^R_q(S): contiene todos los documentos de aguja y elementos de interferencia de mayor rango, totalizando S tokens
- Recuperación Dispersa (BM25): Método clásico basado en similitud léxica
- Recuperación Densa (Qwen3-Embedding-0.6B): Captura similitud semántica
- Recuperación Híbrida: Utiliza fusión de rango recíproco (RRF) combinando recuperación dispersa y densa
- Reordenamiento Basado en Grafos: Utiliza PageRank Personalizado (PPR) integrando información estructural
- Ordenamiento por Recuperador: Ordenado por puntuación de recuperación (configuración RAG realista)
- Ordenamiento Aleatorio: Disposición aleatoria (diagnóstico de sesgo de posición)
Extensión de NIAH estático para soportar interacción multironda:
- Refinamiento de consulta: Optimización de consulta basada en resultados de recuperación
- Autorreflexión: Resumen de análisis previos
- Decisión de parada: Determinación de cuándo terminar el razonamiento
- Multironda Forzada: Número fijo de rondas de razonamiento, prueba de robustez ante errores en cascada
- Rondas Variables: El modelo decide autónomamente cuándo parar, prueba de capacidad de parada temprana
- Mapeo de Composición Recuperador-Interferencia: Primer estudio sistemático de cómo diferentes estrategias de recuperación moldean características de elementos de interferencia
- Utilización de Estructura de Grafos: Modelado de QA de múltiples saltos como problema de identificación de "subgrafo de aguja"
- Ingeniería de Contexto Dinámico: Nuevo paradigma de evaluación donde el LLM es tanto razonador como fuente de interferencia
- Análisis de Amplitud vs Profundidad: Distinción entre impacto de "amplitud" de contexto largo y "profundidad" de razonamiento
- Corpus: Volcado de Wikipedia en inglés del 04-04-2025, utilizando artículos completos como unidades de recuperación
- Conjunto de Datos QA:
- Natural Questions (NQ): Preguntas de un solo salto
- MuSiQue: Preguntas de múltiples saltos (máximo 4 documentos de apoyo)
- Filtrado manual, 500 muestras de alta calidad finales
Evaluación de 15 LLM de contexto largo:
- Modelos de Razonamiento: Serie Qwen3, Gemini 2.5 Flash-Lite, o4-mini
- Modelos Generales: GPT-4.1 mini, serie Llama-3.1, Qwen2.5-1M, serie Gemma 3
- Modelos de Nivel Superior: Gemini 2.5 Pro, GPT-5 (pruebas dinámicas)
- Efectividad de Recuperación: Recall@N, NDCG@N
- Rendimiento QA: Puntuación F1
- Tamaño de Contexto: 8K, 16K, 32K, 64K, 128K tokens
- Uso del tokenizador Qwen2.5-1M para conteo uniforme de tokens
- Hiperparámetros PPR optimizados mediante búsqueda en cuadrícula
- Uso de vLLM para aceleración de inferencia
- Recuperación Densa Más Desafiante: En 11/12 casos, recuperadores densos introducen elementos de interferencia más difíciles que recuperadores dispersos
- Recuperación Híbrida No Necesariamente Más Difícil: A pesar de mejor efectividad de recuperación, no introduce necesariamente elementos de interferencia más desafiantes
- Reordenamiento Basado en Grafos Doble Beneficio: Mejora simultáneamente la efectividad de recuperación y mitiga elementos de interferencia dañinos, con mejora de rendimiento NIAH de hasta 44%
- Altamente Correlacionado con Modelo: Respuestas de diferentes modelos al ordenamiento por recuperador varían enormemente
- Algunos Modelos Beneficiados Significativamente: Series Gemma-3 y Qwen2.5-1M obtienen beneficios significativos e incrementales del ordenamiento por recuperador
- Necesidad de Evaluación: Necesario evaluar simultáneamente ordenamiento por recuperador y ordenamiento aleatorio para comprensión integral del comportamiento del modelo
Resultados de Multironda Forzada:
- Todos los modelos (incluyendo GPT-5, Gemini 2.5 Pro) son propensos a errores en cascada
- El rendimiento se deteriora con rondas adicionales, iteraciones adicionales a menudo amplifican errores tempranos
- El rendimiento NIAH estático no puede predecir robustez multironda
Resultados de Rondas Variables:
- Ningún modelo puede mejorar confiablemente el rendimiento de una sola ronda
- GPT-5 muestra el mejor desempeño relativo pero aún no convierte razonamiento multironda en mejora sostenida
- Los modelos carecen generalmente de mecanismos efectivos de parada temprana
- BM25: 58.73% → BM25+PPR: 66.58% (+7.85%)
- Qwen3-0.6B: 61.43% → +PPR: 74.28% (+12.85%)
- Hybrid: 67.2% → +PPR: 76.55% (+9.35%)
- Llama-3.1-70B: 25.11% → 36.22% (+44% mejora)
- GPT-4.1 mini: 58.27% → 62.09%
- Gemini 2.5 Flash-Lite: 62.78% → 66.07%
Identificación de tres patrones de fallo principales mediante estudios de caso:
- Propagación de Error en Cascada: Errores tempranos amplificados a través de refinamiento de consulta y resumen
- Desviación de Intención de Consulta: Cambio de naturaleza o forma del problema original
- Desafío de Contexto Largo Persistente: Dificultad continua en localizar información relevante incluso en configuraciones multironda
- NIAH Clásico: Prueba de aguja única de Kamradt (2023)
- Versiones Extendidas: LV-Eval, RULER, BABILong y otros extendieron tipos de preguntas y corpus
- HELMET: Primer uso de recuperación densa para construir elementos de interferencia, pero falta consideración de heterogeneidad
- Limitaciones: Todos los puntos de referencia existentes utilizan contexto estático e independiente del LLM
- Evaluación de Diálogo: MT-bench y trabajos posteriores enfocados en diálogo multironda
- Puntos de Referencia de Agentes: AgentBench y otros introducen tareas agénticas multironda
- Diferencia: Trabajos existentes no estudian desafíos de contexto largo conjunto de "amplitud" y "profundidad"
- La Estrategia de Recuperación es Crítica: Diferentes métodos de recuperación impactan significativamente la dificultad y realismo de la evaluación de contexto largo
- La Estructura de Grafos es Efectiva: Reordenamiento PPR mejora simultáneamente efectividad de recuperación y rendimiento del modelo
- Desafíos Agénticos No Resueltos: Incluso los modelos más avanzados permanecen frágiles en razonamiento dinámico de contexto largo
- Amplitud vs Profundidad: Los modelos son más robustos a "amplitud" de contexto largo que a "profundidad" de razonamiento
- Restricción de Corpus: Basado únicamente en Wikipedia en inglés, puede limitar generalización
- Enfoque en Tareas QA: Principalmente enfocado en tareas de preguntas y respuestas, cobertura limitada de otras aplicaciones de contexto largo
- Selección de Estrategia de Recuperación: Aunque cubre categorías principales, no agota todos los métodos de recuperación posibles
- Simplificación de Configuración Dinámica: Modelado de operaciones de agentes relativamente simple, puede no reflejar completamente sistemas de agentes complejos
- Expansión de Corpus: Apoyo para evaluación multilingüe y multidisciplinaria
- Agentes Más Complejos: Integración de uso de herramientas, acceso a bases de conocimiento externas, etc.
- Estrategias Adaptativas: Desarrollo de estrategias de recuperación que se ajusten dinámicamente según el contexto
- Análisis Teórico: Comprensión profunda de por qué ciertas estrategias de recuperación introducen elementos de interferencia más difíciles
- Identificación de Problema Precisa: Identificación precisa de deficiencias clave en evaluación de contexto largo existente
- Innovación Metodológica: El concepto de ingeniería de haystack llena un vacío importante en evaluación
- Diseño Experimental Completo: Cubre 15 modelos, múltiples estrategias de recuperación, configuraciones estáticas y dinámicas
- Alto Valor Práctico: Proporciona evaluación realista de desafíos de contexto largo en sistemas RAG reales
- Perspectivas Profundas: Revela desafíos fundamentales en razonamiento de contexto largo agéntico
- Costo Computacional Alto: Corpus de Wikipedia a gran escala y evaluación multismodelo requieren recursos computacionales sustanciales
- Riesgo de Contaminación de Datos: A pesar de medidas de mitigación, el uso de Wikipedia conlleva cierto riesgo
- Simplificación de Modelado de Agentes: NIAH dinámico puede no capturar completamente comportamiento de agentes complejos
- Selección de Recuperador Limitada: Podría considerarse más métodos de recuperación contemporáneos
- Contribución Académica: Establece nuevos estándares y metodología para evaluación de contexto largo
- Orientación Práctica: Proporciona perspectivas importantes para optimización de sistemas RAG
- Valor de Herramienta: HaystackCraft se convertirá en herramienta de evaluación importante
- Inspiración de Investigación: Abre nuevas direcciones de investigación en razonamiento de contexto largo agéntico
- Evaluación de Sistemas RAG: Evaluación del impacto de diferentes estrategias de recuperación en rendimiento de contexto largo
- Selección de Modelos: Selección de modelos de contexto largo apropiados para escenarios de aplicación específicos
- Desarrollo de Agentes: Evaluación y mejora de capacidades de razonamiento de contexto largo de agentes
- Desarrollo de Puntos de Referencia: Proporciona metodología para que otros investigadores construyan puntos de referencia de contexto largo realistas
El artículo cita extensamente trabajos relacionados, incluyendo principalmente:
- Trabajos relacionados con modelos de contexto largo y puntos de referencia de evaluación
- Investigación en sistemas de generación aumentada por recuperación (RAG)
- Puntos de referencia de diálogo multironda y evaluación de agentes
- Métodos de redes neuronales de grafos y recuperación de información
Evaluación General: Este es un artículo de investigación de alta calidad que identifica con precisión problemas importantes en evaluación de contexto largo, propone soluciones innovadoras y valida la efectividad del método mediante experimentación exhaustiva. El punto de referencia HaystackCraft tendrá un impacto importante en la evaluación y mejora de LLM de contexto largo.