2025-11-25T18:49:17.995403

Haystack Engineering: Context Engineering for Heterogeneous and Agentic Long-Context Evaluation

Li, Fu, Wang et al.
Modern long-context large language models (LLMs) perform well on synthetic "needle-in-a-haystack" (NIAH) benchmarks, but such tests overlook how noisy contexts arise from biased retrieval and agentic workflows. We argue that haystack engineering is necessary to construct noisy long contexts that faithfully capture key real-world factors -- distraction from heterogeneous biased retrievers and cascading errors in agentic workflows -- to test models' long-context robustness. We instantiate it through HaystackCraft, a new NIAH benchmark built on the full English Wikipedia hyperlink network with multi-hop questions. HaystackCraft evaluates how heterogeneous retrieval strategies (e.g., sparse, dense, hybrid, and graph-based) affect distractor composition, haystack ordering, and downstream LLM performance. HaystackCraft further extends NIAH to dynamic, LLM-dependent settings that simulate agentic operations, where models refine queries, reflect on their past reasonings, and decide when to stop. Experiments with 15 long-context models show that (1) while stronger dense retrievers can introduce more challenging distractors, graph-based reranking simultaneously improves retrieval effectiveness and mitigates more harmful distractors; (2) in agentic tests, even advanced models like Gemini 2.5 Pro and GPT-5 suffer cascading failures from self-generated distractors or struggle to perform early stops. These results highlight persistent challenges in agentic long-context reasoning and establish HaystackCraft as a valuable testbed for future progress.
academic

Ingeniería de Haystack: Ingeniería de Contexto para Evaluación de Contexto Largo Heterogéneo y Agéntico

Información Básica

  • ID del Artículo: 2510.07414
  • Título: Haystack Engineering: Context Engineering for Heterogeneous and Agentic Long-Context Evaluation
  • Autores: Mufei Li, Dongqi Fu, Limei Wang, Si Zhang, Hanqing Zeng, Kaan Sancak, Ruizhong Qiu, Haoyu Wang, Xiaoxin He, Xavier Bresson, Yinglong Xia, Chonglin Sun, Pan Li
  • Instituciones: Georgia Institute of Technology, Meta AI, University of Illinois Urbana-Champaign, National University of Singapore
  • Clasificación: cs.CL, cs.AI, cs.IR
  • Fecha de Publicación: Octubre de 2025 (Preprint)
  • Enlace del Artículo: https://arxiv.org/abs/2510.07414

Resumen

Los modelos de lenguaje grande de contexto largo moderno funcionan bien en puntos de referencia sintéticos de "búsqueda de aguja en un pajar" (NIAH), pero estas pruebas ignoran cómo el contexto ruidoso surge de la recuperación sesgada y los flujos de trabajo agénticos. Este artículo propone el concepto de ingeniería de haystack para construir contextos largos ruidosos que capturen fielmente factores clave de la realidad—interferencias de recuperadores sesgados heterogéneos y errores en cascada en flujos de trabajo agénticos—para probar la robustez del contexto largo del modelo. Los autores implementan este concepto a través de HaystackCraft, un nuevo punto de referencia NIAH construido sobre la red completa de hipervínculos de Wikipedia en inglés y preguntas de múltiples saltos. Los resultados experimentales muestran que incluso modelos avanzados como Gemini 2.5 Pro y GPT-5 sufren fallos en cascada en pruebas agénticas o tienen dificultades para ejecutar parada temprana.

Antecedentes de Investigación y Motivación

Problema Central

Los puntos de referencia de evaluación de contexto largo existentes presentan una brecha significativa entre simulación y realidad:

  1. Limitaciones de los puntos de referencia sintéticos estáticos: Las pruebas NIAH tradicionales utilizan elementos de interferencia independientes de la consulta, mientras que el contexto largo en aplicaciones reales se construye a través de estrategias de recuperación como RAG, con características dependientes del recuperador.
  2. Ignorancia de la heterogeneidad de recuperación: Diferentes estrategias de recuperación (dispersa, densa, híbrida, basada en grafos) introducen diferentes tipos de elementos de interferencia, pero los puntos de referencia existentes no consideran el impacto de esta heterogeneidad en el rendimiento del modelo.
  3. Falta de evaluación dinámica de agentes: Los puntos de referencia existentes son estáticos, de una sola ronda e independientes del LLM, incapaces de evaluar problemas de errores en cascada en la ingeniería de contexto de agentes.

Motivación de la Investigación

Los autores argumentan que se necesita "ingeniería de haystack" para construir contextos largos ruidosos realistas que simulen fielmente la complejidad y patrones de fallo en aplicaciones reales. Esto contrasta con la "ingeniería de contexto": la última busca condiciones óptimas, mientras que la primera enfatiza la construcción fiel del haystack.

Contribuciones Principales

  1. Propuesta del concepto de ingeniería de haystack: Primer estudio sistemático del impacto de estrategias de recuperación en la evaluación de contexto largo, reformulando el problema NIAH desde la perspectiva de RAG.
  2. Construcción del punto de referencia HaystackCraft:
    • Basado en la red completa de hipervínculos de Wikipedia en inglés (6,954,909 artículos, 97,442,472 hipervínculos)
    • Incluye tareas de preguntas y respuestas de múltiples saltos, apoyando evaluación de estrategias de recuperación heterogéneas
    • Primer entorno de prueba NIAH dinámico, multironda y dependiente del LLM
  3. Evaluación exhaustiva de recuperación heterogénea: Evaluación sistemática de estrategias de recuperación dispersa (BM25), densa (Qwen3-Embedding), híbrida y basada en grafos (PPR) sobre la composición de elementos de interferencia y el rendimiento del modelo.
  4. Revelación de desafíos de contexto largo agéntico: A través de pruebas NIAH dinámicas, se descubre que incluso modelos avanzados son propensos a fallos en cascada en flujos de trabajo agénticos, y los modelos son más robustos a la "amplitud" (contexto largo) que a la "profundidad" (iteraciones de razonamiento).

Explicación Detallada del Método

Definición de Tarea

Reformulación del problema NIAH desde la perspectiva de RAG:

  • Dado un corpus de documentos D y una consulta q
  • Conjunto de documentos de apoyo verdaderos Nq ⊂ D (agujas)
  • Estrategia de recuperación R que califica y ordena todos los documentos en D
  • Construcción del haystack H^R_q(S): contiene todos los documentos de aguja y elementos de interferencia de mayor rango, totalizando S tokens

Evaluación NIAH Estática

Estrategias de Recuperación Heterogéneas

  1. Recuperación Dispersa (BM25): Método clásico basado en similitud léxica
  2. Recuperación Densa (Qwen3-Embedding-0.6B): Captura similitud semántica
  3. Recuperación Híbrida: Utiliza fusión de rango recíproco (RRF) combinando recuperación dispersa y densa
  4. Reordenamiento Basado en Grafos: Utiliza PageRank Personalizado (PPR) integrando información estructural

Estrategias de Ordenamiento de Haystack

  • Ordenamiento por Recuperador: Ordenado por puntuación de recuperación (configuración RAG realista)
  • Ordenamiento Aleatorio: Disposición aleatoria (diagnóstico de sesgo de posición)

Evaluación NIAH Dinámica

Modelado de Operaciones de Agentes

Extensión de NIAH estático para soportar interacción multironda:

  • Refinamiento de consulta: Optimización de consulta basada en resultados de recuperación
  • Autorreflexión: Resumen de análisis previos
  • Decisión de parada: Determinación de cuándo terminar el razonamiento

Dos Configuraciones Dinámicas

  1. Multironda Forzada: Número fijo de rondas de razonamiento, prueba de robustez ante errores en cascada
  2. Rondas Variables: El modelo decide autónomamente cuándo parar, prueba de capacidad de parada temprana

Puntos de Innovación Técnica

  1. Mapeo de Composición Recuperador-Interferencia: Primer estudio sistemático de cómo diferentes estrategias de recuperación moldean características de elementos de interferencia
  2. Utilización de Estructura de Grafos: Modelado de QA de múltiples saltos como problema de identificación de "subgrafo de aguja"
  3. Ingeniería de Contexto Dinámico: Nuevo paradigma de evaluación donde el LLM es tanto razonador como fuente de interferencia
  4. Análisis de Amplitud vs Profundidad: Distinción entre impacto de "amplitud" de contexto largo y "profundidad" de razonamiento

Configuración Experimental

Conjunto de Datos

  • Corpus: Volcado de Wikipedia en inglés del 04-04-2025, utilizando artículos completos como unidades de recuperación
  • Conjunto de Datos QA:
    • Natural Questions (NQ): Preguntas de un solo salto
    • MuSiQue: Preguntas de múltiples saltos (máximo 4 documentos de apoyo)
    • Filtrado manual, 500 muestras de alta calidad finales

Cobertura de Modelos

Evaluación de 15 LLM de contexto largo:

  • Modelos de Razonamiento: Serie Qwen3, Gemini 2.5 Flash-Lite, o4-mini
  • Modelos Generales: GPT-4.1 mini, serie Llama-3.1, Qwen2.5-1M, serie Gemma 3
  • Modelos de Nivel Superior: Gemini 2.5 Pro, GPT-5 (pruebas dinámicas)

Métricas de Evaluación

  • Efectividad de Recuperación: Recall@N, NDCG@N
  • Rendimiento QA: Puntuación F1
  • Tamaño de Contexto: 8K, 16K, 32K, 64K, 128K tokens

Detalles de Implementación

  • Uso del tokenizador Qwen2.5-1M para conteo uniforme de tokens
  • Hiperparámetros PPR optimizados mediante búsqueda en cuadrícula
  • Uso de vLLM para aceleración de inferencia

Resultados Experimentales

Hallazgos Principales

1. La Estrategia de Recuperación Impacta Significativamente la Dificultad del Haystack

  • Recuperación Densa Más Desafiante: En 11/12 casos, recuperadores densos introducen elementos de interferencia más difíciles que recuperadores dispersos
  • Recuperación Híbrida No Necesariamente Más Difícil: A pesar de mejor efectividad de recuperación, no introduce necesariamente elementos de interferencia más desafiantes
  • Reordenamiento Basado en Grafos Doble Beneficio: Mejora simultáneamente la efectividad de recuperación y mitiga elementos de interferencia dañinos, con mejora de rendimiento NIAH de hasta 44%

2. Efecto Dependiente del Modelo en Ordenamiento de Haystack

  • Altamente Correlacionado con Modelo: Respuestas de diferentes modelos al ordenamiento por recuperador varían enormemente
  • Algunos Modelos Beneficiados Significativamente: Series Gemma-3 y Qwen2.5-1M obtienen beneficios significativos e incrementales del ordenamiento por recuperador
  • Necesidad de Evaluación: Necesario evaluar simultáneamente ordenamiento por recuperador y ordenamiento aleatorio para comprensión integral del comportamiento del modelo

3. NIAH Dinámico Revela Vulnerabilidad de Agentes

Resultados de Multironda Forzada:

  • Todos los modelos (incluyendo GPT-5, Gemini 2.5 Pro) son propensos a errores en cascada
  • El rendimiento se deteriora con rondas adicionales, iteraciones adicionales a menudo amplifican errores tempranos
  • El rendimiento NIAH estático no puede predecir robustez multironda

Resultados de Rondas Variables:

  • Ningún modelo puede mejorar confiablemente el rendimiento de una sola ronda
  • GPT-5 muestra el mejor desempeño relativo pero aún no convierte razonamiento multironda en mejora sostenida
  • Los modelos carecen generalmente de mecanismos efectivos de parada temprana

Resultados Numéricos Específicos

Efectividad de Recuperación (Recall@160)

  • BM25: 58.73% → BM25+PPR: 66.58% (+7.85%)
  • Qwen3-0.6B: 61.43% → +PPR: 74.28% (+12.85%)
  • Hybrid: 67.2% → +PPR: 76.55% (+9.35%)

Ejemplo de Rendimiento NIAH (contexto 128K, Hybrid+PPR)

  • Llama-3.1-70B: 25.11% → 36.22% (+44% mejora)
  • GPT-4.1 mini: 58.27% → 62.09%
  • Gemini 2.5 Flash-Lite: 62.78% → 66.07%

Análisis de Patrones de Fallo

Identificación de tres patrones de fallo principales mediante estudios de caso:

  1. Propagación de Error en Cascada: Errores tempranos amplificados a través de refinamiento de consulta y resumen
  2. Desviación de Intención de Consulta: Cambio de naturaleza o forma del problema original
  3. Desafío de Contexto Largo Persistente: Dificultad continua en localizar información relevante incluso en configuraciones multironda

Trabajo Relacionado

Puntos de Referencia de Contexto Largo

  • NIAH Clásico: Prueba de aguja única de Kamradt (2023)
  • Versiones Extendidas: LV-Eval, RULER, BABILong y otros extendieron tipos de preguntas y corpus
  • HELMET: Primer uso de recuperación densa para construir elementos de interferencia, pero falta consideración de heterogeneidad
  • Limitaciones: Todos los puntos de referencia existentes utilizan contexto estático e independiente del LLM

Puntos de Referencia Multironda

  • Evaluación de Diálogo: MT-bench y trabajos posteriores enfocados en diálogo multironda
  • Puntos de Referencia de Agentes: AgentBench y otros introducen tareas agénticas multironda
  • Diferencia: Trabajos existentes no estudian desafíos de contexto largo conjunto de "amplitud" y "profundidad"

Conclusiones y Discusión

Conclusiones Principales

  1. La Estrategia de Recuperación es Crítica: Diferentes métodos de recuperación impactan significativamente la dificultad y realismo de la evaluación de contexto largo
  2. La Estructura de Grafos es Efectiva: Reordenamiento PPR mejora simultáneamente efectividad de recuperación y rendimiento del modelo
  3. Desafíos Agénticos No Resueltos: Incluso los modelos más avanzados permanecen frágiles en razonamiento dinámico de contexto largo
  4. Amplitud vs Profundidad: Los modelos son más robustos a "amplitud" de contexto largo que a "profundidad" de razonamiento

Limitaciones

  1. Restricción de Corpus: Basado únicamente en Wikipedia en inglés, puede limitar generalización
  2. Enfoque en Tareas QA: Principalmente enfocado en tareas de preguntas y respuestas, cobertura limitada de otras aplicaciones de contexto largo
  3. Selección de Estrategia de Recuperación: Aunque cubre categorías principales, no agota todos los métodos de recuperación posibles
  4. Simplificación de Configuración Dinámica: Modelado de operaciones de agentes relativamente simple, puede no reflejar completamente sistemas de agentes complejos

Direcciones Futuras

  1. Expansión de Corpus: Apoyo para evaluación multilingüe y multidisciplinaria
  2. Agentes Más Complejos: Integración de uso de herramientas, acceso a bases de conocimiento externas, etc.
  3. Estrategias Adaptativas: Desarrollo de estrategias de recuperación que se ajusten dinámicamente según el contexto
  4. Análisis Teórico: Comprensión profunda de por qué ciertas estrategias de recuperación introducen elementos de interferencia más difíciles

Evaluación Profunda

Fortalezas

  1. Identificación de Problema Precisa: Identificación precisa de deficiencias clave en evaluación de contexto largo existente
  2. Innovación Metodológica: El concepto de ingeniería de haystack llena un vacío importante en evaluación
  3. Diseño Experimental Completo: Cubre 15 modelos, múltiples estrategias de recuperación, configuraciones estáticas y dinámicas
  4. Alto Valor Práctico: Proporciona evaluación realista de desafíos de contexto largo en sistemas RAG reales
  5. Perspectivas Profundas: Revela desafíos fundamentales en razonamiento de contexto largo agéntico

Deficiencias

  1. Costo Computacional Alto: Corpus de Wikipedia a gran escala y evaluación multismodelo requieren recursos computacionales sustanciales
  2. Riesgo de Contaminación de Datos: A pesar de medidas de mitigación, el uso de Wikipedia conlleva cierto riesgo
  3. Simplificación de Modelado de Agentes: NIAH dinámico puede no capturar completamente comportamiento de agentes complejos
  4. Selección de Recuperador Limitada: Podría considerarse más métodos de recuperación contemporáneos

Impacto

  1. Contribución Académica: Establece nuevos estándares y metodología para evaluación de contexto largo
  2. Orientación Práctica: Proporciona perspectivas importantes para optimización de sistemas RAG
  3. Valor de Herramienta: HaystackCraft se convertirá en herramienta de evaluación importante
  4. Inspiración de Investigación: Abre nuevas direcciones de investigación en razonamiento de contexto largo agéntico

Escenarios Aplicables

  1. Evaluación de Sistemas RAG: Evaluación del impacto de diferentes estrategias de recuperación en rendimiento de contexto largo
  2. Selección de Modelos: Selección de modelos de contexto largo apropiados para escenarios de aplicación específicos
  3. Desarrollo de Agentes: Evaluación y mejora de capacidades de razonamiento de contexto largo de agentes
  4. Desarrollo de Puntos de Referencia: Proporciona metodología para que otros investigadores construyan puntos de referencia de contexto largo realistas

Referencias

El artículo cita extensamente trabajos relacionados, incluyendo principalmente:

  • Trabajos relacionados con modelos de contexto largo y puntos de referencia de evaluación
  • Investigación en sistemas de generación aumentada por recuperación (RAG)
  • Puntos de referencia de diálogo multironda y evaluación de agentes
  • Métodos de redes neuronales de grafos y recuperación de información

Evaluación General: Este es un artículo de investigación de alta calidad que identifica con precisión problemas importantes en evaluación de contexto largo, propone soluciones innovadoras y valida la efectividad del método mediante experimentación exhaustiva. El punto de referencia HaystackCraft tendrá un impacto importante en la evaluación y mejora de LLM de contexto largo.