2025-11-25T18:49:17.995403

Haystack Engineering: Context Engineering for Heterogeneous and Agentic Long-Context Evaluation

Li, Fu, Wang et al.

Modern long-context large language models (LLMs) perform well on synthetic "needle-in-a-haystack" (NIAH) benchmarks, but such tests overlook how noisy contexts arise from biased retrieval and agentic workflows. We argue that haystack engineering is necessary to construct noisy long contexts that faithfully capture key real-world factors -- distraction from heterogeneous biased retrievers and cascading errors in agentic workflows -- to test models' long-context robustness. We instantiate it through HaystackCraft, a new NIAH benchmark built on the full English Wikipedia hyperlink network with multi-hop questions. HaystackCraft evaluates how heterogeneous retrieval strategies (e.g., sparse, dense, hybrid, and graph-based) affect distractor composition, haystack ordering, and downstream LLM performance. HaystackCraft further extends NIAH to dynamic, LLM-dependent settings that simulate agentic operations, where models refine queries, reflect on their past reasonings, and decide when to stop. Experiments with 15 long-context models show that (1) while stronger dense retrievers can introduce more challenging distractors, graph-based reranking simultaneously improves retrieval effectiveness and mitigates more harmful distractors; (2) in agentic tests, even advanced models like Gemini 2.5 Pro and GPT-5 suffer cascading failures from self-generated distractors or struggle to perform early stops. These results highlight persistent challenges in agentic long-context reasoning and establish HaystackCraft as a valuable testbed for future progress.

academic

Ingeniería de Haystack: Ingeniería de Contexto para Evaluación de Contexto Largo Heterogéneo y Agéntico

Información Básica

ID del Artículo: 2510.07414
Título: Haystack Engineering: Context Engineering for Heterogeneous and Agentic Long-Context Evaluation
Autores: Mufei Li, Dongqi Fu, Limei Wang, Si Zhang, Hanqing Zeng, Kaan Sancak, Ruizhong Qiu, Haoyu Wang, Xiaoxin He, Xavier Bresson, Yinglong Xia, Chonglin Sun, Pan Li
Instituciones: Georgia Institute of Technology, Meta AI, University of Illinois Urbana-Champaign, National University of Singapore
Clasificación: cs.CL, cs.AI, cs.IR
Fecha de Publicación: Octubre de 2025 (Preprint)
Enlace del Artículo: https://arxiv.org/abs/2510.07414

Resumen

Los modelos de lenguaje grande de contexto largo moderno funcionan bien en puntos de referencia sintéticos de "búsqueda de aguja en un pajar" (NIAH), pero estas pruebas ignoran cómo el contexto ruidoso surge de la recuperación sesgada y los flujos de trabajo agénticos. Este artículo propone el concepto de ingeniería de haystack para construir contextos largos ruidosos que capturen fielmente factores clave de la realidad—interferencias de recuperadores sesgados heterogéneos y errores en cascada en flujos de trabajo agénticos—para probar la robustez del contexto largo del modelo. Los autores implementan este concepto a través de HaystackCraft, un nuevo punto de referencia NIAH construido sobre la red completa de hipervínculos de Wikipedia en inglés y preguntas de múltiples saltos. Los resultados experimentales muestran que incluso modelos avanzados como Gemini 2.5 Pro y GPT-5 sufren fallos en cascada en pruebas agénticas o tienen dificultades para ejecutar parada temprana.

Antecedentes de Investigación y Motivación

Problema Central

Los puntos de referencia de evaluación de contexto largo existentes presentan una brecha significativa entre simulación y realidad:

Limitaciones de los puntos de referencia sintéticos estáticos: Las pruebas NIAH tradicionales utilizan elementos de interferencia independientes de la consulta, mientras que el contexto largo en aplicaciones reales se construye a través de estrategias de recuperación como RAG, con características dependientes del recuperador.
Ignorancia de la heterogeneidad de recuperación: Diferentes estrategias de recuperación (dispersa, densa, híbrida, basada en grafos) introducen diferentes tipos de elementos de interferencia, pero los puntos de referencia existentes no consideran el impacto de esta heterogeneidad en el rendimiento del modelo.
Falta de evaluación dinámica de agentes: Los puntos de referencia existentes son estáticos, de una sola ronda e independientes del LLM, incapaces de evaluar problemas de errores en cascada en la ingeniería de contexto de agentes.

Motivación de la Investigación

Los autores argumentan que se necesita "ingeniería de haystack" para construir contextos largos ruidosos realistas que simulen fielmente la complejidad y patrones de fallo en aplicaciones reales. Esto contrasta con la "ingeniería de contexto": la última busca condiciones óptimas, mientras que la primera enfatiza la construcción fiel del haystack.

Contribuciones Principales

Propuesta del concepto de ingeniería de haystack: Primer estudio sistemático del impacto de estrategias de recuperación en la evaluación de contexto largo, reformulando el problema NIAH desde la perspectiva de RAG.
Construcción del punto de referencia HaystackCraft:
- Basado en la red completa de hipervínculos de Wikipedia en inglés (6,954,909 artículos, 97,442,472 hipervínculos)
- Incluye tareas de preguntas y respuestas de múltiples saltos, apoyando evaluación de estrategias de recuperación heterogéneas
- Primer entorno de prueba NIAH dinámico, multironda y dependiente del LLM
Evaluación exhaustiva de recuperación heterogénea: Evaluación sistemática de estrategias de recuperación dispersa (BM25), densa (Qwen3-Embedding), híbrida y basada en grafos (PPR) sobre la composición de elementos de interferencia y el rendimiento del modelo.
Revelación de desafíos de contexto largo agéntico: A través de pruebas NIAH dinámicas, se descubre que incluso modelos avanzados son propensos a fallos en cascada en flujos de trabajo agénticos, y los modelos son más robustos a la "amplitud" (contexto largo) que a la "profundidad" (iteraciones de razonamiento).

Explicación Detallada del Método

Definición de Tarea

Reformulación del problema NIAH desde la perspectiva de RAG:

Dado un corpus de documentos D y una consulta q
Conjunto de documentos de apoyo verdaderos Nq ⊂ D (agujas)
Estrategia de recuperación R que califica y ordena todos los documentos en D
Construcción del haystack H^R_q(S): contiene todos los documentos de aguja y elementos de interferencia de mayor rango, totalizando S tokens

Evaluación NIAH Estática

Estrategias de Recuperación Heterogéneas

Recuperación Dispersa (BM25): Método clásico basado en similitud léxica
Recuperación Densa (Qwen3-Embedding-0.6B): Captura similitud semántica
Recuperación Híbrida: Utiliza fusión de rango recíproco (RRF) combinando recuperación dispersa y densa
Reordenamiento Basado en Grafos: Utiliza PageRank Personalizado (PPR) integrando información estructural

Estrategias de Ordenamiento de Haystack

Ordenamiento por Recuperador: Ordenado por puntuación de recuperación (configuración RAG realista)
Ordenamiento Aleatorio: Disposición aleatoria (diagnóstico de sesgo de posición)

Evaluación NIAH Dinámica

Modelado de Operaciones de Agentes

Extensión de NIAH estático para soportar interacción multironda:

Refinamiento de consulta: Optimización de consulta basada en resultados de recuperación
Autorreflexión: Resumen de análisis previos
Decisión de parada: Determinación de cuándo terminar el razonamiento

Dos Configuraciones Dinámicas

Multironda Forzada: Número fijo de rondas de razonamiento, prueba de robustez ante errores en cascada
Rondas Variables: El modelo decide autónomamente cuándo parar, prueba de capacidad de parada temprana

Puntos de Innovación Técnica

Mapeo de Composición Recuperador-Interferencia: Primer estudio sistemático de cómo diferentes estrategias de recuperación moldean características de elementos de interferencia
Utilización de Estructura de Grafos: Modelado de QA de múltiples saltos como problema de identificación de "subgrafo de aguja"
Ingeniería de Contexto Dinámico: Nuevo paradigma de evaluación donde el LLM es tanto razonador como fuente de interferencia
Análisis de Amplitud vs Profundidad: Distinción entre impacto de "amplitud" de contexto largo y "profundidad" de razonamiento

Configuración Experimental

Conjunto de Datos

Corpus: Volcado de Wikipedia en inglés del 04-04-2025, utilizando artículos completos como unidades de recuperación
Conjunto de Datos QA:
- Natural Questions (NQ): Preguntas de un solo salto
- MuSiQue: Preguntas de múltiples saltos (máximo 4 documentos de apoyo)
- Filtrado manual, 500 muestras de alta calidad finales

Cobertura de Modelos

Evaluación de 15 LLM de contexto largo:

Modelos de Razonamiento: Serie Qwen3, Gemini 2.5 Flash-Lite, o4-mini
Modelos Generales: GPT-4.1 mini, serie Llama-3.1, Qwen2.5-1M, serie Gemma 3
Modelos de Nivel Superior: Gemini 2.5 Pro, GPT-5 (pruebas dinámicas)

Métricas de Evaluación

Efectividad de Recuperación: Recall@N, NDCG@N
Rendimiento QA: Puntuación F1
Tamaño de Contexto: 8K, 16K, 32K, 64K, 128K tokens

Detalles de Implementación

Uso del tokenizador Qwen2.5-1M para conteo uniforme de tokens
Hiperparámetros PPR optimizados mediante búsqueda en cuadrícula
Uso de vLLM para aceleración de inferencia

Resultados Experimentales

Hallazgos Principales

1. La Estrategia de Recuperación Impacta Significativamente la Dificultad del Haystack

Recuperación Densa Más Desafiante: En 11/12 casos, recuperadores densos introducen elementos de interferencia más difíciles que recuperadores dispersos
Recuperación Híbrida No Necesariamente Más Difícil: A pesar de mejor efectividad de recuperación, no introduce necesariamente elementos de interferencia más desafiantes
Reordenamiento Basado en Grafos Doble Beneficio: Mejora simultáneamente la efectividad de recuperación y mitiga elementos de interferencia dañinos, con mejora de rendimiento NIAH de hasta 44%

2. Efecto Dependiente del Modelo en Ordenamiento de Haystack

Altamente Correlacionado con Modelo: Respuestas de diferentes modelos al ordenamiento por recuperador varían enormemente
Algunos Modelos Beneficiados Significativamente: Series Gemma-3 y Qwen2.5-1M obtienen beneficios significativos e incrementales del ordenamiento por recuperador
Necesidad de Evaluación: Necesario evaluar simultáneamente ordenamiento por recuperador y ordenamiento aleatorio para comprensión integral del comportamiento del modelo

3. NIAH Dinámico Revela Vulnerabilidad de Agentes

Resultados de Multironda Forzada:

Todos los modelos (incluyendo GPT-5, Gemini 2.5 Pro) son propensos a errores en cascada
El rendimiento se deteriora con rondas adicionales, iteraciones adicionales a menudo amplifican errores tempranos
El rendimiento NIAH estático no puede predecir robustez multironda

Resultados de Rondas Variables:

Ningún modelo puede mejorar confiablemente el rendimiento de una sola ronda
GPT-5 muestra el mejor desempeño relativo pero aún no convierte razonamiento multironda en mejora sostenida
Los modelos carecen generalmente de mecanismos efectivos de parada temprana

Resultados Numéricos Específicos

Efectividad de Recuperación (Recall@160)

BM25: 58.73% → BM25+PPR: 66.58% (+7.85%)
Qwen3-0.6B: 61.43% → +PPR: 74.28% (+12.85%)
Hybrid: 67.2% → +PPR: 76.55% (+9.35%)

Ejemplo de Rendimiento NIAH (contexto 128K, Hybrid+PPR)

Llama-3.1-70B: 25.11% → 36.22% (+44% mejora)
GPT-4.1 mini: 58.27% → 62.09%
Gemini 2.5 Flash-Lite: 62.78% → 66.07%

Análisis de Patrones de Fallo

Identificación de tres patrones de fallo principales mediante estudios de caso:

Propagación de Error en Cascada: Errores tempranos amplificados a través de refinamiento de consulta y resumen
Desviación de Intención de Consulta: Cambio de naturaleza o forma del problema original
Desafío de Contexto Largo Persistente: Dificultad continua en localizar información relevante incluso en configuraciones multironda

Trabajo Relacionado

Puntos de Referencia de Contexto Largo

NIAH Clásico: Prueba de aguja única de Kamradt (2023)
Versiones Extendidas: LV-Eval, RULER, BABILong y otros extendieron tipos de preguntas y corpus
HELMET: Primer uso de recuperación densa para construir elementos de interferencia, pero falta consideración de heterogeneidad
Limitaciones: Todos los puntos de referencia existentes utilizan contexto estático e independiente del LLM

Puntos de Referencia Multironda

Evaluación de Diálogo: MT-bench y trabajos posteriores enfocados en diálogo multironda
Puntos de Referencia de Agentes: AgentBench y otros introducen tareas agénticas multironda
Diferencia: Trabajos existentes no estudian desafíos de contexto largo conjunto de "amplitud" y "profundidad"

Conclusiones y Discusión

Conclusiones Principales

La Estrategia de Recuperación es Crítica: Diferentes métodos de recuperación impactan significativamente la dificultad y realismo de la evaluación de contexto largo
La Estructura de Grafos es Efectiva: Reordenamiento PPR mejora simultáneamente efectividad de recuperación y rendimiento del modelo
Desafíos Agénticos No Resueltos: Incluso los modelos más avanzados permanecen frágiles en razonamiento dinámico de contexto largo
Amplitud vs Profundidad: Los modelos son más robustos a "amplitud" de contexto largo que a "profundidad" de razonamiento

Limitaciones

Restricción de Corpus: Basado únicamente en Wikipedia en inglés, puede limitar generalización
Enfoque en Tareas QA: Principalmente enfocado en tareas de preguntas y respuestas, cobertura limitada de otras aplicaciones de contexto largo
Selección de Estrategia de Recuperación: Aunque cubre categorías principales, no agota todos los métodos de recuperación posibles
Simplificación de Configuración Dinámica: Modelado de operaciones de agentes relativamente simple, puede no reflejar completamente sistemas de agentes complejos

Direcciones Futuras

Expansión de Corpus: Apoyo para evaluación multilingüe y multidisciplinaria
Agentes Más Complejos: Integración de uso de herramientas, acceso a bases de conocimiento externas, etc.
Estrategias Adaptativas: Desarrollo de estrategias de recuperación que se ajusten dinámicamente según el contexto
Análisis Teórico: Comprensión profunda de por qué ciertas estrategias de recuperación introducen elementos de interferencia más difíciles

Evaluación Profunda

Fortalezas

Identificación de Problema Precisa: Identificación precisa de deficiencias clave en evaluación de contexto largo existente
Innovación Metodológica: El concepto de ingeniería de haystack llena un vacío importante en evaluación
Diseño Experimental Completo: Cubre 15 modelos, múltiples estrategias de recuperación, configuraciones estáticas y dinámicas
Alto Valor Práctico: Proporciona evaluación realista de desafíos de contexto largo en sistemas RAG reales
Perspectivas Profundas: Revela desafíos fundamentales en razonamiento de contexto largo agéntico

Deficiencias

Costo Computacional Alto: Corpus de Wikipedia a gran escala y evaluación multismodelo requieren recursos computacionales sustanciales
Riesgo de Contaminación de Datos: A pesar de medidas de mitigación, el uso de Wikipedia conlleva cierto riesgo
Simplificación de Modelado de Agentes: NIAH dinámico puede no capturar completamente comportamiento de agentes complejos
Selección de Recuperador Limitada: Podría considerarse más métodos de recuperación contemporáneos

Impacto

Contribución Académica: Establece nuevos estándares y metodología para evaluación de contexto largo
Orientación Práctica: Proporciona perspectivas importantes para optimización de sistemas RAG
Valor de Herramienta: HaystackCraft se convertirá en herramienta de evaluación importante
Inspiración de Investigación: Abre nuevas direcciones de investigación en razonamiento de contexto largo agéntico

Escenarios Aplicables

Evaluación de Sistemas RAG: Evaluación del impacto de diferentes estrategias de recuperación en rendimiento de contexto largo
Selección de Modelos: Selección de modelos de contexto largo apropiados para escenarios de aplicación específicos
Desarrollo de Agentes: Evaluación y mejora de capacidades de razonamiento de contexto largo de agentes
Desarrollo de Puntos de Referencia: Proporciona metodología para que otros investigadores construyan puntos de referencia de contexto largo realistas

Referencias

El artículo cita extensamente trabajos relacionados, incluyendo principalmente:

Trabajos relacionados con modelos de contexto largo y puntos de referencia de evaluación
Investigación en sistemas de generación aumentada por recuperación (RAG)
Puntos de referencia de diálogo multironda y evaluación de agentes
Métodos de redes neuronales de grafos y recuperación de información

Evaluación General: Este es un artículo de investigación de alta calidad que identifica con precisión problemas importantes en evaluación de contexto largo, propone soluciones innovadoras y valida la efectividad del método mediante experimentación exhaustiva. El punto de referencia HaystackCraft tendrá un impacto importante en la evaluación y mejora de LLM de contexto largo.