2025-11-25T18:49:17.995403

Haystack Engineering: Context Engineering for Heterogeneous and Agentic Long-Context Evaluation

Li, Fu, Wang et al.

Modern long-context large language models (LLMs) perform well on synthetic "needle-in-a-haystack" (NIAH) benchmarks, but such tests overlook how noisy contexts arise from biased retrieval and agentic workflows. We argue that haystack engineering is necessary to construct noisy long contexts that faithfully capture key real-world factors -- distraction from heterogeneous biased retrievers and cascading errors in agentic workflows -- to test models' long-context robustness. We instantiate it through HaystackCraft, a new NIAH benchmark built on the full English Wikipedia hyperlink network with multi-hop questions. HaystackCraft evaluates how heterogeneous retrieval strategies (e.g., sparse, dense, hybrid, and graph-based) affect distractor composition, haystack ordering, and downstream LLM performance. HaystackCraft further extends NIAH to dynamic, LLM-dependent settings that simulate agentic operations, where models refine queries, reflect on their past reasonings, and decide when to stop. Experiments with 15 long-context models show that (1) while stronger dense retrievers can introduce more challenging distractors, graph-based reranking simultaneously improves retrieval effectiveness and mitigates more harmful distractors; (2) in agentic tests, even advanced models like Gemini 2.5 Pro and GPT-5 suffer cascading failures from self-generated distractors or struggle to perform early stops. These results highlight persistent challenges in agentic long-context reasoning and establish HaystackCraft as a valuable testbed for future progress.

academic

Haystack Engineering: Инженерия контекста для оценки гетерогенного и агентного длинного контекста

Основная информация

ID статьи: 2510.07414
Название: Haystack Engineering: Context Engineering for Heterogeneous and Agentic Long-Context Evaluation
Авторы: Mufei Li, Dongqi Fu, Limei Wang, Si Zhang, Hanqing Zeng, Kaan Sancak, Ruizhong Qiu, Haoyu Wang, Xiaoxin He, Xavier Bresson, Yinglong Xia, Chonglin Sun, Pan Li
Учреждения: Georgia Institute of Technology, Meta AI, University of Illinois Urbana-Champaign, National University of Singapore
Классификация: cs.CL, cs.AI, cs.IR
Дата публикации: Октябрь 2025 (Препринт)
Ссылка на статью: https://arxiv.org/abs/2510.07414

Аннотация

Современные большие языковые модели с длинным контекстом хорошо работают на синтетических тестах "поиск иголки в стоге сена" (NIAH), однако эти тесты игнорируют, как шумный контекст возникает из смещённого поиска и рабочих процессов агентов. В данной работе предлагается концепция инженерии стога сена (haystack engineering) для построения шумного длинного контекста, который верно отражает ключевые реальные факторы — помехи от гетерогенных смещённых поисковых систем и каскадные ошибки в рабочих процессах агентов — для тестирования робастности моделей на длинном контексте. Авторы реализуют эту концепцию через HaystackCraft, новый тест NIAH, построенный на полной сети гиперссылок английской Википедии и многошаговых вопросах. Экспериментальные результаты показывают, что даже передовые модели, такие как Gemini 2.5 Pro и GPT-5, страдают от каскадных отказов в тестах агентов или испытывают трудности с выполнением ранней остановки.

Исследовательский контекст и мотивация

Основные проблемы

Существующие тесты оценки длинного контекста имеют значительный разрыв между симуляцией и реальностью:

Ограничения статических синтетических тестов: Традиционные тесты NIAH используют не зависящие от запроса помехи, тогда как длинный контекст в реальных приложениях строится через стратегии поиска, такие как RAG, и имеет зависящие от поисковой системы характеристики.
Игнорирование гетерогенности поиска: Различные стратегии поиска (разреженный, плотный, гибридный, поиск на основе графов) вводят различные типы помех, но существующие тесты не учитывают влияние этой гетерогенности на производительность модели.
Отсутствие динамической оценки агентов: Все существующие тесты являются статическими, однораундовыми и независимыми от LLM, не позволяя оценить проблему каскадных ошибок в инженерии контекста агентов.

Исследовательская мотивация

Авторы считают, что необходима "инженерия стога сена" для построения реалистичного шумного длинного контекста, который верно моделирует сложность и режимы отказа в реальных приложениях. Это контрастирует с "инженерией контекста": последняя ищет оптимальные условия, первая подчёркивает верное построение стога сена.

Основные вклады

Предложение концепции инженерии стога сена: Первое систематическое исследование влияния стратегий поиска на оценку длинного контекста, переформулировка проблемы NIAH с точки зрения RAG.
Построение тестового набора HaystackCraft:
- На основе полной сети гиперссылок английской Википедии (6 954 909 статей, 97 442 472 гиперссылки)
- Включает многошаговые задачи вопрос-ответ, поддерживающие оценку гетерогенных стратегий поиска
- Первая динамическая, многораундовая, зависящая от LLM среда тестирования NIAH
Комплексная оценка гетерогенного поиска: Систематическая оценка влияния разреженного (BM25), плотного (Qwen3-Embedding), гибридного и основанного на графах (PPR) поиска на состав помех и производительность модели.
Выявление вызовов длинного контекста агентов: Через динамическое тестирование NIAH обнаружено, что даже передовые модели подвержены каскадным отказам в рабочих процессах агентов, и модели более робастны к "ширине" (длинный контекст), чем к "глубине" (итерации рассуждений).

Подробное описание методов

Определение задачи

Переформулировка проблемы NIAH с точки зрения RAG:

Дан корпус документов D и запрос q
Множество истинных вспомогательных документов Nq ⊂ D (иголки)
Стратегия поиска R оценивает и упорядочивает все документы в D
Построение стога сена H^R_q(S): содержит все документы-иголки и топ-ранжированные помехи, всего S токенов

Статическая оценка NIAH

Гетерогенные стратегии поиска

Разреженный поиск (BM25): Классический метод на основе лексической схожести
Плотный поиск (Qwen3-Embedding-0.6B): Захватывает семантическую схожесть
Гибридный поиск: Использует обратное ранжирование (RRF) для объединения разреженного и плотного поиска
Переранжирование на основе графов: Использует персонализованный PageRank (PPR) для интеграции структурной информации

Стратегии упорядочивания стога сена

Упорядочивание по поисковой системе: Упорядочивание по оценкам поиска (реалистичная установка RAG)
Случайное упорядочивание: Случайная перестановка (диагностика смещения позиции)

Динамическая оценка NIAH

Моделирование операций агента

Расширение статического NIAH для поддержки многораундового взаимодействия:

Уточнение запроса: Оптимизация запроса на основе результатов поиска
Самоанализ: Суммирование предыдущего анализа
Решение об остановке: Определение момента завершения рассуждений

Две динамические установки

Принудительные несколько раундов: Фиксированное количество раундов рассуждений, тестирование робастности к каскадным ошибкам
Переменное количество раундов: Модель самостоятельно решает, когда остановиться, тестирование способности ранней остановки

Технические инновации

Отображение поисковой системы на состав помех: Первое систематическое исследование того, как различные стратегии поиска формируют характеристики помех
Использование структуры графа: Моделирование многошагового вопрос-ответа как проблемы идентификации "подграфа иголок"
Динамическая инженерия контекста: Новая парадигма оценки, где LLM является одновременно рассуждающей системой и источником помех
Анализ ширины vs глубины: Различение влияния "ширины" длинного контекста и "глубины" рассуждений

Экспериментальная установка

Набор данных

Корпус: Дамп английской Википедии от 2025-04-04, использование полных статей как единиц поиска
Набор данных вопрос-ответ:
- Natural Questions (NQ): Одношаговые вопросы
- MuSiQue: Многошаговые вопросы (до 4 вспомогательных документов)
- После ручной фильтрации: 500 высококачественных образцов

Охват моделей

Оценка 15 LLM с длинным контекстом:

Модели рассуждений: Серия Qwen3, Gemini 2.5 Flash-Lite, o4-mini
Универсальные модели: GPT-4.1 mini, серия Llama-3.1, Qwen2.5-1M, серия Gemma 3
Топовые модели: Gemini 2.5 Pro, GPT-5 (динамические тесты)

Метрики оценки

Эффективность поиска: Recall@N, NDCG@N
Производительность вопрос-ответ: F1-оценка
Размер контекста: 8K, 16K, 32K, 64K, 128K токенов

Детали реализации

Использование токенизатора Qwen2.5-1M для унифицированного подсчёта токенов
Оптимизация гиперпараметров PPR через поиск по сетке
Использование vLLM для ускорения вывода

Экспериментальные результаты

Основные находки

1. Стратегия поиска значительно влияет на сложность стога сена

Плотный поиск более сложный: В 11 из 12 случаев плотные поисковые системы вводят более сложные помехи, чем разреженные
Гибридный поиск не обязательно сложнее: Несмотря на лучшую эффективность поиска, не обязательно вводит более сложные помехи
Двойная выгода переранжирования на основе графов: Одновременно улучшает эффективность поиска и смягчает вредные помехи, производительность NIAH улучшается на 44%

2. Эффект, зависящий от модели, при упорядочивании стога сена

Высокая корреляция с моделью: Различные модели по-разному реагируют на упорядочивание по поисковой системе
Значительная выгода для некоторых моделей: Серии Gemma-3 и Qwen2.5-1M получают значительную и растущую выгоду от упорядочивания по поисковой системе
Необходимость оценки: Требуется одновременная оценка упорядочивания по поисковой системе и случайного упорядочивания для полного понимания поведения модели

3. Динамическое NIAH выявляет уязвимость агентов

Результаты принудительных нескольких раундов:

Все модели (включая GPT-5, Gemini 2.5 Pro) подвержены каскадным ошибкам
Производительность ухудшается с увеличением количества раундов, дополнительные итерации часто усиливают ранние ошибки
Производительность статического NIAH не может предсказать робастность при нескольких раундах

Результаты переменного количества раундов:

Ни одна модель не может надёжно улучшить однораундовую производительность
GPT-5 показывает относительно лучший результат, но всё ещё не может превратить многораундовые рассуждения в устойчивое улучшение
Модели в целом не имеют эффективных механизмов ранней остановки

Конкретные числовые результаты

Эффективность поиска (Recall@160)

BM25: 58,73% → BM25+PPR: 66,58% (+7,85%)
Qwen3-0.6B: 61,43% → +PPR: 74,28% (+12,85%)
Hybrid: 67,2% → +PPR: 76,55% (+9,35%)

Пример производительности NIAH (контекст 128K, Hybrid+PPR)

Llama-3.1-70B: 25,11% → 36,22% (+44% улучшение)
GPT-4.1 mini: 58,27% → 62,09%
Gemini 2.5 Flash-Lite: 62,78% → 66,07%

Анализ режимов отказа

Через тематические исследования выявлены три основных режима отказа:

Распространение каскадных ошибок: Ранние ошибки усиливаются через уточнение запроса и суммирование
Отклонение намерения запроса: Изменение природы или формы исходного вопроса
Сохранение вызовов длинного контекста: Трудность определения релевантной информации даже в многораундовых установках

Связанные работы

Тесты длинного контекста

Классическое NIAH: Однопроходный тест Kamradt (2023)
Расширенные версии: LV-Eval, RULER, BABILong и другие расширили типы вопросов и корпусы
HELMET: Первый, использующий плотный поиск для построения помех, но без учёта гетерогенности
Ограничения: Все существующие тесты используют статический, независимый от LLM контекст

Многораундовые тесты

Оценка диалога: MT-bench и последующие работы сосредоточены на многораундовом диалоге
Тесты агентов: AgentBench и другие вводят многораундовые задачи агентов
Различие: Существующие работы не исследуют совместные вызовы длинного контекста "ширины" и "глубины"

Заключение и обсуждение

Основные выводы

Стратегия поиска критична: Различные методы поиска значительно влияют на сложность и реалистичность оценки длинного контекста
Структура графа эффективна: Переранжирование PPR одновременно улучшает эффективность поиска и производительность модели
Вызовы агентов не решены: Даже самые передовые модели остаются уязвимыми при динамическом рассуждении на длинном контексте
Ширина vs глубина: Модели более робастны к "ширине" длинного контекста, чем к "глубине" рассуждений

Ограничения

Ограничения корпуса: Основано только на английской Википедии, может ограничить обобщаемость
Фокус на задачах вопрос-ответ: Основное внимание к задачам вопрос-ответ, ограниченное покрытие других приложений длинного контекста
Выбор стратегии поиска: Хотя охватывает основные категории, не исчерпывает все возможные методы поиска
Упрощение динамической установки: Моделирование операций агента относительно простое, может не полностью отражать сложные системы агентов

Будущие направления

Расширение корпуса: Поддержка многоязычной и многодоменной оценки
Более сложные агенты: Интеграция использования инструментов, доступа к внешним базам знаний и т.д.
Адаптивные стратегии: Разработка стратегий поиска, которые динамически адаптируются к контексту
Теоретический анализ: Глубокое понимание того, почему определённые стратегии поиска вводят более сложные помехи

Глубокая оценка

Преимущества

Точное выявление проблем: Точное выявление ключевых недостатков существующей оценки длинного контекста
Методологические инновации: Концепция инженерии стога сена заполняет важный пробел в оценке
Полный дизайн экспериментов: Охватывает 15 моделей, множество стратегий поиска, статические и динамические установки
Высокая практическая ценность: Обеспечивает реалистическую оценку вызовов длинного контекста в реальных системах RAG
Глубокие инсайты: Выявляет фундаментальные вызовы многораундового рассуждения на длинном контексте агентов

Недостатки

Высокие вычислительные затраты: Крупномасштабный корпус Википедии и оценка множества моделей требуют значительных вычислительных ресурсов
Риск загрязнения данных: Несмотря на меры по смягчению, использование Википедии сохраняет определённый риск
Упрощение моделирования агента: Динамическое NIAH может не полностью захватить сложное поведение агентов
Ограниченный выбор поисковых систем: Можно рассмотреть более современные методы поиска

Влияние

Академический вклад: Установление новых стандартов и методологии для оценки длинного контекста
Практическое руководство: Предоставление важных инсайтов для оптимизации систем RAG
Ценность инструмента: HaystackCraft станет важным инструментом оценки
Исследовательское вдохновение: Открывает новые направления исследований в многораундовом рассуждении на длинном контексте агентов

Применимые сценарии

Оценка систем RAG: Оценка влияния различных стратегий поиска на производительность длинного контекста
Выбор модели: Выбор подходящих моделей длинного контекста для конкретных сценариев приложений
Разработка агентов: Оценка и улучшение способности агентов к многораундовому рассуждению на длинном контексте
Разработка тестов: Предоставление методологии для разработчиков других реалистичных тестов длинного контекста

Библиография

Статья цитирует большое количество связанных работ, включая:

Работы по моделям длинного контекста и тестам оценки
Исследования систем поиска с увеличением контекста (RAG)
Тесты многораундового диалога и оценки агентов
Методы графовых нейронных сетей и информационного поиска

Общая оценка: Это высококачественная исследовательская работа, которая точно выявляет важные проблемы в оценке длинного контекста, предлагает инновационные решения и проверяет их эффективность через комплексные эксперименты. Тестовый набор HaystackCraft окажет значительное влияние на оценку и улучшение LLM с длинным контекстом.