Modern long-context large language models (LLMs) perform well on synthetic "needle-in-a-haystack" (NIAH) benchmarks, but such tests overlook how noisy contexts arise from biased retrieval and agentic workflows. We argue that haystack engineering is necessary to construct noisy long contexts that faithfully capture key real-world factors -- distraction from heterogeneous biased retrievers and cascading errors in agentic workflows -- to test models' long-context robustness. We instantiate it through HaystackCraft, a new NIAH benchmark built on the full English Wikipedia hyperlink network with multi-hop questions. HaystackCraft evaluates how heterogeneous retrieval strategies (e.g., sparse, dense, hybrid, and graph-based) affect distractor composition, haystack ordering, and downstream LLM performance. HaystackCraft further extends NIAH to dynamic, LLM-dependent settings that simulate agentic operations, where models refine queries, reflect on their past reasonings, and decide when to stop. Experiments with 15 long-context models show that (1) while stronger dense retrievers can introduce more challenging distractors, graph-based reranking simultaneously improves retrieval effectiveness and mitigates more harmful distractors; (2) in agentic tests, even advanced models like Gemini 2.5 Pro and GPT-5 suffer cascading failures from self-generated distractors or struggle to perform early stops. These results highlight persistent challenges in agentic long-context reasoning and establish HaystackCraft as a valuable testbed for future progress.
Haystack Engineering: Context Engineering for Heterogeneous and Agentic Long-Context Evaluation
- ID Articolo: 2510.07414
- Titolo: Haystack Engineering: Context Engineering for Heterogeneous and Agentic Long-Context Evaluation
- Autori: Mufei Li, Dongqi Fu, Limei Wang, Si Zhang, Hanqing Zeng, Kaan Sancak, Ruizhong Qiu, Haoyu Wang, Xiaoxin He, Xavier Bresson, Yinglong Xia, Chonglin Sun, Pan Li
- Istituzioni: Georgia Institute of Technology, Meta AI, University of Illinois Urbana-Champaign, National University of Singapore
- Classificazione: cs.CL, cs.AI, cs.IR
- Data di Pubblicazione: Ottobre 2025 (Preprint)
- Link Articolo: https://arxiv.org/abs/2510.07414
I moderni modelli di linguaggio di grandi dimensioni con contesto lungo si comportano bene nei benchmark sintetici "Needle in a Haystack" (NIAH), ma questi test trascurano come il contesto rumoroso emerga da recuperi distorti eterogenei e flussi di lavoro agentici. Questo articolo propone il concetto di haystack engineering per costruire contesti lunghi rumorosi che catturino fedelmente i fattori critici della realtà — interferenze da recuperatori distorti eterogenei ed errori a cascata nei flussi di lavoro agentici — al fine di testare la robustezza del contesto lungo dei modelli. Gli autori implementano questo concetto attraverso HaystackCraft, un nuovo benchmark NIAH costruito sulla rete completa di ipercolllegamenti di Wikipedia in inglese e su domande multi-hop. I risultati sperimentali mostrano che anche modelli avanzati come Gemini 2.5 Pro e GPT-5 soffrono di fallimenti a cascata nei test agentici o hanno difficoltà nell'esecuzione dell'arresto anticipato.
I benchmark di valutazione del contesto lungo esistenti presentano un divario significativo tra simulazione e realtà:
- Limitazioni dei benchmark sintetici statici: I test NIAH tradizionali utilizzano elementi di interferenza indipendenti dalla query, mentre i contesti lunghi nelle applicazioni reali sono costruiti attraverso strategie di recupero come RAG, con caratteristiche dipendenti dal recuperatore.
- Trascuratezza dell'eterogeneità del recupero: Diverse strategie di recupero (sparse, dense, ibride, basate su grafi) introducono diversi tipi di elementi di interferenza, ma i benchmark esistenti non considerano l'impatto di questa eterogeneità sulle prestazioni del modello.
- Mancanza di valutazione dinamica agentiaca: I benchmark esistenti sono tutti statici, a turno singolo e indipendenti dal LLM, incapaci di valutare il problema degli errori a cascata nell'ingegneria del contesto agentiaco.
Gli autori ritengono che sia necessario l'"haystack engineering" per costruire contesti lunghi rumorosi realistici, al fine di simulare fedelmente la complessità e i modelli di fallimento nelle applicazioni reali. Ciò contrasta con l'"ingegneria del contesto": quest'ultima ricerca condizioni ottimali, mentre la prima enfatizza la costruzione fedele dell'haystack.
- Proposta del concetto di Haystack Engineering: Primo studio sistematico dell'impatto delle strategie di recupero sulla valutazione del contesto lungo, riformulando il problema NIAH da una prospettiva RAG.
- Costruzione del benchmark HaystackCraft:
- Basato sulla rete completa di ipercolllegamenti di Wikipedia in inglese (6.954.909 articoli, 97.442.472 ipercolllegamenti)
- Include compiti di domande e risposte multi-hop, supportando la valutazione di strategie di recupero eterogenee
- Primo ambiente di test NIAH dinamico, multi-turno e dipendente dal LLM
- Valutazione completa del recupero eterogeneo: Valutazione sistematica di strategie di recupero sparse (BM25), dense (Qwen3-Embedding), ibride e basate su grafi (PPR) sul loro impatto sulla composizione degli elementi di interferenza e sulle prestazioni del modello.
- Rivelazione delle sfide del contesto lungo agentiaco: Attraverso test NIAH dinamici, scoperta che anche i modelli avanzati sono soggetti a fallimenti a cascata nei flussi di lavoro agentici, e che i modelli sono più robusti alla "larghezza" (contesto lungo) che alla "profondità" (iterazioni di ragionamento).
Riformulazione del problema NIAH da una prospettiva RAG:
- Dato un corpus di documenti D e una query q
- Insieme di documenti di supporto veri Nq ⊂ D (aghi)
- Strategia di recupero R che assegna punteggi e ordina tutti i documenti in D
- Costruzione dell'haystack H^R_q(S): contiene tutti i documenti ago e gli elementi di interferenza top-ranked, per un totale di S token
- Recupero Sparse (BM25): Metodo classico basato sulla similarità lessicale
- Recupero Dense (Qwen3-Embedding-0.6B): Cattura la similarità semantica
- Recupero Ibrido: Utilizza Reciprocal Rank Fusion (RRF) combinando recupero sparse e dense
- Rirrangiamento Basato su Grafi: Utilizza PageRank Personalizzato (PPR) integrando informazioni strutturali
- Ordinamento del Recuperatore: Ordinamento per punteggio di recupero (impostazione RAG realistica)
- Ordinamento Casuale: Disposizione casuale (diagnostica della distorsione posizionale)
Estensione dell'NIAH statico per supportare interazioni multi-turno:
- Raffinamento della query: Ottimizzazione della query in base ai risultati del recupero
- Auto-riflessione: Sintesi dell'analisi precedente
- Decisione di arresto: Determinazione di quando terminare il ragionamento
- Multi-turno Forzato: Numero fisso di iterazioni di ragionamento, test della robustezza agli errori a cascata
- Turni Variabili: Il modello decide autonomamente quando arrestarsi, test della capacità di arresto anticipato
- Mappatura Recuperatore-Composizione Interferenza: Primo studio sistematico di come diverse strategie di recupero modellano le caratteristiche degli elementi di interferenza
- Utilizzo della Struttura Grafica: Modellazione di QA multi-hop come problema di identificazione del "sottografo ago"
- Ingegneria del Contesto Dinamico: Nuovo paradigma di valutazione in cui l'LLM è sia ragionatore che fonte di interferenza
- Analisi Larghezza vs Profondità: Distinzione dell'impatto della "larghezza" del contesto lungo e della "profondità" del ragionamento
- Corpus: Dump di Wikipedia in inglese del 04-04-2025, utilizzando articoli completi come unità di recupero
- Dataset QA:
- Natural Questions (NQ): Domande a turno singolo
- MuSiQue: Domande multi-hop (fino a 4 documenti di supporto)
- Filtrati manualmente, 500 campioni di alta qualità finali
Valutazione di 15 LLM con contesto lungo:
- Modelli di Ragionamento: Serie Qwen3, Gemini 2.5 Flash-Lite, o4-mini
- Modelli Generici: GPT-4.1 mini, serie Llama-3.1, Qwen2.5-1M, serie Gemma 3
- Modelli Top: Gemini 2.5 Pro, GPT-5 (test dinamico)
- Efficacia del Recupero: Recall@N, NDCG@N
- Prestazioni QA: Punteggio F1
- Dimensione del Contesto: 8K, 16K, 32K, 64K, 128K token
- Utilizzo del tokenizer Qwen2.5-1M per il conteggio uniforme dei token
- Iperparametri PPR ottimizzati attraverso ricerca in griglia
- Utilizzo di vLLM per l'accelerazione dell'inferenza
- Recupero Dense Più Impegnativo: In 11/12 casi, i recuperatori dense introducono elementi di interferenza più difficili rispetto ai recuperatori sparse
- Recupero Ibrido Non Necessariamente Più Difficile: Nonostante migliori prestazioni di recupero, non introduce necessariamente elementi di interferenza più impegnativi
- Rirrangiamento Basato su Grafi Doppio Beneficio: Migliora sia l'efficacia del recupero che mitiga gli elementi di interferenza dannosi, con miglioramenti delle prestazioni NIAH fino al 44%
- Altamente Correlato al Modello: Differenze enormi nella risposta dei diversi modelli all'ordinamento del recuperatore
- Beneficio Significativo per Alcuni Modelli: Le serie Gemma-3 e Qwen2.5-1M traggono benefici significativi e crescenti dall'ordinamento del recuperatore
- Necessità di Valutazione: Necessario valutare sia l'ordinamento del recuperatore che l'ordinamento casuale per una comprensione completa del comportamento del modello
Risultati Multi-turno Forzato:
- Tutti i modelli (inclusi GPT-5 e Gemini 2.5 Pro) sono soggetti a errori a cascata
- Le prestazioni si deteriorano con l'aumento del numero di turni, le iterazioni aggiuntive spesso amplificano gli errori iniziali
- Le prestazioni NIAH statiche non possono predire la robustezza multi-turno
Risultati Turni Variabili:
- Nessun modello può migliorare in modo affidabile le prestazioni a turno singolo
- GPT-5 si comporta relativamente meglio ma non riesce comunque a convertire il ragionamento multi-turno in miglioramento continuo
- I modelli generalmente mancano di meccanismi efficaci di arresto anticipato
- BM25: 58,73% → BM25+PPR: 66,58% (+7,85%)
- Qwen3-0.6B: 61,43% → +PPR: 74,28% (+12,85%)
- Ibrido: 67,2% → +PPR: 76,55% (+9,35%)
- Llama-3.1-70B: 25,11% → 36,22% (+44% miglioramento)
- GPT-4.1 mini: 58,27% → 62,09%
- Gemini 2.5 Flash-Lite: 62,78% → 66,07%
Identificazione di tre modelli di fallimento principali attraverso studi di caso:
- Propagazione di Errori a Cascata: Gli errori iniziali si amplificano attraverso il raffinamento della query e la sintesi
- Deviazione dell'Intento della Query: Alterazione della natura o della forma del problema originale
- Persistenza delle Sfide del Contesto Lungo: Difficoltà nel localizzare informazioni rilevanti anche in impostazioni multi-turno
- NIAH Classico: Test a singolo ago di Kamradt (2023)
- Versioni Estese: LV-Eval, RULER, BABILong e altri che estendono i tipi di domande e i corpus
- HELMET: Primo utilizzo del recupero dense per costruire elementi di interferenza, ma manca la considerazione dell'eterogeneità
- Limitazioni: Tutti i benchmark esistenti utilizzano contesto statico e indipendente dal LLM
- Valutazione del Dialogo: MT-bench e lavori successivi focalizzati sul dialogo multi-turno
- Benchmark Agentici: AgentBench e altri introducono compiti agentici multi-turno
- Differenza: I lavori esistenti non studiano le sfide del contesto lungo congiunto di "larghezza" e "profondità"
- La Strategia di Recupero è Critica: Diversi metodi di recupero influiscono significativamente sulla difficoltà e sulla realismo della valutazione del contesto lungo
- La Struttura Grafica è Efficace: Il rirrangiamento PPR migliora sia l'efficacia del recupero che le prestazioni del modello
- Le Sfide Agentiache Rimangono Irrisolte: Anche i modelli più avanzati rimangono fragili nel ragionamento dinamico del contesto lungo
- Larghezza vs Profondità: I modelli sono più robusti alla "larghezza" del contesto lungo rispetto alla "profondità" del ragionamento
- Limitazioni del Corpus: Basato solo su Wikipedia in inglese, potrebbe limitare la generalizzabilità
- Focalizzazione su Compiti QA: Principalmente focalizzato su compiti di domande e risposte, copertura limitata di altre applicazioni del contesto lungo
- Scelta della Strategia di Recupero: Sebbene copra le categorie principali, non esaurisce tutti i possibili metodi di recupero
- Semplificazione dell'Impostazione Dinamica: La modellazione delle operazioni agentiache è relativamente semplice, potrebbe non riflettere completamente i sistemi agentici complessi
- Estensione del Corpus: Supporto per valutazione multilingue e multi-dominio
- Agenti Più Complessi: Integrazione dell'uso di strumenti, accesso a basi di conoscenza esterne, ecc.
- Strategie Adattive: Sviluppo di strategie di recupero che si adattano dinamicamente al contesto
- Analisi Teorica: Comprensione approfondita del perché alcune strategie di recupero introducono elementi di interferenza più difficili
- Identificazione Precisa del Problema: Identificazione accurata dei difetti chiave nella valutazione del contesto lungo esistente
- Innovazione Metodologica: Il concetto di haystack engineering colma un importante vuoto di valutazione
- Progettazione Sperimentale Completa: Copre 15 modelli, molteplici strategie di recupero, impostazioni statiche e dinamiche
- Alto Valore Pratico: Fornisce valutazione realistica per le sfide del contesto lungo nei sistemi RAG reali
- Intuizioni Profonde: Rivela sfide fondamentali nel ragionamento del contesto lungo agentiaco
- Costo Computazionale Elevato: Il corpus di Wikipedia su larga scala e la valutazione multi-modello richiedono risorse computazionali significative
- Rischio di Contaminazione dei Dati: Nonostante le misure di mitigazione, basarsi su Wikipedia comporta ancora un certo rischio
- Semplificazione della Modellazione Agentiaca: L'NIAH dinamico potrebbe non catturare completamente il comportamento agentiaco complesso
- Scelta Limitata di Recuperatori: Potrebbe considerare più metodi di recupero recenti
- Contributo Accademico: Stabilisce nuovi standard e metodologie per la valutazione del contesto lungo
- Guida Pratica: Fornisce intuizioni importanti per l'ottimizzazione dei sistemi RAG
- Valore dello Strumento: HaystackCraft diventerà uno strumento di valutazione importante
- Ispirazione per la Ricerca: Apre nuove direzioni di ricerca nel ragionamento del contesto lungo agentiaco
- Valutazione dei Sistemi RAG: Valutazione dell'impatto di diverse strategie di recupero sulle prestazioni del contesto lungo
- Selezione del Modello: Scelta di modelli di contesto lungo appropriati per scenari di applicazione specifici
- Sviluppo Agentiaco: Valutazione e miglioramento della capacità di ragionamento del contesto lungo degli agenti
- Sviluppo di Benchmark: Fornitura di metodologie per i ricercatori per costruire benchmark realistici del contesto lungo
L'articolo cita un'ampia gamma di lavori correlati, principalmente includenti:
- Lavori correlati a modelli e benchmark di valutazione del contesto lungo
- Ricerca su sistemi di generazione aumentata da recupero (RAG)
- Benchmark di dialogo multi-turno e valutazione agentiaca
- Metodi di reti neurali grafiche e recupero dell'informazione
Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità che identifica accuratamente problemi importanti nella valutazione del contesto lungo, propone soluzioni innovative e verifica l'efficacia del metodo attraverso esperimenti completi. Il benchmark HaystackCraft avrà un impatto significativo sulla valutazione e il miglioramento degli LLM con contesto lungo.