Query rewriting is a fundamental technique in information retrieval (IR). It typically employs the retrieval result as relevance feedback to refine the query and thereby addresses the vocabulary mismatch between user queries and relevant documents. Traditional pseudo-relevance feedback (PRF) and its vector-based extension (VPRF) improve retrieval performance by leveraging top-retrieved documents as relevance feedback. However, they are constructed based on two major hypotheses: the relevance assumption (top documents are relevant) and the model assumption (rewriting methods need to be designed specifically for particular model architectures). While recent large language models (LLMs)-based generative relevance feedback (GRF) enables model-free query reformulation, it either suffers from severe LLM hallucination or, again, relies on the relevance assumption to guarantee the effectiveness of rewriting quality. To overcome these limitations, we introduce an assumption-relaxed framework: \textit{Generalized Pseudo Relevance Feedback} (GPRF), which performs model-free, natural language rewriting based on retrieved documents, not only eliminating the model assumption but also reducing dependence on the relevance assumption. Specifically, we design a utility-oriented training pipeline with reinforcement learning to ensure robustness against noisy feedback. Extensive experiments across multiple benchmarks and retrievers demonstrate that GPRF consistently outperforms strong baselines, establishing it as an effective and generalizable framework for query rewriting.
La riscrittura delle query è una tecnica fondamentale nel recupero dell'informazione che migliora le query utilizzando i risultati della ricerca come feedback di rilevanza, affrontando così il problema della mancata corrispondenza lessicale tra le query degli utenti e i documenti rilevanti. Il tradizionale feedback pseudo-rilevanza (PRF) e le sue estensioni vettoriali (VPRF) si basano su due ipotesi principali: l'ipotesi di rilevanza (che i documenti in top siano rilevanti) e l'ipotesi di modello (i metodi di riscrittura devono essere progettati per architetture di modello specifiche). Sebbene il feedback di rilevanza generativo (GRF) basato su modelli di linguaggio di grandi dimensioni (LLM) abbia realizzato la ricostruzione delle query indipendente dal modello, soffre di gravi problemi di allucinazione dell'LLM oppure rimane dipendente dall'ipotesi di rilevanza. Per superare questi limiti, questo articolo propone il framework di rilassamento delle ipotesi—Feedback Pseudo-Rilevanza Generalizzato (GPRF)—che attraverso la riscrittura in linguaggio naturale basata su documenti recuperati, elimina l'ipotesi di modello e riduce la dipendenza dall'ipotesi di rilevanza. Nello specifico, è stato progettato un processo di addestramento orientato all'utilità basato su apprendimento per rinforzo, garantendo robustezza al feedback rumoroso. Esperimenti estensivi su più benchmark e recuperatori dimostrano che GPRF supera costantemente i metodi di base forti.
I sistemi di recupero dell'informazione affrontano il problema della mancata corrispondenza lessicale: gli utenti tipicamente esprimono le loro esigenze informative utilizzando termini generici e ambigui, mentre i documenti rilevanti possono utilizzare terminologia più formale, specializzata o emergente. Questo divario semantico comporta prestazioni di recupero scadenti.
La riscrittura delle query è una tecnica chiave per migliorare le prestazioni di recupero, applicabile a ricerca web, e-commerce, risposta a domande in dominio aperto e altri scenari
La riscrittura efficace delle query può migliorare significativamente l'esperienza dell'utente e le prestazioni del sistema
È critica sia nel recupero sparso (come BM25) che nel recupero denso (come dense retrieval)
Ipotesi di Rilevanza: presume che tutti i documenti top-k recuperati siano rilevanti, ma i sistemi di recupero reali non sono perfetti e i risultati top contengono spesso rumore e informazioni irrilevanti
Ipotesi di Modello: i metodi sono strettamente accoppiati alle rappresentazioni interne di specifici recuperatori (pesi dei termini o embedding densi), difficili da trasferire tra modelli
Problemi dei Metodi GRF Basati su LLM:
Sebbene le operazioni in linguaggio naturale attenuino l'ipotesi di modello, persistono due problemi:
Problema di Allucinazione: gli LLM tendono a generare contenuti fluenti ma fattualmente errati o semanticamente irrilevanti
Ancora Dipendente dall'Ipotesi di Rilevanza: presume che le estensioni generate riflettano fedelmente l'intenzione dell'utente
È necessario un framework di riscrittura delle query che possa sfruttare l'evidenza di recupero per ridurre le allucinazioni, essere robusto al feedback rumoroso, e non dipendere da architetture di modello specifiche.
Analisi Sistematica: analisi sistematica dei metodi di riscrittura delle query esistenti (PRF e GRF), identificando chiaramente due sfide fondamentali—ipotesi di rilevanza e ipotesi di modello
Framework GPRF Proposto: un framework di feedback pseudo-rilevanza generalizzato con rilassamento delle ipotesi, integrando efficacemente i vantaggi di PRF e GRF:
Eliminazione dell'ipotesi di modello: riscrittura in linguaggio naturale indipendente dal modello
Rilassamento dell'ipotesi di rilevanza: addestramento orientato all'utilità per migliorare la robustezza al feedback rumoroso
Processo di Addestramento Orientato all'Utilità: pipeline di addestramento a tre fasi:
Campionamento di Rifiuto Potenziato dal Recupero (Retrieval-augmented Rejection Sampling)
Messa a Punto Supervisionata a Freddo (Cold-start SFT)
Apprendimento per Rinforzo (RL with GRPO)
Verifica Sperimentale Estesa: dimostrazione dell'efficacia e della capacità di generalizzazione di GPRF su più dataset di benchmark (in-domain e out-of-domain) e diversi recuperatori (BM25, E5, BGE)
Insieme di documenti recuperati top-k Dq(k)={d1,d2,...,dk}
Output:
Query riscritta q′, da utilizzare per il recupero successivo per migliorare le prestazioni di recupero
Obiettivo: la query riscritta generata dovrebbe massimizzare l'utilità di recupero (come NDCG@10), rimanendo robusta al rumore nei documenti di feedback
Il confronto con PRF/VPRF tradizionali e GRF è mostrato in Figura 1:
Processo di Generazione GPRF:
q' ~ LLM_θ(I, q, D^(k)_q)
Dove:
I: template di istruzioni (Prompt)
q: query originale
D^(k)_q: documenti di feedback top-k
LLM_θ: modello di linguaggio di grandi dimensioni parametrizzato
Progettazione Unificata del Prompt (Tabella 1):
Si prega di riscrivere la query dell'utente in base a diversi paragrafi correlati
(che potrebbero contenere rumore o errori). La query riscritta dovrebbe conservare
il significato originale mentre incorpora il più possibile informazioni aggiuntive,
in modo che il motore di ricerca possa recuperare più efficacemente i paragrafi correlati.
Paragrafi correlati:
Paragrafo 1: {passage 1}
Paragrafo 2: {passage 2}
...
Query dell'utente: {question}
Query riscritta:
Integrazione con il Sistema di Recupero:
Per il recupero sparso (BM25): concatenazione di più query riscritte con la query originale
Per il recupero denso (E5/BGE): utilizzo della strategia VPRF per aggregare gli embedding delle query riscritte
Prestazioni Cross-Modello Stabili: piccolo calo di prestazioni quando si utilizzano diversi recuperatori di feedback
Generalizzazione BGE: prestazioni eccellenti su BGE sebbene i risultati di recupero o le ricompense di BGE non siano stati utilizzati durante l'addestramento
Piccolo Impatto della Fonte di Feedback: l'impatto della fonte di feedback è relativamente piccolo rispetto alla capacità del recuperatore stesso
Conclusione:
Le riscritture generate da GPRF non sono vincolate a uno spazio di embedding specifico
Realizzazione della vera indipendenza dal modello
Validazione dell'efficacia dell'eliminazione dell'ipotesi di modello
Framework di Rilassamento delle Ipotesi: GPRF rilassa con successo le due ipotesi principali di PRF/GRF
Eliminazione dell'ipotesi di modello attraverso riscrittura in linguaggio naturale
Rilassamento dell'ipotesi di rilevanza attraverso addestramento orientato all'utilità
Efficacia dell'Addestramento Orientato all'Utilità: il processo di addestramento a tre fasi migliora significativamente la robustezza del modello al feedback rumoroso
Ampia Applicabilità: prestazioni eccellenti su dataset in-domain e out-of-domain, recuperatori sparsi e densi
Forte Praticità: progettazione unificata del prompt, nessuna necessità di ingegneria del prompt complessa
GPRF è un lavoro di ricerca di alta qualità che fornisce contributi sostanziali nel campo della riscrittura delle query:
Vantaggi Fondamentali:
Posizionamento accurato del problema, la prospettiva del "rilassamento delle ipotesi" ha profondità teorica
Progettazione elegante del metodo, la combinazione di riscrittura in linguaggio naturale + addestramento orientato all'utilità è efficace
Verifica sperimentale completa, dimostrazione dell'efficacia e della generalizzazione del metodo su più dimensioni
Valore Principale:
Fornisce nuovo paradigma di ricerca per la riscrittura delle query
Dimostra che gli LLM, attraverso addestramento appropriato, possono superare i problemi di allucinazione e rumore nei compiti IR
La capacità di trasferimento cross-modello fornisce flessibilità per il deployment pratico
Spazio di Miglioramento:
L'analisi dell'efficienza e della scalabilità necessita di rafforzamento
L'analisi teorica potrebbe essere più approfondita
La discussione dei casi di fallimento e delle condizioni al contorno è insufficiente
Nel complesso, questo è un lavoro degno di pubblicazione in conferenze di primo livello, con valore di riferimento importante sia per il campo del recupero dell'informazione che per le applicazioni degli LLM. Si consiglia di prestare attenzione ai progressi futuri nel campo dell'ottimizzazione dell'efficienza e dell'analisi teorica.