Query rewriting is a fundamental technique in information retrieval (IR). It typically employs the retrieval result as relevance feedback to refine the query and thereby addresses the vocabulary mismatch between user queries and relevant documents. Traditional pseudo-relevance feedback (PRF) and its vector-based extension (VPRF) improve retrieval performance by leveraging top-retrieved documents as relevance feedback. However, they are constructed based on two major hypotheses: the relevance assumption (top documents are relevant) and the model assumption (rewriting methods need to be designed specifically for particular model architectures). While recent large language models (LLMs)-based generative relevance feedback (GRF) enables model-free query reformulation, it either suffers from severe LLM hallucination or, again, relies on the relevance assumption to guarantee the effectiveness of rewriting quality. To overcome these limitations, we introduce an assumption-relaxed framework: \textit{Generalized Pseudo Relevance Feedback} (GPRF), which performs model-free, natural language rewriting based on retrieved documents, not only eliminating the model assumption but also reducing dependence on the relevance assumption. Specifically, we design a utility-oriented training pipeline with reinforcement learning to ensure robustness against noisy feedback. Extensive experiments across multiple benchmarks and retrievers demonstrate that GPRF consistently outperforms strong baselines, establishing it as an effective and generalizable framework for query rewriting.
La réécriture de requête est une technique fondamentale en récupération d'information, qui améliore les requêtes en utilisant les résultats de recherche comme rétroaction de pertinence, résolvant ainsi le problème d'inadéquation lexicale entre les requêtes utilisateur et les documents pertinents. La rétroaction pseudo-pertinence traditionnelle (PRF) et ses extensions vectorielles (VPRF) reposent sur deux hypothèses principales : l'hypothèse de pertinence (supposant que les documents de tête sont pertinents) et l'hypothèse de modèle (nécessitant que les méthodes de réécriture soient conçues pour des architectures de modèle spécifiques). Bien que la rétroaction pertinence générative basée sur les grands modèles de langage (LLM) réalise une reconstruction de requête indépendante du modèle, elle souffre soit de graves problèmes d'hallucination du LLM, soit dépend toujours de l'hypothèse de pertinence. Pour surmonter ces limitations, cet article propose un cadre de relaxation d'hypothèses — la rétroaction pseudo-pertinence généralisée (GPRF) — qui, par la réécriture en langage naturel basée sur les documents récupérés, élimine l'hypothèse de modèle tout en réduisant la dépendance à l'hypothèse de pertinence. Spécifiquement, un pipeline d'entraînement orienté vers l'utilité basé sur l'apprentissage par renforcement est conçu pour assurer la robustesse face aux rétroactions bruitées. Des expériences extensives sur plusieurs repères et récupérateurs montrent que GPRF surpasse systématiquement les méthodes de base fortes.
Les systèmes de récupération d'information font face au problème d'inadéquation lexicale : les utilisateurs expriment généralement leurs besoins informationnels en utilisant des termes génériques et vagues, tandis que les documents pertinents peuvent utiliser une terminologie plus formelle, spécialisée ou émergente. Ce fossé sémantique entraîne une mauvaise performance de récupération.
La réécriture de requête est une technique clé pour améliorer la performance de récupération, applicable à la recherche web, au commerce électronique, aux systèmes de réponse à questions en domaine ouvert et à d'autres scénarios
Une réécriture de requête efficace peut considérablement améliorer l'expérience utilisateur et la performance du système
Elle est cruciale tant pour la récupération creuse (comme BM25) que pour la récupération dense (comme la récupération dense)
Hypothèse de pertinence : suppose que tous les documents de tête k sont pertinents, mais les systèmes de récupération réels ne sont pas parfaits, et les résultats de tête contiennent souvent du bruit et des informations non pertinentes
Hypothèse de modèle : les méthodes sont étroitement couplées aux représentations internes de récupérateurs spécifiques (poids de termes ou plongements denses), ce qui rend difficile la migration entre modèles
Problèmes des méthodes GRF basées sur LLM :
Bien que l'opération en langage naturel atténue l'hypothèse de modèle, deux problèmes persistent :
Problème d'hallucination : les LLM génèrent facilement du contenu fluide mais factuellement incorrect ou sémantiquement non pertinent
Dépendance toujours à l'hypothèse de pertinence : suppose que les extensions générées reflètent fidèlement l'intention de l'utilisateur
Il est nécessaire d'avoir un cadre de réécriture de requête qui puisse à la fois exploiter les preuves de récupération pour réduire les hallucinations, être robuste face aux rétroactions bruitées, tout en ne dépendant pas d'une architecture de modèle spécifique.
Analyse Systématique : analyse systématique des méthodes existantes de réécriture de requête (PRF et GRF), identifiant clairement deux défis fondamentaux — l'hypothèse de pertinence et l'hypothèse de modèle
Proposition du Cadre GPRF : un cadre de rétroaction pseudo-pertinence généralisée avec relaxation d'hypothèses, intégrant efficacement les avantages de PRF et GRF :
Élimination de l'hypothèse de modèle : réalisation de l'indépendance du modèle par réécriture en langage naturel
Relaxation de l'hypothèse de pertinence : amélioration de la robustesse face aux rétroactions bruitées par entraînement orienté vers l'utilité
Conception du Pipeline d'Entraînement Orienté vers l'Utilité : incluant trois étapes de pipeline d'entraînement :
Échantillonnage par rejet augmenté par récupération (Retrieval-augmented Rejection Sampling)
Ajustement fin supervisé de démarrage à froid (Cold-start SFT)
Apprentissage par renforcement (RL avec GRPO)
Vérification Expérimentale Extensive : démonstration de l'efficacité et de la capacité de généralisation de GPRF sur plusieurs ensembles de données de référence (intra-domaine et hors-domaine) et différents récupérateurs (BM25, E5, BGE)
Ensemble de documents récupérés de tête k Dq(k)={d1,d2,...,dk}
Sortie :
Requête réécrite q′, utilisée pour la récupération ultérieure afin d'améliorer la performance de récupération
Objectif : la requête réécrite générée doit maximiser l'utilité de récupération (comme NDCG@10) tout en étant robuste face au bruit dans les documents de rétroaction
La comparaison avec PRF/VPRF et GRF traditionnels est illustrée à la figure 1 :
Processus de Génération de GPRF :
q' ~ LLM_θ(I, q, D^(k)_q)
Où :
I : modèle d'instruction (Prompt)
q : requête originale
D^(k)_q : documents de rétroaction de tête k
LLM_θ : grand modèle de langage paramétrisé
Conception Unifiée du Prompt (Tableau 1) :
Veuillez réécrire la requête de l'utilisateur en fonction de plusieurs paragraphes pertinents
(qui peuvent contenir du bruit ou des erreurs). La requête réécrite doit conserver le sens
original tout en intégrant autant d'informations que possible pour que le moteur de recherche
puisse récupérer plus efficacement les paragraphes pertinents.
Paragraphes pertinents :
Paragraphe 1 : {passage 1}
Paragraphe 2 : {passage 2}
...
Requête utilisateur : {question}
Requête réécrite :
Intégration avec le Système de Récupération :
Pour la récupération creuse (BM25) : concaténation de plusieurs requêtes réécrites avec la requête originale
Pour la récupération dense (E5/BGE) : utilisation de la stratégie VPRF pour agréger les plongements des requêtes réécrites
Élimination de l'hypothèse de modèle : par réécriture en langage naturel, sans liaison à un espace d'plongement spécifique
Relaxation de l'hypothèse de pertinence : par entraînement orienté vers l'utilité, apprentissage de l'extraction de signaux utiles à partir de rétroactions bruitées
Synergie Récupération-Génération :
Utilisation de documents récupérés pour réduire les hallucinations du LLM (comparé à GRF pur)
Surmonter les limitations d'espace de représentation par réécriture générative (comparé à PRF/VPRF)
Optimisation d'Utilité Bout en Bout :
Objectif d'optimisation directement sur la performance de récupération en aval
Alignement du comportement du modèle avec les objectifs réels de la tâche par RL
Conception Unifiée du Prompt :
Un seul Prompt applicable à toutes les tâches et ensembles de données
Pas besoin d'ingénierie de prompt complexe pour différents domaines
Performance Stable Entre Modèles : baisse mineure de performance lors de l'utilisation de différents récupérateurs de rétroaction
Généralisation BGE : bien que les résultats de récupération ou les récompenses BGE n'aient pas été utilisés pendant l'entraînement, la performance sur BGE est excellente
Influence Mineure de la Source de Rétroaction : comparée à la capacité du récupérateur lui-même, l'influence de la source de rétroaction est relativement faible
Conclusion :
Les réécritures générées par GPRF ne sont pas liées à un espace d'plongement spécifique
Réalisation d'une véritable indépendance du modèle
Validation de l'efficacité de l'élimination de l'hypothèse de modèle
Cadre de Relaxation d'Hypothèses : GPRF relaxe avec succès les deux hypothèses principales de PRF/GRF
Élimination de l'hypothèse de modèle par réécriture en langage naturel
Relaxation de l'hypothèse de pertinence par entraînement orienté vers l'utilité
Efficacité de l'Entraînement Orienté vers l'Utilité : le pipeline d'entraînement en trois étapes améliore significativement la robustesse du modèle face aux rétroactions bruitées
Applicabilité Générale : performance excellente sur les ensembles de données intra-domaine et hors-domaine, ainsi que sur les récupérateurs creux et denses
Forte Praticité : conception unifiée du Prompt, pas besoin d'ingénierie de prompt complexe
GPRF est un travail de haute qualité apportant des contributions substantielles au domaine de la réécriture de requête :
Avantages Fondamentaux :
Positionnement précis du problème, la perspective de "relaxation d'hypothèses" proposée possède une profondeur théorique
Conception méthodologique élégante, la combinaison réécriture en langage naturel + entraînement orienté vers l'utilité est efficace
Vérification expérimentale complète, preuve de l'efficacité et de la généralisation de la méthode sur plusieurs dimensions
Valeur Principale :
Fournit un nouveau paradigme de recherche pour la réécriture de requête
Démontre que les LLM peuvent surmonter les problèmes d'hallucination et de bruit par entraînement approprié dans les tâches de RI
La capacité de transférabilité entre modèles fournit de la flexibilité pour le déploiement réel
Espace d'Amélioration :
L'analyse d'efficacité et de scalabilité doit être renforcée
L'analyse théorique pourrait être plus approfondie
La discussion des cas d'échec et des conditions limites est insuffisante
En résumé, c'est un travail méritant publication dans une conférence de premier plan, avec une valeur de référence importante pour les domaines de la récupération d'information et de l'application des LLM. Il est recommandé de suivre les progrès futurs dans l'optimisation d'efficacité et l'analyse théorique.