2025-11-14T03:13:11.609221

Beyond the limitation of a single query: Train your LLM for query expansion with Reinforcement Learning

Zhao, Yu, Xu

Reasoning-augmented search agents, such as Search-R1, are trained to reason, search, and generate the final answer iteratively. Nevertheless, due to their limited capabilities in reasoning and search, their performance on multi-hop QA benchmarks remains far from satisfactory. To handle complex or compound queries, we train an LLM-based search agent with the native capability of query expansion through reinforcement learning. In each turn, our search agent proposes several query variants, which are searched simultaneously to cover more relevant information. Meanwhile, given limited post-training data and computing resources, it is very challenging for a search agent to master multiple tasks, including query generation, retrieved information understanding, and answer generation. Therefore, we propose incorporating a pre-trained squeezer model that helps the search agent understand the retrieved documents, allowing the search agent to focus on query generation for high retrieval recall. With the assistance of the squeezer model, we discover that even a small-scale 3B LLM can demonstrate a strong capability of query expansion and achieve state-of-the-art accuracy on the multi-hop QA benchmarks. To be specific, our experiments across seven question-answering benchmarks demonstrate that our method, named ExpandSearch, achieves an average improvement of 4.4% compared to state-of-the-art baselines, with strong gains on multi-hop reasoning tasks requiring diverse evidence aggregation.

academic

Au-delà de la limitation d'une seule requête : Entraînez votre LLM pour l'expansion de requête avec l'apprentissage par renforcement

Informations de base

ID de l'article : 2510.10009
Titre : Beyond the limitation of a single query: Train your LLM for query expansion with Reinforcement Learning
Auteurs : Shu Zhao (NVIDIA & Pennsylvania State University), Tan Yu (NVIDIA), Anbang Xu (NVIDIA)
Classification : cs.CL cs.AI cs.IR
Date de publication : 2025-10-14 (prépublication arXiv)
Lien de l'article : https://arxiv.org/abs/2510.10009

Résumé

Les agents de recherche renforcés par le raisonnement (tels que Search-R1) sont entraînés pour raisonner, chercher et générer itérativement une réponse finale. Cependant, en raison de leurs capacités limitées en raisonnement et en recherche, leurs performances sur les benchmarks de questions-réponses multi-sauts restent insatisfaisantes. Pour traiter les requêtes complexes ou composées, les auteurs ont entraîné un agent de recherche basé sur LLM avec des capacités natives d'expansion de requête via l'apprentissage par renforcement. À chaque tour, l'agent de recherche propose plusieurs variantes de requête tout en effectuant des recherches pour couvrir davantage d'informations pertinentes. Considérant les données de post-entraînement limitées et les ressources informatiques restreintes, l'agent de recherche a du mal à maîtriser plusieurs tâches, notamment la génération de requêtes, la compréhension des informations récupérées et la génération de réponses. Par conséquent, les auteurs proposent de combiner un modèle de compression pré-entraîné pour aider l'agent de recherche à comprendre les documents récupérés, permettant à l'agent de recherche de se concentrer sur la génération de requêtes pour obtenir un rappel de récupération élevé. Avec l'aide du modèle de compression, les auteurs constatent que même un petit LLM de 3B peut démontrer de puissantes capacités d'expansion de requête et atteindre une précision de pointe sur les benchmarks de questions-réponses multi-sauts. Spécifiquement, les expériences sur sept benchmarks de questions-réponses montrent que la méthode ExpandSearch améliore les lignes de base de pointe de 4,4% en moyenne, avec des améliorations significatives sur les tâches de raisonnement multi-sauts nécessitant l'agrégation de preuves diversifiées.

Contexte de recherche et motivation

Définition du problème

Les agents de recherche renforcés par le raisonnement existants font face à deux défis fondamentaux :

Incomplétude sémantique : Les requêtes générées sont sémantiquement pauvres, incapables de capturer l'étendue complète des informations pertinentes, particulièrement face aux questions multifacettes nécessitant des preuves diversifiées
Surcharge informationnelle : Le contenu récupéré contient de nombreuses informations non pertinentes, obscurcissant les faits clés et dégradant la qualité du raisonnement

Importance de la recherche

Les tâches de questions-réponses multi-sauts nécessitent d'agréger les preuves sous plusieurs angles, et les limitations sémantiques des requêtes uniques ainsi que les limitations théoriques de la récupération basée sur l'incorporation de vecteurs unidirectionnels limitent considérablement les performances du système. Ce problème est particulièrement aigu dans les scénarios de raisonnement complexe, où l'agent doit naviguer parmi de nombreux résultats de recherche pour identifier les preuves rares mais critiques.

Limitations des approches existantes

Les méthodes comme Search-R1 ne génèrent qu'une seule requête par tour, risquant de manquer les informations sémantiques clés
Le contenu récupéré volumineux entraîne des coûts informatiques élevés, une consommation importante de mémoire GPU et ralentit considérablement la vitesse d'entraînement
Le problème du rapport signal-bruit est particulièrement grave dans les tâches de raisonnement multi-sauts

Motivation de la recherche

L'intuition centrale des auteurs est que la récupération d'informations efficace nécessite une stratégie double : étendre l'espace de requête pour maximiser la couverture des informations pertinentes, puis raffiner sélectivement le contenu récupéré pour conserver uniquement les faits critiques pour le raisonnement. Ce paradigme « expansion-compression » reflète le comportement humain de recherche d'informations.

Contributions principales

Identification et formalisation du problème double : Impact de l'incomplétude sémantique et de la surcharge informationnelle dans les agents de recherche renforcés par le raisonnement, prouvé par analyse empirique que les deux problèmes réduisent significativement les performances sur les tâches de raisonnement complexe
Proposition du cadre ExpandSearch : Cadre « expansion-compression » combinant l'expansion de requête basée sur l'apprentissage par renforcement et l'affinage sélectif des informations par invite, réalisant un rappel élevé tout en maintenant la précision dans les scénarios de raisonnement multi-étapes
Réalisation d'améliorations significatives des performances : Améliorations substantielles par rapport aux lignes de base de pointe sur sept benchmarks, avec des performances exceptionnelles particulièrement sur les tâches de raisonnement multi-sauts nécessitant l'agrégation de preuves diversifiées

Détails de la méthode

Définition de la tâche

Étant donné une requête d'entrée x, l'agent de recherche doit générer une réponse finale y via un processus itératif de raisonnement-recherche, où chaque tour peut invoquer un moteur de recherche R pour récupérer des blocs de documents pertinents et effectuer un raisonnement basé sur les informations récupérées.

Architecture du modèle

Stratégie Expand-then-Squeeze

Phase Expand :

Le LLM génère des blocs <search></search> contenant n requêtes diversifiées {qi}
Chaque requête qi récupère k blocs les plus pertinents via le moteur de recherche R : Ci = c1i, ..., cki ← R(qi)
Surmonte efficacement les limitations de la récupération par requête unique, améliorant le rappel de récupération

Phase Squeeze :

Les requêtes générées q1, ..., qn et les blocs récupérés C1, ..., Cn sont entrés dans le compresseur LLM gelé πs
Génération d'un résumé : s = πs(q1, ..., qn, C1, ..., Cn)
L'information compressée s est encapsulée dans des blocs <information></information> insérés dans la séquence de génération en cours

Points d'innovation technique

1. Types d'expansion de requête

Deux types d'expansion complémentaires découverts naturellement via l'apprentissage par renforcement :

Expansion syntaxique : Traite les variations de forme de surface, par exemple « where did he die » → « his death place »
Expansion sémantique : Élargit la portée informationnelle, par exemple « Alex's father » → « Alex's family »

2. Conception d'architecture modulaire

Agent de recherche : Se concentre sur la génération de requêtes pour atteindre un rappel de récupération élevé
Modèle de compression : Traite indépendamment la compréhension des documents récupérés, découplage réalisé via appels API

3. Conception de la fonction de récompense

Utilise une combinaison pondérée de fonctions de récompense : r = rEM + λrf

rEM : Récompense de correspondance exacte, égale à 1 lorsque la réponse prédite correspond exactement à la vraie réponse
rf : Récompense de format, égale à 1 lorsque la réponse prédite respecte strictement le format
λ défini par défaut à 0,2

Configuration expérimentale

Ensembles de données

Couvrant sept benchmarks, divisés en deux catégories :

Questions-réponses générales : NQ, TriviaQA, PopQA
Questions-réponses multi-sauts : HotpotQA, 2WikiMultiHopQA, Musique, Bamboogle

Suivant la configuration de Jin et al., combinant les ensembles d'entraînement NQ et HotpotQA, évaluation sur les ensembles de validation/test pour la capacité de généralisation intra-domaine et hors-domaine.

Métriques d'évaluation

Utilisation de la correspondance exacte (Exact Match, EM) comme métrique d'évaluation principale.

Méthodes de comparaison

R1 without search engine
Search-R1
ZeroSearch
StepSearch
Router-R1
ParallelSearch

Détails d'implémentation

Modèle de base : Qwen-2.5-Base/Instruct (3B/7B)
Modèle d'incorporation : E5
Corpus : Vidage Wikipedia 2018
Matériel : 8×NVIDIA H100 GPU
Algorithme : PPO (Proximal Policy Optimization)
Traitement par lots : Taille de lot totale 512, petit lot 256, micro-lot 64

Résultats expérimentaux

Résultats principaux

Améliorations cohérentes et significatives dans toutes les configurations :

Amélioration moyenne de 4,4% : Amélioration absolue par rapport à la ligne de base la plus forte
Avantage des petits modèles : Le modèle 3B-Instruct (0,457 EM moyen) surpasse les méthodes de base 7B
Impact architectural : La variante instruct du modèle 3B surpasse le modèle base de 2,2% ; la variante base du modèle 7B surpasse le modèle instruct de 3,1%

Expériences d'ablation

Impact du nombre d'expansions de requête

L'augmentation de 1 à 3 requêtes améliore significativement les performances :

n=1 à n=2 : Amélioration moyenne de 6,7%
Amélioration continue à n=3, mais rendements décroissants

Importance de l'entraînement de bout en bout

ExpandSearch (n=3, k=5) améliore Search-R1 (k=15) de 34,3%
L'ajout seul d'invites d'expansion sans entraînement RL réduit même les performances
Prouve que l'entraînement de bout en bout est critique pour apprendre des stratégies d'expansion de requête efficaces

Analyse des types d'expansion

L'expansion syntaxique représente 63,35%, l'expansion sémantique 36,65%
La suppression de l'un ou l'autre type entraîne une dégradation des performances, prouvant leur complémentarité

Analyse du comportement du compresseur

Profondeur de récupération : L'augmentation de k=3 à k=10 montre des rendements cohérents mais décroissants
Sélection du modèle : LLaMA-3.1-70B fonctionne mieux sur les questions-réponses générales, LLaMA-4-17B sur le raisonnement multi-sauts
Capacité de généralisation : Les performances restent comparables lors de l'utilisation de différents modèles de compresseur à l'entraînement et à l'inférence

Dynamiques d'entraînement

La récompense, la longueur de réponse et la fréquence de recherche augmentent de manière synchrone
Le modèle apprend autonomement à augmenter la fréquence de recherche comme stratégie pour améliorer la qualité des réponses
Les courbes d'entraînement lisses indiquent un processus d'optimisation stable

Travaux connexes

Agents de recherche profonde

Systèmes RAG : Pipelines en deux étapes, récupération puis génération, mais contiennent souvent des informations non pertinentes
Cadres d'outils de recherche : Tels que IRCoT, ReAct guidés par invite, Toolformer par affinage supervisé
Méthodes d'apprentissage par renforcement : Search-R1 applique de manière pionnière les techniques RL, les développements ultérieurs incluent ZeroSearch, MaskSearch, etc.

Apprentissage par renforcement

RLHF : Entraînement de modèles de récompense via annotations de préférences humaines
Optimisation de l'efficacité : DPO, SimPO, ORPO contournent l'entraînement du modèle de récompense
Technologies émergentes : GRPO, RLOO offrent des alternatives prometteuses en évaluant les politiques par groupes

Conclusion et discussion

Conclusions principales

ExpandSearch résout efficacement les limitations de la récupération par requête unique via l'expansion de requête apprise et l'affinage sélectif des informations
Le paradigme « expansion-compression » résout avec succès les défis doubles de l'incomplétude sémantique et de la surcharge informationnelle
Même les modèles de taille 3B peuvent démontrer de puissantes capacités d'expansion de requête et atteindre les performances de pointe

Limitations

Coût informatique : La récupération multi-requête et les appels du compresseur augmentent le temps d'inférence
Dépendance : Les performances dépendent de la qualité du modèle de compression
Saturation d'expansion : Les rendements de l'augmentation du nombre de requêtes présentent des effets décroissants

Directions futures

Stratégies de récupération adaptatives : Ajustement dynamique du nombre d'expansions selon la complexité de la requête
Méthodes d'entraînement plus efficaces : Réduction de la dépendance aux ressources informatiques à grande échelle
Optimisation de bout en bout : Entraînement conjoint de l'agent de recherche et du modèle de compression

Évaluation approfondie

Avantages

Innovativité de la méthode : Première combinaison de l'expansion de requête avec l'apprentissage par renforcement, conception ingénieuse du paradigme « expansion-compression »
Suffisance expérimentale : Sept benchmarks, plusieurs échelles de modèles, expériences d'ablation détaillées
Intuitions techniques : Découverte de la complémentarité des expansions syntaxique et sémantique, fournissant des intuitions techniques précieuses
Valeur pratique : Les petits modèles atteignent également d'excellentes performances, possédant une valeur de déploiement pratique

Insuffisances

Analyse théorique insuffisante : Manque d'explication théorique sur pourquoi cette approche fonctionne
Efficacité informatique : L'analyse des frais généraux informatiques de la récupération multi-requête n'est pas suffisamment approfondie
Capacité de généralisation : Principalement validée sur les tâches de questions-réponses, l'applicabilité à d'autres tâches reste inconnue
Dépendance du compresseur : La dépendance à un modèle de compression externe peut limiter les scénarios d'application

Impact

Contribution académique : Fournit une nouvelle direction de recherche pour le domaine de la génération augmentée par récupération
Valeur pratique : La conception modulaire facilite l'application et le déploiement pratiques
Reproductibilité : Fournit des détails d'implémentation détaillés et s'engage à l'open source

Scénarios d'application

Systèmes de questions-réponses multi-sauts : Particulièrement adaptés aux tâches de questions-réponses nécessitant un raisonnement complexe
Systèmes de récupération d'informations : Applicables aux scénarios de récupération nécessitant un rappel élevé
Systèmes de dialogue : Peuvent être intégrés aux agents de dialogue nécessitant des connaissances externes

Références

L'article cite plusieurs travaux importants, notamment :

Search-R1 (Jin et al., 2025b) : Travail pionnnier sur les agents de recherche RL
Travaux connexes RLHF (Ouyang et al., 2022) : Fondations de l'entraînement LLM par apprentissage par renforcement
Plusieurs ensembles de données de questions-réponses : Benchmarks standards NQ, HotpotQA, TriviaQA, etc.

Cet article propose une solution innovante pour relever les défis fondamentaux des agents de recherche actuels, réalisant des améliorations significatives des performances grâce à une conception ingénieuse du paradigme « expansion-compression ». Bien qu'il y ait de la place pour l'amélioration dans l'analyse théorique et l'efficacité informatique, son innovation technique et sa validation expérimentale atteignent un niveau élevé, exerçant une influence importante sur le domaine de la génération augmentée par récupération.