2025-11-14T03:13:11.609221

Beyond the limitation of a single query: Train your LLM for query expansion with Reinforcement Learning

Zhao, Yu, Xu
Reasoning-augmented search agents, such as Search-R1, are trained to reason, search, and generate the final answer iteratively. Nevertheless, due to their limited capabilities in reasoning and search, their performance on multi-hop QA benchmarks remains far from satisfactory. To handle complex or compound queries, we train an LLM-based search agent with the native capability of query expansion through reinforcement learning. In each turn, our search agent proposes several query variants, which are searched simultaneously to cover more relevant information. Meanwhile, given limited post-training data and computing resources, it is very challenging for a search agent to master multiple tasks, including query generation, retrieved information understanding, and answer generation. Therefore, we propose incorporating a pre-trained squeezer model that helps the search agent understand the retrieved documents, allowing the search agent to focus on query generation for high retrieval recall. With the assistance of the squeezer model, we discover that even a small-scale 3B LLM can demonstrate a strong capability of query expansion and achieve state-of-the-art accuracy on the multi-hop QA benchmarks. To be specific, our experiments across seven question-answering benchmarks demonstrate that our method, named ExpandSearch, achieves an average improvement of 4.4% compared to state-of-the-art baselines, with strong gains on multi-hop reasoning tasks requiring diverse evidence aggregation.
academic

Au-delà de la limitation d'une seule requête : Entraînez votre LLM pour l'expansion de requête avec l'apprentissage par renforcement

Informations de base

  • ID de l'article : 2510.10009
  • Titre : Beyond the limitation of a single query: Train your LLM for query expansion with Reinforcement Learning
  • Auteurs : Shu Zhao (NVIDIA & Pennsylvania State University), Tan Yu (NVIDIA), Anbang Xu (NVIDIA)
  • Classification : cs.CL cs.AI cs.IR
  • Date de publication : 2025-10-14 (prépublication arXiv)
  • Lien de l'article : https://arxiv.org/abs/2510.10009

Résumé

Les agents de recherche renforcés par le raisonnement (tels que Search-R1) sont entraînés pour raisonner, chercher et générer itérativement une réponse finale. Cependant, en raison de leurs capacités limitées en raisonnement et en recherche, leurs performances sur les benchmarks de questions-réponses multi-sauts restent insatisfaisantes. Pour traiter les requêtes complexes ou composées, les auteurs ont entraîné un agent de recherche basé sur LLM avec des capacités natives d'expansion de requête via l'apprentissage par renforcement. À chaque tour, l'agent de recherche propose plusieurs variantes de requête tout en effectuant des recherches pour couvrir davantage d'informations pertinentes. Considérant les données de post-entraînement limitées et les ressources informatiques restreintes, l'agent de recherche a du mal à maîtriser plusieurs tâches, notamment la génération de requêtes, la compréhension des informations récupérées et la génération de réponses. Par conséquent, les auteurs proposent de combiner un modèle de compression pré-entraîné pour aider l'agent de recherche à comprendre les documents récupérés, permettant à l'agent de recherche de se concentrer sur la génération de requêtes pour obtenir un rappel de récupération élevé. Avec l'aide du modèle de compression, les auteurs constatent que même un petit LLM de 3B peut démontrer de puissantes capacités d'expansion de requête et atteindre une précision de pointe sur les benchmarks de questions-réponses multi-sauts. Spécifiquement, les expériences sur sept benchmarks de questions-réponses montrent que la méthode ExpandSearch améliore les lignes de base de pointe de 4,4% en moyenne, avec des améliorations significatives sur les tâches de raisonnement multi-sauts nécessitant l'agrégation de preuves diversifiées.

Contexte de recherche et motivation

Définition du problème

Les agents de recherche renforcés par le raisonnement existants font face à deux défis fondamentaux :

  1. Incomplétude sémantique : Les requêtes générées sont sémantiquement pauvres, incapables de capturer l'étendue complète des informations pertinentes, particulièrement face aux questions multifacettes nécessitant des preuves diversifiées
  2. Surcharge informationnelle : Le contenu récupéré contient de nombreuses informations non pertinentes, obscurcissant les faits clés et dégradant la qualité du raisonnement

Importance de la recherche

Les tâches de questions-réponses multi-sauts nécessitent d'agréger les preuves sous plusieurs angles, et les limitations sémantiques des requêtes uniques ainsi que les limitations théoriques de la récupération basée sur l'incorporation de vecteurs unidirectionnels limitent considérablement les performances du système. Ce problème est particulièrement aigu dans les scénarios de raisonnement complexe, où l'agent doit naviguer parmi de nombreux résultats de recherche pour identifier les preuves rares mais critiques.

Limitations des approches existantes

  • Les méthodes comme Search-R1 ne génèrent qu'une seule requête par tour, risquant de manquer les informations sémantiques clés
  • Le contenu récupéré volumineux entraîne des coûts informatiques élevés, une consommation importante de mémoire GPU et ralentit considérablement la vitesse d'entraînement
  • Le problème du rapport signal-bruit est particulièrement grave dans les tâches de raisonnement multi-sauts

Motivation de la recherche

L'intuition centrale des auteurs est que la récupération d'informations efficace nécessite une stratégie double : étendre l'espace de requête pour maximiser la couverture des informations pertinentes, puis raffiner sélectivement le contenu récupéré pour conserver uniquement les faits critiques pour le raisonnement. Ce paradigme « expansion-compression » reflète le comportement humain de recherche d'informations.

Contributions principales

  1. Identification et formalisation du problème double : Impact de l'incomplétude sémantique et de la surcharge informationnelle dans les agents de recherche renforcés par le raisonnement, prouvé par analyse empirique que les deux problèmes réduisent significativement les performances sur les tâches de raisonnement complexe
  2. Proposition du cadre ExpandSearch : Cadre « expansion-compression » combinant l'expansion de requête basée sur l'apprentissage par renforcement et l'affinage sélectif des informations par invite, réalisant un rappel élevé tout en maintenant la précision dans les scénarios de raisonnement multi-étapes
  3. Réalisation d'améliorations significatives des performances : Améliorations substantielles par rapport aux lignes de base de pointe sur sept benchmarks, avec des performances exceptionnelles particulièrement sur les tâches de raisonnement multi-sauts nécessitant l'agrégation de preuves diversifiées

Détails de la méthode

Définition de la tâche

Étant donné une requête d'entrée x, l'agent de recherche doit générer une réponse finale y via un processus itératif de raisonnement-recherche, où chaque tour peut invoquer un moteur de recherche R pour récupérer des blocs de documents pertinents et effectuer un raisonnement basé sur les informations récupérées.

Architecture du modèle

Stratégie Expand-then-Squeeze

Phase Expand :

  • Le LLM génère des blocs <search></search> contenant n requêtes diversifiées {qi}
  • Chaque requête qi récupère k blocs les plus pertinents via le moteur de recherche R : Ci = c1i, ..., cki ← R(qi)
  • Surmonte efficacement les limitations de la récupération par requête unique, améliorant le rappel de récupération

Phase Squeeze :

  • Les requêtes générées q1, ..., qn et les blocs récupérés C1, ..., Cn sont entrés dans le compresseur LLM gelé πs
  • Génération d'un résumé : s = πs(q1, ..., qn, C1, ..., Cn)
  • L'information compressée s est encapsulée dans des blocs <information></information> insérés dans la séquence de génération en cours

Points d'innovation technique

1. Types d'expansion de requête

Deux types d'expansion complémentaires découverts naturellement via l'apprentissage par renforcement :

  • Expansion syntaxique : Traite les variations de forme de surface, par exemple « where did he die » → « his death place »
  • Expansion sémantique : Élargit la portée informationnelle, par exemple « Alex's father » → « Alex's family »

2. Conception d'architecture modulaire

  • Agent de recherche : Se concentre sur la génération de requêtes pour atteindre un rappel de récupération élevé
  • Modèle de compression : Traite indépendamment la compréhension des documents récupérés, découplage réalisé via appels API

3. Conception de la fonction de récompense

Utilise une combinaison pondérée de fonctions de récompense : r = rEM + λrf

  • rEM : Récompense de correspondance exacte, égale à 1 lorsque la réponse prédite correspond exactement à la vraie réponse
  • rf : Récompense de format, égale à 1 lorsque la réponse prédite respecte strictement le format
  • λ défini par défaut à 0,2

Configuration expérimentale

Ensembles de données

Couvrant sept benchmarks, divisés en deux catégories :

  1. Questions-réponses générales : NQ, TriviaQA, PopQA
  2. Questions-réponses multi-sauts : HotpotQA, 2WikiMultiHopQA, Musique, Bamboogle

Suivant la configuration de Jin et al., combinant les ensembles d'entraînement NQ et HotpotQA, évaluation sur les ensembles de validation/test pour la capacité de généralisation intra-domaine et hors-domaine.

Métriques d'évaluation

Utilisation de la correspondance exacte (Exact Match, EM) comme métrique d'évaluation principale.

Méthodes de comparaison

  • R1 without search engine
  • Search-R1
  • ZeroSearch
  • StepSearch
  • Router-R1
  • ParallelSearch

Détails d'implémentation

  • Modèle de base : Qwen-2.5-Base/Instruct (3B/7B)
  • Modèle d'incorporation : E5
  • Corpus : Vidage Wikipedia 2018
  • Matériel : 8×NVIDIA H100 GPU
  • Algorithme : PPO (Proximal Policy Optimization)
  • Traitement par lots : Taille de lot totale 512, petit lot 256, micro-lot 64

Résultats expérimentaux

Résultats principaux

Améliorations cohérentes et significatives dans toutes les configurations :

  • Amélioration moyenne de 4,4% : Amélioration absolue par rapport à la ligne de base la plus forte
  • Avantage des petits modèles : Le modèle 3B-Instruct (0,457 EM moyen) surpasse les méthodes de base 7B
  • Impact architectural : La variante instruct du modèle 3B surpasse le modèle base de 2,2% ; la variante base du modèle 7B surpasse le modèle instruct de 3,1%

Expériences d'ablation

Impact du nombre d'expansions de requête

L'augmentation de 1 à 3 requêtes améliore significativement les performances :

  • n=1 à n=2 : Amélioration moyenne de 6,7%
  • Amélioration continue à n=3, mais rendements décroissants

Importance de l'entraînement de bout en bout

  • ExpandSearch (n=3, k=5) améliore Search-R1 (k=15) de 34,3%
  • L'ajout seul d'invites d'expansion sans entraînement RL réduit même les performances
  • Prouve que l'entraînement de bout en bout est critique pour apprendre des stratégies d'expansion de requête efficaces

Analyse des types d'expansion

  • L'expansion syntaxique représente 63,35%, l'expansion sémantique 36,65%
  • La suppression de l'un ou l'autre type entraîne une dégradation des performances, prouvant leur complémentarité

Analyse du comportement du compresseur

  • Profondeur de récupération : L'augmentation de k=3 à k=10 montre des rendements cohérents mais décroissants
  • Sélection du modèle : LLaMA-3.1-70B fonctionne mieux sur les questions-réponses générales, LLaMA-4-17B sur le raisonnement multi-sauts
  • Capacité de généralisation : Les performances restent comparables lors de l'utilisation de différents modèles de compresseur à l'entraînement et à l'inférence

Dynamiques d'entraînement

  • La récompense, la longueur de réponse et la fréquence de recherche augmentent de manière synchrone
  • Le modèle apprend autonomement à augmenter la fréquence de recherche comme stratégie pour améliorer la qualité des réponses
  • Les courbes d'entraînement lisses indiquent un processus d'optimisation stable

Travaux connexes

Agents de recherche profonde

  • Systèmes RAG : Pipelines en deux étapes, récupération puis génération, mais contiennent souvent des informations non pertinentes
  • Cadres d'outils de recherche : Tels que IRCoT, ReAct guidés par invite, Toolformer par affinage supervisé
  • Méthodes d'apprentissage par renforcement : Search-R1 applique de manière pionnière les techniques RL, les développements ultérieurs incluent ZeroSearch, MaskSearch, etc.

Apprentissage par renforcement

  • RLHF : Entraînement de modèles de récompense via annotations de préférences humaines
  • Optimisation de l'efficacité : DPO, SimPO, ORPO contournent l'entraînement du modèle de récompense
  • Technologies émergentes : GRPO, RLOO offrent des alternatives prometteuses en évaluant les politiques par groupes

Conclusion et discussion

Conclusions principales

  1. ExpandSearch résout efficacement les limitations de la récupération par requête unique via l'expansion de requête apprise et l'affinage sélectif des informations
  2. Le paradigme « expansion-compression » résout avec succès les défis doubles de l'incomplétude sémantique et de la surcharge informationnelle
  3. Même les modèles de taille 3B peuvent démontrer de puissantes capacités d'expansion de requête et atteindre les performances de pointe

Limitations

  1. Coût informatique : La récupération multi-requête et les appels du compresseur augmentent le temps d'inférence
  2. Dépendance : Les performances dépendent de la qualité du modèle de compression
  3. Saturation d'expansion : Les rendements de l'augmentation du nombre de requêtes présentent des effets décroissants

Directions futures

  1. Stratégies de récupération adaptatives : Ajustement dynamique du nombre d'expansions selon la complexité de la requête
  2. Méthodes d'entraînement plus efficaces : Réduction de la dépendance aux ressources informatiques à grande échelle
  3. Optimisation de bout en bout : Entraînement conjoint de l'agent de recherche et du modèle de compression

Évaluation approfondie

Avantages

  1. Innovativité de la méthode : Première combinaison de l'expansion de requête avec l'apprentissage par renforcement, conception ingénieuse du paradigme « expansion-compression »
  2. Suffisance expérimentale : Sept benchmarks, plusieurs échelles de modèles, expériences d'ablation détaillées
  3. Intuitions techniques : Découverte de la complémentarité des expansions syntaxique et sémantique, fournissant des intuitions techniques précieuses
  4. Valeur pratique : Les petits modèles atteignent également d'excellentes performances, possédant une valeur de déploiement pratique

Insuffisances

  1. Analyse théorique insuffisante : Manque d'explication théorique sur pourquoi cette approche fonctionne
  2. Efficacité informatique : L'analyse des frais généraux informatiques de la récupération multi-requête n'est pas suffisamment approfondie
  3. Capacité de généralisation : Principalement validée sur les tâches de questions-réponses, l'applicabilité à d'autres tâches reste inconnue
  4. Dépendance du compresseur : La dépendance à un modèle de compression externe peut limiter les scénarios d'application

Impact

  1. Contribution académique : Fournit une nouvelle direction de recherche pour le domaine de la génération augmentée par récupération
  2. Valeur pratique : La conception modulaire facilite l'application et le déploiement pratiques
  3. Reproductibilité : Fournit des détails d'implémentation détaillés et s'engage à l'open source

Scénarios d'application

  1. Systèmes de questions-réponses multi-sauts : Particulièrement adaptés aux tâches de questions-réponses nécessitant un raisonnement complexe
  2. Systèmes de récupération d'informations : Applicables aux scénarios de récupération nécessitant un rappel élevé
  3. Systèmes de dialogue : Peuvent être intégrés aux agents de dialogue nécessitant des connaissances externes

Références

L'article cite plusieurs travaux importants, notamment :

  • Search-R1 (Jin et al., 2025b) : Travail pionnnier sur les agents de recherche RL
  • Travaux connexes RLHF (Ouyang et al., 2022) : Fondations de l'entraînement LLM par apprentissage par renforcement
  • Plusieurs ensembles de données de questions-réponses : Benchmarks standards NQ, HotpotQA, TriviaQA, etc.

Cet article propose une solution innovante pour relever les défis fondamentaux des agents de recherche actuels, réalisant des améliorations significatives des performances grâce à une conception ingénieuse du paradigme « expansion-compression ». Bien qu'il y ait de la place pour l'amélioration dans l'analyse théorique et l'efficacité informatique, son innovation technique et sa validation expérimentale atteignent un niveau élevé, exerçant une influence importante sur le domaine de la génération augmentée par récupération.