2025-11-25T20:10:18.587625

ChatR1: Reinforcement Learning for Conversational Reasoning and Retrieval Augmented Question Answering

Lupart, Aliannejadi, Kanoulas
We present ChatR1, a reasoning framework based on reinforcement learning (RL) for conversational question answering (CQA). Reasoning plays an important role in CQA, where user intent evolves across dialogue turns, and utterances are often underspecified, requiring contextual interpretation, query reformulation, and dynamic coordination between retrieval and generation. Unlike static `rewrite, retrieve, and generate' pipelines, ChatR1 interleaves search and reasoning across turns, enabling exploratory and adaptive behaviors learned through RL. To address the challenge of sparse and delayed rewards in RL, we propose an intent-aware reward that provides turn-level feedback by aligning retrieval and reasoning with evolving user goals. Our proposed ChatR1 demonstrates strong performance on both 3B and 7B model backbones, outperforming competitive models on five CQA datasets, measured by different metrics (F1, BERTScore, and LLM-as-judge). We include a diverse set of CQA datasets to cover topic shifts, evolving intents, mixed-initiative dialogues, and multi-document grounding, testing ChatR1's performance from various aspects. Ablation studies confirm the effectiveness of the intent-aware reward. Our analyses further reveal diverse reasoning trajectories and effective use of the search tool. ChatR1 also generalizes robustly across domains, demonstrating that RL-based reasoning enables more flexible and context-sensitive behavior than static CQA pipelines.
academic

ChatR1 : Apprentissage par Renforcement pour le Raisonnement Conversationnel et la Réponse aux Questions Augmentée par Récupération

Informations Fondamentales

  • ID de l'article : 2510.13312
  • Titre : ChatR1: Reinforcement Learning for Conversational Reasoning and Retrieval Augmented Question Answering
  • Auteurs : Simon Lupart, Mohammad Aliannejadi, Evangelos Kanoulas (Université d'Amsterdam)
  • Classification : cs.CL, cs.IR
  • Date de publication : 15 octobre 2025 (prépublication arXiv)
  • Lien de l'article : https://arxiv.org/abs/2510.13312

Résumé

Cet article propose ChatR1, un cadre de raisonnement pour la réponse aux questions conversationnelle basé sur l'apprentissage par renforcement. Dans la réponse aux questions conversationnelle (CQA), l'intention de l'utilisateur évolue continuellement au cours de dialogues multi-tours, les énoncés sont souvent incomplets et nécessitent une clarification contextuelle, une reconstruction de requête et une coordination dynamique entre récupération et génération. Contrairement aux pipelines statiques « réécriture-récupération-génération », ChatR1 alterne entre recherche et raisonnement au cours de dialogues multi-tours, en mettant en œuvre des comportements exploratoires et adaptatifs par apprentissage par renforcement. Pour résoudre les défis des récompenses éparses et retardées en apprentissage par renforcement, les auteurs proposent une récompense consciente de l'intention, fournissant des retours au niveau des tours en alignant la récupération et le raisonnement avec les objectifs utilisateur en évolution. ChatR1 démontre d'excellentes performances sur les modèles 3B et 7B, surpassant les modèles concurrents sur cinq ensembles de données CQA.

Contexte de Recherche et Motivation

Définition du Problème

Les défis fondamentaux de la réponse aux questions conversationnelle (CQA) incluent :

  1. Évolution de l'intention utilisateur : L'intention de l'utilisateur change et évolue continuellement au cours de dialogues multi-tours
  2. Incomplétude des énoncés : Les expressions des utilisateurs dépendent souvent du contexte, présentant des problèmes de résolution de références et d'ellipse
  3. Besoins de coordination dynamique : Nécessité d'une coordination dynamique entre récupération et génération

Limitations des Approches Existantes

  1. Limitations des pipelines statiques : Les méthodes existantes adoptent principalement des pipelines statiques « réécriture-récupération-génération », manquant de flexibilité
  2. Dépendance à l'apprentissage supervisé : La plupart des méthodes dépendent de l'ajustement fin supervisé (SFT), ce qui rend difficile l'adaptation à des scénarios de dialogue non vus pendant l'entraînement
  3. Hypothèse d'interaction mono-tour : Les cadres de raisonnement RL existants ciblent principalement les interactions mono-tour, sans tenir compte de la complexité des dialogues multi-tours

Motivation de la Recherche

Les systèmes commerciaux (tels que Perplexity.ai, SearchGPT) s'orientent de plus en plus vers la recherche conversationnelle multi-tours, mais la recherche académique est relativement en retard dans ce domaine. L'apprentissage par renforcement peut permettre aux modèles d'apprendre des stratégies dynamiques de récupération et de raisonnement, plutôt que de dépendre de données de démonstration statiques.

Contributions Principales

  1. Proposition du cadre ChatR1 : Premier modèle de raisonnement CQA basé sur RL, optimisant de bout en bout la récupération et la génération multi-tours, apprenant des comportements dynamiques plutôt que des pipelines statiques
  2. Conception d'une récompense consciente de l'intention : Mécanisme de récompense spécialisé pour CQA, réduisant la rareté des récompenses en s'alignant sur les intentions utilisateur en évolution
  3. Vérification expérimentale complète : Validation des performances sur cinq ensembles de données CQA de complexités différentes, démontrant la capacité de généralisation inter-domaines
  4. Analyse approfondie : Révélation de la génération de ChatR1 de chemins de raisonnement diversifiés, utilisation efficace des outils de recherche et robustesse inter-domaines

Détails de la Méthode

Définition de la Tâche

Étant donné un ensemble de données D contenant des dialogues utilisateur-système multi-tours, où chaque dialogue est composé de plusieurs tours, et une collection de documents C. À chaque tour, le système reçoit l'historique du dialogue H et la requête utilisateur actuelle q, la tâche est de générer une réponse y, utilisant le contexte de H et effectuant une vérification factuelle basée sur C. L'intention utilisateur est définie comme la requête réécrite q_rw, résolvant les références contextuelles et les ambiguïtés dans q.

Architecture du Modèle

Boucle d'Interaction

ChatR1 est un modèle de politique π_θ qui génère une trajectoire τ à chaque tour, incluant :

  • Trajectoire de raisonnement : Processus de réflexion (...)
  • Requêtes de recherche intermédiaires : Q = {q_k}^K_ envoyées au moteur de recherche R
  • Documents récupérés : Documents pertinents retournés basés sur les requêtes de recherche
  • Réponse finale : y

Fonction Objectif RL

L'objectif d'optimisation est de maximiser la récompense attendue tout en minimisant la distance par rapport à la politique originale :

J(θ) = E_{(q,H)~D, τ~π_θ(·|q,H;R)} [R(τ)] - β D_KL(π_θ || π_ref)

Optimisation PPO

Utilisation de l'algorithme d'optimisation de politique proximale (PPO), maximisant l'objectif de substitut tronqué :

L_PPO(θ) = E_{(q,H;R;i)~μ} [min(ρ_i(θ)Â_i, clip(ρ_i(θ), 1-ε, 1+ε)Â_i)]

où ρ_i(θ) est le ratio de probabilité entre les politiques nouvelle et ancienne, et Â_i est la fonction d'avantage estimée.

Conception du Mécanisme de Récompense

Fonction de Récompense Composite

R(τ) = R_answer(y) + α R_intent(Q)

Récompense de Réponse

Évaluation de la qualité de la réponse finale basée sur le score F1 au niveau des mots :

R_answer(y) = F1(y, y*)

Récompense d'Intention

Mesure de l'alignement des requêtes de recherche avec l'intention utilisateur :

R_intent(Q) = max_{q_k∈Q} F1(q_k, q_rw)

La prise du maximum garantit que le modèle est récompensé lors de la formulation de reconstructions sémantiquement correctes, tout en maintenant la flexibilité des requêtes exploratoires.

Points d'Innovation Technique

  1. Optimisation de bout en bout : Contrairement aux pipelines séparés traditionnels, ChatR1 optimise conjointement le raisonnement, la récupération et la génération
  2. Conception consciente de l'intention : Mécanisme de récompense spécialisé pour CQA, évaluant directement la qualité des requêtes plutôt que de dépendre des résultats de récupération
  3. Raisonnement adaptatif : Apprentissage par RL de quand et comment effectuer une recherche, plutôt que des stratégies statiques prédéfinies

Configuration Expérimentale

Ensembles de Données

Utilisation de cinq ensembles de données CQA diversifiés :

Ensemble de DonnéesNombre de ToursDéfis Principaux
TopiOCQA45k/2.5kChangements de sujet, évolution de l'intention
QReCC63k/16kCorpus à grande échelle, reconstruction de requête
INSCIT1.8k/3.3kDomaines mixtes, intention ouverte
MDoc2Dial18k/3.3kBase multi-documents, raisonnement de domaine
FaithDial18k/3.5kFidélité, contrôle des hallucinations

Métriques d'Évaluation

  • Qualité de génération : F1, BERTScore, LLM-as-judge
  • Qualité de récupération : nDCG, Recall, MRR, hit@N

Méthodes de Comparaison

  1. Approches zéro-shot : GPT-3.5, Claude, Qwen avec raisonnement direct et CoT
  2. Ajustement fin supervisé : conv-ANCE+Mistral, ChatRetriever+Mistral, UniConv
  3. Entraînement RL : CoT R1, QR Search R1, etc.

Détails d'Implémentation

  • Modèle de base : Qwen2.5-3B/7B-Instruct
  • Modèle de récupération : intfloat/e5-base-v2 (300M paramètres)
  • Configuration d'entraînement : Taille de lot 512, micro-lot PPO 64, taux d'apprentissage 1e-6
  • Matériel : 4 GPU H100

Résultats Expérimentaux

Résultats Principaux

La comparaison des performances sur cinq ensembles de données montre :

  1. ChatR1-3B surpasse les grands modèles fermés : Surpasse ChatGPT et Claude avec moins de paramètres
  2. Surpasse les lignes de base supervisées : ChatR1-3B surpasse tous les lignes de base supervisées et RL 3B sur la plupart des ensembles de données en F1 et BERTScore
  3. Effet d'échelle évident : ChatR1-7B améliore en moyenne de 1.4 points F1 et 0.5 BERTScore par rapport à la version 3B

Capacité de Généralisation

Les expériences de transfert inter-domaines (entraînement sur QReCC, test sur d'autres ensembles de données) montrent :

  • ChatR1-3B ne perd que 0.2 points sur MultiDoc2Dial
  • Surpasse toujours les performances zéro-shot de ChatGPT sur trois ensembles de données
  • Démontre une forte capacité d'utilisation des outils de recherche plutôt qu'un surapprentissage spécifique au domaine

Expériences d'Ablation

Effet de la Récompense d'Intention

  • ChatR1-3B améliore en moyenne de 2.2 points F1 par rapport à la version sans récompense d'intention
  • La récompense F1 au niveau des requêtes surpasse les récompenses hit@k basées sur les documents
  • Les meilleures performances sont atteintes avec un ratio récompense récupération/génération de 0.2/1.0

Analyse de la Conception de la Récompense

Avantages de la récompense d'intention par rapport à la récompense de récupération :

  1. Densité plus élevée : Fournit un signal d'apprentissage plus fort pour PPO
  2. Découplage des erreurs : Indépendant du moteur de recherche, séparant les erreurs de récupération et de formulation de requête
  3. Complétude des annotations : Évite les problèmes d'annotations incomplètes de pertinence des documents

Analyse de Cas

Diversité des Chemins de Raisonnement

Différents ensembles de données présentent différentes distributions de longueur de raisonnement :

  • MultiDoc2Dial et QReCC nécessitent les trajectoires de raisonnement les plus longues
  • FaithDial est relativement plus court
  • INSCIT a la distribution la plus dispersée, reflétant la nature multi-domaines

Performance de Récupération

Les performances de récupération de ChatR1 en tant qu'outil sont comparables aux méthodes supervisées :

  • ChatR1-7B égale ou surpasse les lignes de base supervisées sur TopiOCQA et QReCC
  • Démontre la capacité d'apprentissage autonome d'une récupération efficace à partir de l'apprentissage interactif

Travaux Connexes

Réponse aux Questions Conversationnelle

Les méthodes CQA traditionnelles dépendent principalement de pipelines RAG statiques et d'ajustement fin supervisé, manquant de mécanismes de raisonnement explicites pour décider quand et comment effectuer une recherche.

Raisonnement RL pour la Réponse aux Questions

Les travaux récents tels que Search-R1 et ReSearch appliquent RL au raisonnement mono-tour, mais n'étendent pas à des scénarios de dialogue multi-tours.

Utilisation d'Outils

Des méthodes telles que CALM étendent le raisonnement aux dialogues multi-tours, mais dépendent toujours de l'ajustement fin supervisé plutôt que de l'entraînement RL.

Conclusion et Discussion

Conclusions Principales

  1. Efficacité du raisonnement RL : ChatR1 démontre que RL peut améliorer les capacités de raisonnement en CQA
  2. Importance de la récompense d'intention : La récompense consciente de l'intention spécialement conçue améliore significativement les performances
  3. Capacité de généralisation inter-domaines : Comparé aux pipelines CQA statiques, le raisonnement RL démontre une flexibilité et une sensibilité contextuelle plus fortes

Limitations

  1. Stratégie d'optimisation unique : Utilise uniquement PPO, n'explore pas d'autres stratégies d'optimisation
  2. Limitation de la longueur du dialogue : Les expériences se concentrent sur des dialogues de longueur moyenne (10-12 tours)
  3. Coût de calcul : L'entraînement RL augmente les frais de calcul d'entraînement et d'inférence
  4. Absence de personnalisation : Ne considère pas l'adaptation spécifique à l'utilisateur et la personnalisation

Directions Futures

  1. Optimisation au niveau du dialogue : Utilisation d'utilisateurs simulés et de retours basés sur les préférences
  2. Traitement de dialogues plus longs : Amélioration des capacités de mémoire et de modélisation contextuelle
  3. Optimisation de l'efficacité : Développement de calendriers d'optimisation plus efficaces
  4. Atténuation des biais : Exploration de l'atténuation des biais et d'une base factuelle plus forte dans l'optimisation RL

Évaluation Approfondie

Points Forts

  1. Innovation forte : Première application systématique de RL à la CQA multi-tours, comblant une lacune de recherche importante
  2. Conception judicieuse : La récompense consciente de l'intention est soigneusement conçue pour les caractéristiques de CQA, résolvant le problème de rareté des récompenses
  3. Expérimentation complète : Cinq ensembles de données couvrant différentes complexités de dialogue, évaluation complète
  4. Analyse approfondie : Fournit une analyse multi-facettes incluant les chemins de raisonnement, la qualité de récupération et d'autres perspectives

Insuffisances

  1. Fondement théorique : Manque d'analyse théorique de la convergence et de la stabilité de RL en CQA
  2. Efficacité de calcul : Discussion insuffisante du compromis de coût de calcul par rapport aux méthodes supervisées
  3. Recherche utilisateur : Manque d'évaluation d'interaction utilisateur réelle, dépendant uniquement de métriques hors ligne
  4. Analyse des erreurs : Analyse insuffisante des cas d'échec

Impact

  1. Valeur académique : Introduit un nouveau paradigme RL pour le domaine CQA, inspirant les recherches futures
  2. Valeur pratique : La méthode peut être appliquée aux systèmes de dialogue réels, améliorant l'expérience utilisateur
  3. Reproductibilité : Fournit des détails d'implémentation détaillés et du code open-source, facilitant la reproduction

Scénarios d'Application

  1. Systèmes de récupération d'information : Moteurs de recherche et systèmes de réponse aux questions nécessitant une interaction multi-tours
  2. Robots de service client : Scénarios de service client intelligent traitant des requêtes complexes
  3. Tutorat éducatif : Plateformes d'apprentissage en ligne nécessitant un guidage progressif

Références

L'article cite des travaux importants dans les domaines de l'apprentissage par renforcement, des systèmes de dialogue et de la récupération d'information, notamment :

  • Algorithme PPO (Schulman et al., 2017)
  • Travaux de raisonnement RL tels que Search-R1 (Jin et al., 2025)
  • Travaux de construction d'ensembles de données de réponse aux questions conversationnelle (Adlakha et al., 2022 ; Anantha et al., 2021)

Évaluation Globale : Ceci est un article de recherche de haute qualité, excellent en innovation technique, conception expérimentale et profondeur d'analyse. L'introduction de l'apprentissage par renforcement dans la réponse aux questions conversationnelle multi-tours est une direction de recherche significative. La conception de la récompense consciente de l'intention résout intelligemment les défis clés en CQA. Malgré certaines limitations, l'article apporte des contributions importantes au domaine et mérite une recherche et une application approfondies.