2025-11-25T20:10:18.587625

ChatR1: Reinforcement Learning for Conversational Reasoning and Retrieval Augmented Question Answering

Lupart, Aliannejadi, Kanoulas

We present ChatR1, a reasoning framework based on reinforcement learning (RL) for conversational question answering (CQA). Reasoning plays an important role in CQA, where user intent evolves across dialogue turns, and utterances are often underspecified, requiring contextual interpretation, query reformulation, and dynamic coordination between retrieval and generation. Unlike static `rewrite, retrieve, and generate' pipelines, ChatR1 interleaves search and reasoning across turns, enabling exploratory and adaptive behaviors learned through RL. To address the challenge of sparse and delayed rewards in RL, we propose an intent-aware reward that provides turn-level feedback by aligning retrieval and reasoning with evolving user goals. Our proposed ChatR1 demonstrates strong performance on both 3B and 7B model backbones, outperforming competitive models on five CQA datasets, measured by different metrics (F1, BERTScore, and LLM-as-judge). We include a diverse set of CQA datasets to cover topic shifts, evolving intents, mixed-initiative dialogues, and multi-document grounding, testing ChatR1's performance from various aspects. Ablation studies confirm the effectiveness of the intent-aware reward. Our analyses further reveal diverse reasoning trajectories and effective use of the search tool. ChatR1 also generalizes robustly across domains, demonstrating that RL-based reasoning enables more flexible and context-sensitive behavior than static CQA pipelines.

academic

ChatR1 : Apprentissage par Renforcement pour le Raisonnement Conversationnel et la Réponse aux Questions Augmentée par Récupération

Informations Fondamentales

ID de l'article : 2510.13312
Titre : ChatR1: Reinforcement Learning for Conversational Reasoning and Retrieval Augmented Question Answering
Auteurs : Simon Lupart, Mohammad Aliannejadi, Evangelos Kanoulas (Université d'Amsterdam)
Classification : cs.CL, cs.IR
Date de publication : 15 octobre 2025 (prépublication arXiv)
Lien de l'article : https://arxiv.org/abs/2510.13312

Résumé

Cet article propose ChatR1, un cadre de raisonnement pour la réponse aux questions conversationnelle basé sur l'apprentissage par renforcement. Dans la réponse aux questions conversationnelle (CQA), l'intention de l'utilisateur évolue continuellement au cours de dialogues multi-tours, les énoncés sont souvent incomplets et nécessitent une clarification contextuelle, une reconstruction de requête et une coordination dynamique entre récupération et génération. Contrairement aux pipelines statiques « réécriture-récupération-génération », ChatR1 alterne entre recherche et raisonnement au cours de dialogues multi-tours, en mettant en œuvre des comportements exploratoires et adaptatifs par apprentissage par renforcement. Pour résoudre les défis des récompenses éparses et retardées en apprentissage par renforcement, les auteurs proposent une récompense consciente de l'intention, fournissant des retours au niveau des tours en alignant la récupération et le raisonnement avec les objectifs utilisateur en évolution. ChatR1 démontre d'excellentes performances sur les modèles 3B et 7B, surpassant les modèles concurrents sur cinq ensembles de données CQA.

Contexte de Recherche et Motivation

Définition du Problème

Les défis fondamentaux de la réponse aux questions conversationnelle (CQA) incluent :

Évolution de l'intention utilisateur : L'intention de l'utilisateur change et évolue continuellement au cours de dialogues multi-tours
Incomplétude des énoncés : Les expressions des utilisateurs dépendent souvent du contexte, présentant des problèmes de résolution de références et d'ellipse
Besoins de coordination dynamique : Nécessité d'une coordination dynamique entre récupération et génération

Limitations des Approches Existantes

Limitations des pipelines statiques : Les méthodes existantes adoptent principalement des pipelines statiques « réécriture-récupération-génération », manquant de flexibilité
Dépendance à l'apprentissage supervisé : La plupart des méthodes dépendent de l'ajustement fin supervisé (SFT), ce qui rend difficile l'adaptation à des scénarios de dialogue non vus pendant l'entraînement
Hypothèse d'interaction mono-tour : Les cadres de raisonnement RL existants ciblent principalement les interactions mono-tour, sans tenir compte de la complexité des dialogues multi-tours

Motivation de la Recherche

Les systèmes commerciaux (tels que Perplexity.ai, SearchGPT) s'orientent de plus en plus vers la recherche conversationnelle multi-tours, mais la recherche académique est relativement en retard dans ce domaine. L'apprentissage par renforcement peut permettre aux modèles d'apprendre des stratégies dynamiques de récupération et de raisonnement, plutôt que de dépendre de données de démonstration statiques.

Contributions Principales

Proposition du cadre ChatR1 : Premier modèle de raisonnement CQA basé sur RL, optimisant de bout en bout la récupération et la génération multi-tours, apprenant des comportements dynamiques plutôt que des pipelines statiques
Conception d'une récompense consciente de l'intention : Mécanisme de récompense spécialisé pour CQA, réduisant la rareté des récompenses en s'alignant sur les intentions utilisateur en évolution
Vérification expérimentale complète : Validation des performances sur cinq ensembles de données CQA de complexités différentes, démontrant la capacité de généralisation inter-domaines
Analyse approfondie : Révélation de la génération de ChatR1 de chemins de raisonnement diversifiés, utilisation efficace des outils de recherche et robustesse inter-domaines

Détails de la Méthode

Définition de la Tâche

Étant donné un ensemble de données D contenant des dialogues utilisateur-système multi-tours, où chaque dialogue est composé de plusieurs tours, et une collection de documents C. À chaque tour, le système reçoit l'historique du dialogue H et la requête utilisateur actuelle q, la tâche est de générer une réponse y, utilisant le contexte de H et effectuant une vérification factuelle basée sur C. L'intention utilisateur est définie comme la requête réécrite q_rw, résolvant les références contextuelles et les ambiguïtés dans q.

Architecture du Modèle

Boucle d'Interaction

ChatR1 est un modèle de politique π_θ qui génère une trajectoire τ à chaque tour, incluant :

Trajectoire de raisonnement : Processus de réflexion (...)
Requêtes de recherche intermédiaires : Q = {q_k}^K_ envoyées au moteur de recherche R
Documents récupérés : Documents pertinents retournés basés sur les requêtes de recherche
Réponse finale : y

Fonction Objectif RL

L'objectif d'optimisation est de maximiser la récompense attendue tout en minimisant la distance par rapport à la politique originale :

J(θ) = E_{(q,H)~D, τ~π_θ(·|q,H;R)} [R(τ)] - β D_KL(π_θ || π_ref)

Optimisation PPO

Utilisation de l'algorithme d'optimisation de politique proximale (PPO), maximisant l'objectif de substitut tronqué :

L_PPO(θ) = E_{(q,H;R;i)~μ} [min(ρ_i(θ)Â_i, clip(ρ_i(θ), 1-ε, 1+ε)Â_i)]

où ρ_i(θ) est le ratio de probabilité entre les politiques nouvelle et ancienne, et Â_i est la fonction d'avantage estimée.

Conception du Mécanisme de Récompense

Fonction de Récompense Composite

R(τ) = R_answer(y) + α R_intent(Q)

Récompense de Réponse

Évaluation de la qualité de la réponse finale basée sur le score F1 au niveau des mots :

R_answer(y) = F1(y, y*)

Récompense d'Intention

Mesure de l'alignement des requêtes de recherche avec l'intention utilisateur :

R_intent(Q) = max_{q_k∈Q} F1(q_k, q_rw)

La prise du maximum garantit que le modèle est récompensé lors de la formulation de reconstructions sémantiquement correctes, tout en maintenant la flexibilité des requêtes exploratoires.

Points d'Innovation Technique

Optimisation de bout en bout : Contrairement aux pipelines séparés traditionnels, ChatR1 optimise conjointement le raisonnement, la récupération et la génération
Conception consciente de l'intention : Mécanisme de récompense spécialisé pour CQA, évaluant directement la qualité des requêtes plutôt que de dépendre des résultats de récupération
Raisonnement adaptatif : Apprentissage par RL de quand et comment effectuer une recherche, plutôt que des stratégies statiques prédéfinies

Configuration Expérimentale

Ensembles de Données

Utilisation de cinq ensembles de données CQA diversifiés :

Ensemble de Données	Nombre de Tours	Défis Principaux
TopiOCQA	45k/2.5k	Changements de sujet, évolution de l'intention
QReCC	63k/16k	Corpus à grande échelle, reconstruction de requête
INSCIT	1.8k/3.3k	Domaines mixtes, intention ouverte
MDoc2Dial	18k/3.3k	Base multi-documents, raisonnement de domaine
FaithDial	18k/3.5k	Fidélité, contrôle des hallucinations

Métriques d'Évaluation

Qualité de génération : F1, BERTScore, LLM-as-judge
Qualité de récupération : nDCG, Recall, MRR, hit@N

Méthodes de Comparaison

Approches zéro-shot : GPT-3.5, Claude, Qwen avec raisonnement direct et CoT
Ajustement fin supervisé : conv-ANCE+Mistral, ChatRetriever+Mistral, UniConv
Entraînement RL : CoT R1, QR Search R1, etc.

Détails d'Implémentation

Modèle de base : Qwen2.5-3B/7B-Instruct
Modèle de récupération : intfloat/e5-base-v2 (300M paramètres)
Configuration d'entraînement : Taille de lot 512, micro-lot PPO 64, taux d'apprentissage 1e-6
Matériel : 4 GPU H100

Résultats Expérimentaux

Résultats Principaux

La comparaison des performances sur cinq ensembles de données montre :

ChatR1-3B surpasse les grands modèles fermés : Surpasse ChatGPT et Claude avec moins de paramètres
Surpasse les lignes de base supervisées : ChatR1-3B surpasse tous les lignes de base supervisées et RL 3B sur la plupart des ensembles de données en F1 et BERTScore
Effet d'échelle évident : ChatR1-7B améliore en moyenne de 1.4 points F1 et 0.5 BERTScore par rapport à la version 3B

Capacité de Généralisation

Les expériences de transfert inter-domaines (entraînement sur QReCC, test sur d'autres ensembles de données) montrent :

ChatR1-3B ne perd que 0.2 points sur MultiDoc2Dial
Surpasse toujours les performances zéro-shot de ChatGPT sur trois ensembles de données
Démontre une forte capacité d'utilisation des outils de recherche plutôt qu'un surapprentissage spécifique au domaine

Expériences d'Ablation

Effet de la Récompense d'Intention

ChatR1-3B améliore en moyenne de 2.2 points F1 par rapport à la version sans récompense d'intention
La récompense F1 au niveau des requêtes surpasse les récompenses hit@k basées sur les documents
Les meilleures performances sont atteintes avec un ratio récompense récupération/génération de 0.2/1.0

Analyse de la Conception de la Récompense

Avantages de la récompense d'intention par rapport à la récompense de récupération :

Densité plus élevée : Fournit un signal d'apprentissage plus fort pour PPO
Découplage des erreurs : Indépendant du moteur de recherche, séparant les erreurs de récupération et de formulation de requête
Complétude des annotations : Évite les problèmes d'annotations incomplètes de pertinence des documents

Analyse de Cas

Diversité des Chemins de Raisonnement

Différents ensembles de données présentent différentes distributions de longueur de raisonnement :

MultiDoc2Dial et QReCC nécessitent les trajectoires de raisonnement les plus longues
FaithDial est relativement plus court
INSCIT a la distribution la plus dispersée, reflétant la nature multi-domaines

Performance de Récupération

Les performances de récupération de ChatR1 en tant qu'outil sont comparables aux méthodes supervisées :

ChatR1-7B égale ou surpasse les lignes de base supervisées sur TopiOCQA et QReCC
Démontre la capacité d'apprentissage autonome d'une récupération efficace à partir de l'apprentissage interactif

Travaux Connexes

Réponse aux Questions Conversationnelle

Les méthodes CQA traditionnelles dépendent principalement de pipelines RAG statiques et d'ajustement fin supervisé, manquant de mécanismes de raisonnement explicites pour décider quand et comment effectuer une recherche.

Raisonnement RL pour la Réponse aux Questions

Les travaux récents tels que Search-R1 et ReSearch appliquent RL au raisonnement mono-tour, mais n'étendent pas à des scénarios de dialogue multi-tours.

Utilisation d'Outils

Des méthodes telles que CALM étendent le raisonnement aux dialogues multi-tours, mais dépendent toujours de l'ajustement fin supervisé plutôt que de l'entraînement RL.

Conclusion et Discussion

Conclusions Principales

Efficacité du raisonnement RL : ChatR1 démontre que RL peut améliorer les capacités de raisonnement en CQA
Importance de la récompense d'intention : La récompense consciente de l'intention spécialement conçue améliore significativement les performances
Capacité de généralisation inter-domaines : Comparé aux pipelines CQA statiques, le raisonnement RL démontre une flexibilité et une sensibilité contextuelle plus fortes

Limitations

Stratégie d'optimisation unique : Utilise uniquement PPO, n'explore pas d'autres stratégies d'optimisation
Limitation de la longueur du dialogue : Les expériences se concentrent sur des dialogues de longueur moyenne (10-12 tours)
Coût de calcul : L'entraînement RL augmente les frais de calcul d'entraînement et d'inférence
Absence de personnalisation : Ne considère pas l'adaptation spécifique à l'utilisateur et la personnalisation

Directions Futures

Optimisation au niveau du dialogue : Utilisation d'utilisateurs simulés et de retours basés sur les préférences
Traitement de dialogues plus longs : Amélioration des capacités de mémoire et de modélisation contextuelle
Optimisation de l'efficacité : Développement de calendriers d'optimisation plus efficaces
Atténuation des biais : Exploration de l'atténuation des biais et d'une base factuelle plus forte dans l'optimisation RL

Évaluation Approfondie

Points Forts

Innovation forte : Première application systématique de RL à la CQA multi-tours, comblant une lacune de recherche importante
Conception judicieuse : La récompense consciente de l'intention est soigneusement conçue pour les caractéristiques de CQA, résolvant le problème de rareté des récompenses
Expérimentation complète : Cinq ensembles de données couvrant différentes complexités de dialogue, évaluation complète
Analyse approfondie : Fournit une analyse multi-facettes incluant les chemins de raisonnement, la qualité de récupération et d'autres perspectives

Insuffisances

Fondement théorique : Manque d'analyse théorique de la convergence et de la stabilité de RL en CQA
Efficacité de calcul : Discussion insuffisante du compromis de coût de calcul par rapport aux méthodes supervisées
Recherche utilisateur : Manque d'évaluation d'interaction utilisateur réelle, dépendant uniquement de métriques hors ligne
Analyse des erreurs : Analyse insuffisante des cas d'échec

Impact

Valeur académique : Introduit un nouveau paradigme RL pour le domaine CQA, inspirant les recherches futures
Valeur pratique : La méthode peut être appliquée aux systèmes de dialogue réels, améliorant l'expérience utilisateur
Reproductibilité : Fournit des détails d'implémentation détaillés et du code open-source, facilitant la reproduction

Scénarios d'Application

Systèmes de récupération d'information : Moteurs de recherche et systèmes de réponse aux questions nécessitant une interaction multi-tours
Robots de service client : Scénarios de service client intelligent traitant des requêtes complexes
Tutorat éducatif : Plateformes d'apprentissage en ligne nécessitant un guidage progressif

Références

L'article cite des travaux importants dans les domaines de l'apprentissage par renforcement, des systèmes de dialogue et de la récupération d'information, notamment :

Algorithme PPO (Schulman et al., 2017)
Travaux de raisonnement RL tels que Search-R1 (Jin et al., 2025)
Travaux de construction d'ensembles de données de réponse aux questions conversationnelle (Adlakha et al., 2022 ; Anantha et al., 2021)

Évaluation Globale : Ceci est un article de recherche de haute qualité, excellent en innovation technique, conception expérimentale et profondeur d'analyse. L'introduction de l'apprentissage par renforcement dans la réponse aux questions conversationnelle multi-tours est une direction de recherche significative. La conception de la récompense consciente de l'intention résout intelligemment les défis clés en CQA. Malgré certaines limitations, l'article apporte des contributions importantes au domaine et mérite une recherche et une application approfondies.