ChatR1: Reinforcement Learning for Conversational Reasoning and Retrieval Augmented Question Answering
Lupart, Aliannejadi, Kanoulas
We present ChatR1, a reasoning framework based on reinforcement learning (RL) for conversational question answering (CQA). Reasoning plays an important role in CQA, where user intent evolves across dialogue turns, and utterances are often underspecified, requiring contextual interpretation, query reformulation, and dynamic coordination between retrieval and generation. Unlike static `rewrite, retrieve, and generate' pipelines, ChatR1 interleaves search and reasoning across turns, enabling exploratory and adaptive behaviors learned through RL. To address the challenge of sparse and delayed rewards in RL, we propose an intent-aware reward that provides turn-level feedback by aligning retrieval and reasoning with evolving user goals. Our proposed ChatR1 demonstrates strong performance on both 3B and 7B model backbones, outperforming competitive models on five CQA datasets, measured by different metrics (F1, BERTScore, and LLM-as-judge). We include a diverse set of CQA datasets to cover topic shifts, evolving intents, mixed-initiative dialogues, and multi-document grounding, testing ChatR1's performance from various aspects. Ablation studies confirm the effectiveness of the intent-aware reward. Our analyses further reveal diverse reasoning trajectories and effective use of the search tool. ChatR1 also generalizes robustly across domains, demonstrating that RL-based reasoning enables more flexible and context-sensitive behavior than static CQA pipelines.
academic
ChatR1 : Apprentissage par Renforcement pour le Raisonnement Conversationnel et la Réponse aux Questions Augmentée par Récupération
Cet article propose ChatR1, un cadre de raisonnement pour la réponse aux questions conversationnelle basé sur l'apprentissage par renforcement. Dans la réponse aux questions conversationnelle (CQA), l'intention de l'utilisateur évolue continuellement au cours de dialogues multi-tours, les énoncés sont souvent incomplets et nécessitent une clarification contextuelle, une reconstruction de requête et une coordination dynamique entre récupération et génération. Contrairement aux pipelines statiques « réécriture-récupération-génération », ChatR1 alterne entre recherche et raisonnement au cours de dialogues multi-tours, en mettant en œuvre des comportements exploratoires et adaptatifs par apprentissage par renforcement. Pour résoudre les défis des récompenses éparses et retardées en apprentissage par renforcement, les auteurs proposent une récompense consciente de l'intention, fournissant des retours au niveau des tours en alignant la récupération et le raisonnement avec les objectifs utilisateur en évolution. ChatR1 démontre d'excellentes performances sur les modèles 3B et 7B, surpassant les modèles concurrents sur cinq ensembles de données CQA.
Les défis fondamentaux de la réponse aux questions conversationnelle (CQA) incluent :
Évolution de l'intention utilisateur : L'intention de l'utilisateur change et évolue continuellement au cours de dialogues multi-tours
Incomplétude des énoncés : Les expressions des utilisateurs dépendent souvent du contexte, présentant des problèmes de résolution de références et d'ellipse
Besoins de coordination dynamique : Nécessité d'une coordination dynamique entre récupération et génération
Limitations des pipelines statiques : Les méthodes existantes adoptent principalement des pipelines statiques « réécriture-récupération-génération », manquant de flexibilité
Dépendance à l'apprentissage supervisé : La plupart des méthodes dépendent de l'ajustement fin supervisé (SFT), ce qui rend difficile l'adaptation à des scénarios de dialogue non vus pendant l'entraînement
Hypothèse d'interaction mono-tour : Les cadres de raisonnement RL existants ciblent principalement les interactions mono-tour, sans tenir compte de la complexité des dialogues multi-tours
Les systèmes commerciaux (tels que Perplexity.ai, SearchGPT) s'orientent de plus en plus vers la recherche conversationnelle multi-tours, mais la recherche académique est relativement en retard dans ce domaine. L'apprentissage par renforcement peut permettre aux modèles d'apprendre des stratégies dynamiques de récupération et de raisonnement, plutôt que de dépendre de données de démonstration statiques.
Proposition du cadre ChatR1 : Premier modèle de raisonnement CQA basé sur RL, optimisant de bout en bout la récupération et la génération multi-tours, apprenant des comportements dynamiques plutôt que des pipelines statiques
Conception d'une récompense consciente de l'intention : Mécanisme de récompense spécialisé pour CQA, réduisant la rareté des récompenses en s'alignant sur les intentions utilisateur en évolution
Vérification expérimentale complète : Validation des performances sur cinq ensembles de données CQA de complexités différentes, démontrant la capacité de généralisation inter-domaines
Analyse approfondie : Révélation de la génération de ChatR1 de chemins de raisonnement diversifiés, utilisation efficace des outils de recherche et robustesse inter-domaines
Étant donné un ensemble de données D contenant des dialogues utilisateur-système multi-tours, où chaque dialogue est composé de plusieurs tours, et une collection de documents C. À chaque tour, le système reçoit l'historique du dialogue H et la requête utilisateur actuelle q, la tâche est de générer une réponse y, utilisant le contexte de H et effectuant une vérification factuelle basée sur C. L'intention utilisateur est définie comme la requête réécrite q_rw, résolvant les références contextuelles et les ambiguïtés dans q.
Mesure de l'alignement des requêtes de recherche avec l'intention utilisateur :
R_intent(Q) = max_{q_k∈Q} F1(q_k, q_rw)
La prise du maximum garantit que le modèle est récompensé lors de la formulation de reconstructions sémantiquement correctes, tout en maintenant la flexibilité des requêtes exploratoires.
Optimisation de bout en bout : Contrairement aux pipelines séparés traditionnels, ChatR1 optimise conjointement le raisonnement, la récupération et la génération
Conception consciente de l'intention : Mécanisme de récompense spécialisé pour CQA, évaluant directement la qualité des requêtes plutôt que de dépendre des résultats de récupération
Raisonnement adaptatif : Apprentissage par RL de quand et comment effectuer une recherche, plutôt que des stratégies statiques prédéfinies
La comparaison des performances sur cinq ensembles de données montre :
ChatR1-3B surpasse les grands modèles fermés : Surpasse ChatGPT et Claude avec moins de paramètres
Surpasse les lignes de base supervisées : ChatR1-3B surpasse tous les lignes de base supervisées et RL 3B sur la plupart des ensembles de données en F1 et BERTScore
Effet d'échelle évident : ChatR1-7B améliore en moyenne de 1.4 points F1 et 0.5 BERTScore par rapport à la version 3B
Les méthodes CQA traditionnelles dépendent principalement de pipelines RAG statiques et d'ajustement fin supervisé, manquant de mécanismes de raisonnement explicites pour décider quand et comment effectuer une recherche.
Les travaux récents tels que Search-R1 et ReSearch appliquent RL au raisonnement mono-tour, mais n'étendent pas à des scénarios de dialogue multi-tours.
Des méthodes telles que CALM étendent le raisonnement aux dialogues multi-tours, mais dépendent toujours de l'ajustement fin supervisé plutôt que de l'entraînement RL.
Efficacité du raisonnement RL : ChatR1 démontre que RL peut améliorer les capacités de raisonnement en CQA
Importance de la récompense d'intention : La récompense consciente de l'intention spécialement conçue améliore significativement les performances
Capacité de généralisation inter-domaines : Comparé aux pipelines CQA statiques, le raisonnement RL démontre une flexibilité et une sensibilité contextuelle plus fortes
Innovation forte : Première application systématique de RL à la CQA multi-tours, comblant une lacune de recherche importante
Conception judicieuse : La récompense consciente de l'intention est soigneusement conçue pour les caractéristiques de CQA, résolvant le problème de rareté des récompenses
Expérimentation complète : Cinq ensembles de données couvrant différentes complexités de dialogue, évaluation complète
Analyse approfondie : Fournit une analyse multi-facettes incluant les chemins de raisonnement, la qualité de récupération et d'autres perspectives
L'article cite des travaux importants dans les domaines de l'apprentissage par renforcement, des systèmes de dialogue et de la récupération d'information, notamment :
Algorithme PPO (Schulman et al., 2017)
Travaux de raisonnement RL tels que Search-R1 (Jin et al., 2025)
Travaux de construction d'ensembles de données de réponse aux questions conversationnelle (Adlakha et al., 2022 ; Anantha et al., 2021)
Évaluation Globale : Ceci est un article de recherche de haute qualité, excellent en innovation technique, conception expérimentale et profondeur d'analyse. L'introduction de l'apprentissage par renforcement dans la réponse aux questions conversationnelle multi-tours est une direction de recherche significative. La conception de la récompense consciente de l'intention résout intelligemment les défis clés en CQA. Malgré certaines limitations, l'article apporte des contributions importantes au domaine et mérite une recherche et une application approfondies.