2025-11-25T20:10:18.587625

ChatR1: Reinforcement Learning for Conversational Reasoning and Retrieval Augmented Question Answering

Lupart, Aliannejadi, Kanoulas

We present ChatR1, a reasoning framework based on reinforcement learning (RL) for conversational question answering (CQA). Reasoning plays an important role in CQA, where user intent evolves across dialogue turns, and utterances are often underspecified, requiring contextual interpretation, query reformulation, and dynamic coordination between retrieval and generation. Unlike static `rewrite, retrieve, and generate' pipelines, ChatR1 interleaves search and reasoning across turns, enabling exploratory and adaptive behaviors learned through RL. To address the challenge of sparse and delayed rewards in RL, we propose an intent-aware reward that provides turn-level feedback by aligning retrieval and reasoning with evolving user goals. Our proposed ChatR1 demonstrates strong performance on both 3B and 7B model backbones, outperforming competitive models on five CQA datasets, measured by different metrics (F1, BERTScore, and LLM-as-judge). We include a diverse set of CQA datasets to cover topic shifts, evolving intents, mixed-initiative dialogues, and multi-document grounding, testing ChatR1's performance from various aspects. Ablation studies confirm the effectiveness of the intent-aware reward. Our analyses further reveal diverse reasoning trajectories and effective use of the search tool. ChatR1 also generalizes robustly across domains, demonstrating that RL-based reasoning enables more flexible and context-sensitive behavior than static CQA pipelines.

academic

ChatR1: Reinforcement Learning for Conversational Reasoning and Retrieval Augmented Question Answering

基本信息

论文ID: 2510.13312
标题: ChatR1: Reinforcement Learning for Conversational Reasoning and Retrieval Augmented Question Answering
作者: Simon Lupart, Mohammad Aliannejadi, Evangelos Kanoulas (University of Amsterdam)
分类: cs.CL, cs.IR
发表时间: 2025年10月15日 (arXiv预印本)
论文链接: https://arxiv.org/abs/2510.13312

摘要

本文提出ChatR1，一个基于强化学习的对话问答推理框架。在对话问答中，用户意图在多轮对话中不断演变，话语往往表述不完整，需要上下文解释、查询重构和检索生成的动态协调。与静态的"重写-检索-生成"管道不同，ChatR1在多轮对话中交替进行搜索和推理，通过强化学习实现探索性和自适应行为。为解决强化学习中稀疏和延迟奖励的挑战，作者提出意图感知奖励，通过将检索和推理与演变的用户目标对齐来提供轮次级反馈。ChatR1在3B和7B模型上都表现出色，在五个CQA数据集上超越竞争模型。

研究背景与动机

问题定义

对话问答(CQA)面临的核心挑战包括：

用户意图演变：在多轮对话中，用户意图会不断变化和演化
话语不完整性：用户的表述往往依赖上下文，存在指代消解和省略问题
动态协调需求：需要在检索和生成之间进行动态协调

现有方法局限性

静态管道限制：现有方法多采用"重写-检索-生成"的静态管道，缺乏灵活性
监督学习依赖：大多数方法依赖监督微调(SFT)，难以适应训练时未见过的对话场景
单轮交互假设：现有RL推理框架主要针对单轮交互，未考虑多轮对话的复杂性

研究动机

商业系统(如Perplexity.ai、SearchGPT)越来越倾向于多轮对话搜索，但学术研究在这方面相对滞后。强化学习可以使模型学习动态检索和推理策略，而非依赖静态演示数据。

核心贡献

提出ChatR1框架：首个基于RL的CQA推理模型，端到端优化多轮检索和生成，学习动态行为而非静态管道
设计意图感知奖励：专门针对CQA的奖励机制，通过与演变的用户意图对齐来减少奖励稀疏性
全面实验验证：在五个不同复杂度的CQA数据集上验证性能，展示跨领域泛化能力
深入分析洞察：揭示ChatR1生成多样化推理路径，有效使用搜索工具，并展现跨领域鲁棒性

方法详解

任务定义

给定数据集D包含多轮用户-系统对话，每个对话由多个轮次组成，以及文档集合C。在每个轮次，系统接收对话历史H和当前用户查询q，任务是生成答案y，利用H的上下文并基于C进行事实验证。用户意图定义为重写查询q_rw，解决q中的上下文引用和歧义。

模型架构

交互循环

ChatR1是一个策略模型π_θ，在每个轮次生成轨迹τ，包括：

推理轨迹：思考过程(...)
中间搜索查询：Q = {q_k}^K_发送给搜索引擎R
检索文档：基于搜索查询返回的相关文档
最终答案：y

RL目标函数

优化目标为最大化期望奖励同时最小化与原始策略的距离：

J(θ) = E_{(q,H)~D, τ~π_θ(·|q,H;R)} [R(τ)] - β D_KL(π_θ || π_ref)

PPO优化

使用近端策略优化(PPO)算法，最大化截断代理目标：

L_PPO(θ) = E_{(q,H;R;i)~μ} [min(ρ_i(θ)Â_i, clip(ρ_i(θ), 1-ε, 1+ε)Â_i)]

其中ρ_i(θ)是新旧策略的概率比，Â_i是估计优势函数。

奖励机制设计

复合奖励函数

R(τ) = R_answer(y) + α R_intent(Q)

答案奖励

基于词级F1分数评估最终答案质量：

R_answer(y) = F1(y, y*)

意图奖励

测量搜索查询与用户意图的对齐程度：

R_intent(Q) = max_{q_k∈Q} F1(q_k, q_rw)

取最大值确保模型在制定语义正确的重构时获得奖励，同时保持探索性查询的灵活性。

技术创新点

端到端优化：不同于传统的分离式管道，ChatR1联合优化推理、检索和生成
意图感知设计：专门针对CQA设计的奖励机制，直接评估查询质量而非依赖检索结果
自适应推理：通过RL学习何时和如何进行搜索，而非预定义的静态策略

实验设置

数据集

使用五个多样化的CQA数据集：

数据集	轮次数	主要挑战
TopiOCQA	45k/2.5k	话题转换，意图演变
QReCC	63k/16k	大规模语料，查询重构
INSCIT	1.8k/3.3k	混合主导，开放意图
MDoc2Dial	18k/3.3k	多文档基础，领域推理
FaithDial	18k/3.5k	忠实性，幻觉控制