2025-11-25T20:10:18.587625

ChatR1: Reinforcement Learning for Conversational Reasoning and Retrieval Augmented Question Answering

Lupart, Aliannejadi, Kanoulas
We present ChatR1, a reasoning framework based on reinforcement learning (RL) for conversational question answering (CQA). Reasoning plays an important role in CQA, where user intent evolves across dialogue turns, and utterances are often underspecified, requiring contextual interpretation, query reformulation, and dynamic coordination between retrieval and generation. Unlike static `rewrite, retrieve, and generate' pipelines, ChatR1 interleaves search and reasoning across turns, enabling exploratory and adaptive behaviors learned through RL. To address the challenge of sparse and delayed rewards in RL, we propose an intent-aware reward that provides turn-level feedback by aligning retrieval and reasoning with evolving user goals. Our proposed ChatR1 demonstrates strong performance on both 3B and 7B model backbones, outperforming competitive models on five CQA datasets, measured by different metrics (F1, BERTScore, and LLM-as-judge). We include a diverse set of CQA datasets to cover topic shifts, evolving intents, mixed-initiative dialogues, and multi-document grounding, testing ChatR1's performance from various aspects. Ablation studies confirm the effectiveness of the intent-aware reward. Our analyses further reveal diverse reasoning trajectories and effective use of the search tool. ChatR1 also generalizes robustly across domains, demonstrating that RL-based reasoning enables more flexible and context-sensitive behavior than static CQA pipelines.
academic

ChatR1: Reinforcement Learning for Conversational Reasoning and Retrieval Augmented Question Answering

基本信息

  • 论文ID: 2510.13312
  • 标题: ChatR1: Reinforcement Learning for Conversational Reasoning and Retrieval Augmented Question Answering
  • 作者: Simon Lupart, Mohammad Aliannejadi, Evangelos Kanoulas (University of Amsterdam)
  • 分类: cs.CL, cs.IR
  • 发表时间: 2025年10月15日 (arXiv预印本)
  • 论文链接: https://arxiv.org/abs/2510.13312

摘要

本文提出ChatR1,一个基于强化学习的对话问答推理框架。在对话问答中,用户意图在多轮对话中不断演变,话语往往表述不完整,需要上下文解释、查询重构和检索生成的动态协调。与静态的"重写-检索-生成"管道不同,ChatR1在多轮对话中交替进行搜索和推理,通过强化学习实现探索性和自适应行为。为解决强化学习中稀疏和延迟奖励的挑战,作者提出意图感知奖励,通过将检索和推理与演变的用户目标对齐来提供轮次级反馈。ChatR1在3B和7B模型上都表现出色,在五个CQA数据集上超越竞争模型。

研究背景与动机

问题定义

对话问答(CQA)面临的核心挑战包括:

  1. 用户意图演变:在多轮对话中,用户意图会不断变化和演化
  2. 话语不完整性:用户的表述往往依赖上下文,存在指代消解和省略问题
  3. 动态协调需求:需要在检索和生成之间进行动态协调

现有方法局限性

  1. 静态管道限制:现有方法多采用"重写-检索-生成"的静态管道,缺乏灵活性
  2. 监督学习依赖:大多数方法依赖监督微调(SFT),难以适应训练时未见过的对话场景
  3. 单轮交互假设:现有RL推理框架主要针对单轮交互,未考虑多轮对话的复杂性

研究动机

商业系统(如Perplexity.ai、SearchGPT)越来越倾向于多轮对话搜索,但学术研究在这方面相对滞后。强化学习可以使模型学习动态检索和推理策略,而非依赖静态演示数据。

核心贡献

  1. 提出ChatR1框架:首个基于RL的CQA推理模型,端到端优化多轮检索和生成,学习动态行为而非静态管道
  2. 设计意图感知奖励:专门针对CQA的奖励机制,通过与演变的用户意图对齐来减少奖励稀疏性
  3. 全面实验验证:在五个不同复杂度的CQA数据集上验证性能,展示跨领域泛化能力
  4. 深入分析洞察:揭示ChatR1生成多样化推理路径,有效使用搜索工具,并展现跨领域鲁棒性

方法详解

任务定义

给定数据集D包含多轮用户-系统对话,每个对话由多个轮次组成,以及文档集合C。在每个轮次,系统接收对话历史H和当前用户查询q,任务是生成答案y,利用H的上下文并基于C进行事实验证。用户意图定义为重写查询q_rw,解决q中的上下文引用和歧义。

模型架构

交互循环

ChatR1是一个策略模型π_θ,在每个轮次生成轨迹τ,包括:

  • 推理轨迹:思考过程(...)
  • 中间搜索查询:Q = {q_k}^K_发送给搜索引擎R
  • 检索文档:基于搜索查询返回的相关文档
  • 最终答案:y

RL目标函数

优化目标为最大化期望奖励同时最小化与原始策略的距离:

J(θ) = E_{(q,H)~D, τ~π_θ(·|q,H;R)} [R(τ)] - β D_KL(π_θ || π_ref)

PPO优化

使用近端策略优化(PPO)算法,最大化截断代理目标:

L_PPO(θ) = E_{(q,H;R;i)~μ} [min(ρ_i(θ)Â_i, clip(ρ_i(θ), 1-ε, 1+ε)Â_i)]

其中ρ_i(θ)是新旧策略的概率比,Â_i是估计优势函数。

奖励机制设计

复合奖励函数

R(τ) = R_answer(y) + α R_intent(Q)

答案奖励

基于词级F1分数评估最终答案质量:

R_answer(y) = F1(y, y*)

意图奖励

测量搜索查询与用户意图的对齐程度:

R_intent(Q) = max_{q_k∈Q} F1(q_k, q_rw)

取最大值确保模型在制定语义正确的重构时获得奖励,同时保持探索性查询的灵活性。

技术创新点

  1. 端到端优化:不同于传统的分离式管道,ChatR1联合优化推理、检索和生成
  2. 意图感知设计:专门针对CQA设计的奖励机制,直接评估查询质量而非依赖检索结果
  3. 自适应推理:通过RL学习何时和如何进行搜索,而非预定义的静态策略

实验设置

数据集

使用五个多样化的CQA数据集:

数据集轮次数主要挑战
TopiOCQA45k/2.5k话题转换,意图演变
QReCC63k/16k大规模语料,查询重构
INSCIT1.8k/3.3k混合主导,开放意图
MDoc2Dial18k/3.3k多文档基础,领域推理
FaithDial18k/3.5k忠实性,幻觉控制

评价指标

  • 生成质量:F1、BERTScore、LLM-as-judge
  • 检索质量:nDCG、Recall、MRR、hit@N

对比方法

  1. 零样本方法:GPT-3.5、Claude、Qwen直接推理和CoT
  2. 监督微调:conv-ANCE+Mistral、ChatRetriever+Mistral、UniConv
  3. RL训练:CoT R1、QR Search R1等

实现细节

  • 基础模型:Qwen2.5-3B/7B-Instruct
  • 检索模型:intfloat/e5-base-v2 (300M参数)
  • 训练配置:批量大小512,PPO微批量64,学习率1e-6
  • 硬件:4块H100 GPU

实验结果

主要结果

在五个数据集上的性能对比显示:

  1. ChatR1-3B优于大型闭源模型:在使用更少参数的情况下超越ChatGPT和Claude
  2. 超越监督基线:ChatR1-3B在大多数数据集上的F1和BERTScore都优于所有3B监督和RL基线
  3. 规模效应明显:ChatR1-7B相比3B版本平均提升1.4 F1分数和0.5 BERTScore

泛化能力

跨域转移实验(在QReCC上训练,其他数据集测试)表明:

  • ChatR1-3B在MultiDoc2Dial上损失仅0.2
  • 在三个数据集上仍超越ChatGPT零样本性能
  • 展现出强大的检索工具使用能力而非过拟合特定领域

消融实验

意图奖励效果

  • ChatR1-3B相比无意图奖励版本平均提升2.2 F1分数
  • 查询级F1奖励优于基于文档的hit@k奖励
  • 最佳性能在检索/生成奖励比例为0.2/1.0时达到

奖励设计分析

意图奖励相比检索奖励的优势:

  1. 密度更高:为PPO提供更强的学习信号
  2. 解耦错误:独立于搜索引擎,分离检索和查询制定错误
  3. 标注完整性:避免文档相关性标注的不完整问题

案例分析

推理路径多样性

不同数据集展现不同的推理长度分布:

  • MultiDoc2Dial和QReCC需要最长推理轨迹
  • FaithDial相对较短
  • INSCIT分布最分散,反映混合主导特性

检索性能

ChatR1作为工具的检索性能与监督方法相当:

  • ChatR1-7B在TopiOCQA和QReCC上匹配或超越监督基线
  • 展现从交互学习中自主学习有效检索的能力

相关工作

对话问答

传统CQA方法主要依赖静态RAG管道和监督微调,缺乏显式推理机制决定何时和如何搜索。

RL推理问答

最近工作如Search-R1、ReSearch等将RL应用于单轮推理,但未扩展到多轮对话场景。

工具使用

CALM等方法扩展推理到多轮对话,但仍依赖监督微调而非RL训练。

结论与讨论

主要结论

  1. RL推理有效性:ChatR1证明RL可以改善CQA中的推理能力
  2. 意图奖励重要性:专门设计的意图感知奖励显著提升性能
  3. 跨域泛化能力:相比静态CQA管道,RL推理展现更强的灵活性和上下文敏感性

局限性

  1. 优化策略单一:仅使用PPO,未探索其他优化策略
  2. 对话长度限制:实验集中在中等长度对话(10-12轮)
  3. 计算成本:RL训练增加了训练和推理的计算开销
  4. 个性化缺失:未考虑用户特定适应和个性化

未来方向

  1. 对话级优化:使用模拟用户和基于偏好的反馈
  2. 更长对话处理:增强记忆和上下文建模能力
  3. 效率优化:开发更高效的优化调度
  4. 偏见缓解:在RL优化中探索偏见缓解和更强的事实基础

深度评价

优点

  1. 创新性强:首次将RL系统性应用于多轮CQA,填补重要研究空白
  2. 设计合理:意图感知奖励针对CQA特点精心设计,解决奖励稀疏问题
  3. 实验充分:五个数据集覆盖不同对话复杂度,评估全面
  4. 分析深入:提供推理路径、检索质量等多角度分析洞察

不足

  1. 理论基础:缺乏RL在CQA中收敛性和稳定性的理论分析
  2. 计算效率:未充分讨论相比监督方法的计算开销权衡
  3. 用户研究:缺乏真实用户交互评估,仅依赖离线指标
  4. 错误分析:对失败案例的分析不够深入

影响力

  1. 学术价值:为CQA领域引入新的RL范式,启发后续研究
  2. 实用价值:方法可应用于实际对话系统,提升用户体验
  3. 可复现性:提供详细实现细节和开源代码,便于复现

适用场景

  1. 信息检索系统:需要多轮交互的搜索引擎和问答系统
  2. 客服机器人:处理复杂查询的智能客服场景
  3. 教育辅导:需要渐进式引导的在线学习平台

参考文献

论文引用了强化学习、对话系统、信息检索等领域的重要工作,特别是:

  • PPO算法 (Schulman et al., 2017)
  • Search-R1等RL推理工作 (Jin et al., 2025)
  • 对话问答数据集构建工作 (Adlakha et al., 2022; Anantha et al., 2021)

总体评价:这是一篇高质量的研究论文,在技术创新、实验设计和分析深度方面都表现出色。将强化学习引入多轮对话问答是一个有意义的研究方向,意图感知奖励的设计巧妙地解决了CQA中的关键挑战。尽管存在一些局限性,但论文为该领域提供了重要贡献,值得进一步研究和应用。