We present ChatR1, a reasoning framework based on reinforcement learning (RL) for conversational question answering (CQA). Reasoning plays an important role in CQA, where user intent evolves across dialogue turns, and utterances are often underspecified, requiring contextual interpretation, query reformulation, and dynamic coordination between retrieval and generation. Unlike static `rewrite, retrieve, and generate' pipelines, ChatR1 interleaves search and reasoning across turns, enabling exploratory and adaptive behaviors learned through RL. To address the challenge of sparse and delayed rewards in RL, we propose an intent-aware reward that provides turn-level feedback by aligning retrieval and reasoning with evolving user goals. Our proposed ChatR1 demonstrates strong performance on both 3B and 7B model backbones, outperforming competitive models on five CQA datasets, measured by different metrics (F1, BERTScore, and LLM-as-judge). We include a diverse set of CQA datasets to cover topic shifts, evolving intents, mixed-initiative dialogues, and multi-document grounding, testing ChatR1's performance from various aspects. Ablation studies confirm the effectiveness of the intent-aware reward. Our analyses further reveal diverse reasoning trajectories and effective use of the search tool. ChatR1 also generalizes robustly across domains, demonstrating that RL-based reasoning enables more flexible and context-sensitive behavior than static CQA pipelines.
論文ID : 2510.13312タイトル : ChatR1: Reinforcement Learning for Conversational Reasoning and Retrieval Augmented Question Answering著者 : Simon Lupart, Mohammad Aliannejadi, Evangelos Kanoulas (アムステルダム大学)分類 : cs.CL, cs.IR発表日 : 2025年10月15日 (arXivプレプリント)論文リンク : https://arxiv.org/abs/2510.13312 本論文はChatR1を提案する。これは強化学習に基づく会話質問応答推論フレームワークである。会話質問応答では、ユーザー意図は複数ターンの対話を通じて継続的に進化し、発話は不完全な表現が多く、文脈解釈、クエリ再構成、および検索生成の動的調整が必要である。静的な「書き換え-検索-生成」パイプラインとは異なり、ChatR1は複数ターンの対話を通じて検索と推論を交互に実行し、強化学習を通じて探索的かつ自適応的な行動を実現する。強化学習における疎で遅延した報酬の課題に対処するため、著者らは意図認識報酬を提案し、検索と推論を進化するユーザー目標と整合させることでターン単位のフィードバックを提供する。ChatR1は3Bおよび7Bモデルの両方で優れた性能を示し、5つのCQAデータセットで競合モデルを上回る。
会話質問応答(CQA)が直面する中核的な課題は以下の通りである:
ユーザー意図の進化 : 複数ターンの対話を通じて、ユーザー意図は継続的に変化・進化する発話の不完全性 : ユーザーの表現は文脈に依存することが多く、指示対象解析と省略の問題が存在する動的調整の必要性 : 検索と生成の間で動的調整が必要である静的パイプラインの制限 : 既存手法の多くは「書き換え-検索-生成」の静的パイプラインを採用しており、柔軟性に欠ける教師あり学習への依存 : ほとんどの手法は教師あり微調整(SFT)に依存しており、訓練時に見られなかった対話シナリオへの適応が困難である単一ターン交互作用の仮定 : 既存のRL推論フレームワークは主に単一ターン交互作用を対象としており、複数ターン対話の複雑性を考慮していないPerplexity.aiやSearchGPTなどの商用システムは、ますます複数ターン対話検索に傾斜しているが、学術研究はこの分野で相対的に遅れている。強化学習により、モデルは静的なデモンストレーションデータに依存するのではなく、動的な検索と推論戦略を学習できる。
ChatR1フレームワークの提案 : CQAのための最初のRL基盤推論モデルであり、複数ターンの検索と生成を端から端まで最適化し、静的パイプラインではなく動的行動を学習する意図認識報酬の設計 : CQA専用の報酬メカニズムであり、進化するユーザー意図との整合を通じて報酬の疎性を低減する包括的な実験検証 : 異なる複雑度の5つのCQAデータセットで性能を検証し、ドメイン間の汎化能力を実証する深い分析的洞察 : ChatR1が多様な推論経路を生成し、検索ツールを効果的に使用し、ドメイン間の堅牢性を示すことを明らかにするデータセットDが複数ターンのユーザー-システム対話を含み、各対話が複数のターンで構成され、ドキュメント集合Cが与えられたとする。各ターンにおいて、システムは対話履歴Hと現在のユーザークエリqを受け取り、Hの文脈を利用してCに基づいて事実検証を行いながら、答えyを生成するタスクである。ユーザー意図は書き換えクエリq_rwとして定義され、q内の文脈参照と曖昧性を解決する。
ChatR1は政策モデルπ_θであり、各ターンで軌跡τを生成する。これは以下を含む:
推論軌跡 : 思考プロセス(... )中間検索クエリ : Q = {q_k}^K_を検索エンジンRに送信検索ドキュメント : 検索クエリに基づいて返された関連ドキュメント最終答案 : y最適化目標は期待報酬を最大化しながら元の政策との距離を最小化することである:
J(θ) = E_{(q,H)~D, τ~π_θ(·|q,H;R)} [R(τ)] - β D_KL(π_θ || π_ref)
近接政策最適化(PPO)アルゴリズムを使用し、切り詰められた代理目標を最大化する:
L_PPO(θ) = E_{(q,H;R;i)~μ} [min(ρ_i(θ)Â_i, clip(ρ_i(θ), 1-ε, 1+ε)Â_i)]
ここでρ_i(θ)は新旧政策の確率比であり、Â_iは推定優位関数である。
R(τ) = R_answer(y) + α R_intent(Q)
単語レベルのF1スコアに基づいて最終答案の品質を評価する:
検索クエリとユーザー意図の整合度を測定する:
R_intent(Q) = max_{q_k∈Q} F1(q_k, q_rw)
最大値を取ることで、モデルが意味的に正しい再構成を策定する際に報酬を得ることを保証しながら、探索的クエリの柔軟性を維持する。
端から端までの最適化 : 従来の分離型パイプラインとは異なり、ChatR1は推論、検索、生成を共同で最適化する意図認識設計 : CQA専用に設計された報酬メカニズムであり、検索結果に依存するのではなく、クエリ品質を直接評価する自適応推論 : RL を通じて、いつどのように検索を実行するかを学習し、事前定義された静的戦略ではない5つの多様なCQAデータセットを使用する:
データセット ターン数 主要な課題 TopiOCQA 45k/2.5k トピック転換、意図進化 QReCC 63k/16k 大規模コーパス、クエリ再構成 INSCIT 1.8k/3.3k 混合主導、開放意図 MDoc2Dial 18k/3.3k マルチドキュメント基盤、ドメイン推論 FaithDial 18k/3.5k 忠実性、幻覚制御
生成品質 : F1、BERTScore、LLM-as-judge検索品質 : nDCG、Recall、MRR、hit@Nゼロショット手法 : GPT-3.5、Claude、Qwen直接推論およびCoT教師あり微調整 : conv-ANCE+Mistral、ChatRetriever+Mistral、UniConvRL訓練 : CoT R1、QR Search R1など基盤モデル : Qwen2.5-3B/7B-Instruct検索モデル : intfloat/e5-base-v2 (300Mパラメータ)訓練設定 : バッチサイズ512、PPOミニバッチ64、学習率1e-6ハードウェア : 4枚のH100 GPU5つのデータセット上の性能比較は以下を示す:
ChatR1-3Bが大規模クローズドソースモデルを上回る : より少ないパラメータを使用しながらChatGPTとClaudeを上回る教師あり基線を上回る : ChatR1-3Bはほとんどのデータセット上でF1およびBERTScoreにおいてすべての3B教師ありおよびRL基線を上回るスケール効果が顕著 : ChatR1-7Bは3B版と比較して平均1.4 F1スコアおよび0.5 BERTScore向上ドメイン間転移実験(QReCC上で訓練、他のデータセットでテスト)は以下を示す:
ChatR1-3BはMultiDoc2Dialで損失がわずか0.2 3つのデータセット上でもChatGPTゼロショット性能を上回る 特定ドメインへの過適合ではなく、検索ツール使用の強い能力を示す ChatR1-3Bは意図報酬なし版と比較して平均2.2 F1スコア向上 クエリレベルF1報酬がドキュメントベースのhit@k報酬より優れている 最良性能は検索/生成報酬比が0.2/1.0の時に達成される 意図報酬が検索報酬より優れている理由:
密度が高い : PPOにより強い学習信号を提供エラーの分離 : 検索エンジンから独立し、検索とクエリ策定エラーを分離アノテーション完全性 : ドキュメント関連性アノテーションの不完全性の問題を回避異なるデータセットは異なる推論長分布を示す:
MultiDoc2DialおよびQReCCは最長推論軌跡を必要とする FaithDialは相対的に短い INSCITは分布が最も分散しており、混合主導特性を反映 ツールとしてのChatR1の検索性能は教師あり手法と同等である:
ChatR1-7BはTopiOCQAおよびQReCC上で教師あり基線と同等またはそれを上回る インタラクティブ学習から効果的な検索を自律的に学習する能力を示す 従来のCQA手法は主に静的RAGパイプラインと教師あり微調整に依存しており、いつどのように検索するかを決定する明示的な推論メカニズムに欠ける。
Search-R1、ReSearchなどの最近の研究はRLを単一ターン推論に適用しているが、複数ターン対話シナリオに拡張していない。
CALMなどの手法は推論を複数ターン対話に拡張しているが、RL訓練ではなく教師あり微調整に依存している。
RL推論の有効性 : ChatR1はRLがCQAの推論能力を改善できることを証明する意図報酬の重要性 : 専門的に設計された意図認識報酬が性能を大幅に向上させるドメイン間汎化能力 : 静的CQAパイプラインと比較して、RL推論はより強い柔軟性と文脈感度を示す最適化戦略の単一性 : PPOのみを使用し、他の最適化戦略を探索していない対話長の制限 : 実験は中程度の長さの対話(10-12ターン)に集中している計算コスト : RL訓練は訓練と推論の計算オーバーヘッドを増加させる個性化の欠落 : ユーザー固有の適応と個性化を考慮していない対話レベルの最適化 : シミュレートされたユーザーと選好ベースのフィードバックを使用より長い対話の処理 : メモリと文脈モデリング能力の強化効率最適化 : より効率的な最適化スケジュールの開発バイアス緩和 : RL最適化におけるバイアス緩和とより強い事実基盤の探索革新性が高い : RLを複数ターンCQAに体系的に適用した初の研究であり、重要な研究ギャップを埋める設計が合理的 : 意図認識報酬はCQAの特性に対して慎重に設計され、報酬疎性の問題を解決する実験が充分 : 5つのデータセットが異なる対話複雑度をカバーし、評価が包括的である分析が深い : 推論経路、検索品質など複数の角度から分析的洞察を提供理論的基礎 : CQAにおけるRL収束性と安定性の理論的分析に欠ける計算効率 : 教師あり手法との計算オーバーヘッドのトレードオフについて十分に議論していないユーザー研究 : 実際のユーザー交互作用評価に欠け、オフライン指標のみに依存エラー分析 : 失敗ケースの分析が十分に深くない学術的価値 : CQA分野にRL新パラダイムをもたらし、後続研究を鼓舞する実用的価値 : 手法は実際の対話システムに適用でき、ユーザー体験を向上させる再現性 : 詳細な実装詳細とオープンソースコードを提供し、再現を容易にする情報検索システム : 複数ターン交互作用が必要な検索エンジンと質問応答システムカスタマーサービスボット : 複雑なクエリを処理するインテリジェントカスタマーサービスシナリオ教育チュータリング : 段階的なガイダンスが必要なオンライン学習プラットフォーム論文は強化学習、対話システム、情報検索分野の重要な研究を引用しており、特に以下を含む:
PPOアルゴリズム (Schulman et al., 2017) Search-R1などのRL推論研究 (Jin et al., 2025) 対話質問応答データセット構築研究 (Adlakha et al., 2022; Anantha et al., 2021) 総合評価 : これは技術革新、実験設計、分析深度の面で優れた高品質な研究論文である。強化学習を複数ターン会話質問応答に導入することは意義のある研究方向であり、意図認識報酬の設計はCQAの主要な課題を巧妙に解決する。いくつかの限界があるものの、論文は当該分野に重要な貢献をもたらし、さらなる研究と応用の価値がある。