ChatR1: Reinforcement Learning for Conversational Reasoning and Retrieval Augmented Question Answering
Lupart, Aliannejadi, Kanoulas
We present ChatR1, a reasoning framework based on reinforcement learning (RL) for conversational question answering (CQA). Reasoning plays an important role in CQA, where user intent evolves across dialogue turns, and utterances are often underspecified, requiring contextual interpretation, query reformulation, and dynamic coordination between retrieval and generation. Unlike static `rewrite, retrieve, and generate' pipelines, ChatR1 interleaves search and reasoning across turns, enabling exploratory and adaptive behaviors learned through RL. To address the challenge of sparse and delayed rewards in RL, we propose an intent-aware reward that provides turn-level feedback by aligning retrieval and reasoning with evolving user goals. Our proposed ChatR1 demonstrates strong performance on both 3B and 7B model backbones, outperforming competitive models on five CQA datasets, measured by different metrics (F1, BERTScore, and LLM-as-judge). We include a diverse set of CQA datasets to cover topic shifts, evolving intents, mixed-initiative dialogues, and multi-document grounding, testing ChatR1's performance from various aspects. Ablation studies confirm the effectiveness of the intent-aware reward. Our analyses further reveal diverse reasoning trajectories and effective use of the search tool. ChatR1 also generalizes robustly across domains, demonstrating that RL-based reasoning enables more flexible and context-sensitive behavior than static CQA pipelines.
본 논문은 강화학습 기반의 대화형 질문 답변 추론 프레임워크인 ChatR1을 제시합니다. 대화형 질문 답변에서 사용자 의도는 다중 턴 대화에서 지속적으로 진화하며, 발화는 불완전한 표현으로 인해 맥락 해석, 쿼리 재구성 및 검색 생성의 동적 조율이 필요합니다. 정적인 "재작성-검색-생성" 파이프라인과 달리, ChatR1은 다중 턴 대화에서 검색과 추론을 교대로 수행하며, 강화학습을 통해 탐색적이고 자적응적 행동을 구현합니다. 강화학습에서 희소하고 지연된 보상의 문제를 해결하기 위해, 저자들은 의도 인식 보상을 제안하여 진화하는 사용자 목표와 검색 및 추론을 정렬함으로써 턴 수준의 피드백을 제공합니다. ChatR1은 3B 및 7B 모델 모두에서 우수한 성능을 보이며, 5개의 CQA 데이터셋에서 경쟁 모델을 능가합니다.
데이터셋 D가 다중 턴 사용자-시스템 대화를 포함하고, 각 대화는 여러 턴으로 구성되며, 문서 집합 C가 주어졌을 때, 각 턴에서 시스템은 대화 이력 H와 현재 사용자 쿼리 q를 수신하고, H의 맥락을 활용하고 C를 기반으로 사실 검증을 수행하는 답변 y를 생성하는 것이 작업입니다. 사용자 의도는 q의 맥락 참조 및 모호성을 해결하는 재작성 쿼리 q_rw로 정의됩니다.
대화형 질문 답변 데이터셋 구축 연구 (Adlakha et al., 2022; Anantha et al., 2021)
종합 평가: 이는 기술 혁신, 실험 설계 및 분석 깊이 측면에서 모두 우수한 고품질 연구 논문입니다. 강화학습을 다중 턴 대화형 질문 답변에 도입하는 것은 의미 있는 연구 방향이며, 의도 인식 보상의 설계는 CQA의 핵심 과제를 교묘하게 해결합니다. 일부 한계가 있지만, 본 논문은 해당 분야에 중요한 기여를 제공하며 추가 연구 및 응용 가치가 충분합니다.