ChatR1: Reinforcement Learning for Conversational Reasoning and Retrieval Augmented Question Answering
Lupart, Aliannejadi, Kanoulas
We present ChatR1, a reasoning framework based on reinforcement learning (RL) for conversational question answering (CQA). Reasoning plays an important role in CQA, where user intent evolves across dialogue turns, and utterances are often underspecified, requiring contextual interpretation, query reformulation, and dynamic coordination between retrieval and generation. Unlike static `rewrite, retrieve, and generate' pipelines, ChatR1 interleaves search and reasoning across turns, enabling exploratory and adaptive behaviors learned through RL. To address the challenge of sparse and delayed rewards in RL, we propose an intent-aware reward that provides turn-level feedback by aligning retrieval and reasoning with evolving user goals. Our proposed ChatR1 demonstrates strong performance on both 3B and 7B model backbones, outperforming competitive models on five CQA datasets, measured by different metrics (F1, BERTScore, and LLM-as-judge). We include a diverse set of CQA datasets to cover topic shifts, evolving intents, mixed-initiative dialogues, and multi-document grounding, testing ChatR1's performance from various aspects. Ablation studies confirm the effectiveness of the intent-aware reward. Our analyses further reveal diverse reasoning trajectories and effective use of the search tool. ChatR1 also generalizes robustly across domains, demonstrating that RL-based reasoning enables more flexible and context-sensitive behavior than static CQA pipelines.
academic
ChatR1: Aprendizaje por Refuerzo para Razonamiento Conversacional y Respuesta a Preguntas Aumentada por Recuperación
Este artículo propone ChatR1, un marco de razonamiento para respuesta a preguntas conversacionales basado en aprendizaje por refuerzo. En la respuesta a preguntas conversacionales (CQA), la intención del usuario evoluciona a través de múltiples turnos de conversación, los enunciados suelen estar incompletos y requieren explicación contextual, reconstrucción de consultas y coordinación dinámica entre recuperación y generación. A diferencia de los canales estáticos de "reescritura-recuperación-generación", ChatR1 alterna entre búsqueda y razonamiento en conversaciones multiturno, implementando comportamiento exploratorio y adaptativo mediante aprendizaje por refuerzo. Para abordar los desafíos de recompensas dispersas y retrasadas en el aprendizaje por refuerzo, los autores proponen recompensas conscientes de la intención, que proporcionan retroalimentación a nivel de turno alineando la recuperación y el razonamiento con los objetivos del usuario en evolución. ChatR1 demuestra un desempeño excepcional en modelos de 3B y 7B, superando modelos competitivos en cinco conjuntos de datos de CQA.
Restricciones de Canales Estáticos: Los métodos existentes emplean principalmente canales estáticos de "reescritura-recuperación-generación", careciendo de flexibilidad
Dependencia del Aprendizaje Supervisado: La mayoría de los métodos dependen del ajuste fino supervisado (SFT), lo que dificulta la adaptación a escenarios de conversación no vistos durante el entrenamiento
Suposición de Interacción Única: Los marcos de razonamiento RL existentes se centran principalmente en interacciones de un solo turno, sin considerar la complejidad de las conversaciones multiturno
Los sistemas comerciales (como Perplexity.ai y SearchGPT) tienden cada vez más hacia la búsqueda conversacional multiturno, pero la investigación académica se ha rezagado en este aspecto. El aprendizaje por refuerzo puede permitir que los modelos aprendan estrategias dinámicas de recuperación y razonamiento, en lugar de depender de datos de demostración estáticos.
Propuesta del Marco ChatR1: Primer modelo de razonamiento CQA basado en RL que optimiza de extremo a extremo la recuperación y generación multiturno, aprendiendo comportamiento dinámico en lugar de canales estáticos
Diseño de Recompensas Conscientes de la Intención: Mecanismo de recompensa especializado para CQA que reduce la escasez de recompensas alineando con la intención del usuario en evolución
Verificación Experimental Integral: Validación del desempeño en cinco conjuntos de datos de CQA de diferentes complejidades, demostrando capacidad de generalización entre dominios
Análisis Profundo e Insights: Revelación de que ChatR1 genera trayectorias de razonamiento diversas, utiliza efectivamente herramientas de búsqueda y demuestra robustez entre dominios
Dado un conjunto de datos D que contiene conversaciones multiturno usuario-sistema, donde cada conversación consta de múltiples turnos, y una colección de documentos C. En cada turno, el sistema recibe el historial de conversación H y la consulta actual del usuario q, con la tarea de generar una respuesta y, utilizando el contexto de H y realizando verificación de hechos basada en C. La intención del usuario se define como la consulta reescrita q_rw, resolviendo referencias contextuales y ambigüedades en q.
Mide el alineamiento de las consultas de búsqueda con la intención del usuario:
R_intent(Q) = max_{q_k∈Q} F1(q_k, q_rw)
Tomar el máximo asegura que el modelo reciba recompensa al formular reconstrucciones semánticamente correctas, mientras mantiene flexibilidad para consultas exploratorias.
Optimización de Extremo a Extremo: A diferencia de canales tradicionales separados, ChatR1 optimiza conjuntamente razonamiento, recuperación y generación
Diseño Consciente de la Intención: Mecanismo de recompensa especializado para CQA que evalúa directamente la calidad de consultas en lugar de depender de resultados de recuperación
Razonamiento Adaptativo: Aprendizaje mediante RL de cuándo y cómo realizar búsquedas, en lugar de políticas estáticas predefinidas
La comparación de desempeño en cinco conjuntos de datos muestra:
ChatR1-3B Supera Modelos Cerrados Grandes: Supera ChatGPT y Claude utilizando menos parámetros
Supera Líneas Base Supervisadas: ChatR1-3B supera todos los modelos de línea base supervisados y RL de 3B en la mayoría de conjuntos de datos en F1 y BERTScore
Efecto de Escala Evidente: ChatR1-7B muestra mejora promedio de 1.4 puntos F1 y 0.5 BERTScore en comparación con la versión 3B
Los métodos tradicionales de CQA dependen principalmente de canales RAG estáticos y ajuste fino supervisado, careciendo de mecanismos de razonamiento explícito para decidir cuándo y cómo buscar.
Efectividad del Razonamiento RL: ChatR1 demuestra que RL puede mejorar capacidades de razonamiento en CQA
Importancia de Recompensa de Intención: Las recompensas conscientes de la intención especialmente diseñadas mejoran significativamente el desempeño
Capacidad de Generalización Entre Dominios: El razonamiento RL demuestra mayor flexibilidad y sensibilidad contextual en comparación con canales CQA estáticos
Fuerte Innovación: Primera aplicación sistemática de RL a CQA multiturno, llenando un vacío de investigación importante
Diseño Razonable: Recompensa consciente de la intención cuidadosamente diseñada para características de CQA, resolviendo problema de escasez de recompensas
Experimentación Integral: Cinco conjuntos de datos cubriendo diferentes complejidades de conversación, evaluación exhaustiva
Análisis Profundo: Proporciona análisis multifacético de trayectorias de razonamiento, calidad de recuperación e insights
El artículo cita trabajos importantes en aprendizaje por refuerzo, sistemas de conversación e recuperación de información, particularmente:
Algoritmo PPO (Schulman et al., 2017)
Trabajos de razonamiento RL como Search-R1 (Jin et al., 2025)
Trabajos de construcción de conjuntos de datos de respuesta a preguntas conversacionales (Adlakha et al., 2022; Anantha et al., 2021)
Evaluación General: Este es un artículo de investigación de alta calidad que demuestra excelencia en innovación técnica, diseño experimental y profundidad de análisis. La introducción de aprendizaje por refuerzo en respuesta a preguntas conversacionales multiturno es una dirección de investigación significativa, y el diseño de recompensas conscientes de la intención resuelve ingeniosamente desafíos clave en CQA. A pesar de algunas limitaciones, el artículo proporciona contribuciones importantes al campo, mereciendo investigación y aplicación posterior.