2025-11-25T20:10:18.587625

ChatR1: Reinforcement Learning for Conversational Reasoning and Retrieval Augmented Question Answering

Lupart, Aliannejadi, Kanoulas

We present ChatR1, a reasoning framework based on reinforcement learning (RL) for conversational question answering (CQA). Reasoning plays an important role in CQA, where user intent evolves across dialogue turns, and utterances are often underspecified, requiring contextual interpretation, query reformulation, and dynamic coordination between retrieval and generation. Unlike static `rewrite, retrieve, and generate' pipelines, ChatR1 interleaves search and reasoning across turns, enabling exploratory and adaptive behaviors learned through RL. To address the challenge of sparse and delayed rewards in RL, we propose an intent-aware reward that provides turn-level feedback by aligning retrieval and reasoning with evolving user goals. Our proposed ChatR1 demonstrates strong performance on both 3B and 7B model backbones, outperforming competitive models on five CQA datasets, measured by different metrics (F1, BERTScore, and LLM-as-judge). We include a diverse set of CQA datasets to cover topic shifts, evolving intents, mixed-initiative dialogues, and multi-document grounding, testing ChatR1's performance from various aspects. Ablation studies confirm the effectiveness of the intent-aware reward. Our analyses further reveal diverse reasoning trajectories and effective use of the search tool. ChatR1 also generalizes robustly across domains, demonstrating that RL-based reasoning enables more flexible and context-sensitive behavior than static CQA pipelines.

academic

ChatR1: Aprendizaje por Refuerzo para Razonamiento Conversacional y Respuesta a Preguntas Aumentada por Recuperación

Información Básica

ID del Artículo: 2510.13312
Título: ChatR1: Reinforcement Learning for Conversational Reasoning and Retrieval Augmented Question Answering
Autores: Simon Lupart, Mohammad Aliannejadi, Evangelos Kanoulas (Universidad de Ámsterdam)
Clasificación: cs.CL, cs.IR
Fecha de Publicación: 15 de octubre de 2025 (preimpresión en arXiv)
Enlace del Artículo: https://arxiv.org/abs/2510.13312

Resumen

Este artículo propone ChatR1, un marco de razonamiento para respuesta a preguntas conversacionales basado en aprendizaje por refuerzo. En la respuesta a preguntas conversacionales (CQA), la intención del usuario evoluciona a través de múltiples turnos de conversación, los enunciados suelen estar incompletos y requieren explicación contextual, reconstrucción de consultas y coordinación dinámica entre recuperación y generación. A diferencia de los canales estáticos de "reescritura-recuperación-generación", ChatR1 alterna entre búsqueda y razonamiento en conversaciones multiturno, implementando comportamiento exploratorio y adaptativo mediante aprendizaje por refuerzo. Para abordar los desafíos de recompensas dispersas y retrasadas en el aprendizaje por refuerzo, los autores proponen recompensas conscientes de la intención, que proporcionan retroalimentación a nivel de turno alineando la recuperación y el razonamiento con los objetivos del usuario en evolución. ChatR1 demuestra un desempeño excepcional en modelos de 3B y 7B, superando modelos competitivos en cinco conjuntos de datos de CQA.

Contexto de Investigación y Motivación

Definición del Problema

Los desafíos centrales enfrentados por la respuesta a preguntas conversacionales (CQA) incluyen:

Evolución de la Intención del Usuario: La intención del usuario cambia y evoluciona a través de múltiples turnos de conversación
Incompletitud del Enunciado: Las expresiones del usuario a menudo dependen del contexto, presentando problemas de resolución de referencias y elisión
Necesidad de Coordinación Dinámica: Se requiere coordinación dinámica entre recuperación y generación

Limitaciones de Métodos Existentes

Restricciones de Canales Estáticos: Los métodos existentes emplean principalmente canales estáticos de "reescritura-recuperación-generación", careciendo de flexibilidad
Dependencia del Aprendizaje Supervisado: La mayoría de los métodos dependen del ajuste fino supervisado (SFT), lo que dificulta la adaptación a escenarios de conversación no vistos durante el entrenamiento
Suposición de Interacción Única: Los marcos de razonamiento RL existentes se centran principalmente en interacciones de un solo turno, sin considerar la complejidad de las conversaciones multiturno

Motivación de la Investigación

Los sistemas comerciales (como Perplexity.ai y SearchGPT) tienden cada vez más hacia la búsqueda conversacional multiturno, pero la investigación académica se ha rezagado en este aspecto. El aprendizaje por refuerzo puede permitir que los modelos aprendan estrategias dinámicas de recuperación y razonamiento, en lugar de depender de datos de demostración estáticos.

Contribuciones Principales

Propuesta del Marco ChatR1: Primer modelo de razonamiento CQA basado en RL que optimiza de extremo a extremo la recuperación y generación multiturno, aprendiendo comportamiento dinámico en lugar de canales estáticos
Diseño de Recompensas Conscientes de la Intención: Mecanismo de recompensa especializado para CQA que reduce la escasez de recompensas alineando con la intención del usuario en evolución
Verificación Experimental Integral: Validación del desempeño en cinco conjuntos de datos de CQA de diferentes complejidades, demostrando capacidad de generalización entre dominios
Análisis Profundo e Insights: Revelación de que ChatR1 genera trayectorias de razonamiento diversas, utiliza efectivamente herramientas de búsqueda y demuestra robustez entre dominios

Explicación Detallada del Método

Definición de la Tarea

Dado un conjunto de datos D que contiene conversaciones multiturno usuario-sistema, donde cada conversación consta de múltiples turnos, y una colección de documentos C. En cada turno, el sistema recibe el historial de conversación H y la consulta actual del usuario q, con la tarea de generar una respuesta y, utilizando el contexto de H y realizando verificación de hechos basada en C. La intención del usuario se define como la consulta reescrita q_rw, resolviendo referencias contextuales y ambigüedades en q.

Arquitectura del Modelo

Bucle de Interacción

ChatR1 es un modelo de política π_θ que genera una trayectoria τ en cada turno, incluyendo:

Trayectoria de Razonamiento: Proceso de pensamiento (...)
Consultas de Búsqueda Intermedias: Q = {q_k}^K_ enviadas al motor de búsqueda R
Documentos Recuperados: Documentos relevantes devueltos basados en consultas de búsqueda
Respuesta Final: y

Función Objetivo de RL

El objetivo de optimización es maximizar la recompensa esperada mientras se minimiza la distancia de la política original:

J(θ) = E_{(q,H)~D, τ~π_θ(·|q,H;R)} [R(τ)] - β D_KL(π_θ || π_ref)

Optimización PPO

Se utiliza el algoritmo de Optimización de Política Proximal (PPO), maximizando el objetivo de sustituto recortado:

L_PPO(θ) = E_{(q,H;R;i)~μ} [min(ρ_i(θ)Â_i, clip(ρ_i(θ), 1-ε, 1+ε)Â_i)]

donde ρ_i(θ) es la razón de probabilidad entre políticas nueva y antigua, y Â_i es la función de ventaja estimada.

Diseño del Mecanismo de Recompensa

Función de Recompensa Compuesta

R(τ) = R_answer(y) + α R_intent(Q)

Recompensa de Respuesta

Evalúa la calidad de la respuesta final basada en puntuación F1 a nivel de palabra:

R_answer(y) = F1(y, y*)

Recompensa de Intención

Mide el alineamiento de las consultas de búsqueda con la intención del usuario:

R_intent(Q) = max_{q_k∈Q} F1(q_k, q_rw)

Tomar el máximo asegura que el modelo reciba recompensa al formular reconstrucciones semánticamente correctas, mientras mantiene flexibilidad para consultas exploratorias.

Puntos de Innovación Técnica

Optimización de Extremo a Extremo: A diferencia de canales tradicionales separados, ChatR1 optimiza conjuntamente razonamiento, recuperación y generación
Diseño Consciente de la Intención: Mecanismo de recompensa especializado para CQA que evalúa directamente la calidad de consultas en lugar de depender de resultados de recuperación
Razonamiento Adaptativo: Aprendizaje mediante RL de cuándo y cómo realizar búsquedas, en lugar de políticas estáticas predefinidas

Configuración Experimental

Conjuntos de Datos

Se utilizan cinco conjuntos de datos de CQA diversificados:

Conjunto de Datos	Turnos	Desafío Principal
TopiOCQA	45k/2.5k	Cambio de tema, evolución de intención
QReCC	63k/16k	Corpus a gran escala, reconstrucción de consultas
INSCIT	1.8k/3.3k	Dominio mixto, intención abierta
MDoc2Dial	18k/3.3k	Base multidocumento, razonamiento de dominio
FaithDial	18k/3.5k	Fidelidad, control de alucinación

Métricas de Evaluación

Calidad de Generación: F1, BERTScore, LLM-as-judge
Calidad de Recuperación: nDCG, Recall, MRR, hit@N

Métodos de Comparación

Métodos de Cero Ejemplos: GPT-3.5, Claude, Qwen razonamiento directo y CoT
Ajuste Fino Supervisado: conv-ANCE+Mistral, ChatRetriever+Mistral, UniConv
Entrenamiento RL: CoT R1, QR Search R1, etc.

Detalles de Implementación

Modelo Base: Qwen2.5-3B/7B-Instruct
Modelo de Recuperación: intfloat/e5-base-v2 (300M parámetros)
Configuración de Entrenamiento: Tamaño de lote 512, microlote PPO 64, tasa de aprendizaje 1e-6
Hardware: 4 GPUs H100

Resultados Experimentales

Resultados Principales

La comparación de desempeño en cinco conjuntos de datos muestra:

ChatR1-3B Supera Modelos Cerrados Grandes: Supera ChatGPT y Claude utilizando menos parámetros
Supera Líneas Base Supervisadas: ChatR1-3B supera todos los modelos de línea base supervisados y RL de 3B en la mayoría de conjuntos de datos en F1 y BERTScore
Efecto de Escala Evidente: ChatR1-7B muestra mejora promedio de 1.4 puntos F1 y 0.5 BERTScore en comparación con la versión 3B

Capacidad de Generalización

Los experimentos de transferencia entre dominios (entrenamiento en QReCC, prueba en otros conjuntos de datos) indican:

ChatR1-3B con pérdida de solo 0.2 en MultiDoc2Dial
Sigue superando el desempeño de ChatGPT de cero ejemplos en tres conjuntos de datos
Demuestra fuerte capacidad de uso de herramientas de recuperación en lugar de sobreajuste específico del dominio

Experimentos de Ablación

Efecto de Recompensa de Intención

ChatR1-3B muestra mejora promedio de 2.2 puntos F1 en comparación con versión sin recompensa de intención
Recompensa F1 a nivel de consulta supera recompensa hit@k basada en documentos
Desempeño óptimo alcanzado con relación de recompensa recuperación/generación de 0.2/1.0

Análisis de Diseño de Recompensa

Ventajas de recompensa de intención sobre recompensa de recuperación:

Mayor Densidad: Proporciona señal de aprendizaje más fuerte para PPO
Desacoplamiento de Errores: Independiente del motor de búsqueda, separando errores de recuperación y formulación de consultas
Completitud de Anotación: Evita problemas de incompletitud en anotaciones de relevancia de documentos

Análisis de Casos

Diversidad de Trayectorias de Razonamiento

Diferentes conjuntos de datos exhiben diferentes distribuciones de longitud de razonamiento:

MultiDoc2Dial y QReCC requieren trayectorias de razonamiento más largas
FaithDial relativamente más corta
INSCIT distribución más dispersa, reflejando características de dominio mixto

Desempeño de Recuperación

El desempeño de recuperación de ChatR1 como herramienta es comparable a métodos supervisados:

ChatR1-7B iguala o supera líneas base supervisadas en TopiOCQA y QReCC
Demuestra capacidad de aprender autónomamente recuperación efectiva del aprendizaje interactivo

Trabajo Relacionado

Respuesta a Preguntas Conversacionales

Los métodos tradicionales de CQA dependen principalmente de canales RAG estáticos y ajuste fino supervisado, careciendo de mecanismos de razonamiento explícito para decidir cuándo y cómo buscar.

Razonamiento RL para Respuesta a Preguntas

Trabajos recientes como Search-R1 y ReSearch aplican RL a razonamiento de un solo turno, pero no se extienden a escenarios de conversación multiturno.

Uso de Herramientas

Métodos como CALM extienden razonamiento a conversación multiturno, pero aún dependen de ajuste fino supervisado en lugar de entrenamiento RL.

Conclusiones y Discusión

Conclusiones Principales

Efectividad del Razonamiento RL: ChatR1 demuestra que RL puede mejorar capacidades de razonamiento en CQA
Importancia de Recompensa de Intención: Las recompensas conscientes de la intención especialmente diseñadas mejoran significativamente el desempeño
Capacidad de Generalización Entre Dominios: El razonamiento RL demuestra mayor flexibilidad y sensibilidad contextual en comparación con canales CQA estáticos

Limitaciones

Estrategia de Optimización Única: Solo utiliza PPO, sin exploración de otras estrategias de optimización
Restricción de Longitud de Conversación: Experimentos concentrados en conversaciones de longitud media (10-12 turnos)
Costo Computacional: El entrenamiento RL aumenta la carga computacional de entrenamiento e inferencia
Ausencia de Personalización: No considera adaptación específica del usuario y personalización

Direcciones Futuras

Optimización a Nivel de Conversación: Uso de usuarios simulados y retroalimentación basada en preferencias
Manejo de Conversaciones Más Largas: Mejora de capacidades de memoria y modelado contextual
Optimización de Eficiencia: Desarrollo de programas de optimización más eficientes
Mitigación de Sesgos: Exploración de mitigación de sesgos y base de hechos más fuerte en optimización RL

Evaluación Profunda

Fortalezas

Fuerte Innovación: Primera aplicación sistemática de RL a CQA multiturno, llenando un vacío de investigación importante
Diseño Razonable: Recompensa consciente de la intención cuidadosamente diseñada para características de CQA, resolviendo problema de escasez de recompensas
Experimentación Integral: Cinco conjuntos de datos cubriendo diferentes complejidades de conversación, evaluación exhaustiva
Análisis Profundo: Proporciona análisis multifacético de trayectorias de razonamiento, calidad de recuperación e insights

Deficiencias

Fundamento Teórico: Falta análisis teórico de convergencia y estabilidad de RL en CQA
Eficiencia Computacional: Discusión insuficiente de compensación de costo computacional en comparación con métodos supervisados
Investigación de Usuario: Falta evaluación de interacción de usuario real, dependencia solo de métricas offline
Análisis de Errores: Análisis insuficiente de casos de fallo

Impacto

Valor Académico: Introduce nuevo paradigma RL al campo de CQA, inspirando investigación posterior
Valor Práctico: Método aplicable a sistemas de conversación reales, mejorando experiencia del usuario
Reproducibilidad: Proporciona detalles de implementación detallados y código de código abierto para facilitar reproducción

Escenarios Aplicables

Sistemas de Recuperación de Información: Motores de búsqueda y sistemas de respuesta a preguntas que requieren interacción multiturno
Robots de Servicio al Cliente: Escenarios de servicio al cliente inteligente para manejar consultas complejas
Tutoría Educativa: Plataformas de aprendizaje en línea que requieren guía progresiva

Referencias

El artículo cita trabajos importantes en aprendizaje por refuerzo, sistemas de conversación e recuperación de información, particularmente:

Algoritmo PPO (Schulman et al., 2017)
Trabajos de razonamiento RL como Search-R1 (Jin et al., 2025)
Trabajos de construcción de conjuntos de datos de respuesta a preguntas conversacionales (Adlakha et al., 2022; Anantha et al., 2021)

Evaluación General: Este es un artículo de investigación de alta calidad que demuestra excelencia en innovación técnica, diseño experimental y profundidad de análisis. La introducción de aprendizaje por refuerzo en respuesta a preguntas conversacionales multiturno es una dirección de investigación significativa, y el diseño de recompensas conscientes de la intención resuelve ingeniosamente desafíos clave en CQA. A pesar de algunas limitaciones, el artículo proporciona contribuciones importantes al campo, mereciendo investigación y aplicación posterior.