ChatR1: Reinforcement Learning for Conversational Reasoning and Retrieval Augmented Question Answering
Lupart, Aliannejadi, Kanoulas
We present ChatR1, a reasoning framework based on reinforcement learning (RL) for conversational question answering (CQA). Reasoning plays an important role in CQA, where user intent evolves across dialogue turns, and utterances are often underspecified, requiring contextual interpretation, query reformulation, and dynamic coordination between retrieval and generation. Unlike static `rewrite, retrieve, and generate' pipelines, ChatR1 interleaves search and reasoning across turns, enabling exploratory and adaptive behaviors learned through RL. To address the challenge of sparse and delayed rewards in RL, we propose an intent-aware reward that provides turn-level feedback by aligning retrieval and reasoning with evolving user goals. Our proposed ChatR1 demonstrates strong performance on both 3B and 7B model backbones, outperforming competitive models on five CQA datasets, measured by different metrics (F1, BERTScore, and LLM-as-judge). We include a diverse set of CQA datasets to cover topic shifts, evolving intents, mixed-initiative dialogues, and multi-document grounding, testing ChatR1's performance from various aspects. Ablation studies confirm the effectiveness of the intent-aware reward. Our analyses further reveal diverse reasoning trajectories and effective use of the search tool. ChatR1 also generalizes robustly across domains, demonstrating that RL-based reasoning enables more flexible and context-sensitive behavior than static CQA pipelines.
academic
ChatR1: Обучение с подкреплением для диалогового рассуждения и ответов на вопросы с дополнением поиском
В данной работе предлагается ChatR1 — структура диалогового вопросно-ответного рассуждения на основе обучения с подкреплением. В диалоговом вопросно-ответном взаимодействии намерения пользователя постоянно эволюционируют в ходе многораундового диалога, высказывания часто выражаются неполно и требуют контекстного объяснения, переформулирования запроса и динамической координации между поиском и генерацией. В отличие от статического конвейера «переписывание-поиск-генерация», ChatR1 чередует поиск и рассуждение в многораундовом диалоге, реализуя исследовательское и адаптивное поведение посредством обучения с подкреплением. Для решения проблемы разреженных и отложенных вознаграждений в обучении с подкреплением авторы предлагают вознаграждение, осведомленное об интенции, которое обеспечивает обратную связь на уровне раунда путем выравнивания поиска и рассуждения с эволюционирующими целями пользователя. ChatR1 демонстрирует отличные результаты на моделях размером 3B и 7B, превосходя конкурирующие модели на пяти наборах данных CQA.
Ограничения статического конвейера: Существующие методы в основном используют статический конвейер «переписывание-поиск-генерация», что снижает гибкость
Зависимость от контролируемого обучения: Большинство методов полагаются на контролируемую тонкую настройку (SFT), что затрудняет адаптацию к диалоговым сценариям, не встречавшимся во время обучения
Предположение об однораундовом взаимодействии: Существующие структуры RL-рассуждения в основном ориентированы на однораундовое взаимодействие и не учитывают сложность многораундовых диалогов
Коммерческие системы (такие как Perplexity.ai, SearchGPT) все чаще ориентируются на многораундовый диалоговый поиск, однако академические исследования в этой области отстают. Обучение с подкреплением может позволить моделям изучать динамические стратегии поиска и рассуждения, а не полагаться на статические демонстрационные данные.
Предложение структуры ChatR1: Первая модель CQA-рассуждения на основе RL, обеспечивающая сквозную оптимизацию многораундового поиска и генерации, изучающая динамическое поведение вместо статического конвейера
Разработка вознаграждения, осведомленного об интенции: Механизм вознаграждения, специально разработанный для CQA, снижающий разреженность вознаграждения путем выравнивания с эволюционирующими намерениями пользователя
Комплексная экспериментальная проверка: Проверка производительности на пяти наборах данных CQA различной сложности, демонстрирующая способность к обобщению между доменами
Глубокий аналитический анализ: Раскрытие того, как ChatR1 генерирует разнообразные пути рассуждения, эффективно использует инструменты поиска и демонстрирует надежность между доменами
Дан набор данных D, содержащий многораундовые диалоги пользователь-система, где каждый диалог состоит из нескольких раундов, и коллекция документов C. На каждом раунде система получает историю диалога H и текущий запрос пользователя q, задача состоит в генерации ответа y, использующего контекст H и основанного на C для проверки фактов. Намерение пользователя определяется как переписанный запрос q_rw, разрешающий контекстные ссылки и неоднозначности в q.
Измеряет выравнивание поисковых запросов с намерением пользователя:
R_intent(Q) = max_{q_k∈Q} F1(q_k, q_rw)
Использование максимума гарантирует, что модель получает вознаграждение за формулирование семантически корректных переписываний, одновременно сохраняя гибкость для исследовательских запросов.
Сквозная оптимизация: В отличие от традиционных разделенных конвейеров, ChatR1 совместно оптимизирует рассуждение, поиск и генерацию
Разработка, осведомленная об интенции: Механизм вознаграждения, специально разработанный для CQA, прямо оценивающий качество запроса, а не полагающийся на результаты поиска
Адаптивное рассуждение: Посредством RL изучается, когда и как проводить поиск, вместо использования предопределенной статической политики
Сравнение производительности на пяти наборах данных показывает:
ChatR1-3B превосходит крупные закрытые модели: Превосходит ChatGPT и Claude при использовании меньшего количества параметров
Превосходство над контролируемыми базовыми моделями: ChatR1-3B превосходит все базовые модели 3B с контролируемым обучением и RL по показателям F1 и BERTScore на большинстве наборов данных
Явный эффект масштаба: ChatR1-7B показывает среднее улучшение на 1.4 балла F1 и 0.5 BERTScore по сравнению с версией 3B
Традиционные методы CQA в основном полагаются на статические конвейеры RAG и контролируемую тонкую настройку, не имея явного механизма рассуждения для определения того, когда и как проводить поиск.
Недавние работы, такие как Search-R1, ReSearch и др., применяют RL к однораундовому рассуждению, но не расширяют его на многораундовые диалоговые сценарии.
Методы, такие как CALM, расширяют рассуждение на многораундовые диалоги, но по-прежнему полагаются на контролируемую тонкую настройку, а не на обучение с RL.
Эффективность RL-рассуждения: ChatR1 доказывает, что RL может улучшить способности рассуждения в CQA
Важность вознаграждения за интенцию: Специально разработанное вознаграждение, осведомленное об интенции, значительно повышает производительность
Способность к кросс-доменному обобщению: RL-рассуждение демонстрирует большую гибкость и контекстную чувствительность по сравнению со статическими конвейерами CQA
Статья цитирует важные работы в областях обучения с подкреплением, диалоговых систем и информационного поиска, в частности:
Алгоритм PPO (Schulman et al., 2017)
Работы по RL-рассуждению, такие как Search-R1 (Jin et al., 2025)
Работы по построению наборов данных диалогового вопросно-ответного взаимодействия (Adlakha et al., 2022; Anantha et al., 2021)
Общая оценка: Это высококачественная исследовательская статья, демонстрирующая отличные результаты в технической инновации, экспериментальном дизайне и глубине анализа. Введение обучения с подкреплением в многораундовое диалоговое вопросно-ответное взаимодействие — это значимое направление исследований. Разработка вознаграждения, осведомленного об интенции, умно решает ключевые вызовы в CQA. Несмотря на некоторые ограничения, статья вносит важный вклад в область и заслуживает дальнейшего исследования и применения.