2025-11-25T20:10:18.587625

ChatR1: Reinforcement Learning for Conversational Reasoning and Retrieval Augmented Question Answering

Lupart, Aliannejadi, Kanoulas

We present ChatR1, a reasoning framework based on reinforcement learning (RL) for conversational question answering (CQA). Reasoning plays an important role in CQA, where user intent evolves across dialogue turns, and utterances are often underspecified, requiring contextual interpretation, query reformulation, and dynamic coordination between retrieval and generation. Unlike static `rewrite, retrieve, and generate' pipelines, ChatR1 interleaves search and reasoning across turns, enabling exploratory and adaptive behaviors learned through RL. To address the challenge of sparse and delayed rewards in RL, we propose an intent-aware reward that provides turn-level feedback by aligning retrieval and reasoning with evolving user goals. Our proposed ChatR1 demonstrates strong performance on both 3B and 7B model backbones, outperforming competitive models on five CQA datasets, measured by different metrics (F1, BERTScore, and LLM-as-judge). We include a diverse set of CQA datasets to cover topic shifts, evolving intents, mixed-initiative dialogues, and multi-document grounding, testing ChatR1's performance from various aspects. Ablation studies confirm the effectiveness of the intent-aware reward. Our analyses further reveal diverse reasoning trajectories and effective use of the search tool. ChatR1 also generalizes robustly across domains, demonstrating that RL-based reasoning enables more flexible and context-sensitive behavior than static CQA pipelines.

academic

ChatR1: Обучение с подкреплением для диалогового рассуждения и ответов на вопросы с дополнением поиском

Основная информация

ID статьи: 2510.13312
Название: ChatR1: Reinforcement Learning for Conversational Reasoning and Retrieval Augmented Question Answering
Авторы: Simon Lupart, Mohammad Aliannejadi, Evangelos Kanoulas (Амстердамский университет)
Классификация: cs.CL, cs.IR
Дата публикации: 15 октября 2025 г. (препринт arXiv)
Ссылка на статью: https://arxiv.org/abs/2510.13312

Аннотация

В данной работе предлагается ChatR1 — структура диалогового вопросно-ответного рассуждения на основе обучения с подкреплением. В диалоговом вопросно-ответном взаимодействии намерения пользователя постоянно эволюционируют в ходе многораундового диалога, высказывания часто выражаются неполно и требуют контекстного объяснения, переформулирования запроса и динамической координации между поиском и генерацией. В отличие от статического конвейера «переписывание-поиск-генерация», ChatR1 чередует поиск и рассуждение в многораундовом диалоге, реализуя исследовательское и адаптивное поведение посредством обучения с подкреплением. Для решения проблемы разреженных и отложенных вознаграждений в обучении с подкреплением авторы предлагают вознаграждение, осведомленное об интенции, которое обеспечивает обратную связь на уровне раунда путем выравнивания поиска и рассуждения с эволюционирующими целями пользователя. ChatR1 демонстрирует отличные результаты на моделях размером 3B и 7B, превосходя конкурирующие модели на пяти наборах данных CQA.

Исследовательский контекст и мотивация

Определение проблемы

Основные вызовы, стоящие перед диалоговым вопросно-ответным взаимодействием (CQA), включают:

Эволюция намерений пользователя: Намерения пользователя постоянно изменяются и эволюционируют в ходе многораундового диалога
Неполнота высказываний: Выражения пользователя часто зависят от контекста и содержат проблемы с разрешением кореференции и эллипсисом
Потребность в динамической координации: Требуется динамическая координация между поиском и генерацией

Ограничения существующих методов

Ограничения статического конвейера: Существующие методы в основном используют статический конвейер «переписывание-поиск-генерация», что снижает гибкость
Зависимость от контролируемого обучения: Большинство методов полагаются на контролируемую тонкую настройку (SFT), что затрудняет адаптацию к диалоговым сценариям, не встречавшимся во время обучения
Предположение об однораундовом взаимодействии: Существующие структуры RL-рассуждения в основном ориентированы на однораундовое взаимодействие и не учитывают сложность многораундовых диалогов

Исследовательская мотивация

Коммерческие системы (такие как Perplexity.ai, SearchGPT) все чаще ориентируются на многораундовый диалоговый поиск, однако академические исследования в этой области отстают. Обучение с подкреплением может позволить моделям изучать динамические стратегии поиска и рассуждения, а не полагаться на статические демонстрационные данные.

Основные вклады

Предложение структуры ChatR1: Первая модель CQA-рассуждения на основе RL, обеспечивающая сквозную оптимизацию многораундового поиска и генерации, изучающая динамическое поведение вместо статического конвейера
Разработка вознаграждения, осведомленного об интенции: Механизм вознаграждения, специально разработанный для CQA, снижающий разреженность вознаграждения путем выравнивания с эволюционирующими намерениями пользователя
Комплексная экспериментальная проверка: Проверка производительности на пяти наборах данных CQA различной сложности, демонстрирующая способность к обобщению между доменами
Глубокий аналитический анализ: Раскрытие того, как ChatR1 генерирует разнообразные пути рассуждения, эффективно использует инструменты поиска и демонстрирует надежность между доменами

Подробное описание методов

Определение задачи

Дан набор данных D, содержащий многораундовые диалоги пользователь-система, где каждый диалог состоит из нескольких раундов, и коллекция документов C. На каждом раунде система получает историю диалога H и текущий запрос пользователя q, задача состоит в генерации ответа y, использующего контекст H и основанного на C для проверки фактов. Намерение пользователя определяется как переписанный запрос q_rw, разрешающий контекстные ссылки и неоднозначности в q.

Архитектура модели

Цикл взаимодействия

ChatR1 — это модель политики π_θ, которая генерирует траекторию τ на каждом раунде, включающую:

Траектория рассуждения: Процесс мышления (...)
Промежуточные поисковые запросы: Q = {q_k}^K_, отправляемые поисковой системе R
Извлеченные документы: Релевантные документы, возвращаемые на основе поисковых запросов
Финальный ответ: y

Целевая функция RL

Цель оптимизации — максимизировать ожидаемое вознаграждение при минимизации расстояния от исходной политики:

J(θ) = E_{(q,H)~D, τ~π_θ(·|q,H;R)} [R(τ)] - β D_KL(π_θ || π_ref)

Оптимизация PPO

Используется алгоритм оптимизации близкой политики (PPO) для максимизации усеченной цели суррогата:

L_PPO(θ) = E_{(q,H;R;i)~μ} [min(ρ_i(θ)Â_i, clip(ρ_i(θ), 1-ε, 1+ε)Â_i)]

где ρ_i(θ) — отношение вероятностей новой и старой политик, Â_i — оценка функции преимущества.

Разработка механизма вознаграждения

Составная функция вознаграждения

R(τ) = R_answer(y) + α R_intent(Q)

Вознаграждение за ответ

Оценивает качество финального ответа на основе оценки F1 на уровне слова:

R_answer(y) = F1(y, y*)

Вознаграждение за интенцию

Измеряет выравнивание поисковых запросов с намерением пользователя:

R_intent(Q) = max_{q_k∈Q} F1(q_k, q_rw)

Использование максимума гарантирует, что модель получает вознаграждение за формулирование семантически корректных переписываний, одновременно сохраняя гибкость для исследовательских запросов.

Технические инновации

Сквозная оптимизация: В отличие от традиционных разделенных конвейеров, ChatR1 совместно оптимизирует рассуждение, поиск и генерацию
Разработка, осведомленная об интенции: Механизм вознаграждения, специально разработанный для CQA, прямо оценивающий качество запроса, а не полагающийся на результаты поиска
Адаптивное рассуждение: Посредством RL изучается, когда и как проводить поиск, вместо использования предопределенной статической политики

Экспериментальная установка

Наборы данных

Используются пять разнообразных наборов данных CQA:

Набор данных	Количество раундов	Основные вызовы
TopiOCQA	45k/2.5k	Переключение тем, эволюция намерений
QReCC	63k/16k	Крупномасштабный корпус, переформулирование запроса
INSCIT	1.8k/3.3k	Смешанные домены, открытые намерения
MDoc2Dial	18k/3.3k	Основание на множественных документах, доменное рассуждение
FaithDial	18k/3.5k	Верность, контроль галлюцинаций

Метрики оценки

Качество генерации: F1, BERTScore, LLM-as-judge
Качество поиска: nDCG, Recall, MRR, hit@N

Методы сравнения

Методы с нулевым обучением: GPT-3.5, Claude, Qwen с прямым рассуждением и CoT
Контролируемая тонкая настройка: conv-ANCE+Mistral, ChatRetriever+Mistral, UniConv
Обучение с RL: CoT R1, QR Search R1 и др.

Детали реализации

Базовая модель: Qwen2.5-3B/7B-Instruct
Модель поиска: intfloat/e5-base-v2 (300M параметров)
Конфигурация обучения: Размер пакета 512, микропакет PPO 64, скорость обучения 1e-6
Оборудование: 4 GPU H100

Результаты экспериментов

Основные результаты

Сравнение производительности на пяти наборах данных показывает:

ChatR1-3B превосходит крупные закрытые модели: Превосходит ChatGPT и Claude при использовании меньшего количества параметров
Превосходство над контролируемыми базовыми моделями: ChatR1-3B превосходит все базовые модели 3B с контролируемым обучением и RL по показателям F1 и BERTScore на большинстве наборов данных
Явный эффект масштаба: ChatR1-7B показывает среднее улучшение на 1.4 балла F1 и 0.5 BERTScore по сравнению с версией 3B

Способность к обобщению

Эксперименты по трансферу между доменами (обучение на QReCC, тестирование на других наборах данных) показывают:

ChatR1-3B теряет только 0.2 балла на MultiDoc2Dial
По-прежнему превосходит нулевое обучение ChatGPT на трех наборах данных
Демонстрирует сильную способность использовать инструменты поиска, а не переобучение на конкретном домене

Абляционные исследования

Эффект вознаграждения за интенцию

ChatR1-3B показывает среднее улучшение на 2.2 балла F1 по сравнению с версией без вознаграждения за интенцию
Вознаграждение F1 на уровне запроса превосходит вознаграждение на основе документов hit@k
Оптимальная производительность достигается при соотношении вознаграждений поиска/генерации 0.2/1.0

Анализ разработки вознаграждения

Преимущества вознаграждения за интенцию по сравнению с вознаграждением за поиск:

Большая плотность: Обеспечивает более сильный сигнал обучения для PPO
Развязывание ошибок: Независимо от поисковой системы, разделяет ошибки поиска и формулирования запроса
Полнота аннотаций: Избегает проблемы неполных аннотаций релевантности документов

Анализ примеров

Разнообразие путей рассуждения

Различные наборы данных демонстрируют различные распределения длины рассуждения:

MultiDoc2Dial и QReCC требуют самых длинных траекторий рассуждения
FaithDial относительно короче
INSCIT имеет наиболее рассеянное распределение, отражающее смешанную природу доменов

Производительность поиска

Производительность поиска ChatR1 как инструмента сравнима с контролируемыми методами:

ChatR1-7B соответствует или превосходит контролируемые базовые модели на TopiOCQA и QReCC
Демонстрирует способность самостоятельно изучать эффективный поиск из интерактивного обучения

Связанные работы

Диалоговое вопросно-ответное взаимодействие

Традиционные методы CQA в основном полагаются на статические конвейеры RAG и контролируемую тонкую настройку, не имея явного механизма рассуждения для определения того, когда и как проводить поиск.

RL-рассуждение для вопросно-ответного взаимодействия

Недавние работы, такие как Search-R1, ReSearch и др., применяют RL к однораундовому рассуждению, но не расширяют его на многораундовые диалоговые сценарии.

Использование инструментов

Методы, такие как CALM, расширяют рассуждение на многораундовые диалоги, но по-прежнему полагаются на контролируемую тонкую настройку, а не на обучение с RL.

Заключение и обсуждение

Основные выводы

Эффективность RL-рассуждения: ChatR1 доказывает, что RL может улучшить способности рассуждения в CQA
Важность вознаграждения за интенцию: Специально разработанное вознаграждение, осведомленное об интенции, значительно повышает производительность
Способность к кросс-доменному обобщению: RL-рассуждение демонстрирует большую гибкость и контекстную чувствительность по сравнению со статическими конвейерами CQA

Ограничения

Единственная стратегия оптимизации: Используется только PPO, другие стратегии оптимизации не исследуются
Ограничение длины диалога: Эксперименты сосредоточены на диалогах средней длины (10-12 раундов)
Вычислительные затраты: Обучение с RL увеличивает вычислительные затраты на обучение и вывод
Отсутствие персонализации: Не рассматривается адаптация к конкретному пользователю и персонализация

Направления будущих исследований

Оптимизация на уровне диалога: Использование симулированных пользователей и обратной связи на основе предпочтений
Обработка более длинных диалогов: Улучшение возможностей памяти и моделирования контекста
Оптимизация эффективности: Разработка более эффективных графиков оптимизации
Смягчение предвзятости: Исследование смягчения предвзятости и более сильного фактического обоснования в оптимизации с RL

Глубокая оценка

Преимущества

Высокая инновационность: Первое систематическое применение RL к многораундовому CQA, заполняющее важный пробел в исследованиях
Разумная разработка: Вознаграждение, осведомленное об интенции, тщательно разработано с учетом характеристик CQA, решая проблему разреженности вознаграждения
Комплексные эксперименты: Пять наборов данных охватывают различные уровни сложности диалогов, обеспечивая всестороннюю оценку
Глубокий анализ: Предоставляет многоаспектный анализ путей рассуждения, качества поиска и других аспектов

Недостатки

Недостаток теоретического обоснования: Отсутствует теоретический анализ сходимости и стабильности RL в CQA
Вычислительная эффективность: Недостаточно обсуждается компромисс в вычислительных затратах по сравнению с контролируемыми методами
Исследование с пользователями: Отсутствует оценка на основе взаимодействия с реальными пользователями, полагаясь только на автономные метрики
Анализ ошибок: Анализ случаев отказа недостаточно глубок

Влияние

Академическая ценность: Вводит новую парадигму RL для области CQA, вдохновляя последующие исследования
Практическая ценность: Методология может быть применена к реальным диалоговым системам, улучшая пользовательский опыт
Воспроизводимость: Предоставляет подробные детали реализации и открытый исходный код, облегчающие воспроизведение

Применимые сценарии

Системы информационного поиска: Поисковые системы и системы вопросно-ответного взаимодействия, требующие многораундового взаимодействия
Чат-боты для обслуживания клиентов: Сценарии интеллектуального обслуживания клиентов, обрабатывающие сложные запросы
Образовательное наставничество: Платформы онлайн-обучения, требующие пошагового руководства

Библиография

Статья цитирует важные работы в областях обучения с подкреплением, диалоговых систем и информационного поиска, в частности:

Алгоритм PPO (Schulman et al., 2017)
Работы по RL-рассуждению, такие как Search-R1 (Jin et al., 2025)
Работы по построению наборов данных диалогового вопросно-ответного взаимодействия (Adlakha et al., 2022; Anantha et al., 2021)

Общая оценка: Это высококачественная исследовательская статья, демонстрирующая отличные результаты в технической инновации, экспериментальном дизайне и глубине анализа. Введение обучения с подкреплением в многораундовое диалоговое вопросно-ответное взаимодействие — это значимое направление исследований. Разработка вознаграждения, осведомленного об интенции, умно решает ключевые вызовы в CQA. Несмотря на некоторые ограничения, статья вносит важный вклад в область и заслуживает дальнейшего исследования и применения.