ChatR1: Reinforcement Learning for Conversational Reasoning and Retrieval Augmented Question Answering
Lupart, Aliannejadi, Kanoulas
We present ChatR1, a reasoning framework based on reinforcement learning (RL) for conversational question answering (CQA). Reasoning plays an important role in CQA, where user intent evolves across dialogue turns, and utterances are often underspecified, requiring contextual interpretation, query reformulation, and dynamic coordination between retrieval and generation. Unlike static `rewrite, retrieve, and generate' pipelines, ChatR1 interleaves search and reasoning across turns, enabling exploratory and adaptive behaviors learned through RL. To address the challenge of sparse and delayed rewards in RL, we propose an intent-aware reward that provides turn-level feedback by aligning retrieval and reasoning with evolving user goals. Our proposed ChatR1 demonstrates strong performance on both 3B and 7B model backbones, outperforming competitive models on five CQA datasets, measured by different metrics (F1, BERTScore, and LLM-as-judge). We include a diverse set of CQA datasets to cover topic shifts, evolving intents, mixed-initiative dialogues, and multi-document grounding, testing ChatR1's performance from various aspects. Ablation studies confirm the effectiveness of the intent-aware reward. Our analyses further reveal diverse reasoning trajectories and effective use of the search tool. ChatR1 also generalizes robustly across domains, demonstrating that RL-based reasoning enables more flexible and context-sensitive behavior than static CQA pipelines.
academic
ChatR1: Apprendimento per Rinforzo per il Ragionamento Conversazionale e la Risposta a Domande Aumentata da Recupero
Questo articolo propone ChatR1, un framework di ragionamento per domande conversazionali basato su apprendimento per rinforzo. Nella risposta a domande conversazionali, l'intento dell'utente si evolve continuamente attraverso più turni di conversazione, gli enunciati sono spesso incompleti e richiedono spiegazioni contestuali, ricostruzione delle query e coordinamento dinamico tra recupero e generazione. A differenza delle pipeline statiche "riscrittura-recupero-generazione", ChatR1 alterna ricerca e ragionamento attraverso più turni di conversazione, implementando comportamenti esplorativi e adattivi mediante apprendimento per rinforzo. Per affrontare le sfide dei premi sparsi e ritardati nell'apprendimento per rinforzo, gli autori propongono un premio consapevole dell'intento, fornendo feedback a livello di turno allineando il recupero e il ragionamento agli obiettivi dell'utente in evoluzione. ChatR1 dimostra eccellenti prestazioni su modelli da 3B e 7B, superando i modelli concorrenti su cinque dataset di domande conversazionali.
Limitazioni della Pipeline Statica: I metodi esistenti adottano principalmente pipeline statiche "riscrittura-recupero-generazione", mancando di flessibilità
Dipendenza dall'Apprendimento Supervisionato: La maggior parte dei metodi si basa su fine-tuning supervisionato (SFT), difficile da adattare a scenari di conversazione non visti durante l'addestramento
Assunzione di Interazione Monoturno: I framework di ragionamento RL esistenti sono principalmente orientati all'interazione monoturno, non considerando la complessità della conversazione multiturno
I sistemi commerciali (come Perplexity.ai, SearchGPT) tendono sempre più verso la ricerca conversazionale multiturno, ma la ricerca accademica rimane relativamente indietro in questo ambito. L'apprendimento per rinforzo può consentire ai modelli di apprendere strategie dinamiche di recupero e ragionamento, piuttosto che dipendere da dati dimostrativi statici.
Propone il Framework ChatR1: Primo modello di ragionamento CQA basato su RL, ottimizzazione end-to-end di recupero e generazione multiturno, apprendimento di comportamenti dinamici piuttosto che pipeline statiche
Progetta Premi Consapevoli dell'Intento: Meccanismo di premio specificamente per CQA, riducendo la scarsità di premi attraverso l'allineamento con l'intento dell'utente in evoluzione
Verifica Sperimentale Completa: Verifica delle prestazioni su cinque dataset CQA di diversa complessità, dimostrando capacità di generalizzazione cross-dominio
Analisi Approfondita: Rivela che ChatR1 genera percorsi di ragionamento diversificati, utilizza efficacemente gli strumenti di ricerca e dimostra robustezza cross-dominio
Dato un dataset D contenente conversazioni multiturno utente-sistema, dove ogni conversazione è composta da più turni, e una collezione di documenti C. Ad ogni turno, il sistema riceve la cronologia della conversazione H e la query dell'utente corrente q, con il compito di generare una risposta y, utilizzando il contesto di H e basandosi su C per la verifica fattuale. L'intento dell'utente è definito come query riscritta q_rw, risolvendo i riferimenti contestuali e le ambiguità in q.
Misura l'allineamento delle query di ricerca con l'intento dell'utente:
R_intent(Q) = max_{q_k∈Q} F1(q_k, q_rw)
Il massimo assicura che il modello riceva premio quando formula ricostruzioni semanticamente corrette, mantenendo al contempo flessibilità per query esplorative.
Ottimizzazione End-to-End: A differenza delle pipeline tradizionali separate, ChatR1 ottimizza congiuntamente ragionamento, recupero e generazione
Progettazione Consapevole dell'Intento: Meccanismo di premio specificamente progettato per CQA, valutando direttamente la qualità della query piuttosto che dipendere dai risultati del recupero
Ragionamento Adattivo: Apprendimento tramite RL di quando e come condurre ricerche, piuttosto che strategie statiche predefinite
I metodi CQA tradizionali si basano principalmente su pipeline RAG statiche e fine-tuning supervisionato, mancando di meccanismi di ragionamento espliciti per decidere quando e come cercare.
Metodi come CALM estendono il ragionamento a conversazioni multiturno, ma si basano ancora su fine-tuning supervisionato piuttosto che su addestramento RL.
Efficacia del Ragionamento RL: ChatR1 dimostra che RL può migliorare le capacità di ragionamento in CQA
Importanza del Premio per l'Intento: Il premio consapevole dell'intento specificamente progettato migliora significativamente le prestazioni
Capacità di Generalizzazione Cross-Dominio: Il ragionamento RL dimostra maggiore flessibilità e sensibilità al contesto rispetto alle pipeline CQA statiche
Forte Innovatività: Prima applicazione sistematica di RL a CQA multiturno, colmando un importante vuoto di ricerca
Progettazione Razionale: Il premio consapevole dell'intento è accuratamente progettato per le caratteristiche di CQA, risolvendo il problema della scarsità di premi
Esperimenti Completi: Cinque dataset che coprono diversa complessità di conversazione, valutazione completa
Analisi Approfondita: Fornisce analisi multi-angolo di percorsi di ragionamento, qualità di recupero e altre intuizioni
L'articolo cita importanti lavori nei campi dell'apprendimento per rinforzo, sistemi di conversazione e recupero informazioni, in particolare:
Algoritmo PPO (Schulman et al., 2017)
Lavori di ragionamento RL come Search-R1 (Jin et al., 2025)
Lavori di costruzione di dataset di domande conversazionali (Adlakha et al., 2022; Anantha et al., 2021)
Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità che eccelle in innovazione tecnica, progettazione sperimentale e profondità di analisi. L'introduzione dell'apprendimento per rinforzo nelle domande conversazionali multiturno è una direzione di ricerca significativa, e la progettazione del premio consapevole dell'intento affronta intelligentemente le sfide chiave in CQA. Nonostante alcune limitazioni, l'articolo fornisce contributi importanti al campo e merita ulteriore ricerca e applicazione.