2025-11-25T20:10:18.587625

ChatR1: Reinforcement Learning for Conversational Reasoning and Retrieval Augmented Question Answering

Lupart, Aliannejadi, Kanoulas
We present ChatR1, a reasoning framework based on reinforcement learning (RL) for conversational question answering (CQA). Reasoning plays an important role in CQA, where user intent evolves across dialogue turns, and utterances are often underspecified, requiring contextual interpretation, query reformulation, and dynamic coordination between retrieval and generation. Unlike static `rewrite, retrieve, and generate' pipelines, ChatR1 interleaves search and reasoning across turns, enabling exploratory and adaptive behaviors learned through RL. To address the challenge of sparse and delayed rewards in RL, we propose an intent-aware reward that provides turn-level feedback by aligning retrieval and reasoning with evolving user goals. Our proposed ChatR1 demonstrates strong performance on both 3B and 7B model backbones, outperforming competitive models on five CQA datasets, measured by different metrics (F1, BERTScore, and LLM-as-judge). We include a diverse set of CQA datasets to cover topic shifts, evolving intents, mixed-initiative dialogues, and multi-document grounding, testing ChatR1's performance from various aspects. Ablation studies confirm the effectiveness of the intent-aware reward. Our analyses further reveal diverse reasoning trajectories and effective use of the search tool. ChatR1 also generalizes robustly across domains, demonstrating that RL-based reasoning enables more flexible and context-sensitive behavior than static CQA pipelines.
academic

ChatR1: संवादात्मक तर्क और पुनः प्राप्ति संवर्धित प्रश्न उत्तर के लिए सुदृढीकरण शिक्षण

मूल जानकारी

  • पेपर ID: 2510.13312
  • शीर्षक: ChatR1: Reinforcement Learning for Conversational Reasoning and Retrieval Augmented Question Answering
  • लेखक: Simon Lupart, Mohammad Aliannejadi, Evangelos Kanoulas (एम्स्टर्डम विश्वविद्यालय)
  • वर्गीकरण: cs.CL, cs.IR
  • प्रकाशन समय: 15 अक्टूबर 2025 (arXiv प्रीप्रिंट)
  • पेपर लिंक: https://arxiv.org/abs/2510.13312

सारांश

यह पेपर ChatR1 प्रस्तुत करता है, जो सुदृढीकरण शिक्षण पर आधारित एक संवादात्मक प्रश्नोत्तर तर्क ढांचा है। संवादात्मक प्रश्नोत्तर में, उपयोगकर्ता का आशय बहु-चक्रीय संवाद में निरंतर विकसित होता है, और कथन अक्सर अधूरे होते हैं, जिन्हें संदर्भ व्याख्या, प्रश्न पुनर्निर्माण और पुनः प्राप्ति-जनन के गतिशील समन्वय की आवश्यकता होती है। स्थिर "पुनः लेखन-पुनः प्राप्ति-जनन" पाइपलाइन के विपरीत, ChatR1 बहु-चक्रीय संवाद में खोज और तर्क को वैकल्पिक करता है, सुदृढीकरण शिक्षण के माध्यम से अन्वेषणात्मक और स्व-अनुकूल व्यवहार को सक्षम करता है। सुदृढीकरण शिक्षण में विरल और विलंबित पुरस्कार की चुनौतियों को हल करने के लिए, लेखक आशय-जागरूक पुरस्कार प्रस्तावित करते हैं, जो पुनः प्राप्ति और तर्क को विकसित होने वाले उपयोगकर्ता लक्ष्यों के साथ संरेखित करके चक्र-स्तरीय प्रतिक्रिया प्रदान करते हैं। ChatR1 3B और 7B मॉडल दोनों पर उत्कृष्ट प्रदर्शन करता है, पाँच CQA डेटासेट पर प्रतिस्पर्धी मॉडल को पार करता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

संवादात्मक प्रश्नोत्तर (CQA) की मुख्य चुनौतियाँ शामिल हैं:

  1. उपयोगकर्ता आशय विकास: बहु-चक्रीय संवाद में, उपयोगकर्ता का आशय निरंतर परिवर्तित और विकसित होता है
  2. कथन अधूरापन: उपयोगकर्ता के कथन अक्सर संदर्भ पर निर्भर होते हैं, जिनमें सर्वनाम समाधान और विलोपन समस्याएँ होती हैं
  3. गतिशील समन्वय आवश्यकता: पुनः प्राप्ति और जनन के बीच गतिशील समन्वय की आवश्यकता होती है

मौजूदा विधियों की सीमाएँ

  1. स्थिर पाइपलाइन सीमा: मौजूदा विधियाँ अधिकतर "पुनः लेखन-पुनः प्राप्ति-जनन" की स्थिर पाइपलाइन का उपयोग करती हैं, जिनमें लचीलापन की कमी है
  2. पर्यवेक्षित शिक्षण निर्भरता: अधिकांश विधियाँ पर्यवेक्षित सूक्ष्म-ट्यूनिंग (SFT) पर निर्भर हैं, जो प्रशिक्षण के समय अदेखे संवाद परिदृश्यों के अनुकूल होने में कठिनाई रखती हैं
  3. एकल-चक्र इंटरैक्शन धारणा: मौजूदा RL तर्क ढांचे मुख्य रूप से एकल-चक्र इंटरैक्शन के लिए हैं, बहु-चक्रीय संवाद की जटिलता पर विचार नहीं करते

अनुसंधान प्रेरणा

वाणिज्यिक प्रणालियाँ (जैसे Perplexity.ai, SearchGPT) बहु-चक्रीय संवाद खोज की ओर तेजी से झुक रही हैं, लेकिन शैक्षणिक अनुसंधान इस क्षेत्र में अपेक्षाकृत पिछड़ा है। सुदृढीकरण शिक्षण मॉडल को गतिशील पुनः प्राप्ति और तर्क रणनीतियाँ सीखने में सक्षम कर सकता है, न कि स्थिर प्रदर्शन डेटा पर निर्भर रहते हुए।

मुख्य योगदान

  1. ChatR1 ढांचा प्रस्तावित करना: पहला RL-आधारित CQA तर्क मॉडल, जो बहु-चक्रीय पुनः प्राप्ति और जनन को अंत से अंत तक अनुकूलित करता है, स्थिर पाइपलाइन के बजाय गतिशील व्यवहार सीखता है
  2. आशय-जागरूक पुरस्कार डिजाइन करना: CQA के लिए विशेष रूप से डिजाइन किया गया पुरस्कार तंत्र, विकसित होने वाले उपयोगकर्ता आशय के साथ संरेखण के माध्यम से पुरस्कार विरलता को कम करता है
  3. व्यापक प्रायोगिक सत्यापन: पाँच विभिन्न जटिलता स्तर के CQA डेटासेट पर प्रदर्शन को सत्यापित करता है, क्रॉस-डोमेन सामान्यीकरण क्षमता प्रदर्शित करता है
  4. गहन विश्लेषणात्मक अंतर्दृष्टि: ChatR1 द्वारा उत्पन्न विविध तर्क पथ, खोज उपकरण का प्रभावी उपयोग, और क्रॉस-डोमेन दृढ़ता को प्रकट करता है

विधि विवरण

कार्य परिभाषा

डेटासेट D को देखते हुए जिसमें बहु-चक्रीय उपयोगकर्ता-प्रणाली संवाद होते हैं, प्रत्येक संवाद कई चक्रों से बना होता है, और दस्तावेज़ संग्रह C। प्रत्येक चक्र में, प्रणाली संवाद इतिहास H और वर्तमान उपयोगकर्ता प्रश्न q प्राप्त करती है, कार्य उत्तर y उत्पन्न करना है, H के संदर्भ का उपयोग करते हुए और C के आधार पर तथ्य सत्यापन करते हुए। उपयोगकर्ता आशय को पुनः लिखे गए प्रश्न q_rw के रूप में परिभाषित किया जाता है, जो q में संदर्भ संदर्भ और अस्पष्टता को हल करता है।

मॉडल आर्किटेक्चर

इंटरैक्शन लूप

ChatR1 एक नीति मॉडल π_θ है, जो प्रत्येक चक्र में प्रक्षेपवक्र τ उत्पन्न करता है, जिसमें शामिल हैं:

  • तर्क प्रक्षेपवक्र: विचार प्रक्रिया (...)
  • मध्यवर्ती खोज प्रश्न: Q = {q_k}^K_ खोज इंजन R को भेजे जाते हैं
  • पुनः प्राप्त दस्तावेज़: खोज प्रश्नों के आधार पर लौटाए गए प्रासंगिक दस्तावेज़
  • अंतिम उत्तर: y

RL उद्देश्य फलन

अनुकूलन लक्ष्य अपेक्षित पुरस्कार को अधिकतम करना है जबकि मूल नीति से दूरी को न्यूनतम करना है:

J(θ) = E_{(q,H)~D, τ~π_θ(·|q,H;R)} [R(τ)] - β D_KL(π_θ || π_ref)

PPO अनुकूलन

निकटवर्ती नीति अनुकूलन (PPO) एल्गोरिदम का उपयोग करते हुए, काटे गए प्रॉक्सी उद्देश्य को अधिकतम करता है:

L_PPO(θ) = E_{(q,H;R;i)~μ} [min(ρ_i(θ)Â_i, clip(ρ_i(θ), 1-ε, 1+ε)Â_i)]

जहाँ ρ_i(θ) नई और पुरानी नीति का संभाव्यता अनुपात है, Â_i अनुमानित लाभ फलन है।

पुरस्कार तंत्र डिजाइन

समग्र पुरस्कार फलन

R(τ) = R_answer(y) + α R_intent(Q)

उत्तर पुरस्कार

अंतिम उत्तर की गुणवत्ता का मूल्यांकन शब्द-स्तरीय F1 स्कोर के आधार पर:

R_answer(y) = F1(y, y*)

आशय पुरस्कार

खोज प्रश्नों और उपयोगकर्ता आशय के बीच संरेखण को मापता है:

R_intent(Q) = max_{q_k∈Q} F1(q_k, q_rw)

अधिकतम मान लेने से यह सुनिश्चित होता है कि मॉडल को शब्दार्थ रूप से सही पुनर्निर्माण तैयार करने में पुरस्कृत किया जाता है, जबकि अन्वेषणात्मक प्रश्नों की लचीलापन बनी रहती है।

तकनीकी नवाचार बिंदु

  1. अंत से अंत तक अनुकूलन: पारंपरिक अलग-अलग पाइपलाइन के विपरीत, ChatR1 तर्क, पुनः प्राप्ति और जनन को संयुक्त रूप से अनुकूलित करता है
  2. आशय-जागरूक डिजाइन: CQA के लिए विशेष रूप से डिजाइन किया गया पुरस्कार तंत्र, पुनः प्राप्ति परिणामों पर निर्भर न होकर प्रश्न गुणवत्ता का सीधे मूल्यांकन करता है
  3. स्व-अनुकूल तर्क: RL के माध्यम से कब और कैसे खोज करनी है यह सीखता है, न कि पूर्वनिर्धारित स्थिर रणनीति

प्रायोगिक सेटअप

डेटासेट

पाँच विविध CQA डेटासेट का उपयोग:

डेटासेटचक्र संख्यामुख्य चुनौती
TopiOCQA45k/2.5kविषय रूपांतरण, आशय विकास
QReCC63k/16kबड़े पैमाने पर कॉर्पस, प्रश्न पुनर्निर्माण
INSCIT1.8k/3.3kमिश्रित प्रभुत्व, खुला आशय
MDoc2Dial18k/3.3kबहु-दस्तावेज़ आधार, डोमेन तर्क
FaithDial18k/3.5kविश्वसनीयता, भ्रम नियंत्रण

मूल्यांकन मेट्रिक्स

  • जनन गुणवत्ता: F1, BERTScore, LLM-as-judge
  • पुनः प्राप्ति गुणवत्ता: nDCG, Recall, MRR, hit@N

तुलनात्मक विधियाँ

  1. शून्य-नमूना विधियाँ: GPT-3.5, Claude, Qwen प्रत्यक्ष तर्क और CoT
  2. पर्यवेक्षित सूक्ष्म-ट्यूनिंग: conv-ANCE+Mistral, ChatRetriever+Mistral, UniConv
  3. RL प्रशिक्षण: CoT R1, QR Search R1, आदि

कार्यान्वयन विवरण

  • आधार मॉडल: Qwen2.5-3B/7B-Instruct
  • पुनः प्राप्ति मॉडल: intfloat/e5-base-v2 (300M पैरामीटर)
  • प्रशिक्षण कॉन्फ़िगरेशन: बैच आकार 512, PPO माइक्रो-बैच 64, सीखने की दर 1e-6
  • हार्डवेयर: 4 H100 GPU

प्रायोगिक परिणाम

मुख्य परिणाम

पाँच डेटासेट पर प्रदर्शन तुलना दिखाती है:

  1. ChatR1-3B बड़े बंद-स्रोत मॉडल से बेहतर: कम पैरामीटर का उपयोग करते हुए ChatGPT और Claude को पार करता है
  2. पर्यवेक्षित आधारभूत को पार करना: ChatR1-3B अधिकांश डेटासेट पर F1 और BERTScore में सभी 3B पर्यवेक्षित और RL आधारभूत से बेहतर है
  3. स्पष्ट स्केलिंग प्रभाव: ChatR1-7B 3B संस्करण की तुलना में औसतन 1.4 F1 स्कोर और 0.5 BERTScore में सुधार करता है

सामान्यीकरण क्षमता

क्रॉस-डोमेन स्थानांतरण प्रयोग (QReCC पर प्रशिक्षण, अन्य डेटासेट पर परीक्षण) दिखाते हैं:

  • ChatR1-3B MultiDoc2Dial पर केवल 0.2 का नुकसान
  • तीन डेटासेट पर अभी भी ChatGPT शून्य-नमूना प्रदर्शन को पार करता है
  • विशिष्ट डोमेन पर अति-फिटिंग के बजाय खोज उपकरण उपयोग की मजबूत क्षमता प्रदर्शित करता है

विलोपन प्रयोग

आशय पुरस्कार प्रभाव

  • ChatR1-3B बिना आशय पुरस्कार संस्करण की तुलना में औसतन 2.2 F1 स्कोर में सुधार
  • प्रश्न-स्तरीय F1 पुरस्कार दस्तावेज़-आधारित hit@k पुरस्कार से बेहतर है
  • सर्वोत्तम प्रदर्शन पुनः प्राप्ति/जनन पुरस्कार अनुपात 0.2/1.0 पर प्राप्त होता है

पुरस्कार डिजाइन विश्लेषण

पुनः प्राप्ति पुरस्कार पर आशय पुरस्कार के लाभ:

  1. उच्च घनत्व: PPO को मजबूत शिक्षण संकेत प्रदान करता है
  2. त्रुटि विघटन: खोज इंजन से स्वतंत्र, पुनः प्राप्ति और प्रश्न तैयारी त्रुटियों को अलग करता है
  3. एनोटेशन पूर्णता: दस्तावेज़ प्रासंगिकता एनोटेशन की अधूरी समस्या से बचता है

केस विश्लेषण

तर्क पथ विविधता

विभिन्न डेटासेट विभिन्न तर्क लंबाई वितरण प्रदर्शित करते हैं:

  • MultiDoc2Dial और QReCC को सबसे लंबे तर्क प्रक्षेपवक्र की आवश्यकता है
  • FaithDial अपेक्षाकृत छोटा है
  • INSCIT वितरण सबसे विखंडित है, मिश्रित प्रभुत्व विशेषता को प्रतिबिंबित करता है

पुनः प्राप्ति प्रदर्शन

ChatR1 उपकरण के रूप में पुनः प्राप्ति प्रदर्शन पर्यवेक्षित विधियों के साथ तुलनीय है:

  • ChatR1-7B TopiOCQA और QReCC पर पर्यवेक्षित आधारभूत से मेल खाता या पार करता है
  • इंटरैक्टिव शिक्षण से स्वतंत्र रूप से प्रभावी पुनः प्राप्ति सीखने की क्षमता प्रदर्शित करता है

संबंधित कार्य

संवादात्मक प्रश्नोत्तर

पारंपरिक CQA विधियाँ मुख्य रूप से स्थिर RAG पाइपलाइन और पर्यवेक्षित सूक्ष्म-ट्यूनिंग पर निर्भर हैं, जिनमें कब और कैसे खोज करनी है यह निर्णय लेने के लिए स्पष्ट तर्क तंत्र की कमी है।

RL तर्क प्रश्नोत्तर

Search-R1, ReSearch जैसे हाल के कार्य एकल-चक्र तर्क के लिए RL लागू करते हैं, लेकिन बहु-चक्रीय संवाद परिदृश्य तक विस्तारित नहीं करते।

उपकरण उपयोग

CALM जैसी विधियाँ तर्क को बहु-चक्रीय संवाद तक विस्तारित करती हैं, लेकिन RL प्रशिक्षण के बजाय पर्यवेक्षित सूक्ष्म-ट्यूनिंग पर निर्भर रहती हैं।

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. RL तर्क प्रभावशीलता: ChatR1 सिद्ध करता है कि RL CQA में तर्क क्षमता में सुधार कर सकता है
  2. आशय पुरस्कार महत्व: विशेष रूप से डिजाइन किया गया आशय-जागरूक पुरस्कार प्रदर्शन में महत्वपूर्ण सुधार करता है
  3. क्रॉस-डोमेन सामान्यीकरण क्षमता: स्थिर CQA पाइपलाइन की तुलना में, RL तर्क अधिक मजबूत लचीलापन और संदर्भ संवेदनशीलता प्रदर्शित करता है

सीमाएँ

  1. एकल अनुकूलन रणनीति: केवल PPO का उपयोग, अन्य अनुकूलन रणनीतियों की खोज नहीं की गई
  2. संवाद लंबाई सीमा: प्रयोग मध्यम लंबाई संवाद (10-12 चक्र) पर केंद्रित हैं
  3. कम्प्यूटेशनल लागत: RL प्रशिक्षण प्रशिक्षण और अनुमान की कम्प्यूटेशनल ओवरहेड बढ़ाता है
  4. व्यक्तिगतकरण की कमी: उपयोगकर्ता-विशिष्ट अनुकूलन और व्यक्तिगतकरण पर विचार नहीं किया गया

भविष्य की दिशाएँ

  1. संवाद-स्तरीय अनुकूलन: सिमुलेटेड उपयोगकर्ता और वरीयता-आधारित प्रतिक्रिया का उपयोग
  2. लंबे संवाद प्रसंस्करण: स्मृति और संदर्भ मॉडलिंग क्षमता को बढ़ाना
  3. दक्षता अनुकूलन: अधिक कुशल अनुकूलन शेड्यूल विकसित करना
  4. पूर्वाग्रह शमन: RL अनुकूलन में पूर्वाग्रह शमन और मजबूत तथ्य आधार की खोज

गहन मूल्यांकन

शक्तियाँ

  1. मजबूत नवाचार: पहली बार RL को बहु-चक्रीय CQA में व्यवस्थित रूप से लागू करता है, महत्वपूर्ण अनुसंधान अंतराल को भरता है
  2. विवेकपूर्ण डिजाइन: आशय-जागरूक पुरस्कार CQA विशेषताओं के लिए सावधानीपूर्वक डिजाइन किया गया है, पुरस्कार विरलता समस्या को हल करता है
  3. व्यापक प्रयोग: पाँच डेटासेट विभिन्न संवाद जटिलता को कवर करते हैं, व्यापक मूल्यांकन
  4. गहन विश्लेषण: तर्क पथ, पुनः प्राप्ति गुणवत्ता आदि कई कोणों से विश्लेषणात्मक अंतर्दृष्टि प्रदान करता है

कमियाँ

  1. सैद्धांतिक आधार: CQA में RL अभिसरण और स्थिरता का सैद्धांतिक विश्लेषण की कमी
  2. कम्प्यूटेशनल दक्षता: पर्यवेक्षित विधियों की तुलना में कम्प्यूटेशनल ओवरहेड पर पर्याप्त चर्चा नहीं
  3. उपयोगकर्ता अनुसंधान: वास्तविक उपयोगकर्ता इंटरैक्शन मूल्यांकन की कमी, केवल ऑफ़लाइन मेट्रिक्स पर निर्भर
  4. त्रुटि विश्लेषण: विफल मामलों का विश्लेषण पर्याप्त गहन नहीं है

प्रभाव

  1. शैक्षणिक मूल्य: CQA क्षेत्र में नया RL प्रतिमान लाता है, बाद के अनुसंधान को प्रेरित करता है
  2. व्यावहारिक मूल्य: विधि वास्तविक संवाद प्रणालियों पर लागू की जा सकती है, उपयोगकर्ता अनुभव में सुधार करती है
  3. पुनरुत्पादनीयता: विस्तृत कार्यान्वयन विवरण और खुला-स्रोत कोड प्रदान करता है, पुनरुत्पादन को सुविधाजनक बनाता है

लागू परिदृश्य

  1. सूचना पुनः प्राप्ति प्रणालियाँ: बहु-चक्रीय इंटरैक्शन की आवश्यकता वाले खोज इंजन और प्रश्नोत्तर प्रणालियाँ
  2. ग्राहक सेवा बॉट: जटिल प्रश्नों को संभालने वाले स्मार्ट ग्राहक सेवा परिदृश्य
  3. शैक्षणिक ट्यूटरिंग: क्रमिक मार्गदर्शन की आवश्यकता वाले ऑनलाइन शिक्षण मंच

संदर्भ

पेपर सुदृढीकरण शिक्षण, संवाद प्रणाली, सूचना पुनः प्राप्ति आदि क्षेत्रों के महत्वपूर्ण कार्यों का हवाला देता है, विशेष रूप से:

  • PPO एल्गोरिदम (Schulman et al., 2017)
  • Search-R1 जैसे RL तर्क कार्य (Jin et al., 2025)
  • संवादात्मक प्रश्नोत्तर डेटासेट निर्माण कार्य (Adlakha et al., 2022; Anantha et al., 2021)

समग्र मूल्यांकन: यह तकनीकी नवाचार, प्रायोगिक डिजाइन और विश्लेषण गहराई के मामले में उच्च गुणवत्ता का एक शोध पेपर है। सुदृढीकरण शिक्षण को बहु-चक्रीय संवादात्मक प्रश्नोत्तर में लाना एक सार्थक अनुसंधान दिशा है, और आशय-जागरूक पुरस्कार का डिजाइन CQA में मुख्य चुनौतियों को चतुराई से हल करता है। कुछ सीमाओं के बावजूद, पेपर इस क्षेत्र में महत्वपूर्ण योगदान प्रदान करता है, आगे के अनुसंधान और अनुप्रयोग के योग्य है।