ChatR1: Reinforcement Learning for Conversational Reasoning and Retrieval Augmented Question Answering
Lupart, Aliannejadi, Kanoulas
We present ChatR1, a reasoning framework based on reinforcement learning (RL) for conversational question answering (CQA). Reasoning plays an important role in CQA, where user intent evolves across dialogue turns, and utterances are often underspecified, requiring contextual interpretation, query reformulation, and dynamic coordination between retrieval and generation. Unlike static `rewrite, retrieve, and generate' pipelines, ChatR1 interleaves search and reasoning across turns, enabling exploratory and adaptive behaviors learned through RL. To address the challenge of sparse and delayed rewards in RL, we propose an intent-aware reward that provides turn-level feedback by aligning retrieval and reasoning with evolving user goals. Our proposed ChatR1 demonstrates strong performance on both 3B and 7B model backbones, outperforming competitive models on five CQA datasets, measured by different metrics (F1, BERTScore, and LLM-as-judge). We include a diverse set of CQA datasets to cover topic shifts, evolving intents, mixed-initiative dialogues, and multi-document grounding, testing ChatR1's performance from various aspects. Ablation studies confirm the effectiveness of the intent-aware reward. Our analyses further reveal diverse reasoning trajectories and effective use of the search tool. ChatR1 also generalizes robustly across domains, demonstrating that RL-based reasoning enables more flexible and context-sensitive behavior than static CQA pipelines.
academic
ChatR1: التعلم المعزز للاستدلال الحواري والإجابة على الأسئلة المعززة بالاسترجاع
تقترح هذه الورقة ChatR1، إطار عمل للاستدلال في الإجابة على الأسئلة الحوارية بناءً على التعلم المعزز. في الإجابة على الأسئلة الحوارية، تتطور نوايا المستخدم عبر عدة جولات، وغالباً ما تكون الكلمات غير مكتملة التعبير، مما يتطلب توضيحاً سياقياً وإعادة صياغة الاستعلام والتنسيق الديناميكي بين الاسترجاع والتوليد. بخلاف خط الأنابيب الثابت "إعادة الصياغة-الاسترجاع-التوليد"، يقوم ChatR1 بالتناوب بين البحث والاستدلال عبر جولات متعددة، مما يحقق السلوك الاستكشافي والتكيفي من خلال التعلم المعزز. لمعالجة تحديات المكافآت النادرة والمتأخرة في التعلم المعزز، يقترح المؤلفون مكافآت تدرك النية، مما يوفر تغذية راجعة على مستوى الجولة من خلال محاذاة الاسترجاع والاستدلال مع أهداف المستخدم المتطورة. يُظهر ChatR1 أداءً ممتازاً على نماذج بحجم 3B و7B، متفوقاً على النماذج المنافسة عبر خمس مجموعات بيانات CQA.
قيود خط الأنابيب الثابت: تعتمد معظم الطرق الموجودة على خط أنابيب ثابت "إعادة الصياغة-الاسترجاع-التوليد"، وتفتقر إلى المرونة
الاعتماد على التعلم الموجه: تعتمد معظم الطرق على الضبط الدقيق الموجه (SFT)، مما يصعب التكيف مع سيناريوهات الحوار غير المرئية أثناء التدريب
افتراض التفاعل أحادي الجولة: تركز أطر عمل الاستدلال بالتعلم المعزز الموجودة بشكل أساسي على التفاعل أحادي الجولة، دون النظر في تعقيد الحوار متعدد الجولات
تميل الأنظمة التجارية (مثل Perplexity.ai و SearchGPT) بشكل متزايد نحو البحث الحواري متعدد الجولات، لكن البحث الأكاديمي متخلف نسبياً في هذا الصدد. يمكن للتعلم المعزز أن يمكّن النموذج من تعلم استراتيجيات الاسترجاع والاستدلال الديناميكية، بدلاً من الاعتماد على بيانات العرض الثابتة.
اقتراح إطار عمل ChatR1: أول نموذج استدلال CQA قائم على التعلم المعزز، يحسّن الاسترجاع والتوليد متعدد الجولات من طرف إلى طرف، ويتعلم السلوك الديناميكي بدلاً من خط الأنابيب الثابت
تصميم مكافآت تدرك النية: آلية مكافآت مخصصة لـ CQA، تقلل من ندرة المكافآت من خلال المحاذاة مع نوايا المستخدم المتطورة
التحقق التجريبي الشامل: التحقق من الأداء عبر خمس مجموعات بيانات CQA بدرجات تعقيد مختلفة، مما يوضح القدرة على التعميم عبر المجالات
تحليل الرؤى المتعمقة: الكشف عن أن ChatR1 ينتج مسارات استدلال متنوعة، ويستخدم أدوات البحث بفعالية، ويُظهر قوة عبر المجالات
بالنظر إلى مجموعة البيانات D التي تحتوي على حوارات متعددة الجولات بين المستخدم والنظام، حيث يتكون كل حوار من جولات متعددة، ومجموعة المستندات C. في كل جولة، يتلقى النظام سجل الحوار H والاستعلام الحالي للمستخدم q، والمهمة هي توليد إجابة y، مع الاستفادة من سياق H والتحقق من الحقائق بناءً على C. يتم تعريف نية المستخدم على أنها استعلام معاد صياغته q_rw، يحل المراجع السياقية والغموض في q.
تستشهد الورقة بأعمال مهمة في مجالات التعلم المعزز وأنظمة الحوار واسترجاع المعلومات، خاصة:
خوارزمية PPO (Schulman et al., 2017)
أعمال استدلال التعلم المعزز مثل Search-R1 (Jin et al., 2025)
أعمال بناء مجموعات بيانات الإجابة على الأسئلة الحوارية (Adlakha et al., 2022; Anantha et al., 2021)
التقييم الإجمالي: هذه ورقة بحثية عالية الجودة، تُظهر أداءً ممتازاً من حيث الابتكار التقني وتصميم التجارب وعمق التحليل. إدخال التعلم المعزز إلى الإجابة على الأسئلة الحوارية متعددة الجولات هو اتجاه بحثي ذو مغزى، وتصميم مكافآت النية بذكاء يحل التحديات الرئيسية في CQA. على الرغم من وجود بعض القيود، فإن الورقة تقدم مساهمة مهمة للمجال، وتستحق المزيد من البحث والتطبيق.