2025-11-25T20:10:18.587625

ChatR1: Reinforcement Learning for Conversational Reasoning and Retrieval Augmented Question Answering

Lupart, Aliannejadi, Kanoulas

We present ChatR1, a reasoning framework based on reinforcement learning (RL) for conversational question answering (CQA). Reasoning plays an important role in CQA, where user intent evolves across dialogue turns, and utterances are often underspecified, requiring contextual interpretation, query reformulation, and dynamic coordination between retrieval and generation. Unlike static `rewrite, retrieve, and generate' pipelines, ChatR1 interleaves search and reasoning across turns, enabling exploratory and adaptive behaviors learned through RL. To address the challenge of sparse and delayed rewards in RL, we propose an intent-aware reward that provides turn-level feedback by aligning retrieval and reasoning with evolving user goals. Our proposed ChatR1 demonstrates strong performance on both 3B and 7B model backbones, outperforming competitive models on five CQA datasets, measured by different metrics (F1, BERTScore, and LLM-as-judge). We include a diverse set of CQA datasets to cover topic shifts, evolving intents, mixed-initiative dialogues, and multi-document grounding, testing ChatR1's performance from various aspects. Ablation studies confirm the effectiveness of the intent-aware reward. Our analyses further reveal diverse reasoning trajectories and effective use of the search tool. ChatR1 also generalizes robustly across domains, demonstrating that RL-based reasoning enables more flexible and context-sensitive behavior than static CQA pipelines.

academic

ChatR1: التعلم المعزز للاستدلال الحواري والإجابة على الأسئلة المعززة بالاسترجاع

المعلومات الأساسية

معرّف الورقة: 2510.13312
العنوان: ChatR1: التعلم المعزز للاستدلال الحواري والإجابة على الأسئلة المعززة بالاسترجاع
المؤلفون: Simon Lupart, Mohammad Aliannejadi, Evangelos Kanoulas (جامعة أمستردام)
التصنيف: cs.CL, cs.IR
تاريخ النشر: 15 أكتوبر 2025 (نسخة arXiv المسبقة)
رابط الورقة: https://arxiv.org/abs/2510.13312

الملخص

تقترح هذه الورقة ChatR1، إطار عمل للاستدلال في الإجابة على الأسئلة الحوارية بناءً على التعلم المعزز. في الإجابة على الأسئلة الحوارية، تتطور نوايا المستخدم عبر عدة جولات، وغالباً ما تكون الكلمات غير مكتملة التعبير، مما يتطلب توضيحاً سياقياً وإعادة صياغة الاستعلام والتنسيق الديناميكي بين الاسترجاع والتوليد. بخلاف خط الأنابيب الثابت "إعادة الصياغة-الاسترجاع-التوليد"، يقوم ChatR1 بالتناوب بين البحث والاستدلال عبر جولات متعددة، مما يحقق السلوك الاستكشافي والتكيفي من خلال التعلم المعزز. لمعالجة تحديات المكافآت النادرة والمتأخرة في التعلم المعزز، يقترح المؤلفون مكافآت تدرك النية، مما يوفر تغذية راجعة على مستوى الجولة من خلال محاذاة الاسترجاع والاستدلال مع أهداف المستخدم المتطورة. يُظهر ChatR1 أداءً ممتازاً على نماذج بحجم 3B و7B، متفوقاً على النماذج المنافسة عبر خمس مجموعات بيانات CQA.

الخلفية البحثية والدافع

تعريف المشكلة

تواجه الإجابة على الأسئلة الحوارية (CQA) تحديات أساسية تشمل:

تطور نوايا المستخدم: تتغير نوايا المستخدم وتتطور عبر جولات متعددة من الحوار
عدم اكتمال الكلام: غالباً ما يعتمد تعبير المستخدم على السياق، مع مشاكل في حل الإشارات والحذف
متطلبات التنسيق الديناميكي: الحاجة إلى التنسيق الديناميكي بين الاسترجاع والتوليد

قيود الطرق الموجودة

قيود خط الأنابيب الثابت: تعتمد معظم الطرق الموجودة على خط أنابيب ثابت "إعادة الصياغة-الاسترجاع-التوليد"، وتفتقر إلى المرونة
الاعتماد على التعلم الموجه: تعتمد معظم الطرق على الضبط الدقيق الموجه (SFT)، مما يصعب التكيف مع سيناريوهات الحوار غير المرئية أثناء التدريب
افتراض التفاعل أحادي الجولة: تركز أطر عمل الاستدلال بالتعلم المعزز الموجودة بشكل أساسي على التفاعل أحادي الجولة، دون النظر في تعقيد الحوار متعدد الجولات

الدافع البحثي

تميل الأنظمة التجارية (مثل Perplexity.ai و SearchGPT) بشكل متزايد نحو البحث الحواري متعدد الجولات، لكن البحث الأكاديمي متخلف نسبياً في هذا الصدد. يمكن للتعلم المعزز أن يمكّن النموذج من تعلم استراتيجيات الاسترجاع والاستدلال الديناميكية، بدلاً من الاعتماد على بيانات العرض الثابتة.

المساهمات الأساسية

اقتراح إطار عمل ChatR1: أول نموذج استدلال CQA قائم على التعلم المعزز، يحسّن الاسترجاع والتوليد متعدد الجولات من طرف إلى طرف، ويتعلم السلوك الديناميكي بدلاً من خط الأنابيب الثابت
تصميم مكافآت تدرك النية: آلية مكافآت مخصصة لـ CQA، تقلل من ندرة المكافآت من خلال المحاذاة مع نوايا المستخدم المتطورة
التحقق التجريبي الشامل: التحقق من الأداء عبر خمس مجموعات بيانات CQA بدرجات تعقيد مختلفة، مما يوضح القدرة على التعميم عبر المجالات
تحليل الرؤى المتعمقة: الكشف عن أن ChatR1 ينتج مسارات استدلال متنوعة، ويستخدم أدوات البحث بفعالية، ويُظهر قوة عبر المجالات

شرح الطريقة

تعريف المهمة

بالنظر إلى مجموعة البيانات D التي تحتوي على حوارات متعددة الجولات بين المستخدم والنظام، حيث يتكون كل حوار من جولات متعددة، ومجموعة المستندات C. في كل جولة، يتلقى النظام سجل الحوار H والاستعلام الحالي للمستخدم q، والمهمة هي توليد إجابة y، مع الاستفادة من سياق H والتحقق من الحقائق بناءً على C. يتم تعريف نية المستخدم على أنها استعلام معاد صياغته q_rw، يحل المراجع السياقية والغموض في q.

معمارية النموذج

حلقة التفاعل

ChatR1 هو نموذج سياسة π_θ، يولد مسار τ في كل جولة، يتضمن:

مسار الاستدلال: عملية التفكير (...)
استعلامات البحث الوسيطة: Q = {q_k}^K_ المرسلة إلى محرك البحث R
المستندات المسترجعة: المستندات ذات الصلة المرجعة بناءً على استعلامات البحث
الإجابة النهائية: y

دالة الهدف للتعلم المعزز

يكون الهدف الأمثل هو تعظيم المكافآت المتوقعة مع تقليل المسافة من السياسة الأصلية:

J(θ) = E_{(q,H)~D, τ~π_θ(·|q,H;R)} [R(τ)] - β D_KL(π_θ || π_ref)

تحسين PPO

استخدام خوارزمية تحسين السياسة القريبة (PPO)، لتعظيم الهدف الوكيل المقطوع:

L_PPO(θ) = E_{(q,H;R;i)~μ} [min(ρ_i(θ)Â_i, clip(ρ_i(θ), 1-ε, 1+ε)Â_i)]

حيث ρ_i(θ) هي نسبة احتمالية السياسة الجديدة والقديمة، و Â_i هي دالة الميزة المقدرة.

تصميم آلية المكافآت

دالة المكافآت المركبة

R(τ) = R_answer(y) + α R_intent(Q)

مكافآت الإجابة

تقييم جودة الإجابة النهائية بناءً على درجة F1 على مستوى الكلمة:

R_answer(y) = F1(y, y*)

مكافآت النية

قياس محاذاة استعلامات البحث مع نية المستخدم:

R_intent(Q) = max_{q_k∈Q} F1(q_k, q_rw)

يضمن أخذ القيمة القصوى أن يحصل النموذج على مكافآت عند صياغة استعلامات معاد صياغتها بشكل صحيح دلالياً، مع الحفاظ على مرونة الاستعلامات الاستكشافية.

نقاط الابتكار التقني

التحسين من طرف إلى طرف: بخلاف خطوط الأنابيب المنفصلة التقليدية، يحسّن ChatR1 الاستدلال والاسترجاع والتوليد بشكل مشترك
التصميم الذي يدرك النية: آلية مكافآت مصممة خصيصاً لـ CQA، تقيّم جودة الاستعلام مباشرة بدلاً من الاعتماد على نتائج الاسترجاع
الاستدلال التكيفي: تعلم متى وكيفية إجراء البحث من خلال التعلم المعزز، بدلاً من السياسات الثابتة المحددة مسبقاً

إعداد التجربة

مجموعات البيانات

استخدام خمس مجموعات بيانات CQA متنوعة:

مجموعة البيانات	عدد الجولات	التحديات الرئيسية
TopiOCQA	45k/2.5k	تحول الموضوع، تطور النية
QReCC	63k/16k	مجموعة بيانات واسعة النطاق، إعادة صياغة الاستعلام
INSCIT	1.8k/3.3k	مجالات مختلطة، نية مفتوحة
MDoc2Dial	18k/3.3k	أساس متعدد المستندات، استدلال المجال
FaithDial	18k/3.5k	الأمانة، التحكم في الهلوسة

مقاييس التقييم

جودة التوليد: F1، BERTScore، LLM-as-judge
جودة الاسترجاع: nDCG، Recall، MRR، hit@N

طرق المقارنة

طرق بدون عينات: GPT-3.5، Claude، Qwen للاستدلال المباشر و CoT
الضبط الدقيق الموجه: conv-ANCE+Mistral، ChatRetriever+Mistral، UniConv
التدريب بالتعلم المعزز: CoT R1، QR Search R1 وغيرها

تفاصيل التنفيذ

النموذج الأساسي: Qwen2.5-3B/7B-Instruct
نموذج الاسترجاع: intfloat/e5-base-v2 (300M معامل)
تكوين التدريب: حجم الدفعة 512، دفعة صغيرة PPO 64، معدل التعلم 1e-6
الأجهزة: 4 وحدات معالجة رسومات H100

نتائج التجربة

النتائج الرئيسية

تُظهر مقارنة الأداء عبر خمس مجموعات بيانات:

ChatR1-3B يتفوق على النماذج المغلقة الكبيرة: يتجاوز ChatGPT و Claude مع استخدام معاملات أقل
يتفوق على الخطوط الأساسية الموجهة: يتفوق ChatR1-3B على جميع خطوط الأساس الموجهة والتعلم المعزز بحجم 3B على معظم مجموعات البيانات من حيث F1 و BERTScore
تأثير الحجم واضح: يحسّن ChatR1-7B مقارنة بإصدار 3B بمتوسط 1.4 درجة F1 و 0.5 BERTScore

القدرة على التعميم

تُظهر تجارب نقل المجال (التدريب على QReCC، الاختبار على مجموعات بيانات أخرى):

ChatR1-3B يفقد فقط 0.2 على MultiDoc2Dial
لا يزال يتفوق على أداء ChatGPT بدون عينات على ثلاث مجموعات بيانات
يُظهر قدرة قوية على استخدام أدوات البحث بدلاً من الإفراط في التخصص بمجال معين

تجارب الاستئصال

تأثير مكافآت النية

يحسّن ChatR1-3B بمتوسط 2.2 درجة F1 مقارنة بالإصدار بدون مكافآت النية
يتفوق مكافآت F1 على مستوى الاستعلام على مكافآت hit@k المستندة على المستندات
يتم تحقيق أفضل أداء عند نسبة مكافآت الاسترجاع/التوليد 0.2/1.0

تحليل تصميم المكافآت

مزايا مكافآت النية مقارنة بمكافآت الاسترجاع:

كثافة أعلى: توفير إشارة تعلم أقوى لـ PPO
فصل الأخطاء: مستقل عن محرك البحث، فصل أخطاء الاسترجاع وصياغة الاستعلام
اكتمال التعليقات التوضيحية: تجنب مشاكل عدم اكتمال تعليقات الصلة بالمستندات

تحليل الحالات

تنوع مسارات الاستدلال

تُظهر مجموعات البيانات المختلفة توزيعات طول استدلال مختلفة:

MultiDoc2Dial و QReCC تتطلب أطول مسارات استدلال
FaithDial نسبياً أقصر
INSCIT له التوزيع الأكثر تشتتاً، مما يعكس الطبيعة المختلطة

أداء الاسترجاع

أداء الاسترجاع لـ ChatR1 كأداة مماثلة للطرق الموجهة:

ChatR1-7B يطابق أو يتفوق على الخطوط الأساسية الموجهة على TopiOCQA و QReCC
يُظهر القدرة على التعلم المستقل للاسترجاع الفعال من التعلم التفاعلي

الأعمال ذات الصلة

الإجابة على الأسئلة الحوارية

تعتمد طرق CQA التقليدية بشكل أساسي على خطوط أنابيب RAG الثابتة والضبط الدقيق الموجه، وتفتقر إلى آليات الاستدلال الصريحة لتحديد متى وكيفية البحث.

استدلال التعلم المعزز للإجابة على الأسئلة

تطبق الأعمال الحديثة مثل Search-R1 و ReSearch التعلم المعزز على الاستدلال أحادي الجولة، لكنها لم تتوسع إلى سيناريوهات الحوار متعدد الجولات.

استخدام الأدوات

تُوسّع طرق مثل CALM الاستدلال إلى الحوار متعدد الجولات، لكنها لا تزال تعتمد على الضبط الدقيق الموجه بدلاً من التدريب بالتعلم المعزز.

الخلاصة والمناقشة

الاستنتاجات الرئيسية

فعالية استدلال التعلم المعزز: يثبت ChatR1 أن التعلم المعزز يمكن أن يحسّن قدرات الاستدلال في CQA
أهمية مكافآت النية: تحسّن مكافآت النية المصممة خصيصاً الأداء بشكل كبير
قدرة التعميم عبر المجالات: يُظهر الاستدلال بالتعلم المعزز مرونة وحساسية سياقية أقوى مقارنة بخطوط أنابيب CQA الثابتة

القيود

استراتيجية تحسين واحدة: استخدام PPO فقط، دون استكشاف استراتيجيات تحسين أخرى
قيود طول الحوار: تركز التجارب على حوارات بطول متوسط (10-12 جولة)
التكلفة الحسابية: يزيد التدريب بالتعلم المعزز من التكاليف الحسابية للتدريب والاستدلال
غياب التخصيص: لم يتم النظر في التكيف والتخصيص الخاص بالمستخدم

الاتجاهات المستقبلية

تحسين على مستوى الحوار: استخدام المستخدمين المحاكاة والتغذية الراجعة المستندة على التفضيل
معالجة الحوارات الأطول: تعزيز قدرات الذاكرة والنمذجة السياقية
تحسين الكفاءة: تطوير جداول تحسين أكثر كفاءة
تخفيف الانحياز: استكشاف تخفيف الانحياز والأساس الواقعي الأقوى في تحسين التعلم المعزز

التقييم المتعمق

المزايا

ابتكار قوي: أول تطبيق منهجي للتعلم المعزز على CQA متعدد الجولات، ملء فجوة بحثية مهمة
تصميم معقول: مكافآت النية المدركة للنية مصممة بعناية لخصائص CQA، حل مشكلة ندرة المكافآت
تجارب شاملة: تغطي خمس مجموعات بيانات بدرجات تعقيد حوارية مختلفة، تقييم شامل
تحليل متعمق: توفير تحليل متعدد الجوانب لمسارات الاستدلال وجودة الاسترجاع وغيرها

أوجه القصور

الأساس النظري: افتقار التحليل النظري لتقارب واستقرار التعلم المعزز في CQA
كفاءة الحساب: عدم مناقشة كافية لمقايضة التكاليس الحسابية مقارنة بالطرق الموجهة
البحث مع المستخدمين: افتقار التقييم مع المستخدمين الحقيقيين، الاعتماد فقط على المقاييس غير المتصلة
تحليل الأخطاء: تحليل غير كافٍ لحالات الفشل

التأثير

القيمة الأكاديمية: إدخال نموذج جديد للتعلم المعزز في مجال CQA، إلهام الأبحاث اللاحقة
القيمة العملية: يمكن تطبيق الطريقة على الأنظمة الحوارية الفعلية، تحسين تجربة المستخدم
القابلية للتكرار: توفير تفاصيل التنفيذ والكود المفتوح المصدر، تسهيل التكرار

السيناريوهات المناسبة

أنظمة استرجاع المعلومات: محركات البحث والأنظمة الإجابة على الأسئلة التي تتطلب تفاعلاً متعدد الجولات
روبوتات خدمة العملاء: سيناريوهات خدمة العملاء الذكية التي تتعامل مع الاستعلامات المعقدة
منصات التعليم: منصات التعلم عبر الإنترنت التي تتطلب إرشادات تدريجية

المراجع

تستشهد الورقة بأعمال مهمة في مجالات التعلم المعزز وأنظمة الحوار واسترجاع المعلومات، خاصة:

خوارزمية PPO (Schulman et al., 2017)
أعمال استدلال التعلم المعزز مثل Search-R1 (Jin et al., 2025)
أعمال بناء مجموعات بيانات الإجابة على الأسئلة الحوارية (Adlakha et al., 2022; Anantha et al., 2021)

التقييم الإجمالي: هذه ورقة بحثية عالية الجودة، تُظهر أداءً ممتازاً من حيث الابتكار التقني وتصميم التجارب وعمق التحليل. إدخال التعلم المعزز إلى الإجابة على الأسئلة الحوارية متعددة الجولات هو اتجاه بحثي ذو مغزى، وتصميم مكافآت النية بذكاء يحل التحديات الرئيسية في CQA. على الرغم من وجود بعض القيود، فإن الورقة تقدم مساهمة مهمة للمجال، وتستحق المزيد من البحث والتطبيق.