2025-11-24T21:40:17.139858

Uncertainty Quantification for Retrieval-Augmented Reasoning

Soudani, Zamani, Hasibi

Retrieval-augmented reasoning (RAR) is a recent evolution of retrieval-augmented generation (RAG) that employs multiple reasoning steps for retrieval and generation. While effective for some complex queries, RAR remains vulnerable to errors and misleading outputs. Uncertainty quantification (UQ) offers methods to estimate the confidence of systems' outputs. These methods, however, often handle simple queries with no retrieval or single-step retrieval, without properly handling RAR setup. Accurate estimation of UQ for RAR requires accounting for all sources of uncertainty, including those arising from retrieval and generation. In this paper, we account for all these sources and introduce Retrieval-Augmented Reasoning Consistency (R2C)--a novel UQ method for RAR. The core idea of R2C is to perturb the multi-step reasoning process by applying various actions to reasoning steps. These perturbations alter the retriever's input, which shifts its output and consequently modifies the generator's input at the next step. Through this iterative feedback loop, the retriever and generator continuously reshape one another's inputs, enabling us to capture uncertainty arising from both components. Experiments on five popular RAR systems across diverse QA datasets show that R2C improves AUROC by over 5% on average compared to the state-of-the-art UQ baselines. Extrinsic evaluations using R2C as an external signal further confirm its effectiveness for two downstream tasks: in Abstention, it achieves ~5% gains in both F1Abstain and AccAbstain; in Model Selection, it improves the exact match by ~7% over single models and ~3% over selection methods.

academic

تحديد الكمية للعدم اليقين في الاستدلال المعزز بالاسترجاع

المعلومات الأساسية

معرّف الورقة: 2510.11483
العنوان: تحديد الكمية للعدم اليقين في الاستدلال المعزز بالاسترجاع
المؤلفون: Heydar Soudani (جامعة رادبود)، Hamed Zamani (جامعة ماساتشوستس أمهيرست)، Faegheh Hasibi (جامعة رادبود)
التصنيف: cs.IR
تاريخ النشر/المؤتمر: تم تقديمه إلى arXiv في 13 أكتوبر 2024
رابط الورقة: https://arxiv.org/abs/2510.11483

الملخص

يمثل الاستدلال المعزز بالاسترجاع (RAR) تطوراً حديثاً للجيل المعزز بالاسترجاع (RAG)، حيث يستخدم استدلالاً متعدد الخطوات للاسترجاع والتوليد. على الرغم من فعاليته في معالجة بعض الاستعلامات المعقدة، فإن RAR لا يزال عرضة لإنتاج مخرجات خاطئة ومضللة. يوفر تحديد الكمية للعدم اليقين (UQ) طريقة لتقييم درجة ثقة مخرجات النظام. ومع ذلك، تتعامل هذه الطرق عادة مع الاستعلامات البسيطة بدون استرجاع أو باسترجاع خطوة واحدة، وغير قادرة على معالجة إعدادات RAR بشكل صحيح. يتطلب تقدير دقيق لـ UQ في RAR الأخذ في الاعتبار جميع مصادر عدم اليقين، بما في ذلك عدم اليقين الناشئ عن الاسترجاع والتوليد. تأخذ هذه الورقة في الاعتبار جميع هذه المصادر وتقدم اتساق الاستدلال المعزز بالاسترجاع (R2C) - طريقة جديدة لتحديد الكمية للعدم اليقين في RAR. الفكرة الأساسية لـ R2C هي إزعاج عملية الاستدلال متعدد الخطوات من خلال تطبيق إجراءات متنوعة على خطوات الاستدلال. تغير هذه الاضطرابات مدخلات المسترجع، وبالتالي تغير مخرجاته، وتعدل مدخلات المولد في الخطوة التالية. من خلال حلقة التغذية الراجعة التكرارية هذه، يعيد المسترجع والمولد تشكيل مدخلات بعضهما البعض باستمرار، مما يمكننا من التقاط عدم اليقين من كلا المكونين.

السياق البحثي والدافع

تعريف المشكلة

المشكلة الأساسية التي تسعى هذه الدراسة لحلها هي كيفية تحديد كمية عدم اليقين بدقة في أنظمة الاستدلال المعزز بالاسترجاع (RAR). تجمع أنظمة RAR بين الاسترجاع والتوليد من خلال عملية استدلال متعددة الخطوات، وعلى الرغم من أدائها الممتاز في معالجة الاستعلامات المعقدة، فإنها لا تزال عرضة لإنتاج مخرجات خاطئة ومضللة.

أهمية المشكلة

ضمان الموثوقية: في المهام كثيفة المعرفة، تعتبر موثوقية النظام حاسمة، ويحتاج المستخدمون إلى معرفة متى يمكنهم الوثوق بمخرجات النظام
كشف الأخطاء: قد تفشل أنظمة RAR في استرجاع مستندات غير ذات صلة في الخطوات المبكرة، أو سوء فهم المحتوى المسترجع، أو الاستخدام الخاطئ للمعرفة الداخلية
احتياجات التطبيق العملي: في المجالات عالية المخاطر مثل الطب والقانون، يعتبر تحديد الكمية للعدم اليقين حاسماً لأنظمة دعم القرار

قيود الطرق الموجودة

مصدر عدم اليقين الفردي: تركز طرق UQ الموجودة بشكل أساسي على عملية التوليد في نموذج اللغة الكبير، متجاهلة عدم اليقين في المسترجع
افتراضات السيناريو البسيط: تفترض معظم الطرق أن المدخلات تحتوي فقط على الاستعلام، وغير قادرة على التعامل مع السيناريوهات المعقدة للاسترجاع المتعدد الخطوات
قيود RAG: يقتصر العمل المحدود على تحديد الكمية للعدم اليقين في RAG على سيناريوهات الاسترجاع البسيطة لمرة واحدة

الدافع البحثي

يعتقد المؤلفون أن طريقة UQ الفعالة يجب أن تأخذ في الاعتبار مصادر عدم اليقين المتعددة في نظام RAR: المسترجع (الذي قد يوفر مستندات غير ذات صلة أو ذات صلة جزئية) والمولد (قد ينحرف الاستدلال عن نية المستخدم من الاستعلام)، وبالتالي يقترحون إطار عمل شامل لتحديد الكمية للعدم اليقين.

المساهمات الأساسية

اقتراح طريقة R2C: أول طريقة UQ مبنية على أساس نظري لعملية اتخاذ القرار ماركوفيان (MDP)، قادرة على التقاط مصادر عدم اليقين المختلفة في RAR
التحقق التجريبي الشامل: تجارب واسعة على ثلاث مجموعات بيانات وخمس طرق RAR، مع تحسن متوسط AUROC يتجاوز 5%
التحقق من المهام اللاحقة: إثبات فعالية الطريقة في مهام الامتناع عن الإجابة واختيار النموذج
تحسين الكفاءة: تحسن بحوالي 2.5 مرة في كفاءة الرموز مقارنة بطرق الأساس
تحليل التنوع: إثبات أن توليد الاستعلامات والمستندات المتنوعة يمكن أن يعزز UQ من خلال التقاط مصادر عدم اليقين المتعددة

شرح الطريقة

تعريف المهمة

بالنظر إلى استعلام المستخدم x، ينتج نظام RAR استجابة r من خلال عملية استدلال متعددة الخطوات. الهدف من تحديد الكمية للعدم اليقين هو تقدير ثقة النظام بمخرجاته، ممثلة بدرجة عدم اليقين U(x,r).

معمارية النموذج

نمذجة MDP

تنمذج R2C RAR كعملية اتخاذ قرار ماركوفيان (S,A,P,R):

الحالة S: تحتوي كل حالة وسيطة st = ⟨τt, qt⟩ على التفكير τt واستعلام البحث qt
الإجراء A: مجموعة الإجراءات الرئيسية A = {aret, aans}، حيث يمثل aret إجراء الاسترجاع و aans إجراء التوقف
الإجراءات المزعجة A*: A* = {aqp, acr, aav}، تشمل إعادة صياغة الاستعلام والتفكير النقدي المتجدد والتحقق من الإجابة

تدفق الخوارزمية الأساسي

التوليد الأكثر احتمالاً: توليد مسار الاستدلال الأكثر احتمالاً والاستجابة أولاً
التوليد المتنوع: توليد B استجابة مختلفة من خلال إجراءات مزعجة
تقييم الاتساق: استخدام التصويت بالأغلبية لحساب درجة عدم اليقين

تصميم الإجراءات المزعجة

A1: إعادة صياغة الاستعلام (Query Paraphrasing, QP)

الهدف: استكشاف تعبيرات دلالية مختلفة للاستعلام الأصلي
التنفيذ: الحفاظ على التفكير τt دون تغيير، تغيير الاستعلام qt فقط
المبدأ: اختبار ما إذا كان مسار الاستدلال حساساً لإعادة صياغة الاستعلام

A2: التفكير النقدي المتجدد (Critical Rethinking, CR)

الهدف: معالجة نقص النقد الذاتي في نموذج RAR
التنفيذ: توليد حالة جديدة تصرح بشكل صريح برفض معلومات الاسترجاع السابقة
المبدأ: إذا كان مسار الاستدلال خاطئاً، يمكن لهذا الإجراء التعديل إلى مسار أكثر موثوقية

A3: التحقق من الإجابة (Answer Validation, AV)

الهدف: التحقق من صحة الاستجابة النهائية
التنفيذ: تقييم الاستجابة بناءً على معيارين: (1) الأساس: هل تدعم الاستجابة المستندات المسترجعة؛ (2) الصحة: هل تجيب الاستجابة بشكل كافٍ على الاستعلام
المبدأ: تحسين جودة الاستجابة من خلال التحقق اللاحق

نقاط الابتكار التقني

التقاط عدم اليقين متعدد المصادر: أول مرة يتم فيها الأخذ في الاعتبار عدم اليقين من المسترجع والمولد معاً
إطار العمل النظري MDP: تشكيل RAR كـ MDP، توفير أساس نظري لتحديد الكمية للعدم اليقين
الاضطراب المنضبط: استكشاف مسارات استدلال متنوعة من خلال إجراءات مزعجة مصممة بعناية
آلية التغذية الراجعة التكرارية: يعيد المسترجع والمولد تشكيل مدخلات بعضهما البعض باستمرار من خلال الاضطراب

إعداد التجربة

مجموعات البيانات

PopQA: مهمة الإجابة على الأسئلة أحادية القفزة، عينة عشوائية من 500 استعلام
HotpotQA: مهمة الإجابة على الأسئلة متعددة القفزات، عينة عشوائية من 500 استعلام
Musique: مهمة الإجابة على الأسئلة متعددة القفزات، عينة عشوائية من 500 استعلام
مجموعة الاسترجاع: تفريغ ويكيبيديا 2018

مؤشرات التقييم

التقييم المباشر: AUROC (المساحة تحت منحنى خاصية المستقبل)
مهمة الامتناع عن الإجابة: AbstainAccuracy و AbstainF1
مهمة اختيار النموذج: المطابقة الدقيقة (Exact Match)

طرق المقارنة

طرق قائمة على المسار: SelfC و ReaC و RrrC
طرق قائمة على التقدير:
- طرق الصندوق الأبيض: PE و SE و MARS و SAR و LARS
- طرق الصندوق الأسود: NumSS و EigV و ECC و Deg و P(true)

تفاصيل التنفيذ

نموذج التوليد: Qwen-2.5-7B-Instruct
طريقة الاسترجاع: استرجاع BM25 الأولي + إعادة ترتيب ms-marco-MiniLM-L-6-v2
إعدادات العينة: درجة حرارة T=1.0 لمهام UQ، T=0.7 لتقييم الصحة
كمية التوليد: عينة 10 استجابات لكل استعلام

نتائج التجربة

النتائج الرئيسية

أداء تحديد الكمية للعدم اليقين

حققت R2C أفضل أداء على جميع أنظمة RAR المختبرة:

متوسط AUROC: 81.99%، مع تحسن يزيد عن 5% مقارنة بأفضل طريقة أساس
الدلالة الإحصائية: تم التحقق من خلال اختبار DeLong، مع دلالة إحصائية في معظم الإعدادات
الميزة المتسقة: أداء متسقة عبر مجموعات البيانات والنماذج المختلفة

أداء المهام اللاحقة

مهمة الامتناع عن الإجابة:

AbstainAccuracy: تحسن متوسط حوالي 5% (80.25% مقابل 75.44%)
AbstainF1: تحسن متوسط حوالي 5% (85.82% مقابل 80.79%)
مؤشر AUARC: 47.15% مقابل 43.83%، يثبت معقولية اختيار الحد الأدنى

مهمة اختيار النموذج:

مقارنة بنموذج واحد: تحسن متوسط حوالي 7% (39.9% مقابل 33.0%)
مقارنة بطرق الاختيار: تحسن متوسط حوالي 3% (39.9% مقابل 37.0%)
الاقتراب من الأداء المثالي: يصل إلى 84.2% من أداء اختيار النموذج المثالي

تجارب الاستبدال

تحليل اختيار الإجراء

الإجراء الفردي: يختلف أداء الإجراءات المختلفة عبر الأنظمة المختلفة
تأثير التركيب: عادة ما تتفوق مجموعة الإجراءات الكاملة على الإجراء الفردي
الخصوصية الخاصة بالنظام: قد تكون بعض تكوينات الإجراءات أكثر ملاءمة لأنظمة RAR معينة

تأثير كمية التوليد

ميزة الكفاءة: تحتاج R2C فقط إلى 3 توليدات فقط لتحقيق أداء طريقة الأساس مع 10 توليدات
استقرار الأداء: مع زيادة كمية التوليد، يميل تحسن الأداء إلى الاستقرار

تحليل التنوع

تنوع المستندات

R2C: متوسط استرجاع 24.71 مستند فريد
طرق الأساس: RrrC(5.81)، SelfC(15.35)، ReaC(16.4)

تنوع الاستعلام

R2C: درجة تنوع الاستعلام 0.35
طرق الأساس: RrrC(0.20)، SelfC(0.28)، ReaC(0.30)

تحليل الكفاءة

كفاءة الرموز: تحقق R2C أداء طريقة الأساس بـ 1700 رمز باستخدام حوالي 700 رمز فقط
تحسن الكفاءة: تحسن بحوالي 2.5 مرة في كفاءة توليد الرموز
الموارد الحسابية: إجمالي حوالي 1500 ساعة GPU (4×Nvidia A100 40GB)

الأعمال ذات الصلة

نماذج معززة بالاسترجاع

إطار عمل RAG: دمج مزايا نموذج الاسترجاع ونموذج التوليد
طرق التنفيذ: الاسترجاع ثم التوليد مقابل RAG النشط
تطور RAR: طرق مثل Self-Ask و ReAct و ReSearch و Search-R1 وغيرها

تحديد الكمية للعدم اليقين

طرق الصندوق الأبيض: الاستفادة من احتمالات الرموز والإنتروبيا
طرق الصندوق الأسود: الاعتماد فقط على مخرجات النص النهائية
طرق الاتساق: تقييم عدم اليقين من خلال اتساق التوليدات المتعددة
UQ في RAG: بحث محدود يركز بشكل أساسي على العلاقة بين المستند والاستجابة

عدم اليقين في اتخاذ القرار متعدد الخطوات

طريقة SAUP: تعلم أوزان التجميع لدمج عدم اليقين التدريجي
القيود: تعتمد على العلامات الحقيقية في مجال الاختبار

الخلاصة والمناقشة

الاستنتاجات الرئيسية

فعالية الطريقة: تتفوق R2C بشكل كبير على طرق UQ الموجودة، مع تحسن متوسط AUROC يزيد عن 5%
القيمة العملية: تحقيق تحسينات كبيرة في مهام الامتناع عن الإجابة واختيار النموذج
ميزة الكفاءة: تحسن بحوالي 2.5 مرة في كفاءة الرموز مقارنة بطرق الأساس
المساهمة النظرية: أول إطار عمل قائم على MDP لتحديد الكمية للعدم اليقين في RAR

القيود

قيود الإجابات القصيرة: التركيز الأساسي على الإجابات القصيرة على مستوى الكيان، دون استكشاف توليد النصوص الطويلة
تصميم الإجراء: قد يتطلب تصميم الإجراءات المزعجة تحسيناً لأنظمة RAR معينة
التكلفة الحسابية: على الرغم من تحسن الكفاءة، لا تزال تتطلب توليدات متعددة
التعميم على المجالات: تحتاج القدرة على التعميم في المجالات المحددة إلى مزيد من التحقق

الاتجاهات المستقبلية

توليد النصوص الطويلة: توسيع نطاق تحديد الكمية للعدم اليقين إلى توليد النصوص الطويلة
التطبيقات متعددة الوسائط: توسيع الطريقة إلى سيناريوهات متعددة الوسائط مثل نماذج الرؤية واللغة
تحسين الإجراء: تصميم إجراءات مزعجة أكثر فعالية لأنظمة RAR المختلفة
التحليل النظري: تحليل عميق لآليات انتشار عدم اليقين

التقييم المتعمق

المزايا

ابتكار قوي: أول حل منهجي شامل لمشكلة تحديد الكمية للعدم اليقين في RAR
أساس نظري متين: يوفر إطار عمل رسمي قائم على MDP دعماً نظرياً
تجارب شاملة: تحقق كافٍ على مجموعات بيانات متعددة ونماذج ومهام لاحقة
قيمة عملية عالية: الطريقة بسيطة وسهلة التنفيذ، مع آفاق تطبيق عملي جيدة
تحليل عميق: يوفر تحليلاً تفصيلياً لتنوع الاستعلامات والمستندات وتحليل الكفاءة

أوجه القصور

تصميم الإجراء المزعج: تصميم الإجراء استكشافي نسبياً، يفتقر إلى التوجيه النظري
التكلفة الحسابية: على الرغم من الكفاءة النسبية، لا تزال تتطلب استدلالات متعددة
نطاق التطبيق: التحقق الأساسي على مهام الإجابة على الأسئلة القصيرة
اختيار الأساس: قد لا تكون بعض طرق الأساس المختارة الخيار الأمثل للمقارنة

التأثير

المساهمة الأكاديمية: توفير أفكار جديدة لتقييم الموثوقية في أنظمة RAR
القيمة العملية: يمكن تطبيقها مباشرة على أنظمة RAR الموجودة
القابلية للتكرار: التزم المؤلفون بفتح المصدر للكود والبيانات
الدلالة الإرشادية: توفير نموذج لتحديد الكمية للعدم اليقين في أنظمة الاستدلال متعددة الخطوات

السيناريوهات المطبقة

التطبيقات عالية المخاطر: سيناريوهات مثل التشخيص الطبي والاستشارات القانونية التي تتطلب تقييم الموثوقية
الإجابة على الأسئلة المعرفية: أنظمة الإجابة على الأسئلة المعقدة ذات الاستدلال متعدد القفزات
تكامل النموذج: السيناريوهات التي تتطلب اختيار أفضل إجابة من نماذج متعددة
التفاعل مع المستخدم: أنظمة الحوار التي تحتاج إلى توفير معلومات الثقة للمستخدمين

المراجع

تستشهد الورقة بـ 67 مرجعاً ذا صلة، تغطي أعمالاً مهمة في مجالات متعددة مثل الجيل المعزز بالاسترجاع وتحديد الكمية للعدم اليقين واتساق الاستدلال، مما يوفر أساساً نظرياً متيناً ومعايير مقارنة لهذا البحث.

التقييم الشامل: هذه ورقة بحثية عالية الجودة حققت تقدماً كبيراً في مشكلة مهمة وتحديية. الطريقة مبتكرة قوية، وتصميم التجارب معقول، والنتائج مقنعة. لا تساهم الورقة فقط من الناحية التقنية، بل تتمتع أيضاً بقيمة عملية مهمة، وتوفر حلاً فعالاً لتقييم موثوقية أنظمة RAR.