2025-11-18T04:19:13.869286

Confidence-Based Response Abstinence: Improving LLM Trustworthiness via Activation-Based Uncertainty Estimation

Huang, Datla, Zhu et al.
We propose a method for confidence estimation in retrieval-augmented generation (RAG) systems that aligns closely with the correctness of large language model (LLM) outputs. Confidence estimation is especially critical in high-stakes domains such as finance and healthcare, where the cost of an incorrect answer outweighs that of not answering the question. Our approach extends prior uncertainty quantification methods by leveraging raw feed-forward network (FFN) activations as auto-regressive signals, avoiding the information loss inherent in token logits and probabilities after projection and softmax normalization. We model confidence prediction as a sequence classification task, and regularize training with a Huber loss term to improve robustness against noisy supervision. Applied in a real-world financial industry customer-support setting with complex knowledge bases, our method outperforms strong baselines and maintains high accuracy under strict latency constraints. Experiments on Llama 3.1 8B model show that using activations from only the 16th layer preserves accuracy while reducing response latency. Our results demonstrate that activation-based confidence modeling offers a scalable, architecture-aware path toward trustworthy RAG deployment.
academic

تحسين جدارة نماذج اللغة الكبيرة من خلال الامتناع عن الإجابة القائم على الثقة: تقدير عدم اليقين القائم على التفعيل

المعلومات الأساسية

  • معرّف الورقة: 2510.13750
  • العنوان: Confidence-Based Response Abstinence: Improving LLM Trustworthiness via Activation-Based Uncertainty Estimation
  • المؤلفون: Zhiqi Huang, Vivek Datla, Chenyang Zhu, Alfy Samuel, Daben Liu, Anoop Kumar, Ritesh Soni (Capital One)
  • التصنيف: cs.CL (اللسانيات الحاسوبية)
  • تاريخ النشر: 16 أكتوبر 2025 (arXiv v2)
  • رابط الورقة: https://arxiv.org/abs/2510.13750v2

الملخص

تقترح هذه الورقة طريقة لتقدير الثقة في أنظمة الإنشاء المعزز بالاسترجاع (RAG) ترتبط ارتباطاً وثيقاً بصحة مخرجات نماذج اللغة الكبيرة (LLM). يعتبر تقدير الثقة حاسماً بشكل خاص في المجالات عالية المخاطر مثل التمويل والطب، حيث تكون تكلفة الإجابة الخاطئة أعلى بكثير من عدم الإجابة على السؤال. تعمل الطريقة على توسيع أساليب تحديد الكمية غير المؤكدة الموجودة من خلال الاستفادة من تفعيلات الشبكة الأمامية (FFN) الخام كإشارات ذاتية الانحدار، مما يتجنب فقدان المعلومات المتأصل في احتمالات الرموز واللوغاريتمات بعد الإسقاط والتطبيع الناعم. يقوم المؤلفون بنمذجة التنبؤ بالثقة كمهمة تصنيف متسلسلة، ويستخدمون مصطلح خسارة Huber لتنظيم التدريب لتحسين المتانة تجاه الإشراف الضوضائي. في سيناريوهات دعم العملاء المالية الحقيقية ذات قواعس المعرفة المعقدة، تتفوق الطريقة على الخطوط الأساسية القوية وتحافظ على دقة عالية في ظل قيود الكمون الصارمة.

الخلفية البحثية والدافع

تعريف المشكلة

في سيناريوهات التطبيقات عالية المخاطر، يجب أن تفضل أنظمة RAG الامتناع عن الإجابة على تقديم استجابات خاطئة. يتطلب هذا مقياس ثقة يرتبط بقوة بصحة الاستجابة، مما يحجب الاستجابات عندما تكون درجة الثقة أقل من حد معين.

أهمية المشكلة

  1. احتياجات المجالات عالية المخاطر: في المجالات الخاضعة للتنظيم الصارم مثل التمويل والطب، تكون تكاليف السمعة والمالية لتقديم إجابات خاطئة أعلى بكثير من تكاليف عدم تقديم إجابة
  2. تحديات النشر في الوقت الفعلي: تؤدي الأساليب الموجودة أداءً سيئاً في الإجابات السردية الطويلة ومتطلبات الكمون في بيئات الإنتاج
  3. مصادر عدم اليقين: تنشأ بشكل أساسي من عدم اليقين الإبستيمولوجي (نقص معرفة النموذج) وليس من عدم اليقين العرضي (العشوائية المتأصلة في البيانات)

قيود الأساليب الموجودة

  1. الأساليب القائمة على العينات: تتطلب عمليات إنشاء متعددة، مما يؤدي إلى تكاليف حسابية وكمون مرتفع جداً في بيئات الإنتاج
  2. أساليب احتمالية الرموز: تؤدي أداءً سيئاً في الإجابات الطويلة، حيث قد تقلل كلمة واحدة منخفضة الاحتمالية درجة التسلسل الكلية بشكل غير متناسب
  3. فقدان المعلومات: تفقد احتمالات الرموز معلومات التمثيل الداخلي الغني بعد الإسقاط الخطي وتحويل softmax

المساهمات الأساسية

  1. اقتراح طريقة تقدير الثقة القائمة على التفعيل: الاستفادة من تفعيلات FFN الخام كإشارات ذاتية الانحدار، مما يتجنب فقدان المعلومات في لوغاريتمات الرموز
  2. إطار عمل تصنيف متسلسل: نمذجة التنبؤ بالثقة كمهمة تصنيف متسلسلة باستخدام LSTM لمعالجة تسلسلات التفعيل
  3. تنظيم خسارة Huber: إدخال خسارة Huber لتحسين المتانة تجاه الإشراف الضوضائي من مرحلة الاسترجاع
  4. التحقق في بيئة الإنتاج: التحقق من فعالية الطريقة وقابليتها للتوسع في سيناريوهات دعم العملاء المالية الحقيقية
  5. تحسين الكفاءة: إثبات أن استخدام تفعيلات الطبقة 16 فقط يمكن أن يقلل الكمون بشكل كبير مع الحفاظ على الدقة

شرح الطريقة

تعريف المهمة

بالنظر إلى المدخل x والتسلسل المُنشأ s، الهدف هو تقدير درجة ثقة c ترتبط بقوة بصحة الاستجابة. عندما تكون c أقل من حد معين، يرفض النظام عرض الاستجابة.

معمارية النموذج

الإطار العام

يتم بناء تسلسل الإدخال على النحو التالي:

x = xI ⊕ xQ ⊕ xC ⊕ s ⊕ xEOS

حيث xI (التعليمات)، xQ (السؤال)، xC (السياق)، s (الإجابة)، xEOS (رمز النهاية)

استخراج التفعيل

استخراج تفعيلات الحالة المخفية من الطبقة ℓ من Transformer:

Hℓ = (h¹ℓ, ..., h^(T+L+1)ℓ)

الاحتفاظ فقط بالتفعيلات المقابلة لجزء الإجابة:

Sin = (h^(T+1)ℓ, h^(T+2)ℓ, ..., h^(T+L+1)ℓ)

مصنف متسلسل

استخدام LSTM كمصنف متسلسل g(Sin)، يُخرج متجه logit ثنائي الأبعاد z، حيث تكون درجة الثقة:

c = softmax(z)₁ = e^z₁/(e^z₀ + e^z₁)

استراتيجية التدريب

دالة الخسارة

دمج خسارة الإنتروبيا المتقاطعة وتنظيم خسارة Huber:

LTotal = LCE + λLHuber

يتم تعريف خسارة Huber على النحو التالي:

Hδ(x) = {
  ½x² for |x| ≤ δ
  δ(|x| - ½δ) otherwise
}

خسارة Huber على مستوى الدفعة:

LHuber = Hδ(1/|B| Σci - 1/|B| ΣI(ŷi = yi))

نقاط الابتكار التقني

  1. التفعيلات الخام مقابل احتمالات الرموز: تجنب الضغط والتشويه في المعلومات الناجم عن الإسقاط الخطي و softmax
  2. نمذجة التسلسل ذاتي الانحدار: استخدام LSTM لالتقاط التبعيات الزمنية في عملية الإنشاء
  3. تنظيم المتانة: خسارة Huber أكثر متانة تجاه تسميات الضوضاء التي يقدمها الاسترجاع الخاطئ
  4. تحسين الطبقة: تحديد طبقة استخراج التفعيل المثلى من خلال التجريب

إعداد التجارب

مجموعات البيانات

  • المصدر: قاعدة معرفة دعم العملاء المالية الداخلية لـ Capital One
  • الحجم: 8.5k وثيقة، حوالي 45k قطعة
  • الخصائص: وثائق شبه منظمة، تحتوي على هياكل هرمية معقدة وجداول وقوائم
  • التعليق التوضيحي: آلية التحقق ثنائية الطبقات من خلال التعليقات في الوقت الفعلي وتقييم الخبراء

مقاييس التقييم

  • AUROC: القدرة التمييزية لدرجة الثقة
  • الدقة (P): دقة الاستجابات المعروضة
  • الاستدعاء (R): استدعاء الاستجابات الصحيحة
  • ROUGE-L: تقييم جودة الاستجابة
  • معدل الحجب: نسبة الاستجابات المحجوبة
  • الكمون: متوسط وP99 وقت الاستجابة

طرق المقارنة

  • Vectara (HHEM2.1): نموذج اتساق دلالي قائم على الاستلزام
  • VectaraFT: نسخة مضبوطة من Vectara
  • Logits-based: نموذج عدم يقين قائم على لوغاريتمات الرموز

تفاصيل التنفيذ

  • النموذج: Llama 3.1 8B
  • طبقة التفعيل: الطبقة 16 والطبقة 32
  • حجم السياق: Top-1, Top-3, Top-5, Full (Top-7)
  • إطار الاستدلال: Hugging Face, vLLM

نتائج التجارب

النتائج الرئيسية

الطريقةAUROC
Vectara0.590
VectaraFT0.634
Logits-based0.663
نموذجنا (بدون معايرة)0.741
نموذجنا (مع معايرة)0.772

تحليل حد الثقة

الحدالدقةالاستدعاءROUGE-L (معروض/محجوب)معدل الحجب
0.50.950.730.65/0.5729.9%
0.70.960.650.66/0.5738.6%
0.90.970.520.67/0.5852.0%

تحسين الطبقة والسياق

الطبقة 16 مقابل الطبقة 32:

  • تقلل الطبقة 16 الكمون بشكل كبير (حوالي 42.5%) مع الحفاظ على أداء مماثلة
  • في إعداد السياق الكامل، تحقق الطبقة 16 دقة 0.97 ومعدل حجب 31.3%

تحليل الكمون:

الإطارالطبقةالسياقمتوسط الكمون (ms)كمون P99 (ms)
vLLM16Full127267
vLLM32Full206354

تجارب الاستئصال

  1. دور خسارة Huber: تحسن من 0.741 إلى 0.772 AUROC
  2. اختيار طبقة التفعيل: أداء الطبقة 16 قريبة من الطبقة 32 لكن مع كمون أقل
  3. تأثير حجم السياق: يزيد السياق الأكبر من الدقة لكن يزيد الكمون

الأعمال ذات الصلة

تصنيف أساليب تحديد الكمية غير المؤكدة

  1. الأساليب القائمة على العينات: قياس الاتساق من خلال عمليات إنشاء متعددة، لكن بتكاليف حسابية عالية
  2. الأساليب القائمة على الاحتمالية: الاستفادة من احتمالات الرموز والإنتروبيا الدلالية، لكن بتأثير محدود على النصوص الطويلة
  3. الأساليب القائمة على التصنيف: مثل HHEM، تتجنب عمليات الإنشاء المتعددة لكن تعتمد على الوصول إلى الصندوق الأسود
  4. الأساليب القائمة على التفعيل: الاستفادة من التمثيلات الداخلية، الاتجاه الرئيسي لمساهمة هذه الورقة

مزايا هذه الورقة

  • مقابل أساليب العينات: تمرير أمامي واحد، كمون أقل
  • مقابل أساليب الاحتمالية: الحفاظ على التمثيل الداخلي الكامل، فقدان معلومات أقل
  • مقابل أساليب الصندوق الأسود: الاستفادة من الوصول إلى الصندوق الأبيض للحصول على إشارات أغنى

الخلاصة والنقاش

الاستنتاجات الرئيسية

  1. الفعالية: تتفوق الطريقة القائمة على التفعيل بشكل كبير على الخطوط الأساسية الموجودة، مع AUROC يصل إلى 0.772
  2. الجدوى العملية: تحقيق توازن جيد بين دقة 0.95 ومعدل حجب 29.9% في بيئة الإنتاج
  3. الكفاءة: تفعيلات الطبقة 16 تقلل الكمون بشكل كبير مع الحفاظ على الأداء
  4. المتانة: تحسن خسارة Huber بشكل فعال المتانة تجاه الإشراف الضوضائي

القيود

  1. الاعتماد على الصندوق الأبيض: يتطلب الوصول إلى تفعيلات النموذج الداخلية، مما يحد من العمومية
  2. خاص بالمعمارية: تم تخصيص الطريقة لمعمارية نموذج محددة، يتطلب النقل إعادة التكوين
  3. المعالجة ثنائية المراحل: يتطلب تمرير أمامي إضافي لحساب درجة الثقة
  4. قيود البيانات: لا يمكن الكشف عن بيانات التجارب، مما يؤثر على القابلية للتكرار

الاتجاهات المستقبلية

  1. التكامل من طرف إلى طرف: دمج تقدير الثقة مباشرة في عملية الإنشاء
  2. عدم الاعتماد على المعمارية: تطوير طرق عامة تنطبق على معماريات LLM متعددة
  3. تحسين الحسابات: تقليل المزيد من التكاليف الحسابية لتقدير الثقة
  4. التحليل النظري: فهم أعمق للعلاقة النظرية بين أنماط التفعيل والثقة

التقييم المتعمق

المزايا

  1. الابتكار التقني: أول استخدام منهجي لتفعيلات FFN لتقدير الثقة في RAG، مما يتجنب فقدان المعلومات في احتمالات الرموز
  2. القيمة العملية: التحقق في سيناريوهات مالية حقيقية، مع توجه عملي قوي
  3. التجارب الشاملة: إجراء تجارب استئصال كافية من أبعاد متعددة (الطبقة، السياق، الكمون)
  4. الاعتبارات الهندسية: الأخذ الكامل في الاعتبار لقيود الكمون في بيئة الإنتاج ومتطلبات القابلية للتوسع

أوجه القصور

  1. قيود العمومية: تعتمد الطريقة على الوصول إلى الصندوق الأبيض والمعمارية المحددة، مما يحد من الانتشار
  2. الأساس النظري: افتقار إلى تحليل نظري عميق لسبب قدرة تفعيلات FFN على التنبؤ بالثقة
  3. شفافية البيانات: لا يمكن الكشف عن مجموعات البيانات الملكية، مما يؤثر على قابلية التحقق من النتائج
  4. المقارنة المحدودة: المقارنة مع المزيد من أساليب تحديد الكمية غير المؤكدة الحديثة غير كافية

التأثير

  1. المساهمة الأكاديمية: توفير مسار تقني جديد لبحث الموثوقية في أنظمة RAG
  2. القيمة الصناعية: توفير حل عملي لنشر LLM في المجالات عالية المخاطر
  3. الإلهام المنهجي: قد تلهم طريقة التفعيل المزيد من الأبحاث حول استخدام التمثيلات الداخلية

السيناريوهات المعمول بها

  1. المجالات عالية المخاطر: سيناريوهات التمويل والطب والقانون وغيرها التي تتطلب دقة عالية جداً
  2. النشر بصندوق أبيض: تطبيقات على مستوى المؤسسة مع حقوق الوصول إلى النموذج الداخلي
  3. الأنظمة في الوقت الفعلي: سيناريوهات تتطلب تقديم استجابات موثوقة في ظل قيود كمون صارمة
  4. قواعس المعرفة المتخصصة: تطبيقات RAG ذات قواعس معرفة منظمة ومتخصصة

المراجع

تستشهد هذه الورقة بأعمال مهمة في مجالات متعددة ذات صلة بتحديد الكمية غير المؤكدة وأنظمة RAG وتحليل التفعيل، بما في ذلك:

  • Azaria and Mitchell (2023): الحالات الداخلية لـ LLM والكشف عن "الكذب"
  • Bakman et al. (2024): تقييم الاستجابة القائم على المعنى
  • Bao et al. (2024): نموذج الاستلزام HHEM
  • Dai et al. (2022): الخلايا العصبية للمعرفة في Transformers المدربة مسبقاً

التقييم الشامل: هذه ورقة تتمتع بأساس تقني متين وقيمة عملية عالية، وتقترح حلاً مبتكراً لمشكلة مهمة في تقدير الثقة في أنظمة RAG. على الرغم من وجود بعض القيود في العمومية والعمق النظري، فإن تطبيقها الناجح في السيناريوهات الحقيقية والتحقق التجريبي الشامل يجعلها ذات قيمة أكاديمية وصناعية مهمة.