2025-11-18T04:19:13.869286

Confidence-Based Response Abstinence: Improving LLM Trustworthiness via Activation-Based Uncertainty Estimation

Huang, Datla, Zhu et al.

We propose a method for confidence estimation in retrieval-augmented generation (RAG) systems that aligns closely with the correctness of large language model (LLM) outputs. Confidence estimation is especially critical in high-stakes domains such as finance and healthcare, where the cost of an incorrect answer outweighs that of not answering the question. Our approach extends prior uncertainty quantification methods by leveraging raw feed-forward network (FFN) activations as auto-regressive signals, avoiding the information loss inherent in token logits and probabilities after projection and softmax normalization. We model confidence prediction as a sequence classification task, and regularize training with a Huber loss term to improve robustness against noisy supervision. Applied in a real-world financial industry customer-support setting with complex knowledge bases, our method outperforms strong baselines and maintains high accuracy under strict latency constraints. Experiments on Llama 3.1 8B model show that using activations from only the 16th layer preserves accuracy while reducing response latency. Our results demonstrate that activation-based confidence modeling offers a scalable, architecture-aware path toward trustworthy RAG deployment.

academic

تحسين جدارة نماذج اللغة الكبيرة من خلال الامتناع عن الإجابة القائم على الثقة: تقدير عدم اليقين القائم على التفعيل

المعلومات الأساسية

معرّف الورقة: 2510.13750
العنوان: Confidence-Based Response Abstinence: Improving LLM Trustworthiness via Activation-Based Uncertainty Estimation
المؤلفون: Zhiqi Huang, Vivek Datla, Chenyang Zhu, Alfy Samuel, Daben Liu, Anoop Kumar, Ritesh Soni (Capital One)
التصنيف: cs.CL (اللسانيات الحاسوبية)
تاريخ النشر: 16 أكتوبر 2025 (arXiv v2)
رابط الورقة: https://arxiv.org/abs/2510.13750v2

الملخص

تقترح هذه الورقة طريقة لتقدير الثقة في أنظمة الإنشاء المعزز بالاسترجاع (RAG) ترتبط ارتباطاً وثيقاً بصحة مخرجات نماذج اللغة الكبيرة (LLM). يعتبر تقدير الثقة حاسماً بشكل خاص في المجالات عالية المخاطر مثل التمويل والطب، حيث تكون تكلفة الإجابة الخاطئة أعلى بكثير من عدم الإجابة على السؤال. تعمل الطريقة على توسيع أساليب تحديد الكمية غير المؤكدة الموجودة من خلال الاستفادة من تفعيلات الشبكة الأمامية (FFN) الخام كإشارات ذاتية الانحدار، مما يتجنب فقدان المعلومات المتأصل في احتمالات الرموز واللوغاريتمات بعد الإسقاط والتطبيع الناعم. يقوم المؤلفون بنمذجة التنبؤ بالثقة كمهمة تصنيف متسلسلة، ويستخدمون مصطلح خسارة Huber لتنظيم التدريب لتحسين المتانة تجاه الإشراف الضوضائي. في سيناريوهات دعم العملاء المالية الحقيقية ذات قواعس المعرفة المعقدة، تتفوق الطريقة على الخطوط الأساسية القوية وتحافظ على دقة عالية في ظل قيود الكمون الصارمة.

الخلفية البحثية والدافع

تعريف المشكلة

في سيناريوهات التطبيقات عالية المخاطر، يجب أن تفضل أنظمة RAG الامتناع عن الإجابة على تقديم استجابات خاطئة. يتطلب هذا مقياس ثقة يرتبط بقوة بصحة الاستجابة، مما يحجب الاستجابات عندما تكون درجة الثقة أقل من حد معين.

أهمية المشكلة

احتياجات المجالات عالية المخاطر: في المجالات الخاضعة للتنظيم الصارم مثل التمويل والطب، تكون تكاليف السمعة والمالية لتقديم إجابات خاطئة أعلى بكثير من تكاليف عدم تقديم إجابة
تحديات النشر في الوقت الفعلي: تؤدي الأساليب الموجودة أداءً سيئاً في الإجابات السردية الطويلة ومتطلبات الكمون في بيئات الإنتاج
مصادر عدم اليقين: تنشأ بشكل أساسي من عدم اليقين الإبستيمولوجي (نقص معرفة النموذج) وليس من عدم اليقين العرضي (العشوائية المتأصلة في البيانات)

قيود الأساليب الموجودة

الأساليب القائمة على العينات: تتطلب عمليات إنشاء متعددة، مما يؤدي إلى تكاليف حسابية وكمون مرتفع جداً في بيئات الإنتاج
أساليب احتمالية الرموز: تؤدي أداءً سيئاً في الإجابات الطويلة، حيث قد تقلل كلمة واحدة منخفضة الاحتمالية درجة التسلسل الكلية بشكل غير متناسب
فقدان المعلومات: تفقد احتمالات الرموز معلومات التمثيل الداخلي الغني بعد الإسقاط الخطي وتحويل softmax

المساهمات الأساسية

اقتراح طريقة تقدير الثقة القائمة على التفعيل: الاستفادة من تفعيلات FFN الخام كإشارات ذاتية الانحدار، مما يتجنب فقدان المعلومات في لوغاريتمات الرموز
إطار عمل تصنيف متسلسل: نمذجة التنبؤ بالثقة كمهمة تصنيف متسلسلة باستخدام LSTM لمعالجة تسلسلات التفعيل
تنظيم خسارة Huber: إدخال خسارة Huber لتحسين المتانة تجاه الإشراف الضوضائي من مرحلة الاسترجاع
التحقق في بيئة الإنتاج: التحقق من فعالية الطريقة وقابليتها للتوسع في سيناريوهات دعم العملاء المالية الحقيقية
تحسين الكفاءة: إثبات أن استخدام تفعيلات الطبقة 16 فقط يمكن أن يقلل الكمون بشكل كبير مع الحفاظ على الدقة

شرح الطريقة

تعريف المهمة

بالنظر إلى المدخل x والتسلسل المُنشأ s، الهدف هو تقدير درجة ثقة c ترتبط بقوة بصحة الاستجابة. عندما تكون c أقل من حد معين، يرفض النظام عرض الاستجابة.

معمارية النموذج

الإطار العام

يتم بناء تسلسل الإدخال على النحو التالي:

x = xI ⊕ xQ ⊕ xC ⊕ s ⊕ xEOS

حيث xI (التعليمات)، xQ (السؤال)، xC (السياق)، s (الإجابة)، xEOS (رمز النهاية)

استخراج التفعيل

استخراج تفعيلات الحالة المخفية من الطبقة ℓ من Transformer:

Hℓ = (h¹ℓ, ..., h^(T+L+1)ℓ)

الاحتفاظ فقط بالتفعيلات المقابلة لجزء الإجابة:

Sin = (h^(T+1)ℓ, h^(T+2)ℓ, ..., h^(T+L+1)ℓ)

مصنف متسلسل

استخدام LSTM كمصنف متسلسل g(Sin)، يُخرج متجه logit ثنائي الأبعاد z، حيث تكون درجة الثقة:

c = softmax(z)₁ = e^z₁/(e^z₀ + e^z₁)

استراتيجية التدريب

دالة الخسارة

دمج خسارة الإنتروبيا المتقاطعة وتنظيم خسارة Huber:

LTotal = LCE + λLHuber

يتم تعريف خسارة Huber على النحو التالي:

Hδ(x) = {
  ½x² for |x| ≤ δ
  δ(|x| - ½δ) otherwise
}

خسارة Huber على مستوى الدفعة:

LHuber = Hδ(1/|B| Σci - 1/|B| ΣI(ŷi = yi))

نقاط الابتكار التقني

التفعيلات الخام مقابل احتمالات الرموز: تجنب الضغط والتشويه في المعلومات الناجم عن الإسقاط الخطي و softmax
نمذجة التسلسل ذاتي الانحدار: استخدام LSTM لالتقاط التبعيات الزمنية في عملية الإنشاء
تنظيم المتانة: خسارة Huber أكثر متانة تجاه تسميات الضوضاء التي يقدمها الاسترجاع الخاطئ
تحسين الطبقة: تحديد طبقة استخراج التفعيل المثلى من خلال التجريب

إعداد التجارب

مجموعات البيانات

المصدر: قاعدة معرفة دعم العملاء المالية الداخلية لـ Capital One
الحجم: 8.5k وثيقة، حوالي 45k قطعة
الخصائص: وثائق شبه منظمة، تحتوي على هياكل هرمية معقدة وجداول وقوائم
التعليق التوضيحي: آلية التحقق ثنائية الطبقات من خلال التعليقات في الوقت الفعلي وتقييم الخبراء

مقاييس التقييم

AUROC: القدرة التمييزية لدرجة الثقة
الدقة (P): دقة الاستجابات المعروضة
الاستدعاء (R): استدعاء الاستجابات الصحيحة
ROUGE-L: تقييم جودة الاستجابة
معدل الحجب: نسبة الاستجابات المحجوبة
الكمون: متوسط وP99 وقت الاستجابة

طرق المقارنة

Vectara (HHEM2.1): نموذج اتساق دلالي قائم على الاستلزام
VectaraFT: نسخة مضبوطة من Vectara
Logits-based: نموذج عدم يقين قائم على لوغاريتمات الرموز

تفاصيل التنفيذ

النموذج: Llama 3.1 8B
طبقة التفعيل: الطبقة 16 والطبقة 32
حجم السياق: Top-1, Top-3, Top-5, Full (Top-7)
إطار الاستدلال: Hugging Face, vLLM

نتائج التجارب

النتائج الرئيسية

الطريقة	AUROC
Vectara	0.590
VectaraFT	0.634
Logits-based	0.663
نموذجنا (بدون معايرة)	0.741
نموذجنا (مع معايرة)	0.772

تحليل حد الثقة

الحد	الدقة	الاستدعاء	ROUGE-L (معروض/محجوب)	معدل الحجب
0.5	0.95	0.73	0.65/0.57	29.9%
0.7	0.96	0.65	0.66/0.57	38.6%
0.9	0.97	0.52	0.67/0.58	52.0%

تحسين الطبقة والسياق

الطبقة 16 مقابل الطبقة 32:

تقلل الطبقة 16 الكمون بشكل كبير (حوالي 42.5%) مع الحفاظ على أداء مماثلة
في إعداد السياق الكامل، تحقق الطبقة 16 دقة 0.97 ومعدل حجب 31.3%

تحليل الكمون:

الإطار	الطبقة	السياق	متوسط الكمون (ms)	كمون P99 (ms)
vLLM	16	Full	127	267
vLLM	32	Full	206	354

تجارب الاستئصال

دور خسارة Huber: تحسن من 0.741 إلى 0.772 AUROC
اختيار طبقة التفعيل: أداء الطبقة 16 قريبة من الطبقة 32 لكن مع كمون أقل
تأثير حجم السياق: يزيد السياق الأكبر من الدقة لكن يزيد الكمون

الأعمال ذات الصلة

تصنيف أساليب تحديد الكمية غير المؤكدة

الأساليب القائمة على العينات: قياس الاتساق من خلال عمليات إنشاء متعددة، لكن بتكاليف حسابية عالية
الأساليب القائمة على الاحتمالية: الاستفادة من احتمالات الرموز والإنتروبيا الدلالية، لكن بتأثير محدود على النصوص الطويلة
الأساليب القائمة على التصنيف: مثل HHEM، تتجنب عمليات الإنشاء المتعددة لكن تعتمد على الوصول إلى الصندوق الأسود
الأساليب القائمة على التفعيل: الاستفادة من التمثيلات الداخلية، الاتجاه الرئيسي لمساهمة هذه الورقة

مزايا هذه الورقة

مقابل أساليب العينات: تمرير أمامي واحد، كمون أقل
مقابل أساليب الاحتمالية: الحفاظ على التمثيل الداخلي الكامل، فقدان معلومات أقل
مقابل أساليب الصندوق الأسود: الاستفادة من الوصول إلى الصندوق الأبيض للحصول على إشارات أغنى

الخلاصة والنقاش

الاستنتاجات الرئيسية

الفعالية: تتفوق الطريقة القائمة على التفعيل بشكل كبير على الخطوط الأساسية الموجودة، مع AUROC يصل إلى 0.772
الجدوى العملية: تحقيق توازن جيد بين دقة 0.95 ومعدل حجب 29.9% في بيئة الإنتاج
الكفاءة: تفعيلات الطبقة 16 تقلل الكمون بشكل كبير مع الحفاظ على الأداء
المتانة: تحسن خسارة Huber بشكل فعال المتانة تجاه الإشراف الضوضائي

القيود

الاعتماد على الصندوق الأبيض: يتطلب الوصول إلى تفعيلات النموذج الداخلية، مما يحد من العمومية
خاص بالمعمارية: تم تخصيص الطريقة لمعمارية نموذج محددة، يتطلب النقل إعادة التكوين
المعالجة ثنائية المراحل: يتطلب تمرير أمامي إضافي لحساب درجة الثقة
قيود البيانات: لا يمكن الكشف عن بيانات التجارب، مما يؤثر على القابلية للتكرار

الاتجاهات المستقبلية

التكامل من طرف إلى طرف: دمج تقدير الثقة مباشرة في عملية الإنشاء
عدم الاعتماد على المعمارية: تطوير طرق عامة تنطبق على معماريات LLM متعددة
تحسين الحسابات: تقليل المزيد من التكاليف الحسابية لتقدير الثقة
التحليل النظري: فهم أعمق للعلاقة النظرية بين أنماط التفعيل والثقة

التقييم المتعمق

المزايا

الابتكار التقني: أول استخدام منهجي لتفعيلات FFN لتقدير الثقة في RAG، مما يتجنب فقدان المعلومات في احتمالات الرموز
القيمة العملية: التحقق في سيناريوهات مالية حقيقية، مع توجه عملي قوي
التجارب الشاملة: إجراء تجارب استئصال كافية من أبعاد متعددة (الطبقة، السياق، الكمون)
الاعتبارات الهندسية: الأخذ الكامل في الاعتبار لقيود الكمون في بيئة الإنتاج ومتطلبات القابلية للتوسع

أوجه القصور

قيود العمومية: تعتمد الطريقة على الوصول إلى الصندوق الأبيض والمعمارية المحددة، مما يحد من الانتشار
الأساس النظري: افتقار إلى تحليل نظري عميق لسبب قدرة تفعيلات FFN على التنبؤ بالثقة
شفافية البيانات: لا يمكن الكشف عن مجموعات البيانات الملكية، مما يؤثر على قابلية التحقق من النتائج
المقارنة المحدودة: المقارنة مع المزيد من أساليب تحديد الكمية غير المؤكدة الحديثة غير كافية

التأثير

المساهمة الأكاديمية: توفير مسار تقني جديد لبحث الموثوقية في أنظمة RAG
القيمة الصناعية: توفير حل عملي لنشر LLM في المجالات عالية المخاطر
الإلهام المنهجي: قد تلهم طريقة التفعيل المزيد من الأبحاث حول استخدام التمثيلات الداخلية

السيناريوهات المعمول بها

المجالات عالية المخاطر: سيناريوهات التمويل والطب والقانون وغيرها التي تتطلب دقة عالية جداً
النشر بصندوق أبيض: تطبيقات على مستوى المؤسسة مع حقوق الوصول إلى النموذج الداخلي
الأنظمة في الوقت الفعلي: سيناريوهات تتطلب تقديم استجابات موثوقة في ظل قيود كمون صارمة
قواعس المعرفة المتخصصة: تطبيقات RAG ذات قواعس معرفة منظمة ومتخصصة

المراجع

تستشهد هذه الورقة بأعمال مهمة في مجالات متعددة ذات صلة بتحديد الكمية غير المؤكدة وأنظمة RAG وتحليل التفعيل، بما في ذلك:

Azaria and Mitchell (2023): الحالات الداخلية لـ LLM والكشف عن "الكذب"
Bakman et al. (2024): تقييم الاستجابة القائم على المعنى
Bao et al. (2024): نموذج الاستلزام HHEM
Dai et al. (2022): الخلايا العصبية للمعرفة في Transformers المدربة مسبقاً

التقييم الشامل: هذه ورقة تتمتع بأساس تقني متين وقيمة عملية عالية، وتقترح حلاً مبتكراً لمشكلة مهمة في تقدير الثقة في أنظمة RAG. على الرغم من وجود بعض القيود في العمومية والعمق النظري، فإن تطبيقها الناجح في السيناريوهات الحقيقية والتحقق التجريبي الشامل يجعلها ذات قيمة أكاديمية وصناعية مهمة.