Confidence-Based Response Abstinence: Improving LLM Trustworthiness via Activation-Based Uncertainty Estimation
Huang, Datla, Zhu et al.
We propose a method for confidence estimation in retrieval-augmented generation (RAG) systems that aligns closely with the correctness of large language model (LLM) outputs. Confidence estimation is especially critical in high-stakes domains such as finance and healthcare, where the cost of an incorrect answer outweighs that of not answering the question. Our approach extends prior uncertainty quantification methods by leveraging raw feed-forward network (FFN) activations as auto-regressive signals, avoiding the information loss inherent in token logits and probabilities after projection and softmax normalization. We model confidence prediction as a sequence classification task, and regularize training with a Huber loss term to improve robustness against noisy supervision. Applied in a real-world financial industry customer-support setting with complex knowledge bases, our method outperforms strong baselines and maintains high accuracy under strict latency constraints. Experiments on Llama 3.1 8B model show that using activations from only the 16th layer preserves accuracy while reducing response latency. Our results demonstrate that activation-based confidence modeling offers a scalable, architecture-aware path toward trustworthy RAG deployment.
academic
تحسين جدارة نماذج اللغة الكبيرة من خلال الامتناع عن الإجابة القائم على الثقة: تقدير عدم اليقين القائم على التفعيل
تقترح هذه الورقة طريقة لتقدير الثقة في أنظمة الإنشاء المعزز بالاسترجاع (RAG) ترتبط ارتباطاً وثيقاً بصحة مخرجات نماذج اللغة الكبيرة (LLM). يعتبر تقدير الثقة حاسماً بشكل خاص في المجالات عالية المخاطر مثل التمويل والطب، حيث تكون تكلفة الإجابة الخاطئة أعلى بكثير من عدم الإجابة على السؤال. تعمل الطريقة على توسيع أساليب تحديد الكمية غير المؤكدة الموجودة من خلال الاستفادة من تفعيلات الشبكة الأمامية (FFN) الخام كإشارات ذاتية الانحدار، مما يتجنب فقدان المعلومات المتأصل في احتمالات الرموز واللوغاريتمات بعد الإسقاط والتطبيع الناعم. يقوم المؤلفون بنمذجة التنبؤ بالثقة كمهمة تصنيف متسلسلة، ويستخدمون مصطلح خسارة Huber لتنظيم التدريب لتحسين المتانة تجاه الإشراف الضوضائي. في سيناريوهات دعم العملاء المالية الحقيقية ذات قواعس المعرفة المعقدة، تتفوق الطريقة على الخطوط الأساسية القوية وتحافظ على دقة عالية في ظل قيود الكمون الصارمة.
في سيناريوهات التطبيقات عالية المخاطر، يجب أن تفضل أنظمة RAG الامتناع عن الإجابة على تقديم استجابات خاطئة. يتطلب هذا مقياس ثقة يرتبط بقوة بصحة الاستجابة، مما يحجب الاستجابات عندما تكون درجة الثقة أقل من حد معين.
احتياجات المجالات عالية المخاطر: في المجالات الخاضعة للتنظيم الصارم مثل التمويل والطب، تكون تكاليف السمعة والمالية لتقديم إجابات خاطئة أعلى بكثير من تكاليف عدم تقديم إجابة
تحديات النشر في الوقت الفعلي: تؤدي الأساليب الموجودة أداءً سيئاً في الإجابات السردية الطويلة ومتطلبات الكمون في بيئات الإنتاج
مصادر عدم اليقين: تنشأ بشكل أساسي من عدم اليقين الإبستيمولوجي (نقص معرفة النموذج) وليس من عدم اليقين العرضي (العشوائية المتأصلة في البيانات)
تستشهد هذه الورقة بأعمال مهمة في مجالات متعددة ذات صلة بتحديد الكمية غير المؤكدة وأنظمة RAG وتحليل التفعيل، بما في ذلك:
Azaria and Mitchell (2023): الحالات الداخلية لـ LLM والكشف عن "الكذب"
Bakman et al. (2024): تقييم الاستجابة القائم على المعنى
Bao et al. (2024): نموذج الاستلزام HHEM
Dai et al. (2022): الخلايا العصبية للمعرفة في Transformers المدربة مسبقاً
التقييم الشامل: هذه ورقة تتمتع بأساس تقني متين وقيمة عملية عالية، وتقترح حلاً مبتكراً لمشكلة مهمة في تقدير الثقة في أنظمة RAG. على الرغم من وجود بعض القيود في العمومية والعمق النظري، فإن تطبيقها الناجح في السيناريوهات الحقيقية والتحقق التجريبي الشامل يجعلها ذات قيمة أكاديمية وصناعية مهمة.