2025-11-18T04:19:13.869286

Confidence-Based Response Abstinence: Improving LLM Trustworthiness via Activation-Based Uncertainty Estimation

Huang, Datla, Zhu et al.

We propose a method for confidence estimation in retrieval-augmented generation (RAG) systems that aligns closely with the correctness of large language model (LLM) outputs. Confidence estimation is especially critical in high-stakes domains such as finance and healthcare, where the cost of an incorrect answer outweighs that of not answering the question. Our approach extends prior uncertainty quantification methods by leveraging raw feed-forward network (FFN) activations as auto-regressive signals, avoiding the information loss inherent in token logits and probabilities after projection and softmax normalization. We model confidence prediction as a sequence classification task, and regularize training with a Huber loss term to improve robustness against noisy supervision. Applied in a real-world financial industry customer-support setting with complex knowledge bases, our method outperforms strong baselines and maintains high accuracy under strict latency constraints. Experiments on Llama 3.1 8B model show that using activations from only the 16th layer preserves accuracy while reducing response latency. Our results demonstrate that activation-based confidence modeling offers a scalable, architecture-aware path toward trustworthy RAG deployment.

academic

आत्मविश्वास-आधारित प्रतिक्रिया संयम: सक्रियण-आधारित अनिश्चितता अनुमान के माध्यम से LLM विश्वसनीयता में सुधार

बुनियादी जानकारी

पेपर ID: 2510.13750
शीर्षक: Confidence-Based Response Abstinence: Improving LLM Trustworthiness via Activation-Based Uncertainty Estimation
लेखक: Zhiqi Huang, Vivek Datla, Chenyang Zhu, Alfy Samuel, Daben Liu, Anoop Kumar, Ritesh Soni (Capital One)
वर्गीकरण: cs.CL (कम्प्यूटेशनल भाषाविज्ञान)
प्रकाशन समय: 16 अक्टूबर 2025 (arXiv v2)
पेपर लिंक: https://arxiv.org/abs/2510.13750v2

सारांश

यह पेपर पुनर्प्राप्ति-संवर्धित पीढ़ी (RAG) प्रणालियों के लिए एक आत्मविश्वास अनुमान विधि प्रस्तावित करता है, जो बड़े भाषा मॉडल (LLM) आउटपुट की शुद्धता से घनिष्ठ रूप से संबंधित है। आत्मविश्वास अनुमान वित्त और चिकित्सा जैसे उच्च-जोखिम वाले क्षेत्रों में विशेष रूप से महत्वपूर्ण है, जहां गलत उत्तर की लागत प्रश्न का उत्तर न देने की लागत से कहीं अधिक है। यह विधि कच्चे फीडफॉरवर्ड नेटवर्क (FFN) सक्रियण को स्व-प्रतिगमन संकेत के रूप में उपयोग करके मौजूदा अनिश्चितता परिमाणीकरण विधियों को विस्तारित करती है, टोकन लॉगिट्स और संभावनाओं में प्रक्षेपण और सॉफ्टमैक्स सामान्यीकरण के बाद आंतरिक सूचना हानि से बचती है। लेखकों ने आत्मविश्वास भविष्यवाणी को अनुक्रम वर्गीकरण कार्य के रूप में तैयार किया है और शोर पर्यवेक्षण के लिए मजबूती में सुधार के लिए Huber हानि पद अवधि का उपयोग करके प्रशिक्षण को नियमित किया है। जटिल ज्ञान आधार वाले वास्तविक वित्तीय उद्योग ग्राहक सहायता परिदृश्य में, यह विधि कठोर विलंबता बाधाओं के तहत मजबूत आधारभूत को पार करती है और उच्च सटीकता बनाए रखती है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

उच्च-जोखिम वाले अनुप्रयोग परिदृश्यों में, RAG प्रणालियों को गलत प्रतिक्रिया प्रदान करने के बजाय प्रश्न का उत्तर देने से इनकार करना चाहिए। इसके लिए एक आत्मविश्वास माप की आवश्यकता है जो प्रतिक्रिया शुद्धता के साथ दृढ़ता से सहसंबंधित हो, जब आत्मविश्वास स्कोर थ्रेसहोल्ड से नीचे हो तो प्रतिक्रिया को मास्क करे।

समस्या की महत्ता

उच्च-जोखिम वाले क्षेत्र की आवश्यकता: वित्त, चिकित्सा आदि जैसे कड़ाई से विनियमित क्षेत्रों में, गलत उत्तर प्रदान करने की प्रतिष्ठा और वित्तीय लागत कोई उत्तर न देने की लागत से कहीं अधिक है
वास्तविक समय तैनाती की चुनौती: मौजूदा विधियां लंबे वर्णनात्मक उत्तरों और उत्पादन वातावरण की विलंबता आवश्यकताओं में खराब प्रदर्शन करती हैं
अनिश्चितता के स्रोत: मुख्य रूप से ज्ञानमीमांसा अनिश्चितता (मॉडल ज्ञान की कमी) से, न कि आकस्मिक अनिश्चितता (डेटा में अंतर्निहित यादृच्छिकता) से

मौजूदा विधियों की सीमाएं

नमूना-आधारित विधियां: कई पीढ़ियों की आवश्यकता होती है, उत्पादन वातावरण में अत्यधिक कम्प्यूटेशनल लागत और विलंबता का परिचय देती हैं
टोकन संभावना विधि: लंबे उत्तरों में खराब प्रदर्शन करती है, एक एकल कम संभावना वाला शब्द समग्र अनुक्रम स्कोर को असमान रूप से कम कर सकता है
सूचना हानि: टोकन संभावनाएं रैखिक प्रक्षेपण और सॉफ्टमैक्स परिवर्तन के बाद समृद्ध आंतरिक प्रतिनिधित्व जानकारी खो देती हैं

मुख्य योगदान

सक्रियण-आधारित आत्मविश्वास अनुमान विधि प्रस्तावित करना: कच्चे FFN सक्रियण को स्व-प्रतिगमन संकेत के रूप में उपयोग करना, टोकन लॉगिट्स की सूचना हानि से बचना
अनुक्रम वर्गीकरण ढांचा: आत्मविश्वास भविष्यवाणी को अनुक्रम वर्गीकरण कार्य के रूप में तैयार करना, सक्रियण अनुक्रम को संसाधित करने के लिए LSTM का उपयोग करना
Huber हानि नियमितकरण: पुनर्प्राप्ति चरण में शोर पर्यवेक्षण के लिए मजबूती में सुधार के लिए Huber हानि का परिचय देना
उत्पादन वातावरण सत्यापन: वास्तविक वित्तीय ग्राहक सहायता परिदृश्य में विधि की प्रभावशीलता और स्केलेबिलिटी को सत्यापित करना
दक्षता अनुकूलन: यह साबित करना कि केवल 16वीं परत सक्रियण का उपयोग करके सटीकता बनाए रखते हुए विलंबता में काफी कमी की जा सकती है

विधि विवरण

कार्य परिभाषा

इनपुट x और उत्पन्न अनुक्रम s दिए गए, लक्ष्य एक आत्मविश्वास स्कोर c का अनुमान लगाना है, जो प्रतिक्रिया शुद्धता के साथ दृढ़ता से सहसंबंधित हो। जब c थ्रेसहोल्ड से नीचे हो, तो सिस्टम प्रतिक्रिया प्रदर्शित करने से इनकार करता है।

मॉडल आर्किटेक्चर

समग्र ढांचा

इनपुट अनुक्रम निर्माण:

x = xI ⊕ xQ ⊕ xC ⊕ s ⊕ xEOS

जहां xI (निर्देश), xQ (प्रश्न), xC (संदर्भ), s (उत्तर), xEOS (समाप्ति चिन्ह)

सक्रियण निष्कर्षण

Transformer की ℓ परत से छिपी हुई स्थिति सक्रियण निकालना:

Hℓ = (h¹ℓ, ..., h^(T+L+1)ℓ)

केवल उत्तर भाग के अनुरूप सक्रियण को संरक्षित करना:

Sin = (h^(T+1)ℓ, h^(T+2)ℓ, ..., h^(T+L+1)ℓ)

अनुक्रम वर्गीकारक

अनुक्रम वर्गीकारक g(Sin) के रूप में LSTM का उपयोग करना, 2-आयामी लॉगिट वेक्टर z को आउटपुट करना, आत्मविश्वास स्कोर:

c = softmax(z)₁ = e^z₁/(e^z₀ + e^z₁)

प्रशिक्षण रणनीति

हानि फ़ंक्शन

क्रॉस-एंट्रॉपी हानि और Huber हानि नियमितकरण को जोड़ना:

LTotal = LCE + λLHuber

Huber हानि परिभाषा:

Hδ(x) = {
  ½x² for |x| ≤ δ
  δ(|x| - ½δ) otherwise
}

बैच-स्तर Huber हानि:

LHuber = Hδ(1/|B| Σci - 1/|B| ΣI(ŷi = yi))

तकनीकी नवाचार बिंदु

कच्चा सक्रियण बनाम टोकन संभावना: रैखिक प्रक्षेपण और सॉफ्टमैक्स द्वारा कारित सूचना संपीड़न और विकृति से बचना
स्व-प्रतिगमन अनुक्रम मॉडलिंग: उत्पादन प्रक्रिया में अस्थायी निर्भरता को कैप्चर करने के लिए LSTM का उपयोग करना
मजबूती नियमितकरण: पुनर्प्राप्ति त्रुटियों द्वारा पेश किए गए शोर लेबल के लिए Huber हानि अधिक मजबूत है
परत अनुकूलन: प्रयोग के माध्यम से सक्रियण निष्कर्षण के लिए इष्टतम परत संख्या निर्धारित करना

प्रयोगात्मक सेटअप

डेटासेट

स्रोत: Capital One आंतरिक वित्तीय ग्राहक सहायता ज्ञान आधार
पैमाना: 8.5k दस्तावेज़, लगभग 45k खंड
विशेषता: अर्ध-संरचित दस्तावेज़, जटिल पदानुक्रम संरचना, तालिकाएं, सूचियां आदि शामिल
एनोटेशन: वास्तविक समय प्रतिक्रिया और SME विशेषज्ञ मूल्यांकन के दो-स्तरीय सत्यापन तंत्र

मूल्यांकन मेट्रिक्स

AUROC: आत्मविश्वास स्कोर की विभेदन क्षमता
Precision (P): प्रदर्शित प्रतिक्रियाओं की सटीकता
Recall (R): सही प्रतिक्रियाओं की पुनः प्राप्ति दर
ROUGE-L: प्रतिक्रिया गुणवत्ता मूल्यांकन
Mask Rate: मास्क की गई प्रतिक्रियाओं का अनुपात
विलंबता: औसत और P99 प्रतिक्रिया समय

तुलनात्मक विधियां

Vectara (HHEM2.1): निहितार्थ-आधारित शब्दार्थ सामंजस्य मॉडल
VectaraFT: Vectara का सूक्ष्म-समायोजित संस्करण
Logits-based: टोकन लॉगिट्स-आधारित अनिश्चितता मॉडल

कार्यान्वयन विवरण

मॉडल: Llama 3.1 8B
सक्रियण परत: 16वीं और 32वीं परत
संदर्भ आकार: Top-1, Top-3, Top-5, Full (Top-7)
अनुमान ढांचा: Hugging Face, vLLM

प्रयोगात्मक परिणाम

मुख्य परिणाम

विधि	AUROC
Vectara	0.590
VectaraFT	0.634
Logits-based	0.663
हमारा मॉडल (कैलिब्रेशन के बिना)	0.741
हमारा मॉडल (कैलिब्रेशन के साथ)	0.772

आत्मविश्वास थ्रेसहोल्ड विश्लेषण

थ्रेसहोल्ड	सटीकता	पुनः प्राप्ति	ROUGE-L (प्रदर्शित/मास्क)	मास्क दर
0.5	0.95	0.73	0.65/0.57	29.9%
0.7	0.96	0.65	0.66/0.57	38.6%
0.9	0.97	0.52	0.67/0.58	52.0%

परत और संदर्भ अनुकूलन

16वीं परत बनाम 32वीं परत:

16वीं परत समान प्रदर्शन बनाए रखते हुए विलंबता में काफी कमी करती है (लगभग 42.5%)
Full संदर्भ सेटिंग में, 16वीं परत 0.97 सटीकता, 31.3% मास्क दर प्राप्त करती है

विलंबता विश्लेषण:

ढांचा	परत	संदर्भ	औसत विलंबता (ms)	P99 विलंबता (ms)
vLLM	16	Full	127	267
vLLM	32	Full	206	354

विलोपन प्रयोग

Huber हानि का प्रभाव: 0.741 से 0.772 AUROC तक सुधार
सक्रियण परत चयन: 16वीं परत 32वीं परत के करीब प्रदर्शन करती है लेकिन विलंबता कम है
संदर्भ आकार प्रभाव: बड़ा संदर्भ सटीकता में सुधार करता है लेकिन विलंबता बढ़ाता है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

प्रभावशीलता: सक्रियण-आधारित विधि मौजूदा आधारभूत से काफी बेहतर है, AUROC 0.772 तक पहुंचती है
व्यावहारिकता: उत्पादन वातावरण में 0.95 सटीकता और 29.9% मास्क दर का अच्छा संतुलन प्राप्त करना
दक्षता: 16वीं परत सक्रियण प्रदर्शन बनाए रखते हुए विलंबता में काफी कमी करती है
मजबूती: Huber हानि शोर पर्यवेक्षण के लिए मजबूती में प्रभावी रूप से सुधार करती है

सीमाएं

व्हाइट-बॉक्स निर्भरता: मॉडल आंतरिक सक्रियण तक पहुंच की आवश्यकता, सामान्यता को सीमित करता है
आर्किटेक्चर-विशिष्ट: विधि विशिष्ट मॉडल आर्किटेक्चर के लिए अनुकूलित, स्थानांतरण के लिए पुनः कॉन्फ़िगरेशन की आवश्यकता
दो-चरणीय प्रसंस्करण: आत्मविश्वास स्कोर की गणना के लिए अतिरिक्त फॉरवर्ड पास की आवश्यकता
डेटा सीमा: प्रयोगात्मक डेटा सार्वजनिक नहीं किया जा सकता, पुनरुत्पादनीयता को प्रभावित करता है

भविष्य की दिशाएं

अंत-से-अंत एकीकरण: आत्मविश्वास अनुमान को सीधे पीढ़ी प्रक्रिया में एकीकृत करना
आर्किटेक्चर-अज्ञेयवादी: कई LLM आर्किटेक्चर के लिए लागू सामान्य विधि विकसित करना
कम्प्यूटेशनल अनुकूलन: आत्मविश्वास अनुमान की कम्प्यूटेशनल ओवरहेड को और कम करना
सैद्धांतिक विश्लेषण: सक्रियण पैटर्न और आत्मविश्वास के बीच सैद्धांतिक संबंध को गहराई से समझना

गहन मूल्यांकन

शक्तियां

तकनीकी नवाचार: RAG आत्मविश्वास अनुमान के लिए FFN सक्रियण का पहली बार व्यवस्थित उपयोग, टोकन संभावना की सूचना हानि से बचना
व्यावहारिक मूल्य: वास्तविक वित्तीय परिदृश्य में सत्यापित, मजबूत व्यावहारिक अभिविन्यास
व्यापक प्रयोग: कई आयामों (परत, संदर्भ, विलंबता) से पर्याप्त विलोपन प्रयोग
इंजीनियरिंग विचार: उत्पादन वातावरण की विलंबता बाधाओं और स्केलेबिलिटी आवश्यकताओं को पूरी तरह से ध्यान में रखना

कमजोरियां

सामान्यता सीमा: विधि व्हाइट-बॉक्स पहुंच और विशिष्ट आर्किटेक्चर पर निर्भर, प्रसार सीमित
सैद्धांतिक आधार: FFN सक्रियण आत्मविश्वास की भविष्यवाणी क्यों कर सकती है, इसके लिए गहन सैद्धांतिक विश्लेषण की कमी
डेटा पारदर्शिता: मालिकाना डेटासेट सार्वजनिक नहीं किया जा सकता, परिणामों की सत्यापनीयता को प्रभावित करता है
सीमित तुलना: अधिक हाल की अनिश्चितता परिमाणीकरण विधियों के साथ तुलना पर्याप्त नहीं

प्रभाव

शैक्षणिक योगदान: RAG प्रणाली विश्वसनीयता अनुसंधान के लिए नई तकनीकी दिशा प्रदान करना
औद्योगिक मूल्य: उच्च-जोखिम वाले क्षेत्रों में LLM तैनाती के लिए व्यावहारिक समाधान प्रदान करना
विधि प्रेरणा: सक्रियण-आधारित विधि आंतरिक प्रतिनिधित्व उपयोग के अधिक अनुसंधान को प्रेरित कर सकती है

लागू परिदृश्य

उच्च-जोखिम वाले क्षेत्र: वित्त, चिकित्सा, कानून आदि जहां सटीकता की आवश्यकता अत्यंत अधिक हो
व्हाइट-बॉक्स तैनाती: मॉडल आंतरिक पहुंच वाली एंटरप्राइज-स्तरीय अनुप्रयोग
वास्तविक समय प्रणाली: कठोर विलंबता बाधाओं के तहत विश्वसनीय प्रतिक्रिया प्रदान करने की आवश्यकता वाले परिदृश्य
विशेषज्ञ ज्ञान आधार: संरचित, विशेषज्ञ ज्ञान आधार वाले RAG अनुप्रयोग

संदर्भ

यह पेपर अनिश्चितता परिमाणीकरण, RAG प्रणाली, सक्रियण विश्लेषण आदि कई संबंधित क्षेत्रों के महत्वपूर्ण कार्यों का हवाला देता है, जिनमें शामिल हैं:

Azaria and Mitchell (2023): LLM आंतरिक स्थिति और "झूठ" पहचान
Bakman et al. (2024): अर्थ-आधारित प्रतिक्रिया स्कोरिंग
Bao et al. (2024): HHEM निहितार्थ मॉडल
Dai et al. (2022): पूर्व-प्रशिक्षित Transformer में ज्ञान न्यूरॉन्स

समग्र मूल्यांकन: यह एक तकनीकी रूप से ठोस और व्यावहारिक मूल्य वाला पेपर है, जो RAG प्रणाली आत्मविश्वास अनुमान की इस महत्वपूर्ण समस्या पर एक नवीन समाधान प्रस्तावित करता है। हालांकि सामान्यता और सैद्धांतिक गहराई में कुछ सीमाएं हैं, लेकिन वास्तविक परिदृश्य में इसकी सफल अनुप्रयोग और पर्याप्त प्रयोगात्मक सत्यापन इसे महत्वपूर्ण शैक्षणिक और औद्योगिक मूल्य प्रदान करते हैं।