Credal Transformer: A Principled Approach for Quantifying and Mitigating Hallucinations in Large Language Models
Ji, Song, Huang
Large Language Models (LLMs) hallucinate, generating factually incorrect yet confident assertions. We argue this stems from the Transformer's Softmax function, which creates "Artificial Certainty" by collapsing ambiguous attention scores into a single probability distribution, discarding uncertainty information at each layer. To fix this, we introduce the Credal Transformer, which replaces standard attention with a Credal Attention Mechanism (CAM) based on evidential theory. CAM produces a "credal set" (a set of distributions) instead of a single attention vector, with the set's size directly measuring model uncertainty. We implement this by re-conceptualizing attention scores as evidence masses for a Dirichlet distribution: sufficient evidence recovers standard attention, while insufficient evidence yields a diffuse distribution, representing ambiguity. Empirically, the Credal Transformer identifies out-of-distribution inputs, quantifies ambiguity, and significantly reduces confident errors on unanswerable questions by abstaining. Our contribution is a new architecture to mitigate hallucinations and a design paradigm that integrates uncertainty quantification directly into the model, providing a foundation for more reliable AI.
academic
Credal Transformer: बड़े भाषा मॉडल में भ्रम को मापने और कम करने के लिए एक सिद्धांतवादी दृष्टिकोण
बड़े भाषा मॉडल (LLMs) में भ्रम की समस्या होती है, जो तथ्यात्मक रूप से गलत लेकिन उच्च आत्मविश्वास वाले दावे उत्पन्न करते हैं। यह पेपर तर्क देता है कि यह Transformer के Softmax फ़ंक्शन से उत्पन्न होता है, जो अस्पष्ट ध्यान स्कोर को एकल संभाव्यता वितरण में परिवर्तित करके "कृत्रिम निश्चितता" बनाता है, जिससे प्रत्येक परत की अनिश्चितता की जानकारी खो जाती है। इस समस्या को हल करने के लिए, यह पेपर Credal Transformer प्रस्तुत करता है, जो मानक ध्यान को साक्ष्य सिद्धांत पर आधारित Credal ध्यान तंत्र (CAM) से बदलता है। CAM एकल ध्यान वेक्टर के बजाय "credal सेट" (वितरण का सेट) उत्पन्न करता है, जहां सेट का आकार सीधे मॉडल की अनिश्चितता को मापता है। इसे ध्यान स्कोर को Dirichlet वितरण के साक्ष्य गुणवत्ता के रूप में पुनः संकल्पित करके प्राप्त किया जाता है: पर्याप्त साक्ष्य मानक ध्यान को पुनः प्राप्त करता है, अपर्याप्त साक्ष्य विस्तृत वितरण उत्पन्न करता है, जो अस्पष्टता को दर्शाता है। प्रयोग दर्शाते हैं कि Credal Transformer वितरण से बाहर के इनपुट की पहचान कर सकता है, अस्पष्टता को मापता है, और परित्याग के माध्यम से उन प्रश्नों के उत्तर न दे सकने वाले आत्मविश्वास संबंधी त्रुटियों को काफी हद तक कम करता है।
यह अनुसंधान बड़े भाषा मॉडल में भ्रम की समस्या को हल करने का लक्ष्य रखता है - मॉडल तथ्यात्मक रूप से गलत लेकिन उच्च आत्मविश्वास प्रदर्शित करने वाली सामग्री उत्पन्न करता है। यह घटना उच्च जोखिम वाले क्षेत्रों में LLMs के तैनाती अनुप्रयोग को गंभीरता से सीमित करती है।
लेखकों ने एक मौलिक परिकल्पना प्रस्तुत की: भ्रम की समस्या केवल डेटा समस्या नहीं है, बल्कि Transformer आर्किटेक्चर से ही उत्पन्न होती है, विशेष रूप से ध्यान तंत्र में Softmax फ़ंक्शन द्वारा बनाई गई "कृत्रिम निश्चितता" से।
सैद्धांतिक अंतर्दृष्टि: ध्यान तंत्र में Softmax फ़ंक्शन द्वारा बनाई गई "कृत्रिम निश्चितता" को भ्रम का आर्किटेक्चर कारण के रूप में पहचानना
नया आर्किटेक्चर: Credal Transformer प्रस्तावित करना, जो अनिश्चितता परिमाणीकरण को मॉडल के आंतरिक घटक के रूप में एकीकृत करता है
तकनीकी नवाचार: साक्ष्य सिद्धांत पर आधारित Credal ध्यान तंत्र (CAM) डिजाइन करना, जो संज्ञानात्मक अनिश्चितता को प्रतिनिधित्व और मापता है
अनुभवजन्य सत्यापन: कई कार्यों पर विधि की प्रभावशीलता को सत्यापित करना, जिसमें वितरण से बाहर का पता लगाना, अस्पष्टता परिमाणीकरण और प्रश्नोत्तर कार्य शामिल हैं
डिजाइन प्रतिमान: अनिश्चितता जागरूकता को मॉडल डिजाइन के पहले सिद्धांत के रूप में बढ़ावा देना
मुख्य खोज: मॉडल विभिन्न प्रकार के इनपुट को स्पष्ट रूप से अलग कर सकता है, प्रशिक्षण वितरण से जितना अधिक विचलित डेटा के लिए उतनी ही अधिक अनिश्चितता उत्पन्न करता है।
अस्पष्टता परिमाणीकरण: आंतरिक रूप से अस्पष्ट इनपुट के लिए, मॉडल बड़े credal सेट (उच्च एंट्रॉपी) उत्पन्न करता है
उत्तर न दे सकने वाले प्रश्नों का हैंडलिंग: प्रश्नोत्तर बेंचमार्क में, आंतरिक अनिश्चितता माप के माध्यम से परित्याग चुनना, आत्मविश्वास संबंधी त्रुटियों को काफी हद तक कम करता है
पीढ़ी कार्य सत्यापन अपर्याप्त: मुख्य रूप से विभेदक कार्यों पर सत्यापित, खुली पीढ़ी कार्यों पर प्रभाव अन्वेषण के लिए प्रतीक्षा कर रहा है
अनिश्चितता उपयोग सीमित: वर्तमान में मुख्य रूप से आउटपुट परत निर्णय मेट्रिक के रूप में उपयोग किया जाता है, परत-स्तरीय अनिश्चितता जानकारी का पूर्ण उपयोग नहीं किया गया है
बड़े पैमाने पर स्केलेबिलिटी: 100B+ पैरामीटर मॉडल पर स्केलेबिलिटी को आगे सत्यापन की आवश्यकता है
Vaswani et al. 2017: Attention is All You Need (Transformer मूल पेपर)
Sensoy et al. 2018: Evidential Deep Learning (साक्ष्य गहन शिक्षा सैद्धांतिक आधार)
Brown et al. 2020: GPT-3 पेपर (बड़े भाषा मॉडल आधार)
Lewis et al. 2020: RAG पुनः प्राप्ति-संवर्धित पीढ़ी
Huang et al. 2025: भ्रम समस्या सर्वेक्षण
समग्र मूल्यांकन: यह सैद्धांतिक अंतर्दृष्टि और तकनीकी नवाचार दोनों के संदर्भ में एक उत्कृष्ट पेपर है। लेखकों ने LLM भ्रम समस्या के आर्किटेक्चर मूल कारण की पहचान की है और एक सुंदर समाधान प्रस्तावित किया है। हालांकि बड़े पैमाने पर सत्यापन और सैद्धांतिक विश्लेषण के संदर्भ में सुधार की गुंजाइश है, लेकिन इसके मूल विचार और विधि महत्वपूर्ण शैक्षणिक मूल्य और व्यावहारिक क्षमता रखते हैं, जो अधिक विश्वसनीय AI प्रणाली निर्माण के लिए महत्वपूर्ण तकनीकी आधार प्रदान करते हैं।