2025-11-13T13:25:11.216435

Credal Transformer: A Principled Approach for Quantifying and Mitigating Hallucinations in Large Language Models

Ji, Song, Huang

Large Language Models (LLMs) hallucinate, generating factually incorrect yet confident assertions. We argue this stems from the Transformer's Softmax function, which creates "Artificial Certainty" by collapsing ambiguous attention scores into a single probability distribution, discarding uncertainty information at each layer. To fix this, we introduce the Credal Transformer, which replaces standard attention with a Credal Attention Mechanism (CAM) based on evidential theory. CAM produces a "credal set" (a set of distributions) instead of a single attention vector, with the set's size directly measuring model uncertainty. We implement this by re-conceptualizing attention scores as evidence masses for a Dirichlet distribution: sufficient evidence recovers standard attention, while insufficient evidence yields a diffuse distribution, representing ambiguity. Empirically, the Credal Transformer identifies out-of-distribution inputs, quantifies ambiguity, and significantly reduces confident errors on unanswerable questions by abstaining. Our contribution is a new architecture to mitigate hallucinations and a design paradigm that integrates uncertainty quantification directly into the model, providing a foundation for more reliable AI.

academic

Credal Transformer: बड़े भाषा मॉडल में भ्रम को मापने और कम करने के लिए एक सिद्धांतवादी दृष्टिकोण

मूल जानकारी

पेपर ID: 2510.12137
शीर्षक: Credal Transformer: A Principled Approach for Quantifying and Mitigating Hallucinations in Large Language Models
लेखक: Shihao Ji (Zaozhuang No.28 Middle School), Zihui Song (Tengzhou No.1 High School), Jiajie Huang (Xi'an Jiaotong University)
वर्गीकरण: cs.CL, cs.AI
प्रकाशन समय/सम्मेलन: 39वां तंत्रिका सूचना प्रसंस्करण प्रणाली सम्मेलन (NeurIPS 2025) कार्यशाला: विश्वसनीय ML अविश्वसनीय डेटा से
पेपर लिंक: https://arxiv.org/abs/2510.12137v1

सारांश

बड़े भाषा मॉडल (LLMs) में भ्रम की समस्या होती है, जो तथ्यात्मक रूप से गलत लेकिन उच्च आत्मविश्वास वाले दावे उत्पन्न करते हैं। यह पेपर तर्क देता है कि यह Transformer के Softmax फ़ंक्शन से उत्पन्न होता है, जो अस्पष्ट ध्यान स्कोर को एकल संभाव्यता वितरण में परिवर्तित करके "कृत्रिम निश्चितता" बनाता है, जिससे प्रत्येक परत की अनिश्चितता की जानकारी खो जाती है। इस समस्या को हल करने के लिए, यह पेपर Credal Transformer प्रस्तुत करता है, जो मानक ध्यान को साक्ष्य सिद्धांत पर आधारित Credal ध्यान तंत्र (CAM) से बदलता है। CAM एकल ध्यान वेक्टर के बजाय "credal सेट" (वितरण का सेट) उत्पन्न करता है, जहां सेट का आकार सीधे मॉडल की अनिश्चितता को मापता है। इसे ध्यान स्कोर को Dirichlet वितरण के साक्ष्य गुणवत्ता के रूप में पुनः संकल्पित करके प्राप्त किया जाता है: पर्याप्त साक्ष्य मानक ध्यान को पुनः प्राप्त करता है, अपर्याप्त साक्ष्य विस्तृत वितरण उत्पन्न करता है, जो अस्पष्टता को दर्शाता है। प्रयोग दर्शाते हैं कि Credal Transformer वितरण से बाहर के इनपुट की पहचान कर सकता है, अस्पष्टता को मापता है, और परित्याग के माध्यम से उन प्रश्नों के उत्तर न दे सकने वाले आत्मविश्वास संबंधी त्रुटियों को काफी हद तक कम करता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

मूल समस्या

यह अनुसंधान बड़े भाषा मॉडल में भ्रम की समस्या को हल करने का लक्ष्य रखता है - मॉडल तथ्यात्मक रूप से गलत लेकिन उच्च आत्मविश्वास प्रदर्शित करने वाली सामग्री उत्पन्न करता है। यह घटना उच्च जोखिम वाले क्षेत्रों में LLMs के तैनाती अनुप्रयोग को गंभीरता से सीमित करती है।

समस्या की महत्ता

व्यावहारिक बाधा: भ्रम की समस्या चिकित्सा, कानून, वित्त आदि उच्च जोखिम वाले क्षेत्रों में LLMs के अनुप्रयोग को रोकती है
विश्वास संकट: उपयोगकर्ताओं को मॉडल आउटपुट की विश्वसनीयता का निर्धारण करना कठिन होता है, जो AI प्रणाली की विश्वसनीयता को प्रभावित करता है
सुरक्षा जोखिम: गलत लेकिन उच्च आत्मविश्वास वाले आउटपुट गंभीर निर्णय त्रुटियों का कारण बन सकते हैं

मौजूदा विधियों की सीमाएं

पारंपरिक समाधान मुख्य रूप से शामिल हैं:

बाहरी हस्तक्षेप विधियां: पुनः प्राप्ति-संवर्धित पीढ़ी (RAG), बाहरी ज्ञान आधार तथ्य जांच, डिकोडिंग प्रक्रिया संशोधन
सीमाएं: LLM को ब्लैक बॉक्स के रूप में मानते हैं, आर्किटेक्चर स्तर पर आंतरिक अत्यधिक आत्मविश्वास की समस्या को हल नहीं करते

अनुसंधान प्रेरणा

लेखकों ने एक मौलिक परिकल्पना प्रस्तुत की: भ्रम की समस्या केवल डेटा समस्या नहीं है, बल्कि Transformer आर्किटेक्चर से ही उत्पन्न होती है, विशेष रूप से ध्यान तंत्र में Softmax फ़ंक्शन द्वारा बनाई गई "कृत्रिम निश्चितता" से।

मूल योगदान

सैद्धांतिक अंतर्दृष्टि: ध्यान तंत्र में Softmax फ़ंक्शन द्वारा बनाई गई "कृत्रिम निश्चितता" को भ्रम का आर्किटेक्चर कारण के रूप में पहचानना
नया आर्किटेक्चर: Credal Transformer प्रस्तावित करना, जो अनिश्चितता परिमाणीकरण को मॉडल के आंतरिक घटक के रूप में एकीकृत करता है
तकनीकी नवाचार: साक्ष्य सिद्धांत पर आधारित Credal ध्यान तंत्र (CAM) डिजाइन करना, जो संज्ञानात्मक अनिश्चितता को प्रतिनिधित्व और मापता है
अनुभवजन्य सत्यापन: कई कार्यों पर विधि की प्रभावशीलता को सत्यापित करना, जिसमें वितरण से बाहर का पता लगाना, अस्पष्टता परिमाणीकरण और प्रश्नोत्तर कार्य शामिल हैं
डिजाइन प्रतिमान: अनिश्चितता जागरूकता को मॉडल डिजाइन के पहले सिद्धांत के रूप में बढ़ावा देना

विधि विवरण

कार्य परिभाषा

मानक Transformer के निर्धारक ध्यान तंत्र को एक ऐसे तंत्र से बदलना जो अनिश्चितता का प्रतिनिधित्व और परिमाणीकरण कर सके, जिससे मॉडल निम्नलिखित कर सके:

इनपुट की अस्पष्टता की पहचान करना
अपनी संज्ञानात्मक अनिश्चितता को मापना
पर्याप्त साक्ष्य की कमी में परित्याग करना

मॉडल आर्किटेक्चर

मानक ध्यान तंत्र की समस्या

मानक ध्यान गणना सूत्र:

ai = Softmax(si) जहां aij = exp(sij) / Σ(k=1 से L) exp(sik)

समस्या: Softmax मॉडल को निर्धारक विकल्प करने के लिए बाध्य करता है, भले ही स्कोर अस्पष्ट हों।

Credal ध्यान तंत्र (CAM)

मूल विचार: ध्यान स्कोर को साक्ष्य के रूप में पुनः संकल्पित करना, Dirichlet वितरण को पैरामीटर करने के लिए।

कार्यान्वयन चरण:

साक्ष्य रूपांतरण:

eij = exp(sij)  // मूल स्कोर को गैर-नकारात्मक साक्ष्य में परिवर्तित करना

Dirichlet पैरामीटरकरण:

αij = eij + 1  // सांद्रता पैरामीटर

अपेक्षित ध्यान भार:
```
âij = E[pij] = αij / αi0
```
जहां αi0 = Σ(k=1 से L) αik

अनिश्चितता परिमाणीकरण:

Ui = L / αi0  // रिक्तता (vacuity) संज्ञानात्मक अनिश्चितता को मापता है

तकनीकी नवाचार बिंदु

साक्ष्य सिद्धांत एकीकरण: पहली बार साक्ष्य गहन शिक्षण सिद्धांत को ध्यान तंत्र के मूल में लागू करना
विभेदक अनिश्चितता: प्रत्यक्ष, विभेदक अनिश्चितता माप प्रदान करना
अनुकूली व्यवहार:
- उच्च साक्ष्य → तीव्र वितरण → मानक ध्यान को पुनः प्राप्त करना
- कम साक्ष्य → विस्तृत वितरण → स्पष्ट रूप से अस्पष्टता का प्रतिनिधित्व करना
अंत से अंत तक प्रशिक्षण: पूरी आर्किटेक्चर विभेदक रहती है, मानक अनुकूलन तकनीकों के साथ प्रशिक्षित की जा सकती है

प्रयोग सेटअप

डेटासेट

सिंथेटिक डेटासेट (वितरण से बाहर का पता लगाने के लिए):

वितरण के भीतर (ID): निश्चित शोर पैटर्न द्वारा उत्पन्न अनुक्रम
वितरण से बाहर (OOD): समान रूप से यादृच्छिक वितरण द्वारा उत्पन्न अनुक्रम
अर्थहीन डेटा: शुद्ध शोर अनुक्रम

मूल्यांकन मेट्रिक्स

अनिश्चितता स्कोर: मॉडल के अंतिम परत द्वारा उत्पादित औसत अनिश्चितता
कम्प्यूटेशनल दक्षता मेट्रिक्स: GFLOPs, अनुमान समय, प्रशिक्षण समय

तुलनात्मक विधियां

मानक Transformer (Softmax ध्यान का उपयोग करके)

कार्यान्वयन विवरण

ID डेटा पर Credal Transformer वर्गीकारक को प्रशिक्षित करना
परीक्षण समय में तीन प्रकार के डेटा को इनपुट करना, अनिश्चितता आउटपुट को मापना

प्रयोग परिणाम

मुख्य परिणाम

वितरण से बाहर का पता लगाने का प्रयोग

डेटा प्रकार	औसत अनिश्चितता स्कोर
वितरण के भीतर (ID)	0.0415
वितरण से बाहर (OOD)	0.1378
अर्थहीन डेटा	0.1953

मुख्य खोज: मॉडल विभिन्न प्रकार के इनपुट को स्पष्ट रूप से अलग कर सकता है, प्रशिक्षण वितरण से जितना अधिक विचलित डेटा के लिए उतनी ही अधिक अनिश्चितता उत्पन्न करता है।

कम्प्यूटेशनल दक्षता तुलना

मेट्रिक	मानक ध्यान	Credal ध्यान (CAM)
GFLOPs	25.77 G	25.77 G (+0%)
अनुमान समय ओवरहेड	आधार रेखा	+4.4%
प्रशिक्षण समय ओवरहेड	आधार रेखा	+11.6%

महत्वपूर्ण निष्कर्ष: CAM लगभग कोई कम्प्यूटेशनल लागत बढ़ाए बिना अनिश्चितता परिमाणीकरण क्षमता प्राप्त करता है।

अन्य क्षमता सत्यापन

अस्पष्टता परिमाणीकरण: आंतरिक रूप से अस्पष्ट इनपुट के लिए, मॉडल बड़े credal सेट (उच्च एंट्रॉपी) उत्पन्न करता है
उत्तर न दे सकने वाले प्रश्नों का हैंडलिंग: प्रश्नोत्तर बेंचमार्क में, आंतरिक अनिश्चितता माप के माध्यम से परित्याग चुनना, आत्मविश्वास संबंधी त्रुटियों को काफी हद तक कम करता है

प्रयोग निष्कर्ष

आर्किटेक्चर स्तर का समाधान प्रभावी: बाहरी हस्तक्षेप की तुलना में, ध्यान तंत्र को सीधे संशोधित करना समस्या को अधिक मौलिक रूप से हल करता है
अनिश्चितता डेटा गुणवत्ता से संबंधित: मॉडल की अनिश्चितता इनपुट के प्रशिक्षण वितरण से विचलन की डिग्री से अत्यधिक संबंधित है
कम्प्यूटेशनल दक्षता स्वीकार्य: न्यूनतम ओवरहेड विधि को व्यावहारिक मूल्य प्रदान करता है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

मूल कारण की पहचान: Softmax फ़ंक्शन की "कृत्रिम निश्चितता" भ्रम समस्या का आर्किटेक्चर मूल है
प्रभावी समाधान: Credal Transformer credal सेट के माध्यम से प्रभावी रूप से अनिश्चितता का प्रतिनिधित्व और परिमाणीकरण करता है
व्यावहारिकता सत्यापन: विधि कई कार्यों पर उत्कृष्ट प्रदर्शन करती है, कम्प्यूटेशनल ओवरहेड स्वीकार्य है

सीमाएं

पीढ़ी कार्य सत्यापन अपर्याप्त: मुख्य रूप से विभेदक कार्यों पर सत्यापित, खुली पीढ़ी कार्यों पर प्रभाव अन्वेषण के लिए प्रतीक्षा कर रहा है
अनिश्चितता उपयोग सीमित: वर्तमान में मुख्य रूप से आउटपुट परत निर्णय मेट्रिक के रूप में उपयोग किया जाता है, परत-स्तरीय अनिश्चितता जानकारी का पूर्ण उपयोग नहीं किया गया है
बड़े पैमाने पर स्केलेबिलिटी: 100B+ पैरामीटर मॉडल पर स्केलेबिलिटी को आगे सत्यापन की आवश्यकता है

भविष्य की दिशाएं

गतिशील डिकोडिंग मार्गदर्शन: CAM की अनिश्चितता संकेत का उपयोग करके पीढ़ी प्रक्रिया को गतिशील रूप से निर्देशित करना
परत-स्तरीय जानकारी मॉड्यूलेशन: परत-स्तरीय अनिश्चितता के आधार पर नेटवर्क के भीतर जानकारी प्रवाह को गतिशील रूप से समायोजित करना
बड़े पैमाने पर सत्यापन: अति-बड़े पैमाने के मॉडल और वितरित प्रशिक्षण सेटिंग में सत्यापन

गहन मूल्यांकन

शक्तियां

गहन सैद्धांतिक योगदान:
- भ्रम समस्या के आर्किटेक्चर मूल कारण का सिद्धांत प्रस्तावित करना
- साक्ष्य सिद्धांत को ध्यान तंत्र में सुंदरता से एकीकृत करना
विधि डिजाइन सुंदर:
- अंत से अंत तक विभेदकता बनाए रखना
- मानक ध्यान में प्राकृतिक अवनति (उच्च साक्ष्य पर)
- प्रत्यक्ष अनिश्चितता माप प्रदान करना
पर्याप्त प्रयोग सत्यापन:
- वितरण से बाहर का पता लगाना, अस्पष्टता परिमाणीकरण, प्रश्नोत्तर कार्य शामिल
- विस्तृत कम्प्यूटेशनल दक्षता विश्लेषण
- सांख्यिकीय रूप से सम्मोहक परिणाम
उच्च व्यावहारिक मूल्य:
- न्यूनतम कम्प्यूटेशनल ओवरहेड
- मौजूदा Transformer आर्किटेक्चर को सीधे प्रतिस्थापित कर सकता है
- विश्वसनीय AI निर्माण के लिए आर्किटेक्चर आधार प्रदान करता है

कमियां

सैद्धांतिक विश्लेषण पर्याप्त गहन नहीं:
- credal सेट के आकार और वास्तविक अनिश्चितता के संबंध का सैद्धांतिक विश्लेषण अभाव
- अभिसरण या स्थिरता के लिए सैद्धांतिक गारंटी प्रदान नहीं की गई
प्रयोग की सीमित सीमा:
- मुख्य रूप से छोटे पैमाने, सिंथेटिक डेटा पर सत्यापित
- वास्तविक बड़े पैमाने के LLM पर सत्यापन अभाव
- पीढ़ी कार्य सत्यापन अपर्याप्त
तुलनात्मक प्रयोग पूर्ण नहीं:
- अन्य अनिश्चितता परिमाणीकरण विधियों के साथ तुलना नहीं
- मौजूदा भ्रम शमन विधियों के साथ प्रत्यक्ष तुलना अभाव
कार्यान्वयन विवरण पर्याप्त विस्तृत नहीं:
- प्रशिक्षण रणनीति, हाइपरपैरामीटर चयन आदि विवरण अपर्याप्त
- पुनरुत्पादनीयता प्रभावित हो सकती है

प्रभाव

शैक्षणिक प्रभाव:
- नया अनुसंधान प्रतिमान प्रदान करता है: आर्किटेक्चर-स्तरीय अनिश्चितता परिमाणीकरण
- बाद के संबंधित अनुसंधान के लिए सैद्धांतिक आधार स्थापित करता है
- अधिक ध्यान तंत्र सुधार कार्य को प्रेरित कर सकता है
व्यावहारिक मूल्य:
- विश्वसनीय AI प्रणाली निर्माण के लिए ठोस तकनीकी पथ प्रदान करता है
- उच्च जोखिम वाले अनुप्रयोग परिदृश्यों में महत्वपूर्ण मूल्य
- कम्प्यूटेशनल दक्षता औद्योगिक अनुप्रयोग क्षमता प्रदान करती है
पद्धति विज्ञान योगदान:
- विश्वसनीयता को मॉडल डिजाइन के पहले सिद्धांत के रूप में बढ़ावा देता है
- सिद्धांत-संचालित आर्किटेक्चर डिजाइन विधि प्रदर्शित करता है

लागू परिदृश्य

उच्च विश्वसनीयता आवश्यकता परिदृश्य: चिकित्सा निदान, कानूनी परामर्श, वित्तीय विश्लेषण आदि
अनिश्चितता परिमाणीकरण की आवश्यकता वाले अनुप्रयोग: वैज्ञानिक अनुसंधान, निर्णय समर्थन प्रणाली
वितरण से बाहर का पता लगाने की आवश्यकता: सुरक्षा-महत्वपूर्ण प्रणाली, विसंगति पहचान
इंटरैक्टिव AI प्रणाली: "मुझे नहीं पता" व्यक्त करने की आवश्यकता वाली संवाद प्रणाली

संदर्भ

पेपर में मुख्य संदर्भ शामिल हैं:

Vaswani et al. 2017: Attention is All You Need (Transformer मूल पेपर)
Sensoy et al. 2018: Evidential Deep Learning (साक्ष्य गहन शिक्षा सैद्धांतिक आधार)
Brown et al. 2020: GPT-3 पेपर (बड़े भाषा मॉडल आधार)
Lewis et al. 2020: RAG पुनः प्राप्ति-संवर्धित पीढ़ी
Huang et al. 2025: भ्रम समस्या सर्वेक्षण

समग्र मूल्यांकन: यह सैद्धांतिक अंतर्दृष्टि और तकनीकी नवाचार दोनों के संदर्भ में एक उत्कृष्ट पेपर है। लेखकों ने LLM भ्रम समस्या के आर्किटेक्चर मूल कारण की पहचान की है और एक सुंदर समाधान प्रस्तावित किया है। हालांकि बड़े पैमाने पर सत्यापन और सैद्धांतिक विश्लेषण के संदर्भ में सुधार की गुंजाइश है, लेकिन इसके मूल विचार और विधि महत्वपूर्ण शैक्षणिक मूल्य और व्यावहारिक क्षमता रखते हैं, जो अधिक विश्वसनीय AI प्रणाली निर्माण के लिए महत्वपूर्ण तकनीकी आधार प्रदान करते हैं।