Credal Transformer: A Principled Approach for Quantifying and Mitigating Hallucinations in Large Language Models
Ji, Song, Huang
Large Language Models (LLMs) hallucinate, generating factually incorrect yet confident assertions. We argue this stems from the Transformer's Softmax function, which creates "Artificial Certainty" by collapsing ambiguous attention scores into a single probability distribution, discarding uncertainty information at each layer. To fix this, we introduce the Credal Transformer, which replaces standard attention with a Credal Attention Mechanism (CAM) based on evidential theory. CAM produces a "credal set" (a set of distributions) instead of a single attention vector, with the set's size directly measuring model uncertainty. We implement this by re-conceptualizing attention scores as evidence masses for a Dirichlet distribution: sufficient evidence recovers standard attention, while insufficient evidence yields a diffuse distribution, representing ambiguity. Empirically, the Credal Transformer identifies out-of-distribution inputs, quantifies ambiguity, and significantly reduces confident errors on unanswerable questions by abstaining. Our contribution is a new architecture to mitigate hallucinations and a design paradigm that integrates uncertainty quantification directly into the model, providing a foundation for more reliable AI.
academic
Transformateur Credal : Une Approche Principielle pour Quantifier et Atténuer les Hallucinations dans les Grands Modèles de Langage
Titre : Credal Transformer: A Principled Approach for Quantifying and Mitigating Hallucinations in Large Language Models
Auteurs : Shihao Ji (Zaozhuang No.28 Middle School), Zihui Song (Tengzhou No.1 High School), Jiajie Huang (Xi'an Jiaotong University)
Classification : cs.CL, cs.AI
Date de publication/Conférence : 39ème Conférence sur les Systèmes de Traitement Neuronal de l'Information (NeurIPS 2025) Atelier : Apprentissage Fiable à partir de Données Non Fiables
Les grands modèles de langage (LLMs) souffrent du problème des hallucinations, générant des assertions factuellement incorrectes mais avec une confiance élevée. Cet article soutient que ce problème provient de la fonction Softmax du Transformateur, qui crée une « certitude artificielle » en réduisant les scores d'attention ambigus à une seule distribution de probabilité, perdant ainsi les informations d'incertitude à chaque couche. Pour résoudre ce problème, l'article introduit le Transformateur Credal, remplaçant le mécanisme d'attention standard par un mécanisme d'attention Credal (CAM) basé sur la théorie des preuves. Le CAM produit des « ensembles credals » (ensembles de distributions) plutôt qu'un seul vecteur d'attention, la taille de l'ensemble mesurant directement l'incertitude du modèle. Ceci est réalisé en reconceptualisant les scores d'attention comme des qualités de preuves pour les distributions de Dirichlet : des preuves suffisantes récupèrent l'attention standard, tandis que des preuves insuffisantes produisent des distributions diffuses, représentant l'ambiguïté. Les expériences montrent que le Transformateur Credal peut identifier les entrées hors distribution, quantifier l'ambiguïté, et réduire considérablement les erreurs de confiance sur les questions sans réponse par abstention.
Cette recherche vise à résoudre le problème des hallucinations dans les grands modèles de langage — le phénomène où les modèles génèrent du contenu factuellement incorrect tout en affichant une confiance élevée. Ce phénomène limite sérieusement le déploiement des LLMs dans les domaines à haut risque.
Obstacle à l'utilité pratique : Les hallucinations empêchent l'application des LLMs dans les domaines à haut risque tels que la médecine, le droit et la finance
Crise de confiance : Les utilisateurs ont du mal à évaluer la fiabilité des résultats du modèle, affectant la crédibilité des systèmes d'IA
Risques de sécurité : Les résultats erronés mais confiants peuvent entraîner des erreurs décisionnelles graves
Les solutions traditionnelles comprennent principalement :
Méthodes d'intervention externe : Génération augmentée par récupération (RAG), vérification des faits par base de connaissances externe, modification du processus de décodage
Limitations : Traiter le LLM comme une boîte noire, sans résoudre le problème fondamental de surconfiance au niveau architectural
Les auteurs proposent une hypothèse fondamentale : le problème des hallucinations n'est pas seulement un problème de données, mais provient de l'architecture Transformer elle-même, en particulier de la fonction Softmax dans le mécanisme d'attention qui crée une « certitude artificielle ».
Perspicacité théorique : Identification de la fonction Softmax dans le mécanisme d'attention comme créant une « certitude artificielle » — cause architecturale des hallucinations
Nouvelle architecture : Proposition du Transformateur Credal, intégrant la quantification de l'incertitude comme composant intrinsèque du modèle
Innovation technique : Conception du mécanisme d'attention Credal (CAM) basé sur la théorie des preuves, capable de représenter et quantifier l'incertitude épistémique
Vérification empirique : Validation de l'efficacité de la méthode sur plusieurs tâches, incluant la détection hors distribution, la quantification de l'ambiguïté et les tâches de questions-réponses
Paradigme de conception : Promotion de la conscience de l'incertitude comme premier principe de la conception de modèles
Remplacer le mécanisme d'attention déterministe du Transformateur standard par un mécanisme capable de représenter et quantifier l'incertitude, permettant au modèle de :
Identifier l'ambiguïté des entrées
Quantifier sa propre incertitude épistémique
S'abstenir lorsqu'il manque de preuves suffisantes
Intégration de la théorie des preuves : Application pour la première fois des principes de l'apprentissage profond par preuves au cœur du mécanisme d'attention
Incertitude différentiable : Fourniture d'une mesure d'incertitude directe et différentiable
Comportement adaptatif :
Preuves élevées → Distribution pointue → Récupération de l'attention standard
Preuves faibles → Distribution diffuse → Représentation explicite de l'ambiguïté
Entraînement bout en bout : L'architecture entière reste différentiable, entraînable avec des techniques d'optimisation standard
Découvertes clés : Le modèle peut clairement distinguer différents types d'entrées, produisant une incertitude plus élevée pour les données s'écartant davantage de la distribution d'entraînement.
Quantification de l'ambiguïté : Pour les entrées intrinsèquement ambiguës, le modèle produit des ensembles credals plus grands (entropie élevée)
Traitement des questions sans réponse : Dans les tests de référence de questions-réponses, l'abstention basée sur la mesure d'incertitude interne réduit considérablement les erreurs de confiance
Efficacité de la solution architecturale : Comparée aux interventions externes, la modification directe du mécanisme d'attention résout plus fondamentalement le problème
Relation entre incertitude et qualité des données : L'incertitude du modèle est hautement corrélée au degré d'écart de l'entrée par rapport à la distribution d'entraînement
Efficacité computationnelle acceptable : La surcharge minimale rend la méthode pratiquement viable
Première intégration de la quantification de l'incertitude au cœur de l'architecture Transformer, plutôt que comme outil externe ou étape de post-traitement.
Identification de la cause fondamentale : La « certitude artificielle » de la fonction Softmax est la racine architecturale du problème des hallucinations
Solution efficace : Le Transformateur Credal représente et quantifie efficacement l'incertitude via les ensembles credals
Vérification de la praticité : La méthode fonctionne bien sur plusieurs tâches avec une surcharge computationnelle acceptable
Vérification insuffisante sur les tâches de génération : Principalement vérifiée sur les tâches discriminantes, l'efficacité sur les tâches de génération ouverte reste à explorer
Utilisation limitée de l'incertitude : Actuellement utilisée principalement comme indicateur de décision au niveau de sortie, sans exploitation complète des informations d'incertitude hiérarchiques
Scalabilité à grande échelle : La scalabilité sur les modèles avec 100B+ paramètres nécessite une vérification supplémentaire
Vaswani et al. 2017 : Attention is All You Need (article original du Transformateur)
Sensoy et al. 2018 : Evidential Deep Learning (base théorique de l'apprentissage profond par preuves)
Brown et al. 2020 : Article GPT-3 (fondation des grands modèles de langage)
Lewis et al. 2020 : Génération augmentée par récupération
Huang et al. 2025 : Synthèse du problème des hallucinations
Évaluation globale : Cet article excelle à la fois dans les perspicacies théoriques et l'innovation technique. Les auteurs ont identifié la cause architecturale fondamentale du problème des hallucinations dans les LLMs et proposé une solution élégante. Bien qu'il y ait de la place pour l'amélioration dans la vérification à grande échelle et l'analyse théorique, l'idée centrale et la méthode possèdent une valeur académique importante et un potentiel pratique considérable, fournissant une base technologique importante pour la construction de systèmes d'IA plus fiables.