2025-11-13T13:25:11.216435

Credal Transformer: A Principled Approach for Quantifying and Mitigating Hallucinations in Large Language Models

Ji, Song, Huang

Large Language Models (LLMs) hallucinate, generating factually incorrect yet confident assertions. We argue this stems from the Transformer's Softmax function, which creates "Artificial Certainty" by collapsing ambiguous attention scores into a single probability distribution, discarding uncertainty information at each layer. To fix this, we introduce the Credal Transformer, which replaces standard attention with a Credal Attention Mechanism (CAM) based on evidential theory. CAM produces a "credal set" (a set of distributions) instead of a single attention vector, with the set's size directly measuring model uncertainty. We implement this by re-conceptualizing attention scores as evidence masses for a Dirichlet distribution: sufficient evidence recovers standard attention, while insufficient evidence yields a diffuse distribution, representing ambiguity. Empirically, the Credal Transformer identifies out-of-distribution inputs, quantifies ambiguity, and significantly reduces confident errors on unanswerable questions by abstaining. Our contribution is a new architecture to mitigate hallucinations and a design paradigm that integrates uncertainty quantification directly into the model, providing a foundation for more reliable AI.

academic

Transformateur Credal : Une Approche Principielle pour Quantifier et Atténuer les Hallucinations dans les Grands Modèles de Langage

Informations Fondamentales

ID de l'article : 2510.12137
Titre : Credal Transformer: A Principled Approach for Quantifying and Mitigating Hallucinations in Large Language Models
Auteurs : Shihao Ji (Zaozhuang No.28 Middle School), Zihui Song (Tengzhou No.1 High School), Jiajie Huang (Xi'an Jiaotong University)
Classification : cs.CL, cs.AI
Date de publication/Conférence : 39ème Conférence sur les Systèmes de Traitement Neuronal de l'Information (NeurIPS 2025) Atelier : Apprentissage Fiable à partir de Données Non Fiables
Lien de l'article : https://arxiv.org/abs/2510.12137v1

Résumé

Les grands modèles de langage (LLMs) souffrent du problème des hallucinations, générant des assertions factuellement incorrectes mais avec une confiance élevée. Cet article soutient que ce problème provient de la fonction Softmax du Transformateur, qui crée une « certitude artificielle » en réduisant les scores d'attention ambigus à une seule distribution de probabilité, perdant ainsi les informations d'incertitude à chaque couche. Pour résoudre ce problème, l'article introduit le Transformateur Credal, remplaçant le mécanisme d'attention standard par un mécanisme d'attention Credal (CAM) basé sur la théorie des preuves. Le CAM produit des « ensembles credals » (ensembles de distributions) plutôt qu'un seul vecteur d'attention, la taille de l'ensemble mesurant directement l'incertitude du modèle. Ceci est réalisé en reconceptualisant les scores d'attention comme des qualités de preuves pour les distributions de Dirichlet : des preuves suffisantes récupèrent l'attention standard, tandis que des preuves insuffisantes produisent des distributions diffuses, représentant l'ambiguïté. Les expériences montrent que le Transformateur Credal peut identifier les entrées hors distribution, quantifier l'ambiguïté, et réduire considérablement les erreurs de confiance sur les questions sans réponse par abstention.

Contexte et Motivation de la Recherche

Problème Central

Cette recherche vise à résoudre le problème des hallucinations dans les grands modèles de langage — le phénomène où les modèles génèrent du contenu factuellement incorrect tout en affichant une confiance élevée. Ce phénomène limite sérieusement le déploiement des LLMs dans les domaines à haut risque.

Importance du Problème

Obstacle à l'utilité pratique : Les hallucinations empêchent l'application des LLMs dans les domaines à haut risque tels que la médecine, le droit et la finance
Crise de confiance : Les utilisateurs ont du mal à évaluer la fiabilité des résultats du modèle, affectant la crédibilité des systèmes d'IA
Risques de sécurité : Les résultats erronés mais confiants peuvent entraîner des erreurs décisionnelles graves

Limitations des Approches Existantes

Les solutions traditionnelles comprennent principalement :

Méthodes d'intervention externe : Génération augmentée par récupération (RAG), vérification des faits par base de connaissances externe, modification du processus de décodage
Limitations : Traiter le LLM comme une boîte noire, sans résoudre le problème fondamental de surconfiance au niveau architectural

Motivation de la Recherche

Les auteurs proposent une hypothèse fondamentale : le problème des hallucinations n'est pas seulement un problème de données, mais provient de l'architecture Transformer elle-même, en particulier de la fonction Softmax dans le mécanisme d'attention qui crée une « certitude artificielle ».

Contributions Principales

Perspicacité théorique : Identification de la fonction Softmax dans le mécanisme d'attention comme créant une « certitude artificielle » — cause architecturale des hallucinations
Nouvelle architecture : Proposition du Transformateur Credal, intégrant la quantification de l'incertitude comme composant intrinsèque du modèle
Innovation technique : Conception du mécanisme d'attention Credal (CAM) basé sur la théorie des preuves, capable de représenter et quantifier l'incertitude épistémique
Vérification empirique : Validation de l'efficacité de la méthode sur plusieurs tâches, incluant la détection hors distribution, la quantification de l'ambiguïté et les tâches de questions-réponses
Paradigme de conception : Promotion de la conscience de l'incertitude comme premier principe de la conception de modèles

Explication Détaillée de la Méthode

Définition de la Tâche

Remplacer le mécanisme d'attention déterministe du Transformateur standard par un mécanisme capable de représenter et quantifier l'incertitude, permettant au modèle de :

Identifier l'ambiguïté des entrées
Quantifier sa propre incertitude épistémique
S'abstenir lorsqu'il manque de preuves suffisantes

Architecture du Modèle

Problèmes du Mécanisme d'Attention Standard

Formule de calcul d'attention standard :

ai = Softmax(si) où aij = exp(sij) / Σ(k=1 à L) exp(sik)

Problème : Softmax force le modèle à faire un choix déterministe, même lorsque les scores sont ambigus.

Mécanisme d'Attention Credal (CAM)

Idée centrale : Reconceptualiser les scores d'attention comme des preuves pour paramétrer une distribution de Dirichlet.

Étapes de mise en œuvre :

Transformation des preuves :

eij = exp(sij)  // Conversion des scores bruts en preuves non négatives

Paramétrisation de Dirichlet :

αij = eij + 1  // Paramètre de concentration

Poids d'attention attendus :
```
âij = E[pij] = αij / αi0
```
où αi0 = Σ(k=1 à L) αik

Quantification de l'incertitude :

Ui = L / αi0  // Vacuité mesurant l'incertitude épistémique

Points d'Innovation Technique

Intégration de la théorie des preuves : Application pour la première fois des principes de l'apprentissage profond par preuves au cœur du mécanisme d'attention
Incertitude différentiable : Fourniture d'une mesure d'incertitude directe et différentiable
Comportement adaptatif :
- Preuves élevées → Distribution pointue → Récupération de l'attention standard
- Preuves faibles → Distribution diffuse → Représentation explicite de l'ambiguïté
Entraînement bout en bout : L'architecture entière reste différentiable, entraînable avec des techniques d'optimisation standard

Configuration Expérimentale

Ensembles de Données

Ensemble de données synthétique (pour la détection hors distribution) :

Distribution intra (ID) : Séquences générées avec motif de bruit fixe
Distribution extra (OOD) : Séquences générées avec distribution aléatoire uniforme
Données sans sens : Séquences de bruit pur

Métriques d'Évaluation

Score d'incertitude : Incertitude moyenne produite par la couche finale du modèle
Métriques d'efficacité computationnelle : GFLOPs, temps d'inférence, temps d'entraînement

Méthodes de Comparaison

Transformateur standard (utilisant l'attention Softmax)

Détails de Mise en Œuvre

Entraînement du classificateur Transformateur Credal sur les données ID
Test avec trois types de données, mesure de la sortie d'incertitude

Résultats Expérimentaux

Résultats Principaux

Expérience de Détection Hors Distribution

Type de données	Score d'incertitude moyen
Distribution intra (ID)	0,0415
Distribution extra (OOD)	0,1378
Données sans sens	0,1953

Découvertes clés : Le modèle peut clairement distinguer différents types d'entrées, produisant une incertitude plus élevée pour les données s'écartant davantage de la distribution d'entraînement.

Comparaison d'Efficacité Computationnelle

Métrique	Attention standard	Attention Credal (CAM)
GFLOPs	25,77 G	25,77 G (+0%)
Surcharge temps d'inférence	Référence	+4,4%
Surcharge temps d'entraînement	Référence	+11,6%

Conclusion importante : Le CAM réalise la capacité de quantification de l'incertitude avec une augmentation quasi négligeable du coût computationnel.

Vérification d'Autres Capacités

Quantification de l'ambiguïté : Pour les entrées intrinsèquement ambiguës, le modèle produit des ensembles credals plus grands (entropie élevée)
Traitement des questions sans réponse : Dans les tests de référence de questions-réponses, l'abstention basée sur la mesure d'incertitude interne réduit considérablement les erreurs de confiance

Découvertes Expérimentales

Efficacité de la solution architecturale : Comparée aux interventions externes, la modification directe du mécanisme d'attention résout plus fondamentalement le problème
Relation entre incertitude et qualité des données : L'incertitude du modèle est hautement corrélée au degré d'écart de l'entrée par rapport à la distribution d'entraînement
Efficacité computationnelle acceptable : La surcharge minimale rend la méthode pratiquement viable

Travaux Connexes

Méthodes d'Atténuation des Hallucinations

Génération augmentée par récupération (RAG) : Lewis et al. 2020
Vérification des faits externe : Schick et al. 2023
Modification du décodage : Li et al. 2022

Quantification de l'Incertitude

Réseaux de neurones bayésiens : Blundell et al. 2015 — coût computationnel élevé
Apprentissage profond par preuves : Sensoy et al. 2018 — base théorique de cet article

Avantages de Cet Article

Première intégration de la quantification de l'incertitude au cœur de l'architecture Transformer, plutôt que comme outil externe ou étape de post-traitement.

Conclusion et Discussion

Conclusions Principales

Identification de la cause fondamentale : La « certitude artificielle » de la fonction Softmax est la racine architecturale du problème des hallucinations
Solution efficace : Le Transformateur Credal représente et quantifie efficacement l'incertitude via les ensembles credals
Vérification de la praticité : La méthode fonctionne bien sur plusieurs tâches avec une surcharge computationnelle acceptable

Limitations

Vérification insuffisante sur les tâches de génération : Principalement vérifiée sur les tâches discriminantes, l'efficacité sur les tâches de génération ouverte reste à explorer
Utilisation limitée de l'incertitude : Actuellement utilisée principalement comme indicateur de décision au niveau de sortie, sans exploitation complète des informations d'incertitude hiérarchiques
Scalabilité à grande échelle : La scalabilité sur les modèles avec 100B+ paramètres nécessite une vérification supplémentaire

Directions Futures

Guidage de décodage dynamique : Utilisation des signaux d'incertitude du CAM pour guider dynamiquement le processus de génération
Modulation d'information hiérarchique : Ajustement dynamique du flux d'information dans le réseau basé sur l'incertitude hiérarchique
Vérification à grande échelle : Vérification sur les modèles ultra-larges et les configurations d'entraînement distribué

Évaluation Approfondie

Points Forts

Contribution théorique profonde :
- Proposition d'une théorie de cause architecturale du problème des hallucinations
- Intégration élégante de la théorie des preuves dans le mécanisme d'attention
Conception de méthode élégante :
- Maintien de la différentiabilité bout en bout
- Dégradation naturelle vers l'attention standard (avec preuves élevées)
- Fourniture d'une mesure d'incertitude directe
Vérification expérimentale suffisante :
- Couverture de la détection hors distribution, quantification de l'ambiguïté, tâches de questions-réponses
- Analyse détaillée de l'efficacité computationnelle
- Résultats statistiquement convaincants
Valeur pratique élevée :
- Surcharge computationnelle minimale
- Remplacement direct possible de l'architecture Transformer existante
- Fourniture d'une base architecturale pour construire une IA fiable

Insuffisances

Analyse théorique insuffisante :
- Manque d'analyse théorique de la relation entre la taille de l'ensemble credal et l'incertitude réelle
- Absence de garanties théoriques de convergence ou de stabilité
Portée expérimentale limitée :
- Vérification principalement sur des données synthétiques à petite échelle
- Manque de vérification sur les vrais LLMs à grande échelle
- Vérification insuffisante sur les tâches de génération
Expériences de comparaison incomplètes :
- Pas de comparaison avec d'autres méthodes de quantification de l'incertitude
- Manque de comparaison directe avec les méthodes existantes d'atténuation des hallucinations
Détails de mise en œuvre insuffisants :
- Stratégies d'entraînement, choix d'hyperparamètres et autres détails insuffisamment développés
- La reproductibilité peut être affectée

Impact

Impact académique :
- Fourniture d'un nouveau paradigme de recherche : quantification de l'incertitude au niveau architectural
- Établissement d'une base théorique pour les recherches connexes ultérieures
- Potentiel d'inspiration pour davantage de travaux d'amélioration du mécanisme d'attention
Valeur pratique :
- Fourniture d'une voie technologique concrète pour construire des systèmes d'IA fiables
- Valeur importante dans les scénarios d'application à haut risque
- L'efficacité computationnelle offre un potentiel d'application industrielle
Contribution méthodologique :
- Promotion de la fiabilité comme premier principe de la conception de modèles
- Démonstration d'une approche de conception architecturale guidée par la théorie

Scénarios Applicables

Scénarios nécessitant une haute fiabilité : Diagnostic médical, consultation juridique, analyse financière, etc.
Applications nécessitant la quantification de l'incertitude : Recherche scientifique, systèmes d'aide à la décision
Détection hors distribution : Systèmes critiques pour la sécurité, détection d'anomalies
Systèmes d'IA interactifs : Systèmes de dialogue nécessitant que le modèle exprime « je ne sais pas »

Références

Les références clés de l'article incluent :

Vaswani et al. 2017 : Attention is All You Need (article original du Transformateur)
Sensoy et al. 2018 : Evidential Deep Learning (base théorique de l'apprentissage profond par preuves)
Brown et al. 2020 : Article GPT-3 (fondation des grands modèles de langage)
Lewis et al. 2020 : Génération augmentée par récupération
Huang et al. 2025 : Synthèse du problème des hallucinations

Évaluation globale : Cet article excelle à la fois dans les perspicacies théoriques et l'innovation technique. Les auteurs ont identifié la cause architecturale fondamentale du problème des hallucinations dans les LLMs et proposé une solution élégante. Bien qu'il y ait de la place pour l'amélioration dans la vérification à grande échelle et l'analyse théorique, l'idée centrale et la méthode possèdent une valeur académique importante et un potentiel pratique considérable, fournissant une base technologique importante pour la construction de systèmes d'IA plus fiables.