2025-11-13T13:25:11.216435

Credal Transformer: A Principled Approach for Quantifying and Mitigating Hallucinations in Large Language Models

Ji, Song, Huang
Large Language Models (LLMs) hallucinate, generating factually incorrect yet confident assertions. We argue this stems from the Transformer's Softmax function, which creates "Artificial Certainty" by collapsing ambiguous attention scores into a single probability distribution, discarding uncertainty information at each layer. To fix this, we introduce the Credal Transformer, which replaces standard attention with a Credal Attention Mechanism (CAM) based on evidential theory. CAM produces a "credal set" (a set of distributions) instead of a single attention vector, with the set's size directly measuring model uncertainty. We implement this by re-conceptualizing attention scores as evidence masses for a Dirichlet distribution: sufficient evidence recovers standard attention, while insufficient evidence yields a diffuse distribution, representing ambiguity. Empirically, the Credal Transformer identifies out-of-distribution inputs, quantifies ambiguity, and significantly reduces confident errors on unanswerable questions by abstaining. Our contribution is a new architecture to mitigate hallucinations and a design paradigm that integrates uncertainty quantification directly into the model, providing a foundation for more reliable AI.
academic

Transformateur Credal : Une Approche Principielle pour Quantifier et Atténuer les Hallucinations dans les Grands Modèles de Langage

Informations Fondamentales

  • ID de l'article : 2510.12137
  • Titre : Credal Transformer: A Principled Approach for Quantifying and Mitigating Hallucinations in Large Language Models
  • Auteurs : Shihao Ji (Zaozhuang No.28 Middle School), Zihui Song (Tengzhou No.1 High School), Jiajie Huang (Xi'an Jiaotong University)
  • Classification : cs.CL, cs.AI
  • Date de publication/Conférence : 39ème Conférence sur les Systèmes de Traitement Neuronal de l'Information (NeurIPS 2025) Atelier : Apprentissage Fiable à partir de Données Non Fiables
  • Lien de l'article : https://arxiv.org/abs/2510.12137v1

Résumé

Les grands modèles de langage (LLMs) souffrent du problème des hallucinations, générant des assertions factuellement incorrectes mais avec une confiance élevée. Cet article soutient que ce problème provient de la fonction Softmax du Transformateur, qui crée une « certitude artificielle » en réduisant les scores d'attention ambigus à une seule distribution de probabilité, perdant ainsi les informations d'incertitude à chaque couche. Pour résoudre ce problème, l'article introduit le Transformateur Credal, remplaçant le mécanisme d'attention standard par un mécanisme d'attention Credal (CAM) basé sur la théorie des preuves. Le CAM produit des « ensembles credals » (ensembles de distributions) plutôt qu'un seul vecteur d'attention, la taille de l'ensemble mesurant directement l'incertitude du modèle. Ceci est réalisé en reconceptualisant les scores d'attention comme des qualités de preuves pour les distributions de Dirichlet : des preuves suffisantes récupèrent l'attention standard, tandis que des preuves insuffisantes produisent des distributions diffuses, représentant l'ambiguïté. Les expériences montrent que le Transformateur Credal peut identifier les entrées hors distribution, quantifier l'ambiguïté, et réduire considérablement les erreurs de confiance sur les questions sans réponse par abstention.

Contexte et Motivation de la Recherche

Problème Central

Cette recherche vise à résoudre le problème des hallucinations dans les grands modèles de langage — le phénomène où les modèles génèrent du contenu factuellement incorrect tout en affichant une confiance élevée. Ce phénomène limite sérieusement le déploiement des LLMs dans les domaines à haut risque.

Importance du Problème

  1. Obstacle à l'utilité pratique : Les hallucinations empêchent l'application des LLMs dans les domaines à haut risque tels que la médecine, le droit et la finance
  2. Crise de confiance : Les utilisateurs ont du mal à évaluer la fiabilité des résultats du modèle, affectant la crédibilité des systèmes d'IA
  3. Risques de sécurité : Les résultats erronés mais confiants peuvent entraîner des erreurs décisionnelles graves

Limitations des Approches Existantes

Les solutions traditionnelles comprennent principalement :

  • Méthodes d'intervention externe : Génération augmentée par récupération (RAG), vérification des faits par base de connaissances externe, modification du processus de décodage
  • Limitations : Traiter le LLM comme une boîte noire, sans résoudre le problème fondamental de surconfiance au niveau architectural

Motivation de la Recherche

Les auteurs proposent une hypothèse fondamentale : le problème des hallucinations n'est pas seulement un problème de données, mais provient de l'architecture Transformer elle-même, en particulier de la fonction Softmax dans le mécanisme d'attention qui crée une « certitude artificielle ».

Contributions Principales

  1. Perspicacité théorique : Identification de la fonction Softmax dans le mécanisme d'attention comme créant une « certitude artificielle » — cause architecturale des hallucinations
  2. Nouvelle architecture : Proposition du Transformateur Credal, intégrant la quantification de l'incertitude comme composant intrinsèque du modèle
  3. Innovation technique : Conception du mécanisme d'attention Credal (CAM) basé sur la théorie des preuves, capable de représenter et quantifier l'incertitude épistémique
  4. Vérification empirique : Validation de l'efficacité de la méthode sur plusieurs tâches, incluant la détection hors distribution, la quantification de l'ambiguïté et les tâches de questions-réponses
  5. Paradigme de conception : Promotion de la conscience de l'incertitude comme premier principe de la conception de modèles

Explication Détaillée de la Méthode

Définition de la Tâche

Remplacer le mécanisme d'attention déterministe du Transformateur standard par un mécanisme capable de représenter et quantifier l'incertitude, permettant au modèle de :

  • Identifier l'ambiguïté des entrées
  • Quantifier sa propre incertitude épistémique
  • S'abstenir lorsqu'il manque de preuves suffisantes

Architecture du Modèle

Problèmes du Mécanisme d'Attention Standard

Formule de calcul d'attention standard :

ai = Softmax(si) où aij = exp(sij) / Σ(k=1 à L) exp(sik)

Problème : Softmax force le modèle à faire un choix déterministe, même lorsque les scores sont ambigus.

Mécanisme d'Attention Credal (CAM)

Idée centrale : Reconceptualiser les scores d'attention comme des preuves pour paramétrer une distribution de Dirichlet.

Étapes de mise en œuvre :

  1. Transformation des preuves :
    eij = exp(sij)  // Conversion des scores bruts en preuves non négatives
    
  2. Paramétrisation de Dirichlet :
    αij = eij + 1  // Paramètre de concentration
    
  3. Poids d'attention attendus :
    âij = E[pij] = αij / αi0
    

    où αi0 = Σ(k=1 à L) αik
  4. Quantification de l'incertitude :
    Ui = L / αi0  // Vacuité mesurant l'incertitude épistémique
    

Points d'Innovation Technique

  1. Intégration de la théorie des preuves : Application pour la première fois des principes de l'apprentissage profond par preuves au cœur du mécanisme d'attention
  2. Incertitude différentiable : Fourniture d'une mesure d'incertitude directe et différentiable
  3. Comportement adaptatif :
    • Preuves élevées → Distribution pointue → Récupération de l'attention standard
    • Preuves faibles → Distribution diffuse → Représentation explicite de l'ambiguïté
  4. Entraînement bout en bout : L'architecture entière reste différentiable, entraînable avec des techniques d'optimisation standard

Configuration Expérimentale

Ensembles de Données

Ensemble de données synthétique (pour la détection hors distribution) :

  • Distribution intra (ID) : Séquences générées avec motif de bruit fixe
  • Distribution extra (OOD) : Séquences générées avec distribution aléatoire uniforme
  • Données sans sens : Séquences de bruit pur

Métriques d'Évaluation

  • Score d'incertitude : Incertitude moyenne produite par la couche finale du modèle
  • Métriques d'efficacité computationnelle : GFLOPs, temps d'inférence, temps d'entraînement

Méthodes de Comparaison

  • Transformateur standard (utilisant l'attention Softmax)

Détails de Mise en Œuvre

  • Entraînement du classificateur Transformateur Credal sur les données ID
  • Test avec trois types de données, mesure de la sortie d'incertitude

Résultats Expérimentaux

Résultats Principaux

Expérience de Détection Hors Distribution

Type de donnéesScore d'incertitude moyen
Distribution intra (ID)0,0415
Distribution extra (OOD)0,1378
Données sans sens0,1953

Découvertes clés : Le modèle peut clairement distinguer différents types d'entrées, produisant une incertitude plus élevée pour les données s'écartant davantage de la distribution d'entraînement.

Comparaison d'Efficacité Computationnelle

MétriqueAttention standardAttention Credal (CAM)
GFLOPs25,77 G25,77 G (+0%)
Surcharge temps d'inférenceRéférence+4,4%
Surcharge temps d'entraînementRéférence+11,6%

Conclusion importante : Le CAM réalise la capacité de quantification de l'incertitude avec une augmentation quasi négligeable du coût computationnel.

Vérification d'Autres Capacités

  1. Quantification de l'ambiguïté : Pour les entrées intrinsèquement ambiguës, le modèle produit des ensembles credals plus grands (entropie élevée)
  2. Traitement des questions sans réponse : Dans les tests de référence de questions-réponses, l'abstention basée sur la mesure d'incertitude interne réduit considérablement les erreurs de confiance

Découvertes Expérimentales

  1. Efficacité de la solution architecturale : Comparée aux interventions externes, la modification directe du mécanisme d'attention résout plus fondamentalement le problème
  2. Relation entre incertitude et qualité des données : L'incertitude du modèle est hautement corrélée au degré d'écart de l'entrée par rapport à la distribution d'entraînement
  3. Efficacité computationnelle acceptable : La surcharge minimale rend la méthode pratiquement viable

Travaux Connexes

Méthodes d'Atténuation des Hallucinations

  • Génération augmentée par récupération (RAG) : Lewis et al. 2020
  • Vérification des faits externe : Schick et al. 2023
  • Modification du décodage : Li et al. 2022

Quantification de l'Incertitude

  • Réseaux de neurones bayésiens : Blundell et al. 2015 — coût computationnel élevé
  • Apprentissage profond par preuves : Sensoy et al. 2018 — base théorique de cet article

Avantages de Cet Article

Première intégration de la quantification de l'incertitude au cœur de l'architecture Transformer, plutôt que comme outil externe ou étape de post-traitement.

Conclusion et Discussion

Conclusions Principales

  1. Identification de la cause fondamentale : La « certitude artificielle » de la fonction Softmax est la racine architecturale du problème des hallucinations
  2. Solution efficace : Le Transformateur Credal représente et quantifie efficacement l'incertitude via les ensembles credals
  3. Vérification de la praticité : La méthode fonctionne bien sur plusieurs tâches avec une surcharge computationnelle acceptable

Limitations

  1. Vérification insuffisante sur les tâches de génération : Principalement vérifiée sur les tâches discriminantes, l'efficacité sur les tâches de génération ouverte reste à explorer
  2. Utilisation limitée de l'incertitude : Actuellement utilisée principalement comme indicateur de décision au niveau de sortie, sans exploitation complète des informations d'incertitude hiérarchiques
  3. Scalabilité à grande échelle : La scalabilité sur les modèles avec 100B+ paramètres nécessite une vérification supplémentaire

Directions Futures

  1. Guidage de décodage dynamique : Utilisation des signaux d'incertitude du CAM pour guider dynamiquement le processus de génération
  2. Modulation d'information hiérarchique : Ajustement dynamique du flux d'information dans le réseau basé sur l'incertitude hiérarchique
  3. Vérification à grande échelle : Vérification sur les modèles ultra-larges et les configurations d'entraînement distribué

Évaluation Approfondie

Points Forts

  1. Contribution théorique profonde :
    • Proposition d'une théorie de cause architecturale du problème des hallucinations
    • Intégration élégante de la théorie des preuves dans le mécanisme d'attention
  2. Conception de méthode élégante :
    • Maintien de la différentiabilité bout en bout
    • Dégradation naturelle vers l'attention standard (avec preuves élevées)
    • Fourniture d'une mesure d'incertitude directe
  3. Vérification expérimentale suffisante :
    • Couverture de la détection hors distribution, quantification de l'ambiguïté, tâches de questions-réponses
    • Analyse détaillée de l'efficacité computationnelle
    • Résultats statistiquement convaincants
  4. Valeur pratique élevée :
    • Surcharge computationnelle minimale
    • Remplacement direct possible de l'architecture Transformer existante
    • Fourniture d'une base architecturale pour construire une IA fiable

Insuffisances

  1. Analyse théorique insuffisante :
    • Manque d'analyse théorique de la relation entre la taille de l'ensemble credal et l'incertitude réelle
    • Absence de garanties théoriques de convergence ou de stabilité
  2. Portée expérimentale limitée :
    • Vérification principalement sur des données synthétiques à petite échelle
    • Manque de vérification sur les vrais LLMs à grande échelle
    • Vérification insuffisante sur les tâches de génération
  3. Expériences de comparaison incomplètes :
    • Pas de comparaison avec d'autres méthodes de quantification de l'incertitude
    • Manque de comparaison directe avec les méthodes existantes d'atténuation des hallucinations
  4. Détails de mise en œuvre insuffisants :
    • Stratégies d'entraînement, choix d'hyperparamètres et autres détails insuffisamment développés
    • La reproductibilité peut être affectée

Impact

  1. Impact académique :
    • Fourniture d'un nouveau paradigme de recherche : quantification de l'incertitude au niveau architectural
    • Établissement d'une base théorique pour les recherches connexes ultérieures
    • Potentiel d'inspiration pour davantage de travaux d'amélioration du mécanisme d'attention
  2. Valeur pratique :
    • Fourniture d'une voie technologique concrète pour construire des systèmes d'IA fiables
    • Valeur importante dans les scénarios d'application à haut risque
    • L'efficacité computationnelle offre un potentiel d'application industrielle
  3. Contribution méthodologique :
    • Promotion de la fiabilité comme premier principe de la conception de modèles
    • Démonstration d'une approche de conception architecturale guidée par la théorie

Scénarios Applicables

  1. Scénarios nécessitant une haute fiabilité : Diagnostic médical, consultation juridique, analyse financière, etc.
  2. Applications nécessitant la quantification de l'incertitude : Recherche scientifique, systèmes d'aide à la décision
  3. Détection hors distribution : Systèmes critiques pour la sécurité, détection d'anomalies
  4. Systèmes d'IA interactifs : Systèmes de dialogue nécessitant que le modèle exprime « je ne sais pas »

Références

Les références clés de l'article incluent :

  • Vaswani et al. 2017 : Attention is All You Need (article original du Transformateur)
  • Sensoy et al. 2018 : Evidential Deep Learning (base théorique de l'apprentissage profond par preuves)
  • Brown et al. 2020 : Article GPT-3 (fondation des grands modèles de langage)
  • Lewis et al. 2020 : Génération augmentée par récupération
  • Huang et al. 2025 : Synthèse du problème des hallucinations

Évaluation globale : Cet article excelle à la fois dans les perspicacies théoriques et l'innovation technique. Les auteurs ont identifié la cause architecturale fondamentale du problème des hallucinations dans les LLMs et proposé une solution élégante. Bien qu'il y ait de la place pour l'amélioration dans la vérification à grande échelle et l'analyse théorique, l'idée centrale et la méthode possèdent une valeur académique importante et un potentiel pratique considérable, fournissant une base technologique importante pour la construction de systèmes d'IA plus fiables.