Credal Transformer: A Principled Approach for Quantifying and Mitigating Hallucinations in Large Language Models
Ji, Song, Huang
Large Language Models (LLMs) hallucinate, generating factually incorrect yet confident assertions. We argue this stems from the Transformer's Softmax function, which creates "Artificial Certainty" by collapsing ambiguous attention scores into a single probability distribution, discarding uncertainty information at each layer. To fix this, we introduce the Credal Transformer, which replaces standard attention with a Credal Attention Mechanism (CAM) based on evidential theory. CAM produces a "credal set" (a set of distributions) instead of a single attention vector, with the set's size directly measuring model uncertainty. We implement this by re-conceptualizing attention scores as evidence masses for a Dirichlet distribution: sufficient evidence recovers standard attention, while insufficient evidence yields a diffuse distribution, representing ambiguity. Empirically, the Credal Transformer identifies out-of-distribution inputs, quantifies ambiguity, and significantly reduces confident errors on unanswerable questions by abstaining. Our contribution is a new architecture to mitigate hallucinations and a design paradigm that integrates uncertainty quantification directly into the model, providing a foundation for more reliable AI.
academic
Credal Transformer: Un Approccio Principiato per Quantificare e Mitigare le Allucinazioni nei Modelli Linguistici di Grandi Dimensioni
I modelli linguistici di grandi dimensioni (LLM) soffrono del problema delle allucinazioni, generando asserzioni fattuali errate ma con alta confidenza. Questo articolo sostiene che il problema origina dalla funzione Softmax del Transformer, che crea una "certezza artificiale" collassando i punteggi di attenzione ambigui in una singola distribuzione di probabilità, scartando le informazioni di incertezza di ogni strato. Per affrontare questo problema, l'articolo introduce il Credal Transformer, sostituendo il meccanismo di attenzione standard con il Credal Attention Mechanism (CAM) basato sulla teoria dell'evidenza. Il CAM produce "insiemi credali" (insiemi di distribuzioni) anziché un singolo vettore di attenzione, con la dimensione dell'insieme che misura direttamente l'incertezza del modello. Questo viene realizzato riconcettualizzando i punteggi di attenzione come qualità dell'evidenza di una distribuzione di Dirichlet: l'evidenza sufficiente recupera l'attenzione standard, mentre l'evidenza insufficiente produce distribuzioni diffuse, rappresentando l'ambiguità. Gli esperimenti dimostrano che il Credal Transformer può identificare input fuori distribuzione, quantificare l'ambiguità e ridurre significativamente gli errori di confidenza su domande senza risposta attraverso l'astensione.
Questa ricerca mira a risolvere il problema delle allucinazioni nei modelli linguistici di grandi dimensioni — il fenomeno in cui il modello genera contenuti fattuali errati pur manifestando alta confidenza. Questo fenomeno limita gravemente il dispiegamento degli LLM in settori ad alto rischio.
Le soluzioni tradizionali includono principalmente:
Metodi di Intervento Esterno: Generazione Aumentata da Recupero (RAG), verifica dei fatti da basi di conoscenza esterne, modifica del processo di decodifica
Limitazioni: Trattano l'LLM come una scatola nera, non affrontando il problema intrinseco dell'eccessiva confidenza a livello architetturale
Gli autori propongono un'ipotesi fondamentale: il problema delle allucinazioni non è solo un problema di dati, ma origina dall'architettura stessa del Transformer, in particolare dalla funzione Softmax nel meccanismo di attenzione che crea una "certezza artificiale".
Intuizione Teorica: Identificazione della funzione Softmax nel meccanismo di attenzione come causa architetturale della creazione di "certezza artificiale" che porta alle allucinazioni
Nuova Architettura: Proposizione del Credal Transformer, che integra la quantificazione dell'incertezza come componente intrinseca del modello
Innovazione Tecnica: Progettazione del Credal Attention Mechanism (CAM) basato sulla teoria dell'evidenza, capace di rappresentare e quantificare l'incertezza cognitiva
Verifica Empirica: Validazione del metodo su molteplici compiti, inclusa la rilevazione di distribuzioni anomale, la quantificazione dell'ambiguità e compiti di domande e risposte
Paradigma di Progettazione: Promozione della consapevolezza dell'incertezza come primo principio nella progettazione dei modelli
Sostituzione del meccanismo di attenzione deterministico del Transformer standard con un meccanismo capace di rappresentare e quantificare l'incertezza, consentendo al modello di:
Integrazione della Teoria dell'Evidenza: Prima applicazione dei principi dell'apprendimento profondo basato sull'evidenza al nucleo del meccanismo di attenzione
Incertezza Differenziabile: Fornisce una misura di incertezza diretta e differenziabile
Comportamento Adattivo:
Alta evidenza → Distribuzione acuta → Recupera l'attenzione standard
Scoperta Chiave: Il modello può distinguere chiaramente tra diversi tipi di input, producendo incertezza più elevata per i dati che si discostano maggiormente dalla distribuzione di addestramento.
Quantificazione dell'Ambiguità: Per input intrinsecamente ambigui, il modello produce insiemi credali più grandi (entropia elevata)
Gestione di Domande Senza Risposta: Nei benchmark di domande e risposte, la scelta di astenersi attraverso misure di incertezza interna riduce significativamente gli errori di confidenza
Efficacia della Soluzione Architetturale: Rispetto agli interventi esterni, la modifica diretta del meccanismo di attenzione affronta più fondamentalmente il problema
Relazione tra Incertezza e Qualità dei Dati: L'incertezza del modello è altamente correlata al grado di deviazione dell'input dalla distribuzione di addestramento
Efficienza Computazionale Accettabile: L'overhead minimo rende il metodo praticamente applicabile
Prima integrazione della quantificazione dell'incertezza nel nucleo dell'architettura Transformer, piuttosto che come strumento esterno o fase di post-elaborazione.
Verifica Insufficiente su Compiti Generativi: Principalmente verificato su compiti discriminativi, l'effetto su compiti generativi aperti rimane da esplorare
Utilizzo Limitato dell'Incertezza: Attualmente utilizzata principalmente come metrica decisionale dello strato di output, senza sfruttare pienamente le informazioni di incertezza gerarchica
Scalabilità su Larga Scala: La scalabilità su modelli con 100B+ parametri richiede ulteriore verifica
Vaswani et al. 2017: Attention is All You Need (articolo originale del Transformer)
Sensoy et al. 2018: Evidential Deep Learning (base teorica dell'apprendimento profondo basato sull'evidenza)
Brown et al. 2020: Articolo GPT-3 (base dei modelli linguistici di grandi dimensioni)
Lewis et al. 2020: RAG Generazione Aumentata da Recupero
Huang et al. 2025: Rassegna del problema delle allucinazioni
Valutazione Complessiva: Questo è un articolo eccellente sia dal punto di vista dell'intuizione teorica che dell'innovazione tecnica. Gli autori identificano la causa architetturale radice del problema delle allucinazioni negli LLM e propongono una soluzione elegante. Sebbene vi sia spazio per miglioramenti nella verifica su larga scala e nell'analisi teorica, l'idea centrale e il metodo hanno importante valore accademico e potenziale pratico, fornendo una base tecnica importante per la costruzione di sistemi di IA più affidabili.