2025-11-13T13:25:11.216435

Credal Transformer: A Principled Approach for Quantifying and Mitigating Hallucinations in Large Language Models

Ji, Song, Huang
Large Language Models (LLMs) hallucinate, generating factually incorrect yet confident assertions. We argue this stems from the Transformer's Softmax function, which creates "Artificial Certainty" by collapsing ambiguous attention scores into a single probability distribution, discarding uncertainty information at each layer. To fix this, we introduce the Credal Transformer, which replaces standard attention with a Credal Attention Mechanism (CAM) based on evidential theory. CAM produces a "credal set" (a set of distributions) instead of a single attention vector, with the set's size directly measuring model uncertainty. We implement this by re-conceptualizing attention scores as evidence masses for a Dirichlet distribution: sufficient evidence recovers standard attention, while insufficient evidence yields a diffuse distribution, representing ambiguity. Empirically, the Credal Transformer identifies out-of-distribution inputs, quantifies ambiguity, and significantly reduces confident errors on unanswerable questions by abstaining. Our contribution is a new architecture to mitigate hallucinations and a design paradigm that integrates uncertainty quantification directly into the model, providing a foundation for more reliable AI.
academic

Credal Transformer: Un Approccio Principiato per Quantificare e Mitigare le Allucinazioni nei Modelli Linguistici di Grandi Dimensioni

Informazioni Fondamentali

  • ID Articolo: 2510.12137
  • Titolo: Credal Transformer: Un Approccio Principiato per Quantificare e Mitigare le Allucinazioni nei Modelli Linguistici di Grandi Dimensioni
  • Autori: Shihao Ji (Zaozhuang No.28 Middle School), Zihui Song (Tengzhou No.1 High School), Jiajie Huang (Xi'an Jiaotong University)
  • Classificazione: cs.CL, cs.AI
  • Data di Pubblicazione/Conferenza: 39ª Conferenza sui Sistemi di Elaborazione Neurale (NeurIPS 2025) Workshop: Reliable ML from Unreliable Data
  • Link Articolo: https://arxiv.org/abs/2510.12137v1

Riassunto

I modelli linguistici di grandi dimensioni (LLM) soffrono del problema delle allucinazioni, generando asserzioni fattuali errate ma con alta confidenza. Questo articolo sostiene che il problema origina dalla funzione Softmax del Transformer, che crea una "certezza artificiale" collassando i punteggi di attenzione ambigui in una singola distribuzione di probabilità, scartando le informazioni di incertezza di ogni strato. Per affrontare questo problema, l'articolo introduce il Credal Transformer, sostituendo il meccanismo di attenzione standard con il Credal Attention Mechanism (CAM) basato sulla teoria dell'evidenza. Il CAM produce "insiemi credali" (insiemi di distribuzioni) anziché un singolo vettore di attenzione, con la dimensione dell'insieme che misura direttamente l'incertezza del modello. Questo viene realizzato riconcettualizzando i punteggi di attenzione come qualità dell'evidenza di una distribuzione di Dirichlet: l'evidenza sufficiente recupera l'attenzione standard, mentre l'evidenza insufficiente produce distribuzioni diffuse, rappresentando l'ambiguità. Gli esperimenti dimostrano che il Credal Transformer può identificare input fuori distribuzione, quantificare l'ambiguità e ridurre significativamente gli errori di confidenza su domande senza risposta attraverso l'astensione.

Contesto di Ricerca e Motivazione

Problema Centrale

Questa ricerca mira a risolvere il problema delle allucinazioni nei modelli linguistici di grandi dimensioni — il fenomeno in cui il modello genera contenuti fattuali errati pur manifestando alta confidenza. Questo fenomeno limita gravemente il dispiegamento degli LLM in settori ad alto rischio.

Importanza del Problema

  1. Ostacolo Pratico: Il problema delle allucinazioni impedisce l'applicazione degli LLM in settori ad alto rischio come medicina, diritto e finanza
  2. Crisi di Fiducia: Gli utenti hanno difficoltà a giudicare l'affidabilità dell'output del modello, influenzando la credibilità dei sistemi di IA
  3. Rischi di Sicurezza: L'output errato ma ad alta confidenza può portare a gravi errori decisionali

Limitazioni dei Metodi Esistenti

Le soluzioni tradizionali includono principalmente:

  • Metodi di Intervento Esterno: Generazione Aumentata da Recupero (RAG), verifica dei fatti da basi di conoscenza esterne, modifica del processo di decodifica
  • Limitazioni: Trattano l'LLM come una scatola nera, non affrontando il problema intrinseco dell'eccessiva confidenza a livello architetturale

Motivazione della Ricerca

Gli autori propongono un'ipotesi fondamentale: il problema delle allucinazioni non è solo un problema di dati, ma origina dall'architettura stessa del Transformer, in particolare dalla funzione Softmax nel meccanismo di attenzione che crea una "certezza artificiale".

Contributi Principali

  1. Intuizione Teorica: Identificazione della funzione Softmax nel meccanismo di attenzione come causa architetturale della creazione di "certezza artificiale" che porta alle allucinazioni
  2. Nuova Architettura: Proposizione del Credal Transformer, che integra la quantificazione dell'incertezza come componente intrinseca del modello
  3. Innovazione Tecnica: Progettazione del Credal Attention Mechanism (CAM) basato sulla teoria dell'evidenza, capace di rappresentare e quantificare l'incertezza cognitiva
  4. Verifica Empirica: Validazione del metodo su molteplici compiti, inclusa la rilevazione di distribuzioni anomale, la quantificazione dell'ambiguità e compiti di domande e risposte
  5. Paradigma di Progettazione: Promozione della consapevolezza dell'incertezza come primo principio nella progettazione dei modelli

Spiegazione Dettagliata del Metodo

Definizione del Compito

Sostituzione del meccanismo di attenzione deterministico del Transformer standard con un meccanismo capace di rappresentare e quantificare l'incertezza, consentendo al modello di:

  • Identificare l'ambiguità dell'input
  • Quantificare la propria incertezza cognitiva
  • Astenersi quando manca l'evidenza sufficiente

Architettura del Modello

Problemi del Meccanismo di Attenzione Standard

Formula di calcolo dell'attenzione standard:

ai = Softmax(si) dove aij = exp(sij) / Σ(k=1 a L) exp(sik)

Problema: Softmax forza il modello a fare scelte deterministiche, anche quando i punteggi sono ambigui.

Credal Attention Mechanism (CAM)

Idea Centrale: Riconcettualizzazione dei punteggi di attenzione come evidenza per parametrizzare una distribuzione di Dirichlet.

Fasi di Implementazione:

  1. Conversione dell'Evidenza:
    eij = exp(sij)  // Conversione dei punteggi originali in evidenza non negativa
    
  2. Parametrizzazione di Dirichlet:
    αij = eij + 1  // Parametro di concentrazione
    
  3. Pesi di Attenzione Attesi:
    âij = E[pij] = αij / αi0
    

    dove αi0 = Σ(k=1 a L) αik
  4. Quantificazione dell'Incertezza:
    Ui = L / αi0  // Vacuità che misura l'incertezza cognitiva
    

Punti di Innovazione Tecnica

  1. Integrazione della Teoria dell'Evidenza: Prima applicazione dei principi dell'apprendimento profondo basato sull'evidenza al nucleo del meccanismo di attenzione
  2. Incertezza Differenziabile: Fornisce una misura di incertezza diretta e differenziabile
  3. Comportamento Adattivo:
    • Alta evidenza → Distribuzione acuta → Recupera l'attenzione standard
    • Bassa evidenza → Distribuzione diffusa → Rappresenta esplicitamente l'ambiguità
  4. Addestramento End-to-End: L'intera architettura rimane differenziabile, addestrabile con tecniche di ottimizzazione standard

Configurazione Sperimentale

Dataset

Dataset Sintetici (per la rilevazione di distribuzioni anomale):

  • In Distribuzione (ID): Sequenze generate da modelli di rumore fissi
  • Fuori Distribuzione (OOD): Sequenze generate da distribuzioni uniformi casuali
  • Dati Privi di Significato: Sequenze di rumore puro

Metriche di Valutazione

  • Punteggio di Incertezza: Incertezza media prodotta dallo strato finale del modello
  • Metriche di Efficienza Computazionale: GFLOPs, tempo di inferenza, tempo di addestramento

Metodi di Confronto

  • Transformer standard (con attenzione Softmax)

Dettagli di Implementazione

  • Addestramento del classificatore Credal Transformer su dati ID
  • Test con tre tipi di dati durante l'inferenza, misurazione dell'output di incertezza

Risultati Sperimentali

Risultati Principali

Esperimento di Rilevazione Fuori Distribuzione

Tipo di DatoPunteggio di Incertezza Medio
In Distribuzione (ID)0.0415
Fuori Distribuzione (OOD)0.1378
Dati Privi di Significato0.1953

Scoperta Chiave: Il modello può distinguere chiaramente tra diversi tipi di input, producendo incertezza più elevata per i dati che si discostano maggiormente dalla distribuzione di addestramento.

Confronto dell'Efficienza Computazionale

MetricaAttenzione StandardAttenzione Credal (CAM)
GFLOPs25.77 G25.77 G (+0%)
Overhead Tempo di InferenzaBaseline+4.4%
Overhead Tempo di AddestramentoBaseline+11.6%

Conclusione Importante: Il CAM realizza la capacità di quantificazione dell'incertezza con un aumento quasi trascurabile dei costi computazionali.

Verifica di Altre Capacità

  1. Quantificazione dell'Ambiguità: Per input intrinsecamente ambigui, il modello produce insiemi credali più grandi (entropia elevata)
  2. Gestione di Domande Senza Risposta: Nei benchmark di domande e risposte, la scelta di astenersi attraverso misure di incertezza interna riduce significativamente gli errori di confidenza

Scoperte Sperimentali

  1. Efficacia della Soluzione Architetturale: Rispetto agli interventi esterni, la modifica diretta del meccanismo di attenzione affronta più fondamentalmente il problema
  2. Relazione tra Incertezza e Qualità dei Dati: L'incertezza del modello è altamente correlata al grado di deviazione dell'input dalla distribuzione di addestramento
  3. Efficienza Computazionale Accettabile: L'overhead minimo rende il metodo praticamente applicabile

Lavori Correlati

Metodi di Mitigazione delle Allucinazioni

  • Generazione Aumentata da Recupero (RAG): Lewis et al. 2020
  • Verifica Esterna dei Fatti: Schick et al. 2023
  • Modifica della Decodifica: Li et al. 2022

Quantificazione dell'Incertezza

  • Reti Neurali Bayesiane: Blundell et al. 2015 - Costi computazionali elevati
  • Apprendimento Profondo Basato sull'Evidenza: Sensoy et al. 2018 - Base teorica di questo articolo

Vantaggi di Questo Articolo

Prima integrazione della quantificazione dell'incertezza nel nucleo dell'architettura Transformer, piuttosto che come strumento esterno o fase di post-elaborazione.

Conclusioni e Discussione

Conclusioni Principali

  1. Identificazione della Causa Radice: La "certezza artificiale" della funzione Softmax è la causa architetturale radice del problema delle allucinazioni
  2. Soluzione Efficace: Il Credal Transformer rappresenta e quantifica efficacemente l'incertezza attraverso insiemi credali
  3. Verifica Pratica: Il metodo dimostra prestazioni eccellenti su molteplici compiti, con overhead computazionale accettabile

Limitazioni

  1. Verifica Insufficiente su Compiti Generativi: Principalmente verificato su compiti discriminativi, l'effetto su compiti generativi aperti rimane da esplorare
  2. Utilizzo Limitato dell'Incertezza: Attualmente utilizzata principalmente come metrica decisionale dello strato di output, senza sfruttare pienamente le informazioni di incertezza gerarchica
  3. Scalabilità su Larga Scala: La scalabilità su modelli con 100B+ parametri richiede ulteriore verifica

Direzioni Future

  1. Guida Dinamica della Decodifica: Utilizzo dei segnali di incertezza del CAM per guidare dinamicamente il processo generativo
  2. Modulazione delle Informazioni Gerarchiche: Regolazione dinamica del flusso di informazioni della rete in base all'incertezza gerarchica
  3. Verifica su Larga Scala: Validazione su modelli ultra-grandi e in ambienti di addestramento distribuito

Valutazione Approfondita

Punti di Forza

  1. Contributo Teorico Profondo:
    • Proposizione di una teoria sulla causa architetturale del problema delle allucinazioni
    • Integrazione elegante della teoria dell'evidenza nel meccanismo di attenzione
  2. Progettazione del Metodo Elegante:
    • Mantenimento della differenziabilità end-to-end
    • Degradazione naturale all'attenzione standard (con alta evidenza)
    • Fornitura di una misura diretta di incertezza
  3. Verifica Sperimentale Completa:
    • Copertura di rilevazione fuori distribuzione, quantificazione dell'ambiguità, compiti di domande e risposte
    • Analisi dettagliata dell'efficienza computazionale
    • Risultati statisticamente convincenti
  4. Alto Valore Pratico:
    • Overhead computazionale minimo
    • Sostituzione diretta dell'architettura Transformer esistente
    • Fornisce una base architetturale per la costruzione di IA affidabile

Insufficienze

  1. Analisi Teorica Non Sufficientemente Approfondita:
    • Mancanza di analisi teorica sulla relazione tra la dimensione dell'insieme credale e l'incertezza effettiva
    • Assenza di garanzie teoriche sulla convergenza o stabilità
  2. Ambito Sperimentale Limitato:
    • Principalmente verificato su dati sintetici e su piccola scala
    • Mancanza di verifica su veri LLM su larga scala
    • Verifica insufficiente su compiti generativi
  3. Esperimenti di Confronto Non Sufficientemente Completi:
    • Mancanza di confronto con altri metodi di quantificazione dell'incertezza
    • Assenza di confronto diretto con metodi esistenti di mitigazione delle allucinazioni
  4. Dettagli di Implementazione Non Sufficientemente Dettagliati:
    • Strategie di addestramento e scelta degli iperparametri non sufficientemente dettagliate
    • La riproducibilità potrebbe essere influenzata

Impatto

  1. Impatto Accademico:
    • Fornitura di un nuovo paradigma di ricerca: quantificazione dell'incertezza a livello architetturale
    • Posa delle basi teoriche per la ricerca correlata successiva
    • Potrebbe ispirare più lavori di miglioramento del meccanismo di attenzione
  2. Valore Pratico:
    • Fornitura di un percorso tecnico concreto per la costruzione di sistemi di IA affidabili
    • Valore importante in scenari di applicazione ad alto rischio
    • L'efficienza computazionale la rende potenzialmente applicabile in ambito industriale
  3. Contributo Metodologico:
    • Promozione dell'affidabilità come primo principio nella progettazione dei modelli
    • Dimostrazione di un metodo di progettazione architetturale guidato dalla teoria

Scenari Applicabili

  1. Scenari che Richiedono Alta Affidabilità: Diagnosi medica, consulenza legale, analisi finanziaria, ecc.
  2. Applicazioni che Richiedono Quantificazione dell'Incertezza: Ricerca scientifica, sistemi di supporto alle decisioni
  3. Necessità di Rilevazione Fuori Distribuzione: Sistemi critici per la sicurezza, rilevazione di anomalie
  4. Sistemi di IA Interattivi: Sistemi di dialogo che richiedono al modello di esprimere "non so"

Bibliografia

I riferimenti chiave nell'articolo includono:

  • Vaswani et al. 2017: Attention is All You Need (articolo originale del Transformer)
  • Sensoy et al. 2018: Evidential Deep Learning (base teorica dell'apprendimento profondo basato sull'evidenza)
  • Brown et al. 2020: Articolo GPT-3 (base dei modelli linguistici di grandi dimensioni)
  • Lewis et al. 2020: RAG Generazione Aumentata da Recupero
  • Huang et al. 2025: Rassegna del problema delle allucinazioni

Valutazione Complessiva: Questo è un articolo eccellente sia dal punto di vista dell'intuizione teorica che dell'innovazione tecnica. Gli autori identificano la causa architetturale radice del problema delle allucinazioni negli LLM e propongono una soluzione elegante. Sebbene vi sia spazio per miglioramenti nella verifica su larga scala e nell'analisi teorica, l'idea centrale e il metodo hanno importante valore accademico e potenziale pratico, fornendo una base tecnica importante per la costruzione di sistemi di IA più affidabili.