Credal Transformer: A Principled Approach for Quantifying and Mitigating Hallucinations in Large Language Models
Ji, Song, Huang
Large Language Models (LLMs) hallucinate, generating factually incorrect yet confident assertions. We argue this stems from the Transformer's Softmax function, which creates "Artificial Certainty" by collapsing ambiguous attention scores into a single probability distribution, discarding uncertainty information at each layer. To fix this, we introduce the Credal Transformer, which replaces standard attention with a Credal Attention Mechanism (CAM) based on evidential theory. CAM produces a "credal set" (a set of distributions) instead of a single attention vector, with the set's size directly measuring model uncertainty. We implement this by re-conceptualizing attention scores as evidence masses for a Dirichlet distribution: sufficient evidence recovers standard attention, while insufficient evidence yields a diffuse distribution, representing ambiguity. Empirically, the Credal Transformer identifies out-of-distribution inputs, quantifies ambiguity, and significantly reduces confident errors on unanswerable questions by abstaining. Our contribution is a new architecture to mitigate hallucinations and a design paradigm that integrates uncertainty quantification directly into the model, providing a foundation for more reliable AI.
academic
Transformador Credal: Un Enfoque Principista para Cuantificar y Mitigar Alucinaciones en Modelos de Lenguaje Grande
Título: Credal Transformer: A Principled Approach for Quantifying and Mitigating Hallucinations in Large Language Models
Autores: Shihao Ji (Zaozhuang No.28 Middle School), Zihui Song (Tengzhou No.1 High School), Jiajie Huang (Xi'an Jiaotong University)
Clasificación: cs.CL, cs.AI
Fecha de Publicación/Conferencia: 39ª Conferencia sobre Sistemas de Procesamiento de Información Neural (NeurIPS 2025) Taller: Aprendizaje Automático Confiable a partir de Datos No Confiables
Los modelos de lenguaje grande (LLMs) presentan el problema de alucinaciones, generando aserciones factualmente incorrectas pero con alta confianza. Este artículo sostiene que esto se origina en la función Softmax del Transformador, que crea "certidumbre artificial" al colapsar puntuaciones de atención ambiguas en una única distribución de probabilidad, descartando información de incertidumbre en cada capa. Para abordar este problema, se introduce el Transformador Credal, que reemplaza el mecanismo de atención estándar con el Mecanismo de Atención Credal (CAM) basado en teoría de la evidencia. CAM produce "conjuntos credales" (conjuntos de distribuciones) en lugar de un único vector de atención, donde el tamaño del conjunto mide directamente la incertidumbre del modelo. Se implementa reconceptualizando las puntuaciones de atención como calidad de evidencia de una distribución de Dirichlet: evidencia suficiente recupera la atención estándar, evidencia insuficiente produce distribuciones difusas que representan ambigüedad. Los experimentos demuestran que el Transformador Credal puede identificar entradas fuera de distribución, cuantificar ambigüedad y reducir significativamente errores de confianza en preguntas sin respuesta mediante abstención.
Esta investigación aborda el problema de alucinaciones en modelos de lenguaje grande —donde los modelos generan contenido factualmente incorrecto pero exhiben alta confianza. Este fenómeno limita severamente el despliegue de LLMs en dominios de alto riesgo.
Barrera Práctica: Las alucinaciones impiden la aplicación de LLMs en campos de alto riesgo como medicina, derecho y finanzas
Crisis de Confianza: Los usuarios tienen dificultad para determinar la confiabilidad de los resultados del modelo, afectando la credibilidad de los sistemas de IA
Riesgos de Seguridad: Las salidas incorrectas pero altamente confiables pueden conducir a errores de decisión graves
Las soluciones tradicionales incluyen principalmente:
Métodos de Intervención Externa: Generación Aumentada por Recuperación (RAG), verificación de hechos con bases de conocimiento externas, modificación del proceso de decodificación
Limitaciones: Tratan el LLM como caja negra, sin abordar el problema de sobreconfianza inherente a nivel arquitectónico
Los autores proponen una hipótesis fundamental: el problema de alucinaciones no es solo un problema de datos, sino que surge de la arquitectura del Transformador en sí, particularmente de la "certidumbre artificial" creada por la función Softmax en el mecanismo de atención.
Perspectiva Teórica: Identifica que la función Softmax en el mecanismo de atención crea "certidumbre artificial" como causa arquitectónica de alucinaciones
Nueva Arquitectura: Propone el Transformador Credal, integrando la cuantificación de incertidumbre como componente intrínseco del modelo
Innovación Técnica: Diseña el Mecanismo de Atención Credal (CAM) basado en teoría de la evidencia, capaz de representar y cuantificar incertidumbre epistémica
Validación Empírica: Verifica la efectividad del método en múltiples tareas, incluyendo detección fuera de distribución, cuantificación de ambigüedad y tareas de preguntas y respuestas
Paradigma de Diseño: Promueve la conciencia de incertidumbre como primer principio en el diseño de modelos
Reemplazar el mecanismo de atención determinista del Transformador estándar con un mecanismo capaz de representar y cuantificar incertidumbre, permitiendo que el modelo:
Identifique la ambigüedad en las entradas
Cuantifique su propia incertidumbre epistémica
Opte por abstenerse cuando carezca de evidencia suficiente
Hallazgos Clave: El modelo puede distinguir claramente entre diferentes tipos de entrada, produciendo mayor incertidumbre para datos que se desvían más de la distribución de entrenamiento.
Cuantificación de Ambigüedad: Para entradas intrínsecamente ambiguas, el modelo produce conjuntos credales más grandes (mayor entropía)
Manejo de Preguntas Sin Respuesta: En puntos de referencia de preguntas y respuestas, seleccionar abstención mediante medidas de incertidumbre interna reduce significativamente errores de confianza
Solución a Nivel Arquitectónico Efectiva: Comparada con intervención externa, la modificación directa del mecanismo de atención aborda más fundamentalmente el problema
Incertidumbre Relacionada con Calidad de Datos: La incertidumbre del modelo está altamente correlacionada con el grado en que la entrada se desvía de la distribución de entrenamiento
Eficiencia Computacional Aceptable: La sobrecarga mínima hace que el método tenga valor práctico
Primera integración de cuantificación de incertidumbre en el núcleo de la arquitectura Transformadora, en lugar de como herramienta externa o paso de postprocesamiento.
Validación Insuficiente en Tareas Generativas: Principalmente validado en tareas discriminativas, efectividad en tareas generativas abiertas por explorar
Utilización Limitada de Incertidumbre: Actualmente se usa principalmente como métrica de decisión en capa de salida, sin aprovechar plenamente información de incertidumbre jerárquica
Escalabilidad a Gran Escala: La escalabilidad en modelos con 100B+ parámetros requiere verificación adicional
Vaswani et al. 2017: Attention is All You Need (Artículo original de Transformador)
Sensoy et al. 2018: Evidential Deep Learning (Base teórica de aprendizaje profundo evidencial)
Brown et al. 2020: Artículo GPT-3 (Fundamentos de modelos de lenguaje grande)
Lewis et al. 2020: RAG Generación Aumentada por Recuperación
Huang et al. 2025: Revisión de problema de alucinaciones
Evaluación General: Este es un artículo excelente tanto en perspectiva teórica como en innovación técnica. Los autores identifican la causa arquitectónica del problema de alucinaciones en LLMs y proponen una solución elegante. Aunque hay espacio para mejora en validación a gran escala y análisis teórico, la idea central y el método poseen importante valor académico y potencial práctico, proporcionando base técnica importante para construir sistemas de IA más confiables.