2025-11-13T13:25:11.216435

Credal Transformer: A Principled Approach for Quantifying and Mitigating Hallucinations in Large Language Models

Ji, Song, Huang

Large Language Models (LLMs) hallucinate, generating factually incorrect yet confident assertions. We argue this stems from the Transformer's Softmax function, which creates "Artificial Certainty" by collapsing ambiguous attention scores into a single probability distribution, discarding uncertainty information at each layer. To fix this, we introduce the Credal Transformer, which replaces standard attention with a Credal Attention Mechanism (CAM) based on evidential theory. CAM produces a "credal set" (a set of distributions) instead of a single attention vector, with the set's size directly measuring model uncertainty. We implement this by re-conceptualizing attention scores as evidence masses for a Dirichlet distribution: sufficient evidence recovers standard attention, while insufficient evidence yields a diffuse distribution, representing ambiguity. Empirically, the Credal Transformer identifies out-of-distribution inputs, quantifies ambiguity, and significantly reduces confident errors on unanswerable questions by abstaining. Our contribution is a new architecture to mitigate hallucinations and a design paradigm that integrates uncertainty quantification directly into the model, providing a foundation for more reliable AI.

academic

Transformador Credal: Un Enfoque Principista para Cuantificar y Mitigar Alucinaciones en Modelos de Lenguaje Grande

Información Básica

ID del Artículo: 2510.12137
Título: Credal Transformer: A Principled Approach for Quantifying and Mitigating Hallucinations in Large Language Models
Autores: Shihao Ji (Zaozhuang No.28 Middle School), Zihui Song (Tengzhou No.1 High School), Jiajie Huang (Xi'an Jiaotong University)
Clasificación: cs.CL, cs.AI
Fecha de Publicación/Conferencia: 39ª Conferencia sobre Sistemas de Procesamiento de Información Neural (NeurIPS 2025) Taller: Aprendizaje Automático Confiable a partir de Datos No Confiables
Enlace del Artículo: https://arxiv.org/abs/2510.12137v1

Resumen

Los modelos de lenguaje grande (LLMs) presentan el problema de alucinaciones, generando aserciones factualmente incorrectas pero con alta confianza. Este artículo sostiene que esto se origina en la función Softmax del Transformador, que crea "certidumbre artificial" al colapsar puntuaciones de atención ambiguas en una única distribución de probabilidad, descartando información de incertidumbre en cada capa. Para abordar este problema, se introduce el Transformador Credal, que reemplaza el mecanismo de atención estándar con el Mecanismo de Atención Credal (CAM) basado en teoría de la evidencia. CAM produce "conjuntos credales" (conjuntos de distribuciones) en lugar de un único vector de atención, donde el tamaño del conjunto mide directamente la incertidumbre del modelo. Se implementa reconceptualizando las puntuaciones de atención como calidad de evidencia de una distribución de Dirichlet: evidencia suficiente recupera la atención estándar, evidencia insuficiente produce distribuciones difusas que representan ambigüedad. Los experimentos demuestran que el Transformador Credal puede identificar entradas fuera de distribución, cuantificar ambigüedad y reducir significativamente errores de confianza en preguntas sin respuesta mediante abstención.

Antecedentes de Investigación y Motivación

Problema Central

Esta investigación aborda el problema de alucinaciones en modelos de lenguaje grande —donde los modelos generan contenido factualmente incorrecto pero exhiben alta confianza. Este fenómeno limita severamente el despliegue de LLMs en dominios de alto riesgo.

Importancia del Problema

Barrera Práctica: Las alucinaciones impiden la aplicación de LLMs en campos de alto riesgo como medicina, derecho y finanzas
Crisis de Confianza: Los usuarios tienen dificultad para determinar la confiabilidad de los resultados del modelo, afectando la credibilidad de los sistemas de IA
Riesgos de Seguridad: Las salidas incorrectas pero altamente confiables pueden conducir a errores de decisión graves

Limitaciones de Métodos Existentes

Las soluciones tradicionales incluyen principalmente:

Métodos de Intervención Externa: Generación Aumentada por Recuperación (RAG), verificación de hechos con bases de conocimiento externas, modificación del proceso de decodificación
Limitaciones: Tratan el LLM como caja negra, sin abordar el problema de sobreconfianza inherente a nivel arquitectónico

Motivación de la Investigación

Los autores proponen una hipótesis fundamental: el problema de alucinaciones no es solo un problema de datos, sino que surge de la arquitectura del Transformador en sí, particularmente de la "certidumbre artificial" creada por la función Softmax en el mecanismo de atención.

Contribuciones Principales

Perspectiva Teórica: Identifica que la función Softmax en el mecanismo de atención crea "certidumbre artificial" como causa arquitectónica de alucinaciones
Nueva Arquitectura: Propone el Transformador Credal, integrando la cuantificación de incertidumbre como componente intrínseco del modelo
Innovación Técnica: Diseña el Mecanismo de Atención Credal (CAM) basado en teoría de la evidencia, capaz de representar y cuantificar incertidumbre epistémica
Validación Empírica: Verifica la efectividad del método en múltiples tareas, incluyendo detección fuera de distribución, cuantificación de ambigüedad y tareas de preguntas y respuestas
Paradigma de Diseño: Promueve la conciencia de incertidumbre como primer principio en el diseño de modelos

Explicación Detallada del Método

Definición de la Tarea

Reemplazar el mecanismo de atención determinista del Transformador estándar con un mecanismo capaz de representar y cuantificar incertidumbre, permitiendo que el modelo:

Identifique la ambigüedad en las entradas
Cuantifique su propia incertidumbre epistémica
Opte por abstenerse cuando carezca de evidencia suficiente

Arquitectura del Modelo

Problemas del Mecanismo de Atención Estándar

Fórmula de cálculo de atención estándar:

ai = Softmax(si) donde aij = exp(sij) / Σ(k=1 a L) exp(sik)

Problema: Softmax obliga al modelo a hacer una selección determinista, incluso cuando las puntuaciones son ambiguas.

Mecanismo de Atención Credal (CAM)

Idea Central: Reconceptualizar las puntuaciones de atención como evidencia para parametrizar una distribución de Dirichlet.

Pasos de Implementación:

Transformación de Evidencia:

eij = exp(sij)  // Convertir puntuaciones originales en evidencia no negativa

Parametrización de Dirichlet:

αij = eij + 1  // Parámetro de concentración

Pesos de Atención Esperados:
```
âij = E[pij] = αij / αi0
```
donde αi0 = Σ(k=1 a L) αik

Cuantificación de Incertidumbre:

Ui = L / αi0  // Vacuidad que mide incertidumbre epistémica

Puntos de Innovación Técnica

Integración de Teoría de la Evidencia: Primera aplicación de principios de aprendizaje profundo evidencial al núcleo del mecanismo de atención
Incertidumbre Diferenciable: Proporciona una medida de incertidumbre directa y diferenciable
Comportamiento Adaptativo:
- Alta evidencia → Distribución aguda → Recupera atención estándar
- Baja evidencia → Distribución difusa → Representa explícitamente ambigüedad
Entrenamiento Extremo a Extremo: Toda la arquitectura permanece diferenciable, entrenable con técnicas de optimización estándar

Configuración Experimental

Conjuntos de Datos

Conjuntos de Datos Sintéticos (para detección fuera de distribución):

Dentro de Distribución (ID): Secuencias generadas con patrón de ruido fijo
Fuera de Distribución (OOD): Secuencias generadas con distribución uniformemente aleatoria
Datos Sin Sentido: Secuencias de ruido puro

Métricas de Evaluación

Puntuación de Incertidumbre: Incertidumbre promedio producida en la capa final del modelo
Métricas de Eficiencia Computacional: GFLOPs, tiempo de inferencia, tiempo de entrenamiento

Métodos de Comparación

Transformador estándar (usando atención Softmax)

Detalles de Implementación

Entrenar clasificador Transformador Credal en datos ID
En tiempo de prueba, ingresar tres tipos de datos y medir salida de incertidumbre

Resultados Experimentales

Resultados Principales

Experimento de Detección Fuera de Distribución

Tipo de Dato	Puntuación de Incertidumbre Promedio
Dentro de Distribución (ID)	0.0415
Fuera de Distribución (OOD)	0.1378
Datos Sin Sentido	0.1953

Hallazgos Clave: El modelo puede distinguir claramente entre diferentes tipos de entrada, produciendo mayor incertidumbre para datos que se desvían más de la distribución de entrenamiento.

Comparación de Eficiencia Computacional

Métrica	Atención Estándar	Atención Credal (CAM)
GFLOPs	25.77 G	25.77 G (+0%)
Sobrecarga de Inferencia	Línea Base	+4.4%
Sobrecarga de Entrenamiento	Línea Base	+11.6%

Conclusión Importante: CAM logra capacidad de cuantificación de incertidumbre con casi ningún aumento en costo computacional.

Verificación de Otras Capacidades

Cuantificación de Ambigüedad: Para entradas intrínsecamente ambiguas, el modelo produce conjuntos credales más grandes (mayor entropía)
Manejo de Preguntas Sin Respuesta: En puntos de referencia de preguntas y respuestas, seleccionar abstención mediante medidas de incertidumbre interna reduce significativamente errores de confianza

Hallazgos Experimentales

Solución a Nivel Arquitectónico Efectiva: Comparada con intervención externa, la modificación directa del mecanismo de atención aborda más fundamentalmente el problema
Incertidumbre Relacionada con Calidad de Datos: La incertidumbre del modelo está altamente correlacionada con el grado en que la entrada se desvía de la distribución de entrenamiento
Eficiencia Computacional Aceptable: La sobrecarga mínima hace que el método tenga valor práctico

Trabajo Relacionado

Métodos de Mitigación de Alucinaciones

Generación Aumentada por Recuperación (RAG): Lewis et al. 2020
Verificación de Hechos Externa: Schick et al. 2023
Modificación de Decodificación: Li et al. 2022

Cuantificación de Incertidumbre

Redes Neuronales Bayesianas: Blundell et al. 2015 - Alto costo computacional
Aprendizaje Profundo Evidencial: Sensoy et al. 2018 - Base teórica de este artículo

Ventajas de Este Artículo

Primera integración de cuantificación de incertidumbre en el núcleo de la arquitectura Transformadora, en lugar de como herramienta externa o paso de postprocesamiento.

Conclusiones y Discusión

Conclusiones Principales

Identificación de Causa Raíz: La "certidumbre artificial" de la función Softmax es la raíz arquitectónica del problema de alucinaciones
Solución Efectiva: El Transformador Credal representa y cuantifica efectivamente la incertidumbre mediante conjuntos credales
Validación Práctica: El método muestra desempeño superior en múltiples tareas con sobrecarga computacional aceptable

Limitaciones

Validación Insuficiente en Tareas Generativas: Principalmente validado en tareas discriminativas, efectividad en tareas generativas abiertas por explorar
Utilización Limitada de Incertidumbre: Actualmente se usa principalmente como métrica de decisión en capa de salida, sin aprovechar plenamente información de incertidumbre jerárquica
Escalabilidad a Gran Escala: La escalabilidad en modelos con 100B+ parámetros requiere verificación adicional

Direcciones Futuras

Guía de Decodificación Dinámica: Utilizar señales de incertidumbre de CAM para guiar dinámicamente el proceso generativo
Modulación de Información Jerárquica: Ajustar dinámicamente el flujo de información en la red basado en incertidumbre jerárquica
Validación a Gran Escala: Verificación en modelos ultra-grandes y configuraciones de entrenamiento distribuido

Evaluación Profunda

Fortalezas

Contribución Teórica Profunda:
- Propone teoría de causa raíz arquitectónica del problema de alucinaciones
- Integra elegantemente teoría de la evidencia en el mecanismo de atención
Diseño de Método Elegante:
- Mantiene diferenciabilidad extremo a extremo
- Degradación natural a atención estándar (con alta evidencia)
- Proporciona medida de incertidumbre directa
Validación Experimental Suficiente:
- Cubre detección fuera de distribución, cuantificación de ambigüedad, tareas de preguntas y respuestas
- Análisis de eficiencia computacional detallado
- Resultados estadísticamente convincentes
Alto Valor Práctico:
- Sobrecarga computacional mínima
- Reemplaza directamente arquitectura Transformadora existente
- Proporciona base arquitectónica para construir IA confiable

Deficiencias

Análisis Teórico Insuficientemente Profundo:
- Carece de análisis teórico de relación entre tamaño de conjunto credal e incertidumbre real
- No proporciona garantías teóricas de convergencia o estabilidad
Alcance Experimental Limitado:
- Principalmente validado en datos pequeños y sintéticos
- Carece de validación en LLMs reales a gran escala
- Validación insuficiente en tareas generativas
Experimentos Comparativos Incompletos:
- No compara con otros métodos de cuantificación de incertidumbre
- Carece de comparación directa con métodos existentes de mitigación de alucinaciones
Detalles de Implementación Insuficientemente Detallados:
- Detalles de estrategia de entrenamiento, selección de hiperparámetros insuficientemente completos
- Reproducibilidad potencialmente afectada

Impacto

Impacto Académico:
- Proporciona nuevo paradigma de investigación: cuantificación de incertidumbre a nivel arquitectónico
- Sienta base teórica para investigación relacionada posterior
- Puede inspirar más trabajo de mejora de mecanismo de atención
Valor Práctico:
- Proporciona ruta técnica concreta para construir sistemas de IA confiables
- Valor importante en escenarios de aplicación de alto riesgo
- Eficiencia computacional proporciona potencial de aplicación industrial
Contribución Metodológica:
- Promueve confiabilidad como primer principio en diseño de modelos
- Demuestra método de diseño arquitectónico impulsado por teoría

Escenarios Aplicables

Escenarios de Alta Confiabilidad: Diagnóstico médico, consultoría legal, análisis financiero, etc.
Aplicaciones que Requieren Cuantificación de Incertidumbre: Investigación científica, sistemas de apoyo a decisiones
Necesidades de Detección Fuera de Distribución: Sistemas críticos para la seguridad, detección de anomalías
Sistemas de IA Interactivos: Sistemas de diálogo que necesitan que el modelo exprese "no sé"

Referencias

Las referencias clave en el artículo incluyen:

Vaswani et al. 2017: Attention is All You Need (Artículo original de Transformador)
Sensoy et al. 2018: Evidential Deep Learning (Base teórica de aprendizaje profundo evidencial)
Brown et al. 2020: Artículo GPT-3 (Fundamentos de modelos de lenguaje grande)
Lewis et al. 2020: RAG Generación Aumentada por Recuperación
Huang et al. 2025: Revisión de problema de alucinaciones

Evaluación General: Este es un artículo excelente tanto en perspectiva teórica como en innovación técnica. Los autores identifican la causa arquitectónica del problema de alucinaciones en LLMs y proponen una solución elegante. Aunque hay espacio para mejora en validación a gran escala y análisis teórico, la idea central y el método poseen importante valor académico y potencial práctico, proporcionando base técnica importante para construir sistemas de IA más confiables.