2025-11-13T13:25:11.216435

Credal Transformer: A Principled Approach for Quantifying and Mitigating Hallucinations in Large Language Models

Ji, Song, Huang
Large Language Models (LLMs) hallucinate, generating factually incorrect yet confident assertions. We argue this stems from the Transformer's Softmax function, which creates "Artificial Certainty" by collapsing ambiguous attention scores into a single probability distribution, discarding uncertainty information at each layer. To fix this, we introduce the Credal Transformer, which replaces standard attention with a Credal Attention Mechanism (CAM) based on evidential theory. CAM produces a "credal set" (a set of distributions) instead of a single attention vector, with the set's size directly measuring model uncertainty. We implement this by re-conceptualizing attention scores as evidence masses for a Dirichlet distribution: sufficient evidence recovers standard attention, while insufficient evidence yields a diffuse distribution, representing ambiguity. Empirically, the Credal Transformer identifies out-of-distribution inputs, quantifies ambiguity, and significantly reduces confident errors on unanswerable questions by abstaining. Our contribution is a new architecture to mitigate hallucinations and a design paradigm that integrates uncertainty quantification directly into the model, providing a foundation for more reliable AI.
academic

Transformador Credal: Un Enfoque Principista para Cuantificar y Mitigar Alucinaciones en Modelos de Lenguaje Grande

Información Básica

  • ID del Artículo: 2510.12137
  • Título: Credal Transformer: A Principled Approach for Quantifying and Mitigating Hallucinations in Large Language Models
  • Autores: Shihao Ji (Zaozhuang No.28 Middle School), Zihui Song (Tengzhou No.1 High School), Jiajie Huang (Xi'an Jiaotong University)
  • Clasificación: cs.CL, cs.AI
  • Fecha de Publicación/Conferencia: 39ª Conferencia sobre Sistemas de Procesamiento de Información Neural (NeurIPS 2025) Taller: Aprendizaje Automático Confiable a partir de Datos No Confiables
  • Enlace del Artículo: https://arxiv.org/abs/2510.12137v1

Resumen

Los modelos de lenguaje grande (LLMs) presentan el problema de alucinaciones, generando aserciones factualmente incorrectas pero con alta confianza. Este artículo sostiene que esto se origina en la función Softmax del Transformador, que crea "certidumbre artificial" al colapsar puntuaciones de atención ambiguas en una única distribución de probabilidad, descartando información de incertidumbre en cada capa. Para abordar este problema, se introduce el Transformador Credal, que reemplaza el mecanismo de atención estándar con el Mecanismo de Atención Credal (CAM) basado en teoría de la evidencia. CAM produce "conjuntos credales" (conjuntos de distribuciones) en lugar de un único vector de atención, donde el tamaño del conjunto mide directamente la incertidumbre del modelo. Se implementa reconceptualizando las puntuaciones de atención como calidad de evidencia de una distribución de Dirichlet: evidencia suficiente recupera la atención estándar, evidencia insuficiente produce distribuciones difusas que representan ambigüedad. Los experimentos demuestran que el Transformador Credal puede identificar entradas fuera de distribución, cuantificar ambigüedad y reducir significativamente errores de confianza en preguntas sin respuesta mediante abstención.

Antecedentes de Investigación y Motivación

Problema Central

Esta investigación aborda el problema de alucinaciones en modelos de lenguaje grande —donde los modelos generan contenido factualmente incorrecto pero exhiben alta confianza. Este fenómeno limita severamente el despliegue de LLMs en dominios de alto riesgo.

Importancia del Problema

  1. Barrera Práctica: Las alucinaciones impiden la aplicación de LLMs en campos de alto riesgo como medicina, derecho y finanzas
  2. Crisis de Confianza: Los usuarios tienen dificultad para determinar la confiabilidad de los resultados del modelo, afectando la credibilidad de los sistemas de IA
  3. Riesgos de Seguridad: Las salidas incorrectas pero altamente confiables pueden conducir a errores de decisión graves

Limitaciones de Métodos Existentes

Las soluciones tradicionales incluyen principalmente:

  • Métodos de Intervención Externa: Generación Aumentada por Recuperación (RAG), verificación de hechos con bases de conocimiento externas, modificación del proceso de decodificación
  • Limitaciones: Tratan el LLM como caja negra, sin abordar el problema de sobreconfianza inherente a nivel arquitectónico

Motivación de la Investigación

Los autores proponen una hipótesis fundamental: el problema de alucinaciones no es solo un problema de datos, sino que surge de la arquitectura del Transformador en sí, particularmente de la "certidumbre artificial" creada por la función Softmax en el mecanismo de atención.

Contribuciones Principales

  1. Perspectiva Teórica: Identifica que la función Softmax en el mecanismo de atención crea "certidumbre artificial" como causa arquitectónica de alucinaciones
  2. Nueva Arquitectura: Propone el Transformador Credal, integrando la cuantificación de incertidumbre como componente intrínseco del modelo
  3. Innovación Técnica: Diseña el Mecanismo de Atención Credal (CAM) basado en teoría de la evidencia, capaz de representar y cuantificar incertidumbre epistémica
  4. Validación Empírica: Verifica la efectividad del método en múltiples tareas, incluyendo detección fuera de distribución, cuantificación de ambigüedad y tareas de preguntas y respuestas
  5. Paradigma de Diseño: Promueve la conciencia de incertidumbre como primer principio en el diseño de modelos

Explicación Detallada del Método

Definición de la Tarea

Reemplazar el mecanismo de atención determinista del Transformador estándar con un mecanismo capaz de representar y cuantificar incertidumbre, permitiendo que el modelo:

  • Identifique la ambigüedad en las entradas
  • Cuantifique su propia incertidumbre epistémica
  • Opte por abstenerse cuando carezca de evidencia suficiente

Arquitectura del Modelo

Problemas del Mecanismo de Atención Estándar

Fórmula de cálculo de atención estándar:

ai = Softmax(si) donde aij = exp(sij) / Σ(k=1 a L) exp(sik)

Problema: Softmax obliga al modelo a hacer una selección determinista, incluso cuando las puntuaciones son ambiguas.

Mecanismo de Atención Credal (CAM)

Idea Central: Reconceptualizar las puntuaciones de atención como evidencia para parametrizar una distribución de Dirichlet.

Pasos de Implementación:

  1. Transformación de Evidencia:
    eij = exp(sij)  // Convertir puntuaciones originales en evidencia no negativa
    
  2. Parametrización de Dirichlet:
    αij = eij + 1  // Parámetro de concentración
    
  3. Pesos de Atención Esperados:
    âij = E[pij] = αij / αi0
    

    donde αi0 = Σ(k=1 a L) αik
  4. Cuantificación de Incertidumbre:
    Ui = L / αi0  // Vacuidad que mide incertidumbre epistémica
    

Puntos de Innovación Técnica

  1. Integración de Teoría de la Evidencia: Primera aplicación de principios de aprendizaje profundo evidencial al núcleo del mecanismo de atención
  2. Incertidumbre Diferenciable: Proporciona una medida de incertidumbre directa y diferenciable
  3. Comportamiento Adaptativo:
    • Alta evidencia → Distribución aguda → Recupera atención estándar
    • Baja evidencia → Distribución difusa → Representa explícitamente ambigüedad
  4. Entrenamiento Extremo a Extremo: Toda la arquitectura permanece diferenciable, entrenable con técnicas de optimización estándar

Configuración Experimental

Conjuntos de Datos

Conjuntos de Datos Sintéticos (para detección fuera de distribución):

  • Dentro de Distribución (ID): Secuencias generadas con patrón de ruido fijo
  • Fuera de Distribución (OOD): Secuencias generadas con distribución uniformemente aleatoria
  • Datos Sin Sentido: Secuencias de ruido puro

Métricas de Evaluación

  • Puntuación de Incertidumbre: Incertidumbre promedio producida en la capa final del modelo
  • Métricas de Eficiencia Computacional: GFLOPs, tiempo de inferencia, tiempo de entrenamiento

Métodos de Comparación

  • Transformador estándar (usando atención Softmax)

Detalles de Implementación

  • Entrenar clasificador Transformador Credal en datos ID
  • En tiempo de prueba, ingresar tres tipos de datos y medir salida de incertidumbre

Resultados Experimentales

Resultados Principales

Experimento de Detección Fuera de Distribución

Tipo de DatoPuntuación de Incertidumbre Promedio
Dentro de Distribución (ID)0.0415
Fuera de Distribución (OOD)0.1378
Datos Sin Sentido0.1953

Hallazgos Clave: El modelo puede distinguir claramente entre diferentes tipos de entrada, produciendo mayor incertidumbre para datos que se desvían más de la distribución de entrenamiento.

Comparación de Eficiencia Computacional

MétricaAtención EstándarAtención Credal (CAM)
GFLOPs25.77 G25.77 G (+0%)
Sobrecarga de InferenciaLínea Base+4.4%
Sobrecarga de EntrenamientoLínea Base+11.6%

Conclusión Importante: CAM logra capacidad de cuantificación de incertidumbre con casi ningún aumento en costo computacional.

Verificación de Otras Capacidades

  1. Cuantificación de Ambigüedad: Para entradas intrínsecamente ambiguas, el modelo produce conjuntos credales más grandes (mayor entropía)
  2. Manejo de Preguntas Sin Respuesta: En puntos de referencia de preguntas y respuestas, seleccionar abstención mediante medidas de incertidumbre interna reduce significativamente errores de confianza

Hallazgos Experimentales

  1. Solución a Nivel Arquitectónico Efectiva: Comparada con intervención externa, la modificación directa del mecanismo de atención aborda más fundamentalmente el problema
  2. Incertidumbre Relacionada con Calidad de Datos: La incertidumbre del modelo está altamente correlacionada con el grado en que la entrada se desvía de la distribución de entrenamiento
  3. Eficiencia Computacional Aceptable: La sobrecarga mínima hace que el método tenga valor práctico

Trabajo Relacionado

Métodos de Mitigación de Alucinaciones

  • Generación Aumentada por Recuperación (RAG): Lewis et al. 2020
  • Verificación de Hechos Externa: Schick et al. 2023
  • Modificación de Decodificación: Li et al. 2022

Cuantificación de Incertidumbre

  • Redes Neuronales Bayesianas: Blundell et al. 2015 - Alto costo computacional
  • Aprendizaje Profundo Evidencial: Sensoy et al. 2018 - Base teórica de este artículo

Ventajas de Este Artículo

Primera integración de cuantificación de incertidumbre en el núcleo de la arquitectura Transformadora, en lugar de como herramienta externa o paso de postprocesamiento.

Conclusiones y Discusión

Conclusiones Principales

  1. Identificación de Causa Raíz: La "certidumbre artificial" de la función Softmax es la raíz arquitectónica del problema de alucinaciones
  2. Solución Efectiva: El Transformador Credal representa y cuantifica efectivamente la incertidumbre mediante conjuntos credales
  3. Validación Práctica: El método muestra desempeño superior en múltiples tareas con sobrecarga computacional aceptable

Limitaciones

  1. Validación Insuficiente en Tareas Generativas: Principalmente validado en tareas discriminativas, efectividad en tareas generativas abiertas por explorar
  2. Utilización Limitada de Incertidumbre: Actualmente se usa principalmente como métrica de decisión en capa de salida, sin aprovechar plenamente información de incertidumbre jerárquica
  3. Escalabilidad a Gran Escala: La escalabilidad en modelos con 100B+ parámetros requiere verificación adicional

Direcciones Futuras

  1. Guía de Decodificación Dinámica: Utilizar señales de incertidumbre de CAM para guiar dinámicamente el proceso generativo
  2. Modulación de Información Jerárquica: Ajustar dinámicamente el flujo de información en la red basado en incertidumbre jerárquica
  3. Validación a Gran Escala: Verificación en modelos ultra-grandes y configuraciones de entrenamiento distribuido

Evaluación Profunda

Fortalezas

  1. Contribución Teórica Profunda:
    • Propone teoría de causa raíz arquitectónica del problema de alucinaciones
    • Integra elegantemente teoría de la evidencia en el mecanismo de atención
  2. Diseño de Método Elegante:
    • Mantiene diferenciabilidad extremo a extremo
    • Degradación natural a atención estándar (con alta evidencia)
    • Proporciona medida de incertidumbre directa
  3. Validación Experimental Suficiente:
    • Cubre detección fuera de distribución, cuantificación de ambigüedad, tareas de preguntas y respuestas
    • Análisis de eficiencia computacional detallado
    • Resultados estadísticamente convincentes
  4. Alto Valor Práctico:
    • Sobrecarga computacional mínima
    • Reemplaza directamente arquitectura Transformadora existente
    • Proporciona base arquitectónica para construir IA confiable

Deficiencias

  1. Análisis Teórico Insuficientemente Profundo:
    • Carece de análisis teórico de relación entre tamaño de conjunto credal e incertidumbre real
    • No proporciona garantías teóricas de convergencia o estabilidad
  2. Alcance Experimental Limitado:
    • Principalmente validado en datos pequeños y sintéticos
    • Carece de validación en LLMs reales a gran escala
    • Validación insuficiente en tareas generativas
  3. Experimentos Comparativos Incompletos:
    • No compara con otros métodos de cuantificación de incertidumbre
    • Carece de comparación directa con métodos existentes de mitigación de alucinaciones
  4. Detalles de Implementación Insuficientemente Detallados:
    • Detalles de estrategia de entrenamiento, selección de hiperparámetros insuficientemente completos
    • Reproducibilidad potencialmente afectada

Impacto

  1. Impacto Académico:
    • Proporciona nuevo paradigma de investigación: cuantificación de incertidumbre a nivel arquitectónico
    • Sienta base teórica para investigación relacionada posterior
    • Puede inspirar más trabajo de mejora de mecanismo de atención
  2. Valor Práctico:
    • Proporciona ruta técnica concreta para construir sistemas de IA confiables
    • Valor importante en escenarios de aplicación de alto riesgo
    • Eficiencia computacional proporciona potencial de aplicación industrial
  3. Contribución Metodológica:
    • Promueve confiabilidad como primer principio en diseño de modelos
    • Demuestra método de diseño arquitectónico impulsado por teoría

Escenarios Aplicables

  1. Escenarios de Alta Confiabilidad: Diagnóstico médico, consultoría legal, análisis financiero, etc.
  2. Aplicaciones que Requieren Cuantificación de Incertidumbre: Investigación científica, sistemas de apoyo a decisiones
  3. Necesidades de Detección Fuera de Distribución: Sistemas críticos para la seguridad, detección de anomalías
  4. Sistemas de IA Interactivos: Sistemas de diálogo que necesitan que el modelo exprese "no sé"

Referencias

Las referencias clave en el artículo incluyen:

  • Vaswani et al. 2017: Attention is All You Need (Artículo original de Transformador)
  • Sensoy et al. 2018: Evidential Deep Learning (Base teórica de aprendizaje profundo evidencial)
  • Brown et al. 2020: Artículo GPT-3 (Fundamentos de modelos de lenguaje grande)
  • Lewis et al. 2020: RAG Generación Aumentada por Recuperación
  • Huang et al. 2025: Revisión de problema de alucinaciones

Evaluación General: Este es un artículo excelente tanto en perspectiva teórica como en innovación técnica. Los autores identifican la causa arquitectónica del problema de alucinaciones en LLMs y proponen una solución elegante. Aunque hay espacio para mejora en validación a gran escala y análisis teórico, la idea central y el método poseen importante valor académico y potencial práctico, proporcionando base técnica importante para construir sistemas de IA más confiables.