2025-11-13T13:25:11.216435

Credal Transformer: A Principled Approach for Quantifying and Mitigating Hallucinations in Large Language Models

Ji, Song, Huang
Large Language Models (LLMs) hallucinate, generating factually incorrect yet confident assertions. We argue this stems from the Transformer's Softmax function, which creates "Artificial Certainty" by collapsing ambiguous attention scores into a single probability distribution, discarding uncertainty information at each layer. To fix this, we introduce the Credal Transformer, which replaces standard attention with a Credal Attention Mechanism (CAM) based on evidential theory. CAM produces a "credal set" (a set of distributions) instead of a single attention vector, with the set's size directly measuring model uncertainty. We implement this by re-conceptualizing attention scores as evidence masses for a Dirichlet distribution: sufficient evidence recovers standard attention, while insufficient evidence yields a diffuse distribution, representing ambiguity. Empirically, the Credal Transformer identifies out-of-distribution inputs, quantifies ambiguity, and significantly reduces confident errors on unanswerable questions by abstaining. Our contribution is a new architecture to mitigate hallucinations and a design paradigm that integrates uncertainty quantification directly into the model, providing a foundation for more reliable AI.
academic

Credal Transformer: A Principled Approach for Quantifying and Mitigating Hallucinations in Large Language Models

基本信息

  • 论文ID: 2510.12137
  • 标题: Credal Transformer: A Principled Approach for Quantifying and Mitigating Hallucinations in Large Language Models
  • 作者: Shihao Ji (Zaozhuang No.28 Middle School), Zihui Song (Tengzhou No.1 High School), Jiajie Huang (Xi'an Jiaotong University)
  • 分类: cs.CL, cs.AI
  • 发表时间/会议: 39th Conference on Neural Information Processing Systems (NeurIPS 2025) Workshop: Reliable ML from Unreliable Data
  • 论文链接: https://arxiv.org/abs/2510.12137v1

摘要

大型语言模型(LLMs)存在幻觉问题,会生成事实错误但高置信度的断言。本文认为这源于Transformer的Softmax函数,它通过将模糊的注意力分数折叠为单一概率分布来创造"人工确定性",丢弃了每层的不确定性信息。为解决此问题,本文引入了Credal Transformer,用基于证据理论的Credal注意力机制(CAM)替换标准注意力。CAM产生"credal集合"(分布集合)而非单一注意力向量,集合大小直接衡量模型不确定性。通过将注意力分数重新概念化为Dirichlet分布的证据质量来实现:充分证据恢复标准注意力,不充分证据产生扩散分布,表示模糊性。实验表明,Credal Transformer能识别分布外输入、量化模糊性,并通过弃权显著减少对无法回答问题的置信错误。

研究背景与动机

核心问题

本研究旨在解决大型语言模型中的幻觉问题——模型生成事实错误但表现出高置信度的内容。这一现象严重限制了LLMs在高风险领域的部署应用。

问题重要性

  1. 实用性障碍:幻觉问题阻碍了LLMs在医疗、法律、金融等高风险领域的应用
  2. 信任危机:用户难以判断模型输出的可靠性,影响AI系统的可信度
  3. 安全隐患:错误但高置信度的输出可能导致严重的决策失误

现有方法局限性

传统解决方案主要包括:

  • 外部干预方法:检索增强生成(RAG)、外部知识库事实检查、解码过程修改
  • 局限性:将LLM视为黑盒,未解决架构层面的内在过度自信问题

研究动机

作者提出了一个根本性假设:幻觉问题不仅是数据问题,更源于Transformer架构本身,特别是注意力机制中的Softmax函数创造的"人工确定性"。

核心贡献

  1. 理论洞察:识别出Softmax函数在注意力机制中创造"人工确定性"是导致幻觉的架构性原因
  2. 新型架构:提出Credal Transformer,集成不确定性量化作为模型的内在组件
  3. 技术创新:设计基于证据理论的Credal注意力机制(CAM),能够表示和量化认知不确定性
  4. 实证验证:在多个任务上验证了方法的有效性,包括分布外检测、模糊性量化和问答任务
  5. 设计范式:倡导将不确定性感知作为模型设计的第一原则

方法详解

任务定义

将标准Transformer的确定性注意力机制替换为能够表示和量化不确定性的机制,使模型能够:

  • 识别输入的模糊性
  • 量化自身的认知不确定性
  • 在缺乏足够证据时选择弃权

模型架构

标准注意力机制的问题

标准注意力计算公式:

ai = Softmax(si) where aij = exp(sij) / Σ(k=1 to L) exp(sik)

问题:Softmax强制模型做出确定性选择,即使在分数模糊时也是如此。

Credal注意力机制(CAM)

核心思想:将注意力分数重新概念化为证据,用于参数化Dirichlet分布。

实现步骤

  1. 证据转换
    eij = exp(sij)  // 将原始分数转换为非负证据
    
  2. Dirichlet参数化
    αij = eij + 1  // 浓度参数
    
  3. 期望注意力权重
    âij = E[pij] = αij / αi0
    

    其中 αi0 = Σ(k=1 to L) αik
  4. 不确定性量化
    Ui = L / αi0  // 空虚度(vacuity)衡量认知不确定性
    

技术创新点

  1. 证据理论集成:首次将证据深度学习原理应用于注意力机制核心
  2. 可微分不确定性:提供直接、可微分的不确定性度量
  3. 自适应行为
    • 高证据 → 尖锐分布 → 恢复标准注意力
    • 低证据 → 扩散分布 → 显式表示模糊性
  4. 端到端训练:整个架构保持可微分,可用标准优化技术训练

实验设置

数据集

合成数据集(用于分布外检测):

  • 分布内(ID):固定噪声模式生成的序列
  • 分布外(OOD):均匀随机分布生成的序列
  • 无意义数据:纯噪声序列

评价指标

  • 不确定性分数:模型最终层产生的平均不确定性
  • 计算效率指标:GFLOPs、推理时间、训练时间

对比方法

  • 标准Transformer(使用Softmax注意力)

实现细节

  • 在ID数据上训练Credal Transformer分类器
  • 测试时输入三种类型数据,测量不确定性输出

实验结果

主要结果

分布外检测实验

数据类型平均不确定性分数
分布内(ID)0.0415
分布外(OOD)0.1378
无意义数据0.1953

关键发现:模型能够清晰区分不同类型输入,对越偏离训练分布的数据产生越高的不确定性。

计算效率对比

指标标准注意力Credal注意力(CAM)
GFLOPs25.77 G25.77 G (+0%)
推理时间开销基准+4.4%
训练时间开销基准+11.6%

重要结论:CAM在几乎不增加计算成本的情况下实现了不确定性量化能力。

其他能力验证

  1. 模糊性量化:对于内在模糊的输入,模型产生更大的credal集合(高熵)
  2. 无法回答问题处理:在问答基准测试中,通过内部不确定性度量选择弃权,显著减少置信错误

实验发现

  1. 架构级解决方案有效:相比外部干预,直接修改注意力机制更根本地解决问题
  2. 不确定性与数据质量相关:模型不确定性与输入偏离训练分布的程度高度相关
  3. 计算效率可接受:minimal开销使得方法具有实用价值

相关工作

幻觉缓解方法

  • 检索增强生成(RAG):Lewis et al. 2020
  • 外部事实检查:Schick et al. 2023
  • 解码修改:Li et al. 2022

不确定性量化

  • 贝叶斯神经网络:Blundell et al. 2015 - 计算成本高
  • 证据深度学习:Sensoy et al. 2018 - 本文的理论基础

本文优势

首次将不确定性量化集成到Transformer架构核心,而非作为外部工具或后处理步骤。

结论与讨论

主要结论

  1. 根本原因识别:Softmax函数的"人工确定性"是幻觉问题的架构性根源
  2. 有效解决方案:Credal Transformer通过credal集合有效表示和量化不确定性
  3. 实用性验证:方法在多个任务上表现优异,计算开销可接受

局限性

  1. 生成任务验证不足:主要在判别任务上验证,开放式生成任务效果待探索
  2. 不确定性利用有限:目前主要用作输出层决策指标,未充分利用层级不确定性信息
  3. 大规模扩展性:在100B+参数模型上的可扩展性需要进一步验证

未来方向

  1. 动态解码指导:利用CAM的不确定性信号动态指导生成过程
  2. 层级信息调制:基于层级不确定性动态调整网络内信息流
  3. 大规模验证:在超大规模模型和分布式训练设置下的验证

深度评价

优点

  1. 理论贡献深刻
    • 提出了幻觉问题的架构性根因理论
    • 将证据理论优雅地集成到注意力机制中
  2. 方法设计优雅
    • 保持端到端可微分性
    • 自然退化到标准注意力(高证据时)
    • 提供直接的不确定性度量
  3. 实验验证充分
    • 涵盖分布外检测、模糊性量化、问答任务
    • 计算效率分析详实
    • 结果具有统计说服力
  4. 实用价值高
    • 计算开销minimal
    • 可直接替换现有Transformer架构
    • 为构建可信AI提供了架构基础

不足

  1. 理论分析不够深入
    • 缺乏对credal集合大小与实际不确定性关系的理论分析
    • 未提供收敛性或稳定性的理论保证
  2. 实验范围有限
    • 主要在小规模、合成数据上验证
    • 缺乏在真实大规模LLM上的验证
    • 生成任务验证不足
  3. 对比实验不够全面
    • 未与其他不确定性量化方法对比
    • 缺乏与现有幻觉缓解方法的直接对比
  4. 实现细节不够详细
    • 训练策略、超参数选择等细节不够充分
    • 可复现性可能受影响

影响力

  1. 学术影响
    • 提供了新的研究范式:架构级不确定性量化
    • 为后续相关研究奠定了理论基础
    • 可能启发更多注意力机制改进工作
  2. 实用价值
    • 为构建可信AI系统提供了具体技术路径
    • 在高风险应用场景中具有重要价值
    • 计算效率使其具有工业应用潜力
  3. 方法论贡献
    • 倡导将可靠性作为模型设计的第一原则
    • 展示了理论驱动的架构设计方法

适用场景

  1. 高可靠性要求场景:医疗诊断、法律咨询、金融分析等
  2. 需要不确定性量化的应用:科学研究、决策支持系统
  3. 分布外检测需求:安全关键系统、异常检测
  4. 交互式AI系统:需要模型表达"不知道"的对话系统

参考文献

论文中的关键参考文献包括:

  • Vaswani et al. 2017: Attention is All You Need (Transformer原始论文)
  • Sensoy et al. 2018: Evidential Deep Learning (证据深度学习理论基础)
  • Brown et al. 2020: GPT-3论文 (大语言模型基础)
  • Lewis et al. 2020: RAG检索增强生成
  • Huang et al. 2025: 幻觉问题综述

总体评价:这是一篇在理论洞察和技术创新方面都很出色的论文。作者识别出了LLM幻觉问题的架构性根因,并提出了优雅的解决方案。虽然在大规模验证和理论分析方面还有改进空间,但其核心思想和方法具有重要的学术价值和实用潜力,为构建更可靠的AI系统提供了重要的技术基础。