Deep ensembles (DE) have emerged as a powerful approach for quantifying predictive uncertainty and distinguishing its aleatoric and epistemic components, thereby enhancing model robustness and reliability. However, their high computational and memory costs during inference pose significant challenges for wide practical deployment. To overcome this issue, we propose credal ensemble distillation (CED), a novel framework that compresses a DE into a single model, CREDIT, for classification tasks. Instead of a single softmax probability distribution, CREDIT predicts class-wise probability intervals that define a credal set, a convex set of probability distributions, for uncertainty quantification. Empirical results on out-of-distribution detection benchmarks demonstrate that CED achieves superior or comparable uncertainty estimation compared to several existing baselines, while substantially reducing inference overhead compared to DE.
- 论文ID: 2511.13766
- 标题: Credal Ensemble Distillation for Uncertainty Quantification
- 作者: Kaizheng Wang (KU Leuven), Fabio Cuzzolin (Oxford Brookes University), David Moens (KU Leuven), Hans Hallez (KU Leuven)
- 分类: cs.LG, cs.AI
- 发表时间/会议: AAAI 2026
- 论文链接: https://arxiv.org/abs/2511.13766
深度集成(Deep Ensembles, DE)已成为量化预测不确定性并区分其偶然不确定性(aleatoric uncertainty)和认知不确定性(epistemic uncertainty)的强大方法,从而增强模型的鲁棒性和可靠性。然而,其在推理过程中的高计算和内存成本给广泛实际部署带来了重大挑战。为克服这一问题,本文提出了可信集成蒸馏(Credal Ensemble Distillation, CED)框架,将DE压缩为单一模型CREDIT用于分类任务。CREDIT不预测单一softmax概率分布,而是预测定义可信集(credal set,概率分布的凸集)的类别概率区间,用于不确定性量化。在分布外检测基准上的实验结果表明,CED在大幅降低相对于DE的推理开销的同时,实现了优于或可比的不确定性估计性能。
- 不确定性量化的重要性:神经网络的不确定性量化(UQ)日益受到关注,主要区分两类不确定性:
- 偶然不确定性(AU):源于数据生成过程的固有随机性
- 认知不确定性(EU):由证据不足引起,反映模型对真实条件分布的不精确知识
- 深度集成的局限性:
- DE通过组合多个标准神经网络(SNN)来预测有限分布集,已成为强UQ基线
- 但DE需要大量内存和计算资源,推理时需要运行M个独立模型
- 这限制了其在资源受限场景中的实际部署
- 现有蒸馏方法的不足:
- 集成蒸馏(ED):将DE蒸馏为单个SNN,但只生成单一预测分布,限制了AU量化能力
- 集成分布蒸馏(EDD):输出Dirichlet分布作为二阶预测,但缺乏真实Dirichlet标签用于训练,且在理论上偏离EU的定义
- 贝叶斯神经网络(BNN):面临可扩展性挑战和对先验选择的敏感性
本文提出核心研究问题:能否从DE蒸馏出一个预测可信集作为二阶表示的单一神经网络,并改进现有蒸馏框架的UQ性能?
- 提出CED框架:首次提出将DE蒸馏为预测可信集的单一模型的新颖框架,这是一个未被探索的任务
- 设计CREDIT模型:
- 输出2C+1维向量(C为类别数),包括交集概率(p*)、区间长度向量(Δp)和权重因子(β)
- 能够重构类别概率区间系统,定义用于UQ的可信集
- 创新的蒸馏损失:提出专门的蒸馏损失函数,结合交叉熵和均方误差,有效学习DE教师的可信信息
- 优越的实验性能:
- 在多个OOD检测基准上,EU估计显著优于基线方法
- TU估计达到优于或可比的性能
- 相比DE大幅降低推理开销(从5×单模型降至1×)
- 理论贡献:利用可信集理论为不确定性量化提供了更具原则性的数学框架
- 输入:分类任务的输入样本x
- 输出:
- 类别预测:通过交集概率p*
- 不确定性量化:通过重构的可信集Q
- 目标:将M个SNN组成的DE教师压缩为单一CREDIT学生模型,保持或提升UQ性能
给定DE的M个预测概率{pm}^M_,构造类别概率区间:
pk=maxm=1,..,Mpm,k,pk=minm=1,..,Mpm,k
这些区间定义有效的可信集:
Q={p∣pk∈[pk,pk]∀k}
满足约束:∑k=1Cpk≤1≤∑k=1Cpk
交集概率计算(用于唯一类别预测):
pk∗=pk+β(pk−pk)
其中权重因子:
β=(1−∑k=1Cpk)/(∑k=1CΔpk)
这里Δpk=pk−pk为区间长度。
架构修改:
- 兼容任何神经网络骨干
- 将最后分类层从C个输出神经元修改为2C+1个节点
- 输出向量v := (p*_S ∈ R^C, Δp_S ∈ R^C, β_S ∈ R)
输出计算(给定logits z_S ∈ R^{2C+1}):
pS∗=softmax(zS1:C)ΔpS=sigmoid(zSC+1:2C)βS=sigmoid(zS2C+1)
这确保:
- p*_S归一化
- 每个区间长度Δp_{S,k} ∈ 0,1
- β_S ∈ 0,1
区间重构:
pS,k=pS,k∗−βSΔpS,kpS,k=pS,k∗+(1−βS)ΔpS,k
有效性保证:通过裁剪操作确保概率区间有效:
pS,k←max{pS,k,0},pS,k←min{pS,k,1}
采用广义熵度量:
- 总不确定性(TU):上Shannon熵H(QS)
- 偶然不确定性(AU):下Shannon熵H(QS)
- 认知不确定性(EU):H(QS)−H(QS)
上熵计算通过优化问题:
H(QS)=maxp∈QS∑k=1C−pklogpk
受约束于∑k=1Cpk=1且pk∈[pS,k,pS,k]
CED损失函数:
Lced=N−1∑n=1N(∑k=1C−pk∗nlogpS,k∗n+∑k=1C(Δpkn−ΔpS,kn)2+(βn−βSn)2)
三个组成部分:
- 交叉熵项:学习交集概率,保持预测性能
- 区间长度MSE:学习概率区间的不精确性
- 权重因子MSE:学习权重因子
温度缩放:应用温度T=2.5进行知识蒸馏增强,损失函数乘以T²
- 首次可信集蒸馏:将可信集理论与知识蒸馏结合,创新性地解决了从集成到单模型的不确定性保留问题
- 紧凑表示:通过(p*, Δp, β)三元组紧凑表示可信集,避免直接存储所有区间端点
- 理论保证:数学证明了重构的概率区间满足可信集的有效性条件
- 端到端训练:不需要复杂的学习率调度或温度退火(与EDD相比)
- 计算效率:推理时仅需单次前向传播,不确定性量化的优化问题(C≤10时)开销可忽略
主要实验:
- CIFAR10 vs. SVHN:标准OOD检测对
- CIFAR10 vs. CIFAR10-C:
- CIFAR10-C包含15种类型的损坏
- 每种损坏5个严重级别
- 共75个损坏变体
医学图像案例研究:
- Camelyon17:组织病理学乳腺淋巴结图像
- 二分类任务:{Tumor, Non-Tumor}
- 强域偏移设置:ID和OOD使用不同扫描仪
OOD检测性能(将OOD检测视为二分类):
- AUROC(受试者工作特征曲线下面积):评估真阳性率和假阳性率
- AUPRC(精确率-召回率曲线下面积):评估不同置信度水平的性能
- 更高的值表示更好的UQ性能
ID性能:
- 测试准确率(ACC)
- 期望校准误差(ECE):评估模型置信度与真实概率的对齐程度
医学图像评估:
- 准确率-拒绝(AR)曲线:选择性分类中准确率随拒绝率的变化
- AUARC(AR曲线下面积):更高值表示更好的不确定性校准
- DE:5个SNN的深度集成(M=5)
- SNN:单个标准神经网络
- ED:标准集成蒸馏
- EDD*:采用原始论文配置的集成分布蒸馏(循环学习率、T=10、温度退火)
- EDD:使用与CED相同训练配置的EDD(公平比较)
- MCDO:蒙特卡洛Dropout(10次前向传播)
主要实验(VGG16/ResNet18):
- 从头训练15个SNN(不同随机初始化)
- 构建15个DE(每个随机选择5个SNN,无重复组合)
- 从15个DE分别蒸馏15个学生模型
- 优化器:Adam,初始学习率0.001
- 学习率调度:第80轮降低至0.0001
- 训练轮数:100 epochs
- 批大小:128
- 温度缩放:T=2.5(用于ED、EDD、CED)
- 数据增强:标准增强策略
预训练模型实验(ResNet50):
- 使用ImageNet预训练的ResNet50
- 输入尺寸调整为(224, 224, 3)
- 训练25 epochs
- 其他配置与主实验一致
EDD*配置:
- 循环学习率策略(周期长度60/15)
- 温度缩放T=10
- 温度退火
CIFAR10 vs. SVHN:
| 方法 | EU AUROC | EU AUPRC | TU AUROC | TU AUPRC |
|---|
| DE | 89.99±0.79 | 93.78±0.67 | 91.53±0.72 | 95.09±0.49 |
| CED | 93.56±2.17 | 96.09±1.72 | 92.51±1.96 | 95.21±1.52 |
| ED | / | / | 91.07±1.27 | 94.51±0.89 |
| EDD* | 90.94±2.41 | 93.66±1.72 | 90.96±2.66 | 93.78±2.11 |
| MCDO | 51.42±0.46 | 74.72±0.42 | 89.12±1.63 | 93.64±1.17 |
CIFAR10 vs. CIFAR10-C(平均15种损坏×5级别):
| 方法 | EU AUROC | EU AUPRC | TU AUROC | TU AUPRC |
|---|
| DE | 93.18±1.99 | 89.41±4.07 | 96.51±1.70 | 95.42±2.07 |
| CED | 96.51±1.81 | 95.09±2.36 | 95.56±1.75 | 93.58±2.44 |
| ED | / | / | 94.71±2.20 | 92.72±2.94 |
| EDD* | 93.83±1.88 | 87.91±4.32 | 95.45±2.10 | 92.11±3.65 |
ID性能(CIFAR10测试集):
| 方法 | 测试准确率 | ECE |
|---|
| DE | 93.52±0.07 | 1.46±0.13 |
| CED | 92.23±0.17 | 6.71±0.18 |
| ED | 92.18±0.16 | 6.85±0.16 |
| EDD* | 91.13±0.18 | 3.84±0.25 |
CIFAR10 vs. SVHN:
- CED EU AUROC: 96.69±1.14(vs. DE: 89.50±1.05)
- CED EU AUPRC: 98.44±0.64(vs. DE: 92.22±1.19)
CIFAR10 vs. CIFAR10-C:
- CED EU AUROC: 96.80±2.81(vs. DE: 87.78±2.28)
- CED EU AUPRC: 96.09±4.14(vs. DE: 78.92±3.67)
- EU估计显著提升:CED在所有实验设置中的EU估计一致优于所有基线方法,AUROC和AUPRC均有显著提升
- TU性能可比:CED的TU估计达到优于或可比的性能,大多数情况下排名前两位
- EU优于TU:对比使用EU和TU的OOD检测分数,CED的EU估计在大多数情况下产生最佳性能,突显改进EU量化的重要性
- 预测准确率保持:蒸馏提升了单个SNN的预测准确率,CED达到与基线蒸馏方法可比的性能
- MCDO失效:在此设置中,MCDO的EU估计变得不可靠(AUROC约50%),可能由于模型多样性有限
- EDD训练困难:使用相同配置的EDD测试准确率显著降低(VGG16: 74.56%, ResNet50: 80.38%),因此排除其UQ分析
测试M ∈ {5, 15, 25, 30},VGG16骨干:
观察:
- DE:增加集成大小持续改进UQ性能
- CED和EDD*:没有观察到明确趋势
- CED在各种集成大小下保持一致的强OOD检测性能
- 突显CED的高潜力,特别是考虑到相比大型DE显著降低的推理复杂度
测试T ∈ {1, 2.5, 5, 10},VGG16骨干:
结果:
- 温度缩放改进CED的UQ性能
- 过高的值(T=10)降低性能
- T=2.5一致产生最佳结果,与Hinton等人的发现一致
类似的结果模式在ResNet18上得到验证(附录表4):
- CIFAR10 vs. SVHN:CED EU AUROC 88.73±2.53(vs. DE 87.63±0.57)
- CIFAR10 vs. CIFAR10-C:CED EU AUROC 97.44±1.35(vs. DE 92.43±1.91)
核心密度图(CIFAR10 ID vs. SVHN OOD):
- CED对OOD样本显示显著更高的EU和TU值
- ID和OOD样本的不确定性分布分离良好
- EDD*虽然OOD峰值更明显,但ID样本的不确定性分布与OOD重叠较多,解释了其较低的OOD检测性能
AR曲线结果(图11,表6):
| 设置 | 估计 | CED AUARC | DE AUARC |
|---|
| ID | EU | 97.71±0.20 | 97.43±0.34 |
| ID | TU | 97.67±0.20 | 97.65±0.22 |
| OOD | EU | 97.12±0.22 | 95.92±0.44 |
| OOD | TU | 97.12±0.22 | 96.61±0.24 |
结论:CED在真实医学图像分类中优于DE,同时需要更少计算
推理时间(CIFAR10测试集,单P100 GPU):
- DE: 5×(2.22±0.20) = 11.1秒
- CED: 2.26±0.23秒
- EDD*: 2.22±0.20秒
训练时间(每轮,单P100 GPU):
- DE: 5×(130.07±0.24) = 650秒
- CED: 659.52±11.82秒
- EDD*: 684.54±5.05秒
分析:
- CED推理效率比DE提高约5倍
- 相比其他蒸馏方法略有增加(由于额外输出节点)
- CED训练比EDD*更简单(无需复杂学习率调度或温度退火)
贝叶斯神经网络(BNN):
- 学习权重的后验分布
- 挑战:大数据集和复杂架构的可扩展性
- 对先验、似然和训练目标的选择敏感
深度集成(DE):
- 组合多个SNN预测有限分布集
- 被视为强UQ基线
- 局限:高内存和计算需求
Dirichlet方法(DBM):
- 输出Dirichlet分布作为二阶预测
- 批评:缺乏真实标签、偏离EU理论定义
集成蒸馏(ED):
- 将DE蒸馏为SNN,近似DE预测分布的均值
- 局限:只生成单一分布,限制AU量化
集成分布蒸馏(EDD):
- 蒸馏为输出Dirichlet分布的模型
- 挑战:训练困难、缺乏真实标签
经典应用:
- 在更广泛的机器学习中用于UQ
- 最近在深度学习中重新受到关注
最新进展:
- 将NN权重和输出建模为可信集
- 从输出概率区间导出可信集预测
- 包装BNN和DE的预测概率为可信集
局限:通常需要更大的计算资源
首次探索可信集成蒸馏任务,将可信包装器与知识蒸馏结合,设计能学习和保留集成可信信息的单一模型,同时改进UQ性能。
- 成功提出CED框架:将DE教师压缩为单一CREDIT模型,预测定义可信集的类别概率区间
- 优越的UQ性能:
- EU估计显著优于ED、EDD和DE基线
- TU估计达到优于或可比的性能
- 在多个OOD检测基准和骨干架构上验证
- 大幅降低推理开销:相比DE减少约5倍推理时间
- 原则性方法:基于可信集理论提供更具原则性的不确定性量化数学框架
- 实用价值:在真实医学图像分类案例中展示有效性
- 可扩展性挑战:
- 当前CED在类别数显著增大(如100或1000)时面临挑战
- DE教师的softmax对大多数类别产生接近零的概率值
- 可能破坏蒸馏损失回归组件的稳定性
- 校准性能:
- 单模型的ECE不如DE教师
- 需要将校准考虑整合到蒸馏策略设计中
- ECE度量限制:
- 当前ECE为单概率预测设计
- 需要针对可信集预测的原则性ECE扩展
- 优化开销:
- 虽然C≤10时可忽略,但大类别数可能增加不确定性量化的计算成本
- 增强可扩展性:
- 解决大类别数分类任务(100+类别)
- 改进对小概率值的处理稳定性
- 校准整合:
- 将校准考虑纳入蒸馏策略
- 目标:达到与DE教师可比或更好的校准性能
- 理论扩展:
- 应用拓展:
- 扩展到回归任务
- 探索其他领域的应用(如自然语言处理)
- 创新性强:
- 首次将可信集理论与集成蒸馏结合
- 提出新颖的研究问题和完整解决方案
- 紧凑的三元组表示设计巧妙
- 理论基础扎实:
- 基于可信集理论提供数学保证
- 证明重构区间满足有效性条件
- 采用原则性的广义熵度量
- 实验充分:
- 多个数据集对(CIFAR10 vs. SVHN/CIFAR10-C)
- 多种骨干架构(VGG16、ResNet18、ResNet50)
- 15次独立运行确保统计显著性
- 详尽的消融实验
- 真实医学图像案例研究
- 结果令人信服:
- EU估计一致显著优于所有基线
- 推理效率提升约5倍
- 在不同设置下表现稳定
- 写作清晰:
- 方法描述详细
- 图表设计直观(特别是图1框架图)
- 数学公式表达清晰
- 可复现性好:
- 提供详细的实现细节
- 附录包含额外实验和配置
- 代码已提供
- 可扩展性限制:
- 作者承认大类别数(100+)的挑战
- softmax对小概率值的处理可能不稳定
- 这限制了在ImageNet等大规模数据集上的应用
- 校准性能下降:
- 所有单模型的ECE均不如DE教师
- CED的ECE(6.71%)明显高于DE(1.46%)
- 虽然预测准确率可比,但置信度校准需改进
- 优化开销未充分讨论:
- 虽然声称C≤10时可忽略
- 未提供详细的运行时分析
- 对更大C值的扩展性缺乏深入分析
- 与EDD的比较不完全公平:
- EDD在相同配置下表现极差(准确率74.56%)
- 主要与EDD*(特殊配置)比较
- 可能掩盖了方法本身的一些问题
- 理论分析有限:
- 缺乏收敛性分析
- 损失函数设计的理论依据不足
- 为何三项损失的简单加权有效缺乏深入解释
- MCDO基线不完整:
- ResNet50实验未报告MCDO结果
- MCDO表现差的原因分析较简单
- 学术贡献:
- 开辟了可信集成蒸馏的新研究方向
- 为不确定性量化提供了新的原则性框架
- 预期引发后续研究
- 实用价值:
- 显著降低推理成本(5倍加速)
- 在医学图像等关键应用中展示价值
- 为资源受限场景提供实用解决方案
- 局限性:
- 大规模应用仍需改进
- 校准问题需要解决
- 实际部署可能面临挑战
- 可复现性:
推荐应用:
- 中小规模分类任务(C≤10):
- 医学图像诊断(如Camelyon17)
- 质量控制和异常检测
- 自动驾驶中的场景分类
- 资源受限环境:
- 需要可靠不确定性估计的场景:
不推荐应用:
- 大规模分类(100+类别)
- 对校准要求极高的场景
- 计算资源充足且可接受集成开销的情况
- Lakshminarayanan et al., 2017: Simple and scalable predictive uncertainty estimation using deep ensembles (DE基础)
- Malinin et al., 2019: Ensemble Distribution Distillation (EDD方法)
- Hinton et al., 2015: Distilling the knowledge in a neural network (知识蒸馏基础)
- Hüllermeier & Waegeman, 2021: Aleatoric and epistemic uncertainty in machine learning (不确定性理论)
- Wang et al., 2025a: Credal Wrapper of Model Averaging for Uncertainty Estimation (可信包装器方法)
- Cuzzolin, 2022: The intersection probability: betting with probability intervals (交集概率理论)
- De Campos et al., 1994: Probability intervals: A tool for uncertain reasoning (可信集基础理论)
总体评价:这是一篇高质量的研究论文,提出了创新的可信集成蒸馏框架,在理论和实验上都有扎实的贡献。虽然存在可扩展性和校准方面的局限,但为不确定性量化领域提供了有价值的新方向。特别适合中小规模分类任务和资源受限场景,具有良好的实用价值和学术影响力。