2025-11-30T05:43:18.818906

Credal Ensemble Distillation for Uncertainty Quantification

Wang, Cuzzolin, Moens et al.

Deep ensembles (DE) have emerged as a powerful approach for quantifying predictive uncertainty and distinguishing its aleatoric and epistemic components, thereby enhancing model robustness and reliability. However, their high computational and memory costs during inference pose significant challenges for wide practical deployment. To overcome this issue, we propose credal ensemble distillation (CED), a novel framework that compresses a DE into a single model, CREDIT, for classification tasks. Instead of a single softmax probability distribution, CREDIT predicts class-wise probability intervals that define a credal set, a convex set of probability distributions, for uncertainty quantification. Empirical results on out-of-distribution detection benchmarks demonstrate that CED achieves superior or comparable uncertainty estimation compared to several existing baselines, while substantially reducing inference overhead compared to DE.

academic

Credal Ensemble Distillation for Uncertainty Quantification

基本信息

论文ID: 2511.13766
标题: Credal Ensemble Distillation for Uncertainty Quantification
作者: Kaizheng Wang (KU Leuven), Fabio Cuzzolin (Oxford Brookes University), David Moens (KU Leuven), Hans Hallez (KU Leuven)
分类: cs.LG, cs.AI
发表时间/会议: AAAI 2026
论文链接: https://arxiv.org/abs/2511.13766

摘要

深度集成（Deep Ensembles, DE）已成为量化预测不确定性并区分其偶然不确定性（aleatoric uncertainty）和认知不确定性（epistemic uncertainty）的强大方法，从而增强模型的鲁棒性和可靠性。然而，其在推理过程中的高计算和内存成本给广泛实际部署带来了重大挑战。为克服这一问题，本文提出了可信集成蒸馏（Credal Ensemble Distillation, CED）框架，将DE压缩为单一模型CREDIT用于分类任务。CREDIT不预测单一softmax概率分布，而是预测定义可信集（credal set，概率分布的凸集）的类别概率区间，用于不确定性量化。在分布外检测基准上的实验结果表明，CED在大幅降低相对于DE的推理开销的同时，实现了优于或可比的不确定性估计性能。

研究背景与动机

问题背景

不确定性量化的重要性：神经网络的不确定性量化（UQ）日益受到关注，主要区分两类不确定性：
- 偶然不确定性（AU）：源于数据生成过程的固有随机性
- 认知不确定性（EU）：由证据不足引起，反映模型对真实条件分布的不精确知识
深度集成的局限性：
- DE通过组合多个标准神经网络（SNN）来预测有限分布集，已成为强UQ基线
- 但DE需要大量内存和计算资源，推理时需要运行M个独立模型
- 这限制了其在资源受限场景中的实际部署
现有蒸馏方法的不足：
- 集成蒸馏（ED）：将DE蒸馏为单个SNN，但只生成单一预测分布，限制了AU量化能力
- 集成分布蒸馏（EDD）：输出Dirichlet分布作为二阶预测，但缺乏真实Dirichlet标签用于训练，且在理论上偏离EU的定义
- 贝叶斯神经网络（BNN）：面临可扩展性挑战和对先验选择的敏感性

研究动机

本文提出核心研究问题：能否从DE蒸馏出一个预测可信集作为二阶表示的单一神经网络，并改进现有蒸馏框架的UQ性能？

核心贡献

提出CED框架：首次提出将DE蒸馏为预测可信集的单一模型的新颖框架，这是一个未被探索的任务
设计CREDIT模型：
- 输出2C+1维向量（C为类别数），包括交集概率（p*）、区间长度向量（Δp）和权重因子（β）
- 能够重构类别概率区间系统，定义用于UQ的可信集
创新的蒸馏损失：提出专门的蒸馏损失函数，结合交叉熵和均方误差，有效学习DE教师的可信信息
优越的实验性能：
- 在多个OOD检测基准上，EU估计显著优于基线方法
- TU估计达到优于或可比的性能
- 相比DE大幅降低推理开销（从5×单模型降至1×）
理论贡献：利用可信集理论为不确定性量化提供了更具原则性的数学框架

方法详解

任务定义

输入：分类任务的输入样本x
输出：
- 类别预测：通过交集概率p*
- 不确定性量化：通过重构的可信集Q
目标：将M个SNN组成的DE教师压缩为单一CREDIT学生模型，保持或提升UQ性能

模型架构

1. 可信包装器（Credal Wrapper）用于集成教师

给定DE的M个预测概率{pm}^M_，构造类别概率区间：

$p_k = \max_{m=1,..,M} p_{m,k}, \quad \underline{p}_k = \min_{m=1,..,M} p_{m,k}$

这些区间定义有效的可信集：

$Q = \{p | p_k \in [\underline{p}_k, \overline{p}_k] \forall k\}$

满足约束： $\sum^C_{k=1} \underline{p}_k \leq 1 \leq \sum^C_{k=1} \overline{p}_k$

交集概率计算（用于唯一类别预测）：

$p^*_k = \underline{p}_k + \beta(\overline{p}_k - \underline{p}_k)$

其中权重因子：

$\beta = \left(1 - \sum^C_{k=1} \underline{p}_k\right) / \left(\sum^C_{k=1} \Delta p_k\right)$

这里 $\Delta p_k = \overline{p}_k - \underline{p}_k$ 为区间长度。

2. CREDIT学生模型设计

架构修改：

兼容任何神经网络骨干
将最后分类层从C个输出神经元修改为2C+1个节点
输出向量v := (p*_S ∈ R^C, Δp_S ∈ R^C, β_S ∈ R)

输出计算（给定logits z_S ∈ R^{2C+1}）：

$p^*_S = \text{softmax}(z_{S_{1:C}})$ $\Delta p_S = \text{sigmoid}(z_{S_{C+1:2C}})$ $\beta_S = \text{sigmoid}(z_{S_{2C+1}})$

这确保：

p*_S归一化
每个区间长度Δp_{S,k} ∈ 0,1
β_S ∈ 0,1

区间重构：

$\underline{p}_{S,k} = p^*_{S,k} - \beta_S \Delta p_{S,k}$ $\overline{p}_{S,k} = p^*_{S,k} + (1-\beta_S) \Delta p_{S,k}$

有效性保证：通过裁剪操作确保概率区间有效：

$\underline{p}_{S,k} \leftarrow \max\{\underline{p}_{S,k}, 0\}, \quad \overline{p}_{S,k} \leftarrow \min\{\overline{p}_{S,k}, 1\}$

3. 不确定性量化

采用广义熵度量：

总不确定性（TU）：上Shannon熵 $\overline{H}(Q_S)$
偶然不确定性（AU）：下Shannon熵 $\underline{H}(Q_S)$
认知不确定性（EU）： $\overline{H}(Q_S) - \underline{H}(Q_S)$

上熵计算通过优化问题：

$\overline{H}(Q_S) = \max_{p \in Q_S} \sum^C_{k=1} -p_k \log p_k$

受约束于 $\sum^C_{k=1} p_k = 1$ 且 $p_k \in [\underline{p}_{S,k}, \overline{p}_{S,k}]$

蒸馏策略

CED损失函数：

$\mathcal{L}_{\text{ced}} = N^{-1} \sum^N_{n=1} \left( \sum^C_{k=1} -p^{*n}_k \log p^{*n}_{S,k} + \sum^C_{k=1} (\Delta p^n_k - \Delta p^n_{S,k})^2 + (\beta^n - \beta^n_S)^2 \right)$

三个组成部分：

交叉熵项：学习交集概率，保持预测性能
区间长度MSE：学习概率区间的不精确性
权重因子MSE：学习权重因子

温度缩放：应用温度T=2.5进行知识蒸馏增强，损失函数乘以T²

技术创新点

首次可信集蒸馏：将可信集理论与知识蒸馏结合，创新性地解决了从集成到单模型的不确定性保留问题
紧凑表示：通过(p*, Δp, β)三元组紧凑表示可信集，避免直接存储所有区间端点
理论保证：数学证明了重构的概率区间满足可信集的有效性条件
端到端训练：不需要复杂的学习率调度或温度退火（与EDD相比）
计算效率：推理时仅需单次前向传播，不确定性量化的优化问题（C≤10时）开销可忽略

实验设置

数据集

主要实验：

CIFAR10 vs. SVHN：标准OOD检测对
CIFAR10 vs. CIFAR10-C：
- CIFAR10-C包含15种类型的损坏
- 每种损坏5个严重级别
- 共75个损坏变体

医学图像案例研究：

Camelyon17：组织病理学乳腺淋巴结图像
二分类任务：{Tumor, Non-Tumor}
强域偏移设置：ID和OOD使用不同扫描仪

评价指标

OOD检测性能（将OOD检测视为二分类）：

AUROC（受试者工作特征曲线下面积）：评估真阳性率和假阳性率
AUPRC（精确率-召回率曲线下面积）：评估不同置信度水平的性能
更高的值表示更好的UQ性能

ID性能：

测试准确率（ACC）
期望校准误差（ECE）：评估模型置信度与真实概率的对齐程度

医学图像评估：

准确率-拒绝（AR）曲线：选择性分类中准确率随拒绝率的变化
AUARC（AR曲线下面积）：更高值表示更好的不确定性校准

对比方法

DE：5个SNN的深度集成（M=5）
SNN：单个标准神经网络
ED：标准集成蒸馏
EDD*：采用原始论文配置的集成分布蒸馏（循环学习率、T=10、温度退火）
EDD：使用与CED相同训练配置的EDD（公平比较）
MCDO：蒙特卡洛Dropout（10次前向传播）

实现细节

主要实验（VGG16/ResNet18）：

从头训练15个SNN（不同随机初始化）
构建15个DE（每个随机选择5个SNN，无重复组合）
从15个DE分别蒸馏15个学生模型
优化器：Adam，初始学习率0.001
学习率调度：第80轮降低至0.0001
训练轮数：100 epochs
批大小：128
温度缩放：T=2.5（用于ED、EDD、CED）
数据增强：标准增强策略

预训练模型实验（ResNet50）：

使用ImageNet预训练的ResNet50
输入尺寸调整为(224, 224, 3)
训练25 epochs
其他配置与主实验一致

EDD*配置：

循环学习率策略（周期长度60/15）
温度缩放T=10
温度退火

实验结果

主要结果

VGG16骨干网络（表1）

CIFAR10 vs. SVHN：

方法	EU AUROC	EU AUPRC	TU AUROC	TU AUPRC
DE	89.99±0.79	93.78±0.67	91.53±0.72	95.09±0.49
CED	93.56±2.17	96.09±1.72	92.51±1.96	95.21±1.52
ED	/	/	91.07±1.27	94.51±0.89
EDD*	90.94±2.41	93.66±1.72	90.96±2.66	93.78±2.11
MCDO	51.42±0.46	74.72±0.42	89.12±1.63	93.64±1.17

CIFAR10 vs. CIFAR10-C（平均15种损坏×5级别）：

方法	EU AUROC	EU AUPRC	TU AUROC	TU AUPRC
DE	93.18±1.99	89.41±4.07	96.51±1.70	95.42±2.07
CED	96.51±1.81	95.09±2.36	95.56±1.75	93.58±2.44
ED	/	/	94.71±2.20	92.72±2.94
EDD*	93.83±1.88	87.91±4.32	95.45±2.10	92.11±3.65

ID性能（CIFAR10测试集）：

方法	测试准确率	ECE
DE	93.52±0.07	1.46±0.13
CED	92.23±0.17	6.71±0.18
ED	92.18±0.16	6.85±0.16
EDD*	91.13±0.18	3.84±0.25

ResNet50骨干网络（预训练）

CIFAR10 vs. SVHN：

CED EU AUROC: 96.69±1.14（vs. DE: 89.50±1.05）
CED EU AUPRC: 98.44±0.64（vs. DE: 92.22±1.19）

CIFAR10 vs. CIFAR10-C：

CED EU AUROC: 96.80±2.81（vs. DE: 87.78±2.28）
CED EU AUPRC: 96.09±4.14（vs. DE: 78.92±3.67）

关键发现

EU估计显著提升：CED在所有实验设置中的EU估计一致优于所有基线方法，AUROC和AUPRC均有显著提升
TU性能可比：CED的TU估计达到优于或可比的性能，大多数情况下排名前两位
EU优于TU：对比使用EU和TU的OOD检测分数，CED的EU估计在大多数情况下产生最佳性能，突显改进EU量化的重要性
预测准确率保持：蒸馏提升了单个SNN的预测准确率，CED达到与基线蒸馏方法可比的性能
MCDO失效：在此设置中，MCDO的EU估计变得不可靠（AUROC约50%），可能由于模型多样性有限
EDD训练困难：使用相同配置的EDD测试准确率显著降低（VGG16: 74.56%, ResNet50: 80.38%），因此排除其UQ分析

消融实验

1. 教师集成大小影响（图4）

测试M ∈ {5, 15, 25, 30}，VGG16骨干：

观察：

DE：增加集成大小持续改进UQ性能
CED和EDD*：没有观察到明确趋势
CED在各种集成大小下保持一致的强OOD检测性能
突显CED的高潜力，特别是考虑到相比大型DE显著降低的推理复杂度

2. 温度缩放影响（图5）

测试T ∈ {1, 2.5, 5, 10}，VGG16骨干：

结果：

温度缩放改进CED的UQ性能
过高的值（T=10）降低性能
T=2.5一致产生最佳结果，与Hinton等人的发现一致

3. ResNet18骨干验证

类似的结果模式在ResNet18上得到验证（附录表4）：

CIFAR10 vs. SVHN：CED EU AUROC 88.73±2.53（vs. DE 87.63±0.57）
CIFAR10 vs. CIFAR10-C：CED EU AUROC 97.44±1.35（vs. DE 92.43±1.91）

案例分析

定性评估（图3）

核心密度图（CIFAR10 ID vs. SVHN OOD）：

CED对OOD样本显示显著更高的EU和TU值
ID和OOD样本的不确定性分布分离良好
EDD*虽然OOD峰值更明显，但ID样本的不确定性分布与OOD重叠较多，解释了其较低的OOD检测性能

医学图像案例（Camelyon17）

AR曲线结果（图11，表6）：

设置	估计	CED AUARC	DE AUARC
ID	EU	97.71±0.20	97.43±0.34
ID	TU	97.67±0.20	97.65±0.22
OOD	EU	97.12±0.22	95.92±0.44
OOD	TU	97.12±0.22	96.61±0.24

结论：CED在真实医学图像分类中优于DE，同时需要更少计算

计算复杂度分析（表3）

推理时间（CIFAR10测试集，单P100 GPU）：

DE: 5×(2.22±0.20) = 11.1秒
CED: 2.26±0.23秒
EDD*: 2.22±0.20秒

训练时间（每轮，单P100 GPU）：

DE: 5×(130.07±0.24) = 650秒
CED: 659.52±11.82秒
EDD*: 684.54±5.05秒

分析：

CED推理效率比DE提高约5倍
相比其他蒸馏方法略有增加（由于额外输出节点）
CED训练比EDD*更简单（无需复杂学习率调度或温度退火）

结论与讨论

主要结论

成功提出CED框架：将DE教师压缩为单一CREDIT模型，预测定义可信集的类别概率区间
优越的UQ性能：
- EU估计显著优于ED、EDD和DE基线
- TU估计达到优于或可比的性能
- 在多个OOD检测基准和骨干架构上验证
大幅降低推理开销：相比DE减少约5倍推理时间
原则性方法：基于可信集理论提供更具原则性的不确定性量化数学框架
实用价值：在真实医学图像分类案例中展示有效性

局限性

可扩展性挑战：
- 当前CED在类别数显著增大（如100或1000）时面临挑战
- DE教师的softmax对大多数类别产生接近零的概率值
- 可能破坏蒸馏损失回归组件的稳定性
校准性能：
- 单模型的ECE不如DE教师
- 需要将校准考虑整合到蒸馏策略设计中
ECE度量限制：
- 当前ECE为单概率预测设计
- 需要针对可信集预测的原则性ECE扩展
优化开销：
- 虽然C≤10时可忽略，但大类别数可能增加不确定性量化的计算成本

未来方向

增强可扩展性：
- 解决大类别数分类任务（100+类别）
- 改进对小概率值的处理稳定性
校准整合：
- 将校准考虑纳入蒸馏策略
- 目标：达到与DE教师可比或更好的校准性能
理论扩展：
- 开发针对可信集的ECE度量
- 更深入的理论分析和保证
应用拓展：
- 扩展到回归任务
- 探索其他领域的应用（如自然语言处理）

深度评价

优点

创新性强：
- 首次将可信集理论与集成蒸馏结合
- 提出新颖的研究问题和完整解决方案
- 紧凑的三元组表示设计巧妙
理论基础扎实：
- 基于可信集理论提供数学保证
- 证明重构区间满足有效性条件
- 采用原则性的广义熵度量
实验充分：
- 多个数据集对（CIFAR10 vs. SVHN/CIFAR10-C）
- 多种骨干架构（VGG16、ResNet18、ResNet50）
- 15次独立运行确保统计显著性
- 详尽的消融实验
- 真实医学图像案例研究
结果令人信服：
- EU估计一致显著优于所有基线
- 推理效率提升约5倍
- 在不同设置下表现稳定
写作清晰：
- 方法描述详细
- 图表设计直观（特别是图1框架图）
- 数学公式表达清晰
可复现性好：
- 提供详细的实现细节
- 附录包含额外实验和配置
- 代码已提供

不足

可扩展性限制：
- 作者承认大类别数（100+）的挑战
- softmax对小概率值的处理可能不稳定
- 这限制了在ImageNet等大规模数据集上的应用
校准性能下降：
- 所有单模型的ECE均不如DE教师
- CED的ECE（6.71%）明显高于DE（1.46%）
- 虽然预测准确率可比，但置信度校准需改进
优化开销未充分讨论：
- 虽然声称C≤10时可忽略
- 未提供详细的运行时分析
- 对更大C值的扩展性缺乏深入分析
与EDD的比较不完全公平：
- EDD在相同配置下表现极差（准确率74.56%）
- 主要与EDD*（特殊配置）比较
- 可能掩盖了方法本身的一些问题
理论分析有限：
- 缺乏收敛性分析
- 损失函数设计的理论依据不足
- 为何三项损失的简单加权有效缺乏深入解释
MCDO基线不完整：
- ResNet50实验未报告MCDO结果
- MCDO表现差的原因分析较简单

影响力

学术贡献：
- 开辟了可信集成蒸馏的新研究方向
- 为不确定性量化提供了新的原则性框架
- 预期引发后续研究
实用价值：
- 显著降低推理成本（5倍加速）
- 在医学图像等关键应用中展示价值
- 为资源受限场景提供实用解决方案
局限性：
- 大规模应用仍需改进
- 校准问题需要解决
- 实际部署可能面临挑战
可复现性：
- 提供代码和详细配置
- 实验设置清晰
- 易于复现和扩展

适用场景

推荐应用：

中小规模分类任务（C≤10）：
- 医学图像诊断（如Camelyon17）
- 质量控制和异常检测
- 自动驾驶中的场景分类
资源受限环境：
- 边缘设备部署
- 实时推理需求
- 内存受限系统
需要可靠不确定性估计的场景：
- 安全关键应用
- 医疗诊断辅助
- 金融风险评估

不推荐应用：

大规模分类（100+类别）
对校准要求极高的场景
计算资源充足且可接受集成开销的情况

参考文献

关键引用

Lakshminarayanan et al., 2017: Simple and scalable predictive uncertainty estimation using deep ensembles (DE基础)
Malinin et al., 2019: Ensemble Distribution Distillation (EDD方法)
Hinton et al., 2015: Distilling the knowledge in a neural network (知识蒸馏基础)
Hüllermeier & Waegeman, 2021: Aleatoric and epistemic uncertainty in machine learning (不确定性理论)
Wang et al., 2025a: Credal Wrapper of Model Averaging for Uncertainty Estimation (可信包装器方法)
Cuzzolin, 2022: The intersection probability: betting with probability intervals (交集概率理论)
De Campos et al., 1994: Probability intervals: A tool for uncertain reasoning (可信集基础理论)

总体评价：这是一篇高质量的研究论文，提出了创新的可信集成蒸馏框架，在理论和实验上都有扎实的贡献。虽然存在可扩展性和校准方面的局限，但为不确定性量化领域提供了有价值的新方向。特别适合中小规模分类任务和资源受限场景，具有良好的实用价值和学术影响力。