2025-11-13T08:49:10.859507

A metrological framework for uncertainty evaluation in machine learning classification models

Bilson, Cox, Pustogvar et al.

Machine learning (ML) classification models are increasingly being used in a wide range of applications where it is important that predictions are accompanied by uncertainties, including in climate and earth observation, medical diagnosis and bioaerosol monitoring. The output of an ML classification model is a type of categorical variable known as a nominal property in the International Vocabulary of Metrology (VIM). However, concepts related to uncertainty evaluation for nominal properties are not defined in the VIM, nor is such evaluation addressed by the Guide to the Expression of Uncertainty in Measurement (GUM). In this paper we propose a metrological conceptual uncertainty evaluation framework for nominal properties. This framework is based on probability mass functions and summary statistics thereof, and it is applicable to ML classification. We also illustrate its use in the context of two applications that exemplify the issues and have significant societal impact, namely, climate and earth observation and medical diagnosis. Our framework would enable an extension of the GUM to uncertainty for nominal properties, which would make both applicable to ML classification models.

academic

A metrological framework for uncertainty evaluation in machine learning classification models

基本信息

论文ID: 2504.03359
标题: A metrological framework for uncertainty evaluation in machine learning classification models
作者: Samuel Bilson, Maurice Cox, Anna Pustogvar, Andrew Thompson (National Physical Laboratory, UK)
分类: cs.LG (Machine Learning)
发表时间: 2025年10月15日 (arXiv v3)
论文链接: https://arxiv.org/abs/2504.03359

摘要

机器学习分类模型在气候观测、医疗诊断和生物气溶胶监测等重要应用领域中越来越多地被使用，这些应用要求预测结果必须伴随不确定性评估。ML分类模型的输出是一种分类变量，在国际计量学词汇(VIM)中被称为标称属性。然而，VIM和测量不确定度表达指南(GUM)都没有定义标称属性的不确定度评估概念。本文提出了一个基于概率质量函数及其汇总统计量的标称属性计量学不确定度评估框架，适用于ML分类。通过气候观测和医疗诊断两个具有重大社会影响的应用案例来说明该框架的使用。该框架将使GUM能够扩展到标称属性的不确定度评估，从而使两者都适用于ML分类模型。

研究背景与动机

问题背景

应用需求增长: ML分类模型在气候观测、医疗诊断、生物气溶胶监测等关键领域应用日益广泛，这些应用要求预测结果必须伴随可信的不确定度评估。
计量学标准缺失: 现有的计量学标准(VIM和GUM)主要针对定量变量设计，缺乏对分类模型输出的标称属性(nominal properties)的不确定度评估框架。
多源不确定性: ML分类模型涉及训练数据不确定性、类别分配不确定性、模型选择不确定性、模型参数不确定性和新输入数据不确定性等多个来源。

研究动机

建立标准化的不确定度评估框架，使ML分类模型能够融入计量学可追溯性链
为高风险应用(如医疗诊断)提供可信的预测不确定度
扩展现有GUM框架以涵盖标称属性

现有方法局限性

GUM主要适用于连续定量变量，无法直接应用于分类输出
现有合规性评估方法仅适用于基于规则的二元分类，不适用于需要训练的ML模型
缺乏标准化的标称属性不确定度传播方法

核心贡献

提出了标称属性的计量学不确定度评估框架: 基于概率质量函数(PMF)和汇总统计量，为ML分类模型提供了系统性的不确定度评估方法。
建立了不确定度传播机制: 展示了如何通过PMF在多阶段测量模型中传播标称属性的不确定度，支持解析和蒙特卡罗方法。
系统比较了不确定度统计量: 评估了Wilcox变异比(WVR)、信息熵、定性变异指数(IQV)等多种不确定度表达方式的特性和适用性。
验证了框架的实用性: 通过土地覆盖分类和心房颤动检测两个重要应用案例，证明了框架在实际问题中的有效性。
为GUM扩展奠定基础: 该框架能够使GUM扩展到标称属性的不确定度评估，完善计量学标准体系。

方法详解

任务定义

本文研究ML分类模型的不确定度评估任务：

输入: 输入变量集合X (可包含定量和分类变量)
输出: 分类变量Y ∈ CK = {c1, ..., cK}，其中K为类别数
目标: 评估分类预测y = f(x)的不确定度

理论框架

1. 概率质量函数(PMF)

对于标称变量，完整的不确定度信息由PMF表达：

p : CK → [0,1]
ck ↦ pk := p(ck)

满足归一化条件：∑pk = 1

2. 不确定度统计量

论文系统评估了七种不确定度统计量：

Wilcox变异比(WVR):

uWVR(p) = 1 - (Kp̂-1)/(K-1)

信息熵:

H(p) = -∑pk logK pk

定性变异指数(IQV):

uIQV(p) = K/(K-1)(1-∑pk²)

其中p̂为模态概率(最高类别概率)。

3. 不确定度传播

对于具有标称输入的测量模型z = g(x,y)，输出的期望值和方差可表达为：

E[z] = ∑pk μk
Var[z] = ∑pk(σk² + μk²) - (∑pkμk)²

不确定性源识别

论文识别了ML分类中的五个主要不确定性源：

训练数据不确定性: 训练数据本身的测量不确定性
类别分配不确定性: 任务固有的分类模糊性
模型选择不确定性: 模型类型选择的不确定性
模型参数不确定性: 参数估计和优化的不确定性
新输入数据不确定性: 预测阶段输入数据的测量不确定性

实验设置

案例研究1: 土地覆盖分类

数据集:

Sentinel-2卫星影像数据
苏格兰20km×20km区域
189,142个像素，包含森林、农田、草地、居民区四类
2020和2021年数据

方法: 贝叶斯二次判别分析(BQDA)

生成式建模方法
显式建模多种不确定性源
多变量高斯分布假设

评价指标:

分类损失(误分类率)
期望交叉熵损失(EXE)
期望Brier分数(EBS)

案例研究2: 心房颤动检测

数据集:

DeepBeat PPG数据集
134名患者，超过100,000个信号段
25秒时长，32Hz采样率
二元分类任务(AF/非AF)

方法: 卷积神经网络 + Monte Carlo Dropout

判别式建模方法
xresnet1d50变体架构
捕获认知和偶然不确定性

实验结果

土地覆盖分类结果

分类性能:

2020年测试: 损失=0.012, EXE=0.079, EBS=0.031
2021年测试: 损失=0.057, EXE=0.567, EBS=0.151
跨年度性能下降显著，反映了分布偏移影响

不确定度统计量表现(2020年):

中位数和均值差异巨大(数量级差别)，表明分布高度左偏
信息熵H在小值变化中最敏感
UVR在小值变化中最不敏感
WVR、SDM、CNV在高置信度预测中表现等价

心房颤动检测结果

分类性能:

分类损失: 0.209
EXE: 0.874
EBS: 0.622

不确定度统计量:

由于分类性能较土地覆盖任务更低，不确定度统计量值普遍更高
在二元分类中，WVR、SDM、CNV完全等价
信息熵仍然是最敏感的统计量

关键发现

统计量敏感性排序: 信息熵 > IQV > WVR/SDM/CNV > UVR
二元分类等价性: WVR、SDM、CNV在二元分类中数学等价
高置信度近似: 对于高置信度的多类预测，多个统计量近似等价
性能-不确定度关系: 分类性能越差，不确定度统计量值越高

PMF是标称属性不确定度的完整表达: 类比于连续变量的PDF，PMF提供了分类预测不确定度的完整信息。
多种统计量各有优势: 信息熵最敏感但可能过于敏感；WVR等基于模态概率的统计量更直观；选择应基于具体应用需求。
框架具有实用性: 两个案例研究证明了框架在不同领域和模型类型中的适用性。
支持不确定度传播: 通过PMF可以实现标称属性在多阶段模型中的不确定度传播。

局限性

i.i.d.假设: 框架假设训练和测试数据独立同分布，分布偏移会影响可靠性
计算复杂性: 某些方法(如完整贝叶斯推断)计算成本较高
模型选择不确定性: 大多数方法未充分考虑模型架构选择的不确定性
输入不确定性建模: 深度学习方法中显式建模输入不确定性仍然困难

未来方向

GUM扩展: 正式将标称属性不确定度评估纳入GUM框架
标准化: 制定ML分类模型不确定度评估的国际标准
方法改进: 开发更高效的不确定度量化方法
应用拓展: 在更多关键应用领域验证框架有效性

深度评价

优点

填补重要空白: 首次系统性地为ML分类模型建立了计量学不确定度评估框架，填补了GUM/VIM标准的重要空白。
理论严谨: 基于概率论基础，建立了从PMF到汇总统计量的完整理论体系，与现有计量学标准保持一致性。
实用性强: 两个案例研究涵盖了不同的应用领域、数据类型和模型架构，证明了框架的广泛适用性。
系统性比较: 对七种不确定度统计量进行了全面比较，为实际应用提供了选择指导。
前瞻性: 为ML技术在高风险应用中的可信部署提供了重要支撑。

不足

有限的不确定性源: 虽然识别了五个不确定性源，但在实际案例中并未全部建模，特别是模型选择不确定性。
假设条件: i.i.d.假设在实际应用中经常被违反，但论文对此讨论不够深入。
计算效率: 某些方法(如完整贝叶斯推断)的计算复杂性限制了实际应用。
验证有限: 仅有两个案例研究，需要在更多领域和场景中验证框架的有效性。

影响力

标准制定: 有望推动国际计量学标准的更新，将ML分类纳入正式框架。
产业应用: 为医疗、环境监测等关键领域的ML应用提供了可信度保障。
学术价值: 连接了计量学和机器学习两个领域，促进跨学科合作。
可复现性: 提供了清晰的理论框架和实现细节，便于其他研究者采用。

适用场景

高风险应用: 医疗诊断、安全监控等对可信度要求极高的场景
监管环境: 需要符合计量学标准的工业和科研应用
多阶段系统: 分类结果需要传播到后续处理步骤的复杂系统
质量保证: 需要量化预测可信度的生产和服务系统

参考文献

论文引用了86篇参考文献，涵盖计量学标准、机器学习理论、不确定度量化方法和具体应用领域，为该研究提供了坚实的理论基础和广泛的应用背景。关键参考文献包括GUM系列文档、VIM词汇、贝叶斯机器学习方法和不确定度量化技术等。

A metrological framework for uncertainty evaluation in machine learning classification models

A metrological framework for uncertainty evaluation in machine learning classification models

基本信息

摘要

研究背景与动机

问题背景

研究动机

现有方法局限性

核心贡献

方法详解

任务定义

理论框架

1. 概率质量函数(PMF)

2. 不确定度统计量

3. 不确定度传播

不确定性源识别

实验设置

案例研究1: 土地覆盖分类

案例研究2: 心房颤动检测

实验结果

土地覆盖分类结果

心房颤动检测结果

关键发现

相关工作

计量学标准

ML不确定度评估

相关领域标准

结论与讨论

主要结论

局限性

未来方向

深度评价

优点

不足

影响力

适用场景

参考文献