2025-11-13T08:49:10.859507

A metrological framework for uncertainty evaluation in machine learning classification models

Bilson, Cox, Pustogvar et al.
Machine learning (ML) classification models are increasingly being used in a wide range of applications where it is important that predictions are accompanied by uncertainties, including in climate and earth observation, medical diagnosis and bioaerosol monitoring. The output of an ML classification model is a type of categorical variable known as a nominal property in the International Vocabulary of Metrology (VIM). However, concepts related to uncertainty evaluation for nominal properties are not defined in the VIM, nor is such evaluation addressed by the Guide to the Expression of Uncertainty in Measurement (GUM). In this paper we propose a metrological conceptual uncertainty evaluation framework for nominal properties. This framework is based on probability mass functions and summary statistics thereof, and it is applicable to ML classification. We also illustrate its use in the context of two applications that exemplify the issues and have significant societal impact, namely, climate and earth observation and medical diagnosis. Our framework would enable an extension of the GUM to uncertainty for nominal properties, which would make both applicable to ML classification models.
academic

機械学習分類モデルにおける不確実性評価のための計量学的フレームワーク

基本情報

  • 論文ID: 2504.03359
  • タイトル: A metrological framework for uncertainty evaluation in machine learning classification models
  • 著者: Samuel Bilson, Maurice Cox, Anna Pustogvar, Andrew Thompson (英国国立物理研究所)
  • 分類: cs.LG (機械学習)
  • 発表日時: 2025年10月15日 (arXiv v3)
  • 論文リンク: https://arxiv.org/abs/2504.03359

要旨

機械学習分類モデルは気候観測、医療診断、生物エアロゾル監視などの重要な応用分野でますます使用されており、これらの応用では予測結果に不確実性評価が伴う必要があります。ML分類モデルの出力は分類変数であり、国際計量学用語集(VIM)では名義属性(nominal properties)と呼ばれています。しかし、VIMと測定不確実性表現ガイド(GUM)のいずれも、名義属性の不確実性評価の概念を定義していません。本論文は、確率質量関数(PMF)およびその要約統計量に基づいた、名義属性の計量学的不確実性評価フレームワークを提案し、ML分類に適用可能です。気候観測と医療診断という社会的影響が大きい2つの応用事例を通じて、このフレームワークの使用方法を説明します。このフレームワークにより、GUMを名義属性の不確実性評価に拡張することが可能になり、両者ともML分類モデルに適用可能になります。

研究背景と動機

問題背景

  1. 応用需要の増加: ML分類モデルは気候観測、医療診断、生物エアロゾル監視などの重要分野での応用が急速に拡大しており、これらの応用では予測結果に信頼できる不確実性評価が伴う必要があります。
  2. 計量学標準の欠落: 既存の計量学標準(VIMおよびGUM)は主に定量変数向けに設計されており、分類モデル出力の名義属性に対する不確実性評価フレームワークが不足しています。
  3. 複数の不確実性源: ML分類モデルは、訓練データの不確実性、カテゴリ割り当ての不確実性、モデル選択の不確実性、モデルパラメータの不確実性、および新規入力データの不確実性など、複数の不確実性源を含みます。

研究動機

  • ML分類モデルが計量学的トレーサビリティチェーンに組み込まれるよう、標準化された不確実性評価フレームワークを確立する
  • 医療診断などの高リスク応用に対して、信頼できる予測不確実性を提供する
  • 既存のGUMフレームワークを拡張して名義属性を含める

既存手法の限界

  • GUMは主に連続定量変数に適用可能であり、分類出力に直接適用できません
  • 既存の適合性評価方法は規則ベースの二値分類にのみ適用可能であり、訓練が必要なMLモデルには適用できません
  • 名義属性の不確実性伝播の標準化された方法が不足しています

核心的貢献

  1. 名義属性の計量学的不確実性評価フレームワークの提案: 確率質量関数(PMF)と要約統計量に基づいた、ML分類モデルに対する体系的な不確実性評価方法を提供しました。
  2. 不確実性伝播メカニズムの確立: 多段階測定モデルにおいてPMFを通じて名義属性の不確実性を伝播させる方法を示し、解析的およびモンテカルロ法の両方をサポートしています。
  3. 不確実性統計量の体系的比較: Wilcox変異比(WVR)、情報エントロピー、定性変異指数(IQV)など複数の不確実性表現方法の特性と適用可能性を評価しました。
  4. フレームワークの実用性の検証: 土地被覆分類と心房細動検出という2つの重要な応用事例を通じて、フレームワークが実際の問題で有効であることを証明しました。
  5. GUM拡張の基礎確立: このフレームワークにより、GUMを名義属性の不確実性評価に拡張することが可能になり、計量学標準体系を完善させます。

方法の詳細説明

タスク定義

本論文はML分類モデルの不確実性評価タスクを研究しています:

  • 入力: 入力変数の集合X(定量変数と分類変数を含む可能性があります)
  • 出力: 分類変数Y ∈ CK = {c1, ..., cK}、ここでKはクラス数
  • 目標: 分類予測y = f(x)の不確実性を評価する

理論的フレームワーク

1. 確率質量関数(PMF)

名義変数の場合、完全な不確実性情報はPMFで表現されます:

p : CK → [0,1]
ck ↦ pk := p(ck)

正規化条件を満たします: ∑pk = 1

2. 不確実性統計量

論文は7つの不確実性統計量を体系的に評価しました:

Wilcox変異比(WVR):

uWVR(p) = 1 - (Kp̂-1)/(K-1)

情報エントロピー:

H(p) = -∑pk logK pk

定性変異指数(IQV):

uIQV(p) = K/(K-1)(1-∑pk²)

ここでp̂は最頻確率(最高クラス確率)です。

3. 不確実性伝播

名義入力を持つ測定モデルz = g(x,y)の場合、出力の期待値と分散は以下のように表現できます:

E[z] = ∑pk μk
Var[z] = ∑pk(σk² + μk²) - (∑pkμk)²

不確実性源の識別

論文はML分類における5つの主要な不確実性源を特定しました:

  1. 訓練データの不確実性: 訓練データ自体の測定不確実性
  2. カテゴリ割り当ての不確実性: タスク固有の分類曖昧性
  3. モデル選択の不確実性: モデルタイプ選択の不確実性
  4. モデルパラメータの不確実性: パラメータ推定と最適化の不確実性
  5. 新規入力データの不確実性: 予測段階における入力データの測定不確実性

実験設定

ケーススタディ1: 土地被覆分類

データセット:

  • Sentinel-2衛星画像データ
  • スコットランド20km×20km地域
  • 189,142ピクセル、森林、農地、草地、居住地の4クラスを含む
  • 2020年および2021年データ

方法: ベイズ二次判別分析(BQDA)

  • 生成的モデリング手法
  • 複数の不確実性源を明示的にモデル化
  • 多変量ガウス分布の仮定

評価指標:

  • 分類損失(誤分類率)
  • 期待交差エントロピー損失(EXE)
  • 期待Brierスコア(EBS)

ケーススタディ2: 心房細動検出

データセット:

  • DeepBeat PPGデータセット
  • 134名の患者、100,000以上の信号セグメント
  • 25秒の長さ、32Hzのサンプリングレート
  • 二値分類タスク(AF/非AF)

方法: 畳み込みニューラルネットワーク + Monte Carlo Dropout

  • 判別的モデリング手法
  • xresnet1d50変体アーキテクチャ
  • 認知的および偶然的不確実性をキャプチャ

実験結果

土地被覆分類の結果

分類性能:

  • 2020年テスト: 損失=0.012、EXE=0.079、EBS=0.031
  • 2021年テスト: 損失=0.057、EXE=0.567、EBS=0.151
  • 年間を通じた性能低下が顕著であり、分布シフトの影響を反映しています

不確実性統計量の性能(2020年):

  • 中央値と平均値の差が巨大(桁数の違い)であり、分布が高度に左に歪んでいることを示しています
  • 情報エントロピーHは小さな値の変化に最も敏感です
  • UVRは小さな値の変化に最も敏感ではありません
  • WVR、SDM、CNVは高い信頼度予測で同等の性能を示します

心房細動検出の結果

分類性能:

  • 分類損失: 0.209
  • EXE: 0.874
  • EBS: 0.622

不確実性統計量:

  • 土地被覆タスクよりも分類性能が低いため、不確実性統計量の値は全般的により高くなっています
  • 二値分類では、WVR、SDM、CNVは完全に等価です
  • 情報エントロピーは依然として最も敏感な統計量です

主要な知見

  1. 統計量感度の順序: 情報エントロピー > IQV > WVR/SDM/CNV > UVR
  2. 二値分類の等価性: WVR、SDM、CNVは二値分類で数学的に等価です
  3. 高信頼度近似: 高い信頼度の多クラス予測では、複数の統計量がほぼ等価です
  4. 性能-不確実性関係: 分類性能が低いほど、不確実性統計量の値が高くなります

関連研究

計量学標準

  • GUMスイート: 主に定量変数の不確実性評価に焦点
  • VIM: 名義属性の概念を定義していますが、不確実性評価方法が不足しています
  • 適合性評価: 規則ベースの二値分類にのみ適用可能

ML不確実性評価

  • ベイズ手法: ベイズニューラルネットワーク、変分推論など
  • アンサンブル手法: Monte Carlo Dropout、深いアンサンブルなど
  • 確率キャリブレーション: 予測確率の信頼性を改善

関連分野の標準

  • 臨床検査科学: IFCC-IUPAC名義属性用語集
  • 定性化学分析: EURACHEM/CITACガイドライン
  • 参照材料: ISO 33406:2024標準

結論と考察

主要な結論

  1. PMFは名義属性の不確実性の完全な表現です: 連続変数のPDFと同様に、PMFは分類予測の不確実性に関する完全な情報を提供します。
  2. 複数の統計量にはそれぞれ利点があります: 情報エントロピーは最も敏感ですが、過度に敏感である可能性があります。WVRなどの最頻確率に基づく統計量はより直感的です。選択は具体的な応用ニーズに基づくべきです。
  3. フレームワークは実用的です: 2つのケーススタディは、異なる分野とモデルタイプ全体でのフレームワークの適用可能性を証明しています。
  4. 不確実性伝播をサポートします: PMFを通じて、多段階モデルにおける名義属性の不確実性伝播を実現できます。

限界

  1. i.i.d.仮定: フレームワークは訓練データとテストデータが独立同分布であると仮定しており、分布シフトは信頼性に影響します
  2. 計算複雑性: 一部の方法(完全ベイズ推論など)は計算コストが高くなります
  3. モデル選択の不確実性: ほとんどの方法は、モデルアーキテクチャ選択の不確実性を十分に考慮していません
  4. 入力不確実性のモデル化: 深層学習方法における入力不確実性の明示的なモデル化は依然として困難です

今後の方向性

  1. GUM拡張: 名義属性の不確実性評価を正式にGUMフレームワークに組み込む
  2. 標準化: ML分類モデルの不確実性評価に関する国際標準を策定する
  3. 方法改善: より効率的な不確実性定量化方法を開発する
  4. 応用拡張: より多くの重要な応用分野でフレームワークの有効性を検証する

深い評価

利点

  1. 重要なギャップを埋める: ML分類モデルのための計量学的不確実性評価フレームワークを初めて体系的に確立し、GUM/VIM標準の重要なギャップを埋めました。
  2. 理論的厳密性: 確率論の基礎に基づいており、PMFから要約統計量への完全な理論体系を確立し、既存の計量学標準との一貫性を保ちます。
  3. 実用性が高い: 2つのケーススタディは異なる応用分野、データタイプ、モデルアーキテクチャを網羅しており、フレームワークの広範な適用可能性を証明しています。
  4. 体系的な比較: 7つの不確実性統計量の包括的な比較を行い、実際の応用のための選択ガイダンスを提供しています。
  5. 前向き性: ML技術の高リスク応用における信頼できる展開に重要なサポートを提供します。

不足点

  1. 限定的な不確実性源: 5つの不確実性源を特定していますが、実際のケースではすべてがモデル化されていません。特にモデル選択の不確実性は不十分です。
  2. 仮定条件: i.i.d.仮定は実際の応用ではしばしば違反されていますが、論文ではこれについての議論が不十分です。
  3. 計算効率: 一部の方法(完全ベイズ推論など)の計算複雑性は実際の応用を制限しています。
  4. 検証の限定: 2つのケーススタディのみであり、より多くの分野とシナリオでフレームワークの有効性を検証する必要があります。

影響力

  1. 標準制定: 国際計量学標準の更新を推進し、ML分類を正式なフレームワークに組み込む可能性があります。
  2. 産業応用: 医療、環境監視などの重要分野のML応用に信頼性保証を提供します。
  3. 学術的価値: 計量学と機械学習の2つの分野を結びつけ、学際的な協力を促進します。
  4. 再現性: 明確な理論的フレームワークと実装の詳細を提供し、他の研究者が採用しやすくしています。

適用シーン

  1. 高リスク応用: 医療診断、安全監視など信頼性要件が極めて高いシーン
  2. 規制環境: 計量学標準への適合が必要な産業および研究応用
  3. 多段階システム: 分類結果を後続の処理ステップに伝播させる必要がある複雑なシステム
  4. 品質保証: 予測の信頼性を定量化する必要がある生産およびサービスシステム

参考文献

論文は86の参考文献を引用しており、計量学標準、機械学習理論、不確実性定量化方法、および具体的な応用分野を網羅しており、この研究に堅実な理論的基礎と広範な応用背景を提供しています。主要な参考文献にはGUMシリーズ文書、VIM用語集、ベイズ機械学習方法、および不確実性定量化技術が含まれます。