2025-11-13T08:49:10.859507

A metrological framework for uncertainty evaluation in machine learning classification models

Bilson, Cox, Pustogvar et al.

Machine learning (ML) classification models are increasingly being used in a wide range of applications where it is important that predictions are accompanied by uncertainties, including in climate and earth observation, medical diagnosis and bioaerosol monitoring. The output of an ML classification model is a type of categorical variable known as a nominal property in the International Vocabulary of Metrology (VIM). However, concepts related to uncertainty evaluation for nominal properties are not defined in the VIM, nor is such evaluation addressed by the Guide to the Expression of Uncertainty in Measurement (GUM). In this paper we propose a metrological conceptual uncertainty evaluation framework for nominal properties. This framework is based on probability mass functions and summary statistics thereof, and it is applicable to ML classification. We also illustrate its use in the context of two applications that exemplify the issues and have significant societal impact, namely, climate and earth observation and medical diagnosis. Our framework would enable an extension of the GUM to uncertainty for nominal properties, which would make both applicable to ML classification models.

academic

Метрологическая база для оценки неопределённости в моделях классификации машинного обучения

Основная информация

ID статьи: 2504.03359
Название: A metrological framework for uncertainty evaluation in machine learning classification models
Авторы: Samuel Bilson, Maurice Cox, Anna Pustogvar, Andrew Thompson (National Physical Laboratory, UK)
Категория: cs.LG (Машинное обучение)
Дата публикации: 15 октября 2025 г. (arXiv v3)
Ссылка на статью: https://arxiv.org/abs/2504.03359

Аннотация

Модели классификации машинного обучения всё чаще используются в критически важных приложениях, таких как климатические наблюдения, медицинская диагностика и мониторинг биоаэрозолей, где результаты прогнозирования должны сопровождаться оценкой неопределённости. Выходные данные моделей классификации представляют собой классификационные переменные, называемые в Международном словаре по метрологии (VIM) номинальными свойствами. Однако ни VIM, ни Руководство по выражению неопределённости измерений (GUM) не определяют концепцию оценки неопределённости для номинальных свойств. В данной работе предложена метрологическая база для оценки неопределённости номинальных свойств, основанная на функции массы вероятности и её сводных статистиках, применимая к классификации машинного обучения. Применение базы иллюстрируется на двух практических примерах с существенным социальным воздействием: климатических наблюдениях и медицинской диагностике. Данная база позволит расширить GUM на оценку неопределённости номинальных свойств, делая оба стандарта применимыми к моделям классификации машинного обучения.

Исследовательский контекст и мотивация

Постановка проблемы

Растущий спрос на приложения: Модели классификации машинного обучения всё шире применяются в критических областях, таких как климатические наблюдения, медицинская диагностика и мониторинг биоаэрозолей, требуя надёжной оценки неопределённости прогнозов.
Отсутствие метрологических стандартов: Существующие метрологические стандарты (VIM и GUM) разработаны в основном для количественных переменных и не содержат базы для оценки неопределённости номинальных свойств, являющихся выходными данными моделей классификации.
Множественные источники неопределённости: Модели классификации машинного обучения включают неопределённость обучающих данных, неопределённость распределения по классам, неопределённость выбора модели, неопределённость параметров модели и неопределённость новых входных данных.

Научная мотивация

Установить стандартизированную базу для оценки неопределённости, позволяющую моделям классификации машинного обучения интегрироваться в цепь метрологической прослеживаемости
Обеспечить надёжную оценку неопределённости прогнозов для высокорисковых приложений (например, медицинская диагностика)
Расширить существующую базу GUM для охвата номинальных свойств

Ограничения существующих подходов

GUM в основном применим к непрерывным количественным переменным и не может быть напрямую применён к выходным данным классификации
Существующие методы оценки соответствия применимы только к двоичной классификации на основе правил, а не к требующим обучения моделям машинного обучения
Отсутствует стандартизированный метод распространения неопределённости для номинальных свойств

Основные вклады

Предложена метрологическая база для оценки неопределённости номинальных свойств: На основе функции массы вероятности (PMF) и сводных статистик разработан систематический метод оценки неопределённости для моделей классификации машинного обучения.
Установлен механизм распространения неопределённости: Продемонстрировано, как распространять неопределённость номинальных свойств через PMF в многоэтапных моделях измерений, поддерживая как аналитические, так и методы Монте-Карло.
Проведено систематическое сравнение статистик неопределённости: Оценены характеристики и применимость различных способов выражения неопределённости, включая коэффициент вариации Уилкокса (WVR), информационную энтропию и индекс качественной вариации (IQV).
Подтверждена практическая применимость базы: На двух важных практических примерах — классификации земного покрова и обнаружении фибрилляции предсердий — доказана эффективность базы при решении реальных задач.
Заложены основы расширения GUM: Данная база позволяет расширить GUM на оценку неопределённости номинальных свойств, совершенствуя систему метрологических стандартов.

Подробное описание методологии

Определение задачи

В работе исследуется задача оценки неопределённости моделей классификации машинного обучения:

Входные данные: Набор входных переменных X (может включать количественные и классификационные переменные)
Выходные данные: Классификационная переменная Y ∈ CK = {c1, ..., cK}, где K — количество классов
Цель: Оценить неопределённость классификационного прогноза y = f(x)

Теоретическая база

1. Функция массы вероятности (PMF)

Для номинальной переменной полная информация о неопределённости выражается через PMF:

p : CK → [0,1]
ck ↦ pk := p(ck)

удовлетворяющую условию нормализации: ∑pk = 1

2. Статистики неопределённости

В работе систематически оценены семь статистик неопределённости:

Коэффициент вариации Уилкокса (WVR):

uWVR(p) = 1 - (Kp̂-1)/(K-1)

Информационная энтропия:

H(p) = -∑pk logK pk

Индекс качественной вариации (IQV):

uIQV(p) = K/(K-1)(1-∑pk²)

где p̂ — вероятность модального класса (наивысшая вероятность класса).

3. Распространение неопределённости

Для модели измерений с номинальными входными данными z = g(x,y) ожидаемое значение и дисперсия выходных данных могут быть выражены как:

E[z] = ∑pk μk
Var[z] = ∑pk(σk² + μk²) - (∑pkμk)²

Идентификация источников неопределённости

В работе выявлены пять основных источников неопределённости в классификации машинного обучения:

Неопределённость обучающих данных: Неопределённость измерений самих обучающих данных
Неопределённость распределения по классам: Присущая задаче классификационная неоднозначность
Неопределённость выбора модели: Неопределённость, связанная с выбором типа модели
Неопределённость параметров модели: Неопределённость оценки и оптимизации параметров
Неопределённость новых входных данных: Неопределённость измерений входных данных на этапе прогнозирования

Экспериментальная установка

Практический пример 1: Классификация земного покрова

Набор данных:

Спутниковые данные Sentinel-2
Регион размером 20 км × 20 км в Шотландии
189 142 пиксела, включающих четыре класса: лес, сельскохозяйственные земли, пастбища, жилые районы
Данные за 2020 и 2021 годы

Метод: Байесовский квадратичный дискриминантный анализ (BQDA)

Генеративный подход к моделированию
Явное моделирование множественных источников неопределённости
Предположение о многомерном гауссовском распределении

Метрики оценки:

Потеря классификации (коэффициент ошибочной классификации)
Потеря ожидаемой кросс-энтропии (EXE)
Ожидаемая оценка Бриера (EBS)

Практический пример 2: Обнаружение фибрилляции предсердий

Набор данных:

Набор данных DeepBeat PPG
134 пациента, более 100 000 сегментов сигнала
Длительность 25 секунд, частота дискретизации 32 Гц
Задача двоичной классификации (ФП/не-ФП)

Метод: Свёрточная нейронная сеть + Monte Carlo Dropout

Дискриминативный подход к моделированию
Архитектура варианта xresnet1d50
Захват алеаторической и эпистемической неопределённости

Результаты экспериментов

Результаты классификации земного покрова

Производительность классификации:

Тестирование 2020 г.: потеря=0,012, EXE=0,079, EBS=0,031
Тестирование 2021 г.: потеря=0,057, EXE=0,567, EBS=0,151
Значительное снижение производительности между годами отражает влияние сдвига распределения

Производительность статистик неопределённости (2020 г.):

Огромные различия между медианой и средним значением (разница на порядок величины), указывающие на сильно левостороннее распределение
Информационная энтропия H наиболее чувствительна к малым изменениям значений
UVR наименее чувствительна к малым изменениям значений
WVR, SDM, CNV показывают эквивалентную производительность при высокой уверенности прогнозов

Результаты обнаружения фибрилляции предсердий

Производительность классификации:

Потеря классификации: 0,209
EXE: 0,874
EBS: 0,622

Статистики неопределённости:

Из-за более низкой производительности классификации по сравнению с задачей классификации земного покрова значения статистик неопределённости в целом выше
При двоичной классификации WVR, SDM, CNV математически эквивалентны
Информационная энтропия остаётся наиболее чувствительной статистикой

Ключевые выводы

Порядок чувствительности статистик: Информационная энтропия > IQV > WVR/SDM/CNV > UVR
Эквивалентность при двоичной классификации: WVR, SDM, CNV математически эквивалентны при двоичной классификации
Приближение при высокой уверенности: Для многоклассовых прогнозов с высокой уверенностью несколько статистик приблизительно эквивалентны
Связь производительности и неопределённости: Чем ниже производительность классификации, тем выше значения статистик неопределённости

Связанные работы

Метрологические стандарты

Серия GUM: В основном ориентирована на оценку неопределённости количественных переменных
VIM: Определяет концепцию номинальных свойств, но не содержит методов оценки неопределённости
Оценка соответствия: Применима только к двоичной классификации на основе правил

Оценка неопределённости в машинном обучении

Байесовские методы: Например, байесовские нейронные сети, вариационный вывод
Ансамблевые методы: Например, Monte Carlo Dropout, глубокие ансамбли
Калибровка вероятностей: Улучшение надёжности предсказанных вероятностей

Связанные стандарты в других областях

Клиническая лабораторная наука: Словарь номинальных свойств IFCC-IUPAC
Качественный химический анализ: Руководство EURACHEM/CITAC
Справочные материалы: Стандарт ISO 33406:2024

Заключение и обсуждение

Основные выводы

PMF является полным выражением неопределённости номинальных свойств: По аналогии с PDF для непрерывных переменных, PMF обеспечивает полную информацию об неопределённости классификационного прогноза.
Каждая статистика имеет свои преимущества: Информационная энтропия наиболее чувствительна, но может быть чрезмерно чувствительной; статистики, основанные на модальной вероятности, такие как WVR, более интуитивны; выбор должен основываться на конкретных требованиях приложения.
База практически применима: Два практических примера доказывают применимость базы в различных областях и типах моделей.
Поддерживает распространение неопределённости: Через PMF возможно распространение неопределённости номинальных свойств в многоэтапных моделях.

Ограничения

Предположение о независимости и одинаковом распределении: База предполагает независимость и одинаковое распределение обучающих и тестовых данных; сдвиг распределения влияет на надёжность
Вычислительная сложность: Некоторые методы (например, полный байесовский вывод) имеют высокие вычислительные затраты
Неопределённость выбора модели: Большинство методов недостаточно учитывают неопределённость, связанную с выбором архитектуры модели
Моделирование входной неопределённости: Явное моделирование входной неопределённости в методах глубокого обучения остаётся сложной задачей

Направления будущих исследований

Расширение GUM: Формальное включение оценки неопределённости номинальных свойств в базу GUM
Стандартизация: Разработка международных стандартов для оценки неопределённости моделей классификации машинного обучения
Совершенствование методов: Разработка более эффективных методов количественной оценки неопределённости
Расширение приложений: Проверка эффективности базы в дополнительных критических областях приложений

Глубокая оценка

Преимущества

Заполнение важного пробела: Впервые систематически установлена метрологическая база для оценки неопределённости моделей классификации машинного обучения, заполняя важный пробел в стандартах GUM/VIM.
Теоретическая строгость: На основе теории вероятностей построена полная теоретическая система от PMF к сводным статистикам, согласованная с существующими метрологическими стандартами.
Высокая практическая применимость: Два практических примера охватывают различные области приложений, типы данных и архитектуры моделей, доказывая широкую применимость базы.
Систематическое сравнение: Проведено всестороннее сравнение семи статистик неопределённости, предоставляющее руководство по выбору для практических приложений.
Перспективность: Обеспечивает важную поддержку для надёжного развёртывания технологий машинного обучения в высокорисковых приложениях.

Недостатки

Ограниченные источники неопределённости: Хотя выявлены пять источников неопределённости, в практических примерах не все они моделируются, особенно неопределённость выбора модели.
Условия предположений: Предположение о независимости и одинаковом распределении часто нарушается в практических приложениях, но обсуждение этого в работе недостаточно глубоко.
Вычислительная эффективность: Вычислительная сложность некоторых методов (например, полный байесовский вывод) ограничивает их практическое применение.
Ограниченная валидация: Только два практических примера; требуется проверка эффективности базы в дополнительных областях и сценариях.

Влияние

Разработка стандартов: Вероятно, будет способствовать обновлению международных метрологических стандартов, включая машинное обучение в официальную базу.
Промышленное применение: Обеспечивает гарантию надёжности для приложений машинного обучения в критических областях, таких как медицина и мониторинг окружающей среды.
Академическая ценность: Связывает две области — метрологию и машинное обучение, способствуя междисциплинарному сотрудничеству.
Воспроизводимость: Предоставляет ясную теоретическую базу и детали реализации, облегчая принятие другими исследователями.

Применимые сценарии

Высокорисковые приложения: Медицинская диагностика, мониторинг безопасности и другие сценарии с экстремальными требованиями к надёжности
Нормативная среда: Промышленные и научные приложения, требующие соответствия метрологическим стандартам
Многоэтапные системы: Сложные системы, где результаты классификации должны распространяться на последующие этапы обработки
Обеспечение качества: Производственные и сервисные системы, требующие количественной оценки надёжности прогнозов

Библиография

В работе цитируется 86 источников, охватывающих метрологические стандарты, теорию машинного обучения, методы количественной оценки неопределённости и конкретные области приложений, обеспечивая прочную теоретическую основу и широкий контекст приложений. Ключевые источники включают документы серии GUM, словарь VIM, методы байесовского машинного обучения и методы количественной оценки неопределённости.