A metrological framework for uncertainty evaluation in machine learning classification models
Bilson, Cox, Pustogvar et al.
Machine learning (ML) classification models are increasingly being used in a wide range of applications where it is important that predictions are accompanied by uncertainties, including in climate and earth observation, medical diagnosis and bioaerosol monitoring. The output of an ML classification model is a type of categorical variable known as a nominal property in the International Vocabulary of Metrology (VIM). However, concepts related to uncertainty evaluation for nominal properties are not defined in the VIM, nor is such evaluation addressed by the Guide to the Expression of Uncertainty in Measurement (GUM). In this paper we propose a metrological conceptual uncertainty evaluation framework for nominal properties. This framework is based on probability mass functions and summary statistics thereof, and it is applicable to ML classification. We also illustrate its use in the context of two applications that exemplify the issues and have significant societal impact, namely, climate and earth observation and medical diagnosis. Our framework would enable an extension of the GUM to uncertainty for nominal properties, which would make both applicable to ML classification models.
academic
Метрологическая база для оценки неопределённости в моделях классификации машинного обучения
Модели классификации машинного обучения всё чаще используются в критически важных приложениях, таких как климатические наблюдения, медицинская диагностика и мониторинг биоаэрозолей, где результаты прогнозирования должны сопровождаться оценкой неопределённости. Выходные данные моделей классификации представляют собой классификационные переменные, называемые в Международном словаре по метрологии (VIM) номинальными свойствами. Однако ни VIM, ни Руководство по выражению неопределённости измерений (GUM) не определяют концепцию оценки неопределённости для номинальных свойств. В данной работе предложена метрологическая база для оценки неопределённости номинальных свойств, основанная на функции массы вероятности и её сводных статистиках, применимая к классификации машинного обучения. Применение базы иллюстрируется на двух практических примерах с существенным социальным воздействием: климатических наблюдениях и медицинской диагностике. Данная база позволит расширить GUM на оценку неопределённости номинальных свойств, делая оба стандарта применимыми к моделям классификации машинного обучения.
Растущий спрос на приложения: Модели классификации машинного обучения всё шире применяются в критических областях, таких как климатические наблюдения, медицинская диагностика и мониторинг биоаэрозолей, требуя надёжной оценки неопределённости прогнозов.
Отсутствие метрологических стандартов: Существующие метрологические стандарты (VIM и GUM) разработаны в основном для количественных переменных и не содержат базы для оценки неопределённости номинальных свойств, являющихся выходными данными моделей классификации.
Множественные источники неопределённости: Модели классификации машинного обучения включают неопределённость обучающих данных, неопределённость распределения по классам, неопределённость выбора модели, неопределённость параметров модели и неопределённость новых входных данных.
Установить стандартизированную базу для оценки неопределённости, позволяющую моделям классификации машинного обучения интегрироваться в цепь метрологической прослеживаемости
Обеспечить надёжную оценку неопределённости прогнозов для высокорисковых приложений (например, медицинская диагностика)
Расширить существующую базу GUM для охвата номинальных свойств
GUM в основном применим к непрерывным количественным переменным и не может быть напрямую применён к выходным данным классификации
Существующие методы оценки соответствия применимы только к двоичной классификации на основе правил, а не к требующим обучения моделям машинного обучения
Отсутствует стандартизированный метод распространения неопределённости для номинальных свойств
Предложена метрологическая база для оценки неопределённости номинальных свойств: На основе функции массы вероятности (PMF) и сводных статистик разработан систематический метод оценки неопределённости для моделей классификации машинного обучения.
Установлен механизм распространения неопределённости: Продемонстрировано, как распространять неопределённость номинальных свойств через PMF в многоэтапных моделях измерений, поддерживая как аналитические, так и методы Монте-Карло.
Проведено систематическое сравнение статистик неопределённости: Оценены характеристики и применимость различных способов выражения неопределённости, включая коэффициент вариации Уилкокса (WVR), информационную энтропию и индекс качественной вариации (IQV).
Подтверждена практическая применимость базы: На двух важных практических примерах — классификации земного покрова и обнаружении фибрилляции предсердий — доказана эффективность базы при решении реальных задач.
Заложены основы расширения GUM: Данная база позволяет расширить GUM на оценку неопределённости номинальных свойств, совершенствуя систему метрологических стандартов.
Из-за более низкой производительности классификации по сравнению с задачей классификации земного покрова значения статистик неопределённости в целом выше
При двоичной классификации WVR, SDM, CNV математически эквивалентны
Информационная энтропия остаётся наиболее чувствительной статистикой
PMF является полным выражением неопределённости номинальных свойств: По аналогии с PDF для непрерывных переменных, PMF обеспечивает полную информацию об неопределённости классификационного прогноза.
Каждая статистика имеет свои преимущества: Информационная энтропия наиболее чувствительна, но может быть чрезмерно чувствительной; статистики, основанные на модальной вероятности, такие как WVR, более интуитивны; выбор должен основываться на конкретных требованиях приложения.
База практически применима: Два практических примера доказывают применимость базы в различных областях и типах моделей.
Поддерживает распространение неопределённости: Через PMF возможно распространение неопределённости номинальных свойств в многоэтапных моделях.
Предположение о независимости и одинаковом распределении: База предполагает независимость и одинаковое распределение обучающих и тестовых данных; сдвиг распределения влияет на надёжность
Вычислительная сложность: Некоторые методы (например, полный байесовский вывод) имеют высокие вычислительные затраты
Неопределённость выбора модели: Большинство методов недостаточно учитывают неопределённость, связанную с выбором архитектуры модели
Моделирование входной неопределённости: Явное моделирование входной неопределённости в методах глубокого обучения остаётся сложной задачей
Заполнение важного пробела: Впервые систематически установлена метрологическая база для оценки неопределённости моделей классификации машинного обучения, заполняя важный пробел в стандартах GUM/VIM.
Теоретическая строгость: На основе теории вероятностей построена полная теоретическая система от PMF к сводным статистикам, согласованная с существующими метрологическими стандартами.
Высокая практическая применимость: Два практических примера охватывают различные области приложений, типы данных и архитектуры моделей, доказывая широкую применимость базы.
Систематическое сравнение: Проведено всестороннее сравнение семи статистик неопределённости, предоставляющее руководство по выбору для практических приложений.
Перспективность: Обеспечивает важную поддержку для надёжного развёртывания технологий машинного обучения в высокорисковых приложениях.
Ограниченные источники неопределённости: Хотя выявлены пять источников неопределённости, в практических примерах не все они моделируются, особенно неопределённость выбора модели.
Условия предположений: Предположение о независимости и одинаковом распределении часто нарушается в практических приложениях, но обсуждение этого в работе недостаточно глубоко.
Вычислительная эффективность: Вычислительная сложность некоторых методов (например, полный байесовский вывод) ограничивает их практическое применение.
Ограниченная валидация: Только два практических примера; требуется проверка эффективности базы в дополнительных областях и сценариях.
Разработка стандартов: Вероятно, будет способствовать обновлению международных метрологических стандартов, включая машинное обучение в официальную базу.
Промышленное применение: Обеспечивает гарантию надёжности для приложений машинного обучения в критических областях, таких как медицина и мониторинг окружающей среды.
Академическая ценность: Связывает две области — метрологию и машинное обучение, способствуя междисциплинарному сотрудничеству.
Воспроизводимость: Предоставляет ясную теоретическую базу и детали реализации, облегчая принятие другими исследователями.
В работе цитируется 86 источников, охватывающих метрологические стандарты, теорию машинного обучения, методы количественной оценки неопределённости и конкретные области приложений, обеспечивая прочную теоретическую основу и широкий контекст приложений. Ключевые источники включают документы серии GUM, словарь VIM, методы байесовского машинного обучения и методы количественной оценки неопределённости.