A metrological framework for uncertainty evaluation in machine learning classification models
Bilson, Cox, Pustogvar et al.
Machine learning (ML) classification models are increasingly being used in a wide range of applications where it is important that predictions are accompanied by uncertainties, including in climate and earth observation, medical diagnosis and bioaerosol monitoring. The output of an ML classification model is a type of categorical variable known as a nominal property in the International Vocabulary of Metrology (VIM). However, concepts related to uncertainty evaluation for nominal properties are not defined in the VIM, nor is such evaluation addressed by the Guide to the Expression of Uncertainty in Measurement (GUM). In this paper we propose a metrological conceptual uncertainty evaluation framework for nominal properties. This framework is based on probability mass functions and summary statistics thereof, and it is applicable to ML classification. We also illustrate its use in the context of two applications that exemplify the issues and have significant societal impact, namely, climate and earth observation and medical diagnosis. Our framework would enable an extension of the GUM to uncertainty for nominal properties, which would make both applicable to ML classification models.
academic
Un marco metrológico para la evaluación de la incertidumbre en modelos de clasificación de aprendizaje automático
Los modelos de clasificación de aprendizaje automático se utilizan cada vez más en aplicaciones críticas como observación climática, diagnóstico médico y monitoreo de bioaerosoles, que requieren que los resultados de predicción vayan acompañados de evaluaciones de incertidumbre. La salida de los modelos de clasificación de aprendizaje automático es una variable categórica, denominada atributo nominal en el Vocabulario Internacional de Metrología (VIM). Sin embargo, ni el VIM ni la Guía para la Expresión de la Incertidumbre de Medida (GUM) definen conceptos de evaluación de incertidumbre para atributos nominales. Este artículo propone un marco metrológico para la evaluación de la incertidumbre de atributos nominales basado en funciones de masa de probabilidad y sus estadísticas resumidas, aplicable a la clasificación de aprendizaje automático. El marco se ilustra mediante dos casos de aplicación con impacto social significativo: observación climática y diagnóstico médico. Este marco permitirá que la GUM se extienda a la evaluación de la incertidumbre de atributos nominales, haciendo que ambas sean aplicables a modelos de clasificación de aprendizaje automático.
Crecimiento de Aplicaciones: Los modelos de clasificación de aprendizaje automático se aplican cada vez más en campos críticos como observación climática, diagnóstico médico y monitoreo de bioaerosoles, que requieren evaluaciones de incertidumbre confiables acompañando los resultados de predicción.
Ausencia de Estándares Metrológicos: Los estándares metrológicos existentes (VIM y GUM) se diseñaron principalmente para variables cuantitativas, careciendo de un marco para la evaluación de la incertidumbre de atributos nominales (propiedades categóricas) que son salidas de modelos de clasificación.
Incertidumbre Multifuente: Los modelos de clasificación de aprendizaje automático involucran múltiples fuentes de incertidumbre: incertidumbre en datos de entrenamiento, incertidumbre en asignación de clases, incertidumbre en selección de modelo, incertidumbre en parámetros del modelo e incertidumbre en datos de entrada nuevos.
Establecer un marco estandarizado de evaluación de incertidumbre que permita que los modelos de clasificación de aprendizaje automático se integren en la cadena de trazabilidad metrológica
Proporcionar incertidumbre de predicción confiable para aplicaciones de alto riesgo (como diagnóstico médico)
Extender el marco GUM existente para abarcar atributos nominales
La GUM se aplica principalmente a variables cuantitativas continuas y no puede aplicarse directamente a salidas de clasificación
Los métodos de evaluación de conformidad existentes solo se aplican a clasificación binaria basada en reglas, no a modelos de aprendizaje automático que requieren entrenamiento
Falta un método estandarizado de propagación de incertidumbre para atributos nominales
Propone un marco metrológico de evaluación de incertidumbre para atributos nominales: Basado en funciones de masa de probabilidad (FMP) y estadísticas resumidas, proporciona un método sistemático de evaluación de incertidumbre para modelos de clasificación de aprendizaje automático.
Establece mecanismos de propagación de incertidumbre: Demuestra cómo propagar la incertidumbre de atributos nominales a través de FMP en modelos de medición multietapa, soportando métodos analíticos y de Monte Carlo.
Compara sistemáticamente estadísticas de incertidumbre: Evalúa las características y aplicabilidad de múltiples formas de expresión de incertidumbre incluyendo la razón de variación de Wilcox (RVW), entropía de información e índice de variación cualitativa (IVQ).
Valida la practicidad del marco: A través de dos casos de aplicación importantes (clasificación de cobertura terrestre y detección de fibrilación auricular), demuestra la efectividad del marco en problemas reales.
Sienta las bases para la extensión de la GUM: El marco permite que la GUM se extienda a la evaluación de incertidumbre de atributos nominales, perfeccionando el sistema de estándares metrológicos.
Debido al rendimiento de clasificación más bajo que la tarea de cobertura terrestre, los valores de estadísticas de incertidumbre son universalmente más altos
En clasificación binaria, RVW, SDM, CNV son completamente equivalentes
La entropía de información sigue siendo la estadística más sensible
La FMP es la Expresión Completa de Incertidumbre para Atributos Nominales: De manera análoga a la PDF para variables continuas, la FMP proporciona información completa de incertidumbre para predicciones de clasificación.
Múltiples Estadísticas Tienen Ventajas Distintas: La entropía de información es la más sensible pero potencialmente demasiado sensible; las estadísticas basadas en probabilidad modal como RVW son más intuitivas; la selección debe basarse en necesidades específicas de la aplicación.
El Marco es Práctico: Los dos casos de estudio demuestran la aplicabilidad del marco en diferentes dominios y tipos de modelos.
Soporta Propagación de Incertidumbre: A través de FMP se puede lograr la propagación de incertidumbre de atributos nominales en modelos multietapa.
Supuesto i.i.d.: El marco asume que los datos de entrenamiento y prueba son independientes e idénticamente distribuidos; el cambio de distribución afecta la confiabilidad
Complejidad Computacional: Algunos métodos (como inferencia bayesiana completa) tienen costos computacionales elevados
Incertidumbre en Selección de Modelo: La mayoría de métodos no consideran suficientemente la incertidumbre en la elección de arquitectura del modelo
Modelado de Incertidumbre de Entrada: El modelado explícito de incertidumbre de entrada en métodos de aprendizaje profundo sigue siendo difícil
Llena un Vacío Importante: Por primera vez, establece sistemáticamente un marco metrológico de evaluación de incertidumbre para modelos de clasificación de aprendizaje automático, llenando un vacío importante en los estándares GUM/VIM.
Rigor Teórico: Basado en fundamentos de teoría de probabilidad, establece un sistema teórico completo desde FMP hasta estadísticas resumidas, manteniendo consistencia con estándares metrológicos existentes.
Practicidad Fuerte: Los dos casos de estudio abarcan diferentes dominios de aplicación, tipos de datos y arquitecturas de modelos, demostrando la amplia aplicabilidad del marco.
Comparación Sistemática: Proporciona una comparación exhaustiva de siete estadísticas de incertidumbre, ofreciendo orientación de selección para aplicaciones prácticas.
Perspectiva Prospectiva: Proporciona apoyo importante para el despliegue confiable de tecnología de aprendizaje automático en aplicaciones de alto riesgo.
Fuentes de Incertidumbre Limitadas: Aunque identifica cinco fuentes de incertidumbre, no todas se modelan en los casos prácticos, particularmente la incertidumbre en selección de modelo.
Condiciones de Supuesto: El supuesto i.i.d. se viola frecuentemente en aplicaciones prácticas, pero el artículo no profundiza suficientemente en esta cuestión.
Eficiencia Computacional: La complejidad computacional de algunos métodos (como inferencia bayesiana completa) limita las aplicaciones prácticas.
Validación Limitada: Solo hay dos casos de estudio; se necesita validar la efectividad del marco en más dominios y escenarios.
Establecimiento de Estándares: Tiene potencial para impulsar la actualización de estándares metrológicos internacionales, incorporando clasificación de aprendizaje automático en marcos formales.
Aplicación Industrial: Proporciona garantía de confiabilidad para aplicaciones de aprendizaje automático en campos críticos como medicina y monitoreo ambiental.
Valor Académico: Conecta dos campos: metrología y aprendizaje automático, promoviendo colaboración interdisciplinaria.
Reproducibilidad: Proporciona un marco teórico claro y detalles de implementación, facilitando la adopción por otros investigadores.
El artículo cita 86 referencias que abarcan estándares metrológicos, teoría de aprendizaje automático, métodos de cuantificación de incertidumbre y dominios de aplicación específicos, proporcionando una base teórica sólida y un contexto de aplicación amplio para esta investigación. Las referencias clave incluyen documentos de la serie GUM, vocabulario VIM, métodos de aprendizaje automático bayesiano y técnicas de cuantificación de incertidumbre.