2025-11-13T08:49:10.859507

A metrological framework for uncertainty evaluation in machine learning classification models

Bilson, Cox, Pustogvar et al.
Machine learning (ML) classification models are increasingly being used in a wide range of applications where it is important that predictions are accompanied by uncertainties, including in climate and earth observation, medical diagnosis and bioaerosol monitoring. The output of an ML classification model is a type of categorical variable known as a nominal property in the International Vocabulary of Metrology (VIM). However, concepts related to uncertainty evaluation for nominal properties are not defined in the VIM, nor is such evaluation addressed by the Guide to the Expression of Uncertainty in Measurement (GUM). In this paper we propose a metrological conceptual uncertainty evaluation framework for nominal properties. This framework is based on probability mass functions and summary statistics thereof, and it is applicable to ML classification. We also illustrate its use in the context of two applications that exemplify the issues and have significant societal impact, namely, climate and earth observation and medical diagnosis. Our framework would enable an extension of the GUM to uncertainty for nominal properties, which would make both applicable to ML classification models.
academic

Un marco metrológico para la evaluación de la incertidumbre en modelos de clasificación de aprendizaje automático

Información Básica

  • ID del Artículo: 2504.03359
  • Título: A metrological framework for uncertainty evaluation in machine learning classification models
  • Autores: Samuel Bilson, Maurice Cox, Anna Pustogvar, Andrew Thompson (National Physical Laboratory, Reino Unido)
  • Clasificación: cs.LG (Aprendizaje Automático)
  • Fecha de Publicación: 15 de octubre de 2025 (arXiv v3)
  • Enlace del Artículo: https://arxiv.org/abs/2504.03359

Resumen

Los modelos de clasificación de aprendizaje automático se utilizan cada vez más en aplicaciones críticas como observación climática, diagnóstico médico y monitoreo de bioaerosoles, que requieren que los resultados de predicción vayan acompañados de evaluaciones de incertidumbre. La salida de los modelos de clasificación de aprendizaje automático es una variable categórica, denominada atributo nominal en el Vocabulario Internacional de Metrología (VIM). Sin embargo, ni el VIM ni la Guía para la Expresión de la Incertidumbre de Medida (GUM) definen conceptos de evaluación de incertidumbre para atributos nominales. Este artículo propone un marco metrológico para la evaluación de la incertidumbre de atributos nominales basado en funciones de masa de probabilidad y sus estadísticas resumidas, aplicable a la clasificación de aprendizaje automático. El marco se ilustra mediante dos casos de aplicación con impacto social significativo: observación climática y diagnóstico médico. Este marco permitirá que la GUM se extienda a la evaluación de la incertidumbre de atributos nominales, haciendo que ambas sean aplicables a modelos de clasificación de aprendizaje automático.

Antecedentes de Investigación y Motivación

Contexto del Problema

  1. Crecimiento de Aplicaciones: Los modelos de clasificación de aprendizaje automático se aplican cada vez más en campos críticos como observación climática, diagnóstico médico y monitoreo de bioaerosoles, que requieren evaluaciones de incertidumbre confiables acompañando los resultados de predicción.
  2. Ausencia de Estándares Metrológicos: Los estándares metrológicos existentes (VIM y GUM) se diseñaron principalmente para variables cuantitativas, careciendo de un marco para la evaluación de la incertidumbre de atributos nominales (propiedades categóricas) que son salidas de modelos de clasificación.
  3. Incertidumbre Multifuente: Los modelos de clasificación de aprendizaje automático involucran múltiples fuentes de incertidumbre: incertidumbre en datos de entrenamiento, incertidumbre en asignación de clases, incertidumbre en selección de modelo, incertidumbre en parámetros del modelo e incertidumbre en datos de entrada nuevos.

Motivación de la Investigación

  • Establecer un marco estandarizado de evaluación de incertidumbre que permita que los modelos de clasificación de aprendizaje automático se integren en la cadena de trazabilidad metrológica
  • Proporcionar incertidumbre de predicción confiable para aplicaciones de alto riesgo (como diagnóstico médico)
  • Extender el marco GUM existente para abarcar atributos nominales

Limitaciones de Métodos Existentes

  • La GUM se aplica principalmente a variables cuantitativas continuas y no puede aplicarse directamente a salidas de clasificación
  • Los métodos de evaluación de conformidad existentes solo se aplican a clasificación binaria basada en reglas, no a modelos de aprendizaje automático que requieren entrenamiento
  • Falta un método estandarizado de propagación de incertidumbre para atributos nominales

Contribuciones Principales

  1. Propone un marco metrológico de evaluación de incertidumbre para atributos nominales: Basado en funciones de masa de probabilidad (FMP) y estadísticas resumidas, proporciona un método sistemático de evaluación de incertidumbre para modelos de clasificación de aprendizaje automático.
  2. Establece mecanismos de propagación de incertidumbre: Demuestra cómo propagar la incertidumbre de atributos nominales a través de FMP en modelos de medición multietapa, soportando métodos analíticos y de Monte Carlo.
  3. Compara sistemáticamente estadísticas de incertidumbre: Evalúa las características y aplicabilidad de múltiples formas de expresión de incertidumbre incluyendo la razón de variación de Wilcox (RVW), entropía de información e índice de variación cualitativa (IVQ).
  4. Valida la practicidad del marco: A través de dos casos de aplicación importantes (clasificación de cobertura terrestre y detección de fibrilación auricular), demuestra la efectividad del marco en problemas reales.
  5. Sienta las bases para la extensión de la GUM: El marco permite que la GUM se extienda a la evaluación de incertidumbre de atributos nominales, perfeccionando el sistema de estándares metrológicos.

Explicación Detallada del Método

Definición de la Tarea

Este artículo estudia la tarea de evaluación de incertidumbre en modelos de clasificación de aprendizaje automático:

  • Entrada: Conjunto de variables de entrada X (puede incluir variables cuantitativas y categóricas)
  • Salida: Variable categórica Y ∈ CK = {c1, ..., cK}, donde K es el número de clases
  • Objetivo: Evaluar la incertidumbre de la predicción de clasificación y = f(x)

Marco Teórico

1. Función de Masa de Probabilidad (FMP)

Para variables nominales, la información completa de incertidumbre se expresa mediante FMP:

p : CK → [0,1]
ck ↦ pk := p(ck)

Satisfaciendo la condición de normalización: ∑pk = 1

2. Estadísticas de Incertidumbre

El artículo evalúa sistemáticamente siete estadísticas de incertidumbre:

Razón de Variación de Wilcox (RVW):

uRVW(p) = 1 - (Kp̂-1)/(K-1)

Entropía de Información:

H(p) = -∑pk logK pk

Índice de Variación Cualitativa (IVQ):

uIVQ(p) = K/(K-1)(1-∑pk²)

Donde p̂ es la probabilidad modal (probabilidad de la clase más alta).

3. Propagación de Incertidumbre

Para un modelo de medición con entrada nominal z = g(x,y), el valor esperado y la varianza de la salida pueden expresarse como:

E[z] = ∑pk μk
Var[z] = ∑pk(σk² + μk²) - (∑pkμk)²

Identificación de Fuentes de Incertidumbre

El artículo identifica cinco fuentes principales de incertidumbre en clasificación de aprendizaje automático:

  1. Incertidumbre en Datos de Entrenamiento: Incertidumbre de medición inherente a los datos de entrenamiento
  2. Incertidumbre en Asignación de Clases: Ambigüedad de clasificación inherente a la tarea
  3. Incertidumbre en Selección de Modelo: Incertidumbre en la elección del tipo de modelo
  4. Incertidumbre en Parámetros del Modelo: Incertidumbre en estimación y optimización de parámetros
  5. Incertidumbre en Datos de Entrada Nueva: Incertidumbre de medición de datos de entrada durante la predicción

Configuración Experimental

Caso de Estudio 1: Clasificación de Cobertura Terrestre

Conjunto de Datos:

  • Datos de imágenes satelitales Sentinel-2
  • Región de 20 km × 20 km en Escocia
  • 189,142 píxeles, incluyendo cuatro clases: bosque, tierras agrícolas, pastizales y áreas residenciales
  • Datos de 2020 y 2021

Método: Análisis Discriminante Cuadrático Bayesiano (ADCB)

  • Enfoque de modelado generativo
  • Modelado explícito de múltiples fuentes de incertidumbre
  • Supuesto de distribución gaussiana multivariada

Métricas de Evaluación:

  • Pérdida de clasificación (tasa de clasificación errónea)
  • Pérdida de entropía cruzada esperada (ECE)
  • Puntuación de Brier esperada (PBE)

Caso de Estudio 2: Detección de Fibrilación Auricular

Conjunto de Datos:

  • Conjunto de datos DeepBeat PPG
  • 134 pacientes, más de 100,000 segmentos de señal
  • Duración de 25 segundos, frecuencia de muestreo de 32 Hz
  • Tarea de clasificación binaria (FA/no-FA)

Método: Red Neuronal Convolucional + Monte Carlo Dropout

  • Enfoque de modelado discriminativo
  • Variante de arquitectura xresnet1d50
  • Captura de incertidumbre aleatoria y epistémica

Resultados Experimentales

Resultados de Clasificación de Cobertura Terrestre

Rendimiento de Clasificación:

  • Prueba 2020: Pérdida=0.012, ECE=0.079, PBE=0.031
  • Prueba 2021: Pérdida=0.057, ECE=0.567, PBE=0.151
  • Disminución significativa del rendimiento entre años, reflejando el impacto del cambio de distribución

Desempeño de Estadísticas de Incertidumbre (2020):

  • Diferencias enormes entre mediana y media (diferencia de órdenes de magnitud), indicando distribución altamente sesgada
  • Entropía de información H es la más sensible a cambios en valores pequeños
  • UVR es la menos sensible a cambios en valores pequeños
  • RVW, SDM, CNV son equivalentes en predicciones de alta confianza

Resultados de Detección de Fibrilación Auricular

Rendimiento de Clasificación:

  • Pérdida de clasificación: 0.209
  • ECE: 0.874
  • PBE: 0.622

Estadísticas de Incertidumbre:

  • Debido al rendimiento de clasificación más bajo que la tarea de cobertura terrestre, los valores de estadísticas de incertidumbre son universalmente más altos
  • En clasificación binaria, RVW, SDM, CNV son completamente equivalentes
  • La entropía de información sigue siendo la estadística más sensible

Hallazgos Clave

  1. Orden de Sensibilidad de Estadísticas: Entropía de Información > IVQ > RVW/SDM/CNV > UVR
  2. Equivalencia en Clasificación Binaria: RVW, SDM, CNV son matemáticamente equivalentes en clasificación binaria
  3. Aproximación de Alta Confianza: Para predicciones multclase de alta confianza, múltiples estadísticas son aproximadamente equivalentes
  4. Relación Rendimiento-Incertidumbre: Cuanto peor es el rendimiento de clasificación, mayores son los valores de estadísticas de incertidumbre

Trabajo Relacionado

Estándares Metrológicos

  • Suite GUM: Se enfoca principalmente en evaluación de incertidumbre para variables cuantitativas
  • VIM: Define el concepto de atributo nominal pero carece de métodos de evaluación de incertidumbre
  • Evaluación de Conformidad: Solo se aplica a clasificación binaria basada en reglas

Evaluación de Incertidumbre en Aprendizaje Automático

  • Métodos Bayesianos: Como redes neuronales bayesianas, inferencia variacional
  • Métodos de Conjunto: Como Monte Carlo Dropout, ensambles profundos
  • Calibración Probabilística: Mejora la confiabilidad de probabilidades predichas

Estándares de Campos Relacionados

  • Ciencia de Laboratorio Clínico: Vocabulario de atributos nominales IFCC-IUPAC
  • Análisis Químico Cualitativo: Guía EURACHEM/CITAC
  • Materiales de Referencia: Estándar ISO 33406:2024

Conclusiones y Discusión

Conclusiones Principales

  1. La FMP es la Expresión Completa de Incertidumbre para Atributos Nominales: De manera análoga a la PDF para variables continuas, la FMP proporciona información completa de incertidumbre para predicciones de clasificación.
  2. Múltiples Estadísticas Tienen Ventajas Distintas: La entropía de información es la más sensible pero potencialmente demasiado sensible; las estadísticas basadas en probabilidad modal como RVW son más intuitivas; la selección debe basarse en necesidades específicas de la aplicación.
  3. El Marco es Práctico: Los dos casos de estudio demuestran la aplicabilidad del marco en diferentes dominios y tipos de modelos.
  4. Soporta Propagación de Incertidumbre: A través de FMP se puede lograr la propagación de incertidumbre de atributos nominales en modelos multietapa.

Limitaciones

  1. Supuesto i.i.d.: El marco asume que los datos de entrenamiento y prueba son independientes e idénticamente distribuidos; el cambio de distribución afecta la confiabilidad
  2. Complejidad Computacional: Algunos métodos (como inferencia bayesiana completa) tienen costos computacionales elevados
  3. Incertidumbre en Selección de Modelo: La mayoría de métodos no consideran suficientemente la incertidumbre en la elección de arquitectura del modelo
  4. Modelado de Incertidumbre de Entrada: El modelado explícito de incertidumbre de entrada en métodos de aprendizaje profundo sigue siendo difícil

Direcciones Futuras

  1. Extensión de la GUM: Incorporar formalmente la evaluación de incertidumbre de atributos nominales en el marco GUM
  2. Estandarización: Desarrollar estándares internacionales para evaluación de incertidumbre en modelos de clasificación de aprendizaje automático
  3. Mejora de Métodos: Desarrollar métodos más eficientes de cuantificación de incertidumbre
  4. Expansión de Aplicaciones: Validar la efectividad del marco en más campos de aplicación crítica

Evaluación Profunda

Fortalezas

  1. Llena un Vacío Importante: Por primera vez, establece sistemáticamente un marco metrológico de evaluación de incertidumbre para modelos de clasificación de aprendizaje automático, llenando un vacío importante en los estándares GUM/VIM.
  2. Rigor Teórico: Basado en fundamentos de teoría de probabilidad, establece un sistema teórico completo desde FMP hasta estadísticas resumidas, manteniendo consistencia con estándares metrológicos existentes.
  3. Practicidad Fuerte: Los dos casos de estudio abarcan diferentes dominios de aplicación, tipos de datos y arquitecturas de modelos, demostrando la amplia aplicabilidad del marco.
  4. Comparación Sistemática: Proporciona una comparación exhaustiva de siete estadísticas de incertidumbre, ofreciendo orientación de selección para aplicaciones prácticas.
  5. Perspectiva Prospectiva: Proporciona apoyo importante para el despliegue confiable de tecnología de aprendizaje automático en aplicaciones de alto riesgo.

Insuficiencias

  1. Fuentes de Incertidumbre Limitadas: Aunque identifica cinco fuentes de incertidumbre, no todas se modelan en los casos prácticos, particularmente la incertidumbre en selección de modelo.
  2. Condiciones de Supuesto: El supuesto i.i.d. se viola frecuentemente en aplicaciones prácticas, pero el artículo no profundiza suficientemente en esta cuestión.
  3. Eficiencia Computacional: La complejidad computacional de algunos métodos (como inferencia bayesiana completa) limita las aplicaciones prácticas.
  4. Validación Limitada: Solo hay dos casos de estudio; se necesita validar la efectividad del marco en más dominios y escenarios.

Impacto

  1. Establecimiento de Estándares: Tiene potencial para impulsar la actualización de estándares metrológicos internacionales, incorporando clasificación de aprendizaje automático en marcos formales.
  2. Aplicación Industrial: Proporciona garantía de confiabilidad para aplicaciones de aprendizaje automático en campos críticos como medicina y monitoreo ambiental.
  3. Valor Académico: Conecta dos campos: metrología y aprendizaje automático, promoviendo colaboración interdisciplinaria.
  4. Reproducibilidad: Proporciona un marco teórico claro y detalles de implementación, facilitando la adopción por otros investigadores.

Escenarios de Aplicación

  1. Aplicaciones de Alto Riesgo: Escenarios como diagnóstico médico y monitoreo de seguridad que requieren confiabilidad extremadamente alta
  2. Entornos Regulatorios: Aplicaciones industriales y de investigación que necesitan cumplir con estándares metrológicos
  3. Sistemas Multietapa: Sistemas complejos donde los resultados de clasificación necesitan propagarse a pasos de procesamiento posteriores
  4. Aseguramiento de Calidad: Sistemas de producción y servicio que necesitan cuantificar la confiabilidad de predicciones

Referencias

El artículo cita 86 referencias que abarcan estándares metrológicos, teoría de aprendizaje automático, métodos de cuantificación de incertidumbre y dominios de aplicación específicos, proporcionando una base teórica sólida y un contexto de aplicación amplio para esta investigación. Las referencias clave incluyen documentos de la serie GUM, vocabulario VIM, métodos de aprendizaje automático bayesiano y técnicas de cuantificación de incertidumbre.