A metrological framework for uncertainty evaluation in machine learning classification models
Bilson, Cox, Pustogvar et al.
Machine learning (ML) classification models are increasingly being used in a wide range of applications where it is important that predictions are accompanied by uncertainties, including in climate and earth observation, medical diagnosis and bioaerosol monitoring. The output of an ML classification model is a type of categorical variable known as a nominal property in the International Vocabulary of Metrology (VIM). However, concepts related to uncertainty evaluation for nominal properties are not defined in the VIM, nor is such evaluation addressed by the Guide to the Expression of Uncertainty in Measurement (GUM). In this paper we propose a metrological conceptual uncertainty evaluation framework for nominal properties. This framework is based on probability mass functions and summary statistics thereof, and it is applicable to ML classification. We also illustrate its use in the context of two applications that exemplify the issues and have significant societal impact, namely, climate and earth observation and medical diagnosis. Our framework would enable an extension of the GUM to uncertainty for nominal properties, which would make both applicable to ML classification models.
academic
Un cadre métrologique pour l'évaluation de l'incertitude dans les modèles de classification d'apprentissage automatique
Les modèles de classification d'apprentissage automatique sont de plus en plus utilisés dans des domaines d'application critiques tels que l'observation climatique, le diagnostic médical et la surveillance des bioaérosols, applications qui exigent que les résultats de prédiction s'accompagnent d'une évaluation de l'incertitude. La sortie des modèles de classification AA est une variable catégorique, désignée dans le Vocabulaire international de métrologie (VIM) comme propriété nominale. Cependant, ni le VIM ni le Guide pour l'expression de l'incertitude de mesure (GUM) ne définissent le concept d'évaluation de l'incertitude pour les propriétés nominales. Cet article propose un cadre d'évaluation de l'incertitude métrologique pour les propriétés nominales basé sur la fonction de masse de probabilité et ses statistiques récapitulatives, applicable à la classification AA. L'utilisation du cadre est illustrée par deux études de cas d'application ayant un impact social majeur : l'observation climatique et le diagnostic médical. Ce cadre permettra au GUM de s'étendre à l'évaluation de l'incertitude des propriétés nominales, rendant ainsi les deux applicables aux modèles de classification AA.
Croissance des besoins applicatifs: Les modèles de classification AA sont de plus en plus largement utilisés dans des domaines critiques tels que l'observation climatique, le diagnostic médical et la surveillance des bioaérosols. Ces applications exigent que les résultats de prédiction s'accompagnent d'une évaluation fiable de l'incertitude.
Absence de normes métrologiques: Les normes métrologiques existantes (VIM et GUM) sont principalement conçues pour les variables quantitatives et manquent d'un cadre d'évaluation de l'incertitude pour les propriétés nominales (nominal properties) qui sont les sorties des modèles de classification.
Incertitudes multisources: Les modèles de classification AA impliquent plusieurs sources d'incertitude : l'incertitude des données d'entraînement, l'incertitude d'attribution de classe, l'incertitude du choix de modèle, l'incertitude des paramètres du modèle et l'incertitude des données d'entrée nouvelles.
Établir un cadre normalisé d'évaluation de l'incertitude permettant aux modèles de classification AA de s'intégrer dans la chaîne de traçabilité métrologique
Fournir une incertitude de prédiction fiable pour les applications à haut risque (comme le diagnostic médical)
Étendre le cadre GUM existant pour couvrir les propriétés nominales
Le GUM s'applique principalement aux variables quantitatives continues et ne peut pas être directement appliqué aux sorties de classification
Les méthodes d'évaluation de conformité existantes ne s'appliquent qu'à la classification binaire basée sur des règles et ne conviennent pas aux modèles AA nécessitant un entraînement
Absence de méthode normalisée de propagation de l'incertitude pour les propriétés nominales
Proposition d'un cadre métrologique d'évaluation de l'incertitude pour les propriétés nominales: Basé sur la fonction de masse de probabilité (FMP) et les statistiques récapitulatives, fournissant une méthode systématique d'évaluation de l'incertitude pour les modèles de classification AA.
Établissement d'un mécanisme de propagation de l'incertitude: Démonstration de la propagation de l'incertitude des propriétés nominales par FMP dans les modèles de mesure multi-étapes, supportant les méthodes analytiques et de Monte-Carlo.
Comparaison systématique des statistiques d'incertitude: Évaluation des caractéristiques et de l'applicabilité de plusieurs modes d'expression de l'incertitude tels que le ratio de variation de Wilcox (RVW), l'entropie informationnelle et l'indice de variation qualitative (IVQ).
Validation de l'applicabilité pratique du cadre: Démonstration de l'efficacité du cadre dans les problèmes réels par deux études de cas importantes : la classification de l'occupation des sols et la détection de la fibrillation auriculaire.
Fondation pour l'extension du GUM: Ce cadre permettra au GUM de s'étendre à l'évaluation de l'incertitude des propriétés nominales, perfectionnant le système de normes métrologiques.
En raison d'une performance de classification inférieure à celle de la tâche de classification de l'occupation des sols, les valeurs des statistiques d'incertitude sont généralement plus élevées
Dans la classification binaire, RVW, SDM, CNV sont mathématiquement équivalents
L'entropie informationnelle reste la statistique la plus sensible
La FMP est l'expression complète de l'incertitude des propriétés nominales: Par analogie avec la PDF des variables continues, la FMP fournit l'information complète sur l'incertitude des prédictions de classification.
Chaque statistique a ses avantages: L'entropie informationnelle est la plus sensible mais peut être excessivement sensible ; les statistiques basées sur la probabilité modale comme RVW sont plus intuitives ; le choix doit être basé sur les besoins spécifiques de l'application.
Le cadre a une applicabilité pratique: Les deux études de cas démontrent l'applicabilité du cadre dans différents domaines et types de modèles.
Support de la propagation de l'incertitude: La FMP permet la propagation de l'incertitude des propriétés nominales dans les modèles multi-étapes.
Hypothèse i.i.d.: Le cadre suppose que les données d'entraînement et de test sont indépendantes et identiquement distribuées ; le décalage de distribution affecte la fiabilité
Complexité computationnelle: Certaines méthodes (comme l'inférence bayésienne complète) ont un coût computationnel élevé
Incertitude du choix de modèle: La plupart des méthodes ne tiennent pas suffisamment compte de l'incertitude liée au choix de l'architecture du modèle
Modélisation de l'incertitude d'entrée: La modélisation explicite de l'incertitude d'entrée dans les méthodes d'apprentissage profond reste difficile
Combler une lacune importante: Premier cadre systématique d'évaluation métrologique de l'incertitude pour les modèles de classification AA, comblant une lacune importante dans les normes GUM/VIM.
Rigueur théorique: Basé sur les fondements de la théorie des probabilités, établissant un système théorique complet allant de la FMP aux statistiques récapitulatives, maintenant la cohérence avec les normes métrologiques existantes.
Forte applicabilité pratique: Les deux études de cas couvrent différents domaines d'application, types de données et architectures de modèles, démontrant l'applicabilité générale du cadre.
Comparaison systématique: Comparaison complète de sept statistiques d'incertitude, fournissant des conseils de sélection pour les applications pratiques.
Caractère prospectif: Fournit un support important pour le déploiement fiable des technologies AA dans les applications à haut risque.
Sources d'incertitude limitées: Bien que cinq sources d'incertitude soient identifiées, elles ne sont pas toutes modélisées dans les études de cas réelles, en particulier l'incertitude du choix de modèle.
Conditions d'hypothèse: L'hypothèse i.i.d. est souvent violée dans les applications réelles, mais la discussion à ce sujet dans l'article n'est pas suffisamment approfondie.
Efficacité computationnelle: La complexité computationnelle de certaines méthodes (comme l'inférence bayésienne complète) limite les applications pratiques.
Validation limitée: Seulement deux études de cas ; la validation de l'efficacité du cadre dans davantage de domaines et de scénarios est nécessaire.
Élaboration de normes: Susceptible de promouvoir la mise à jour des normes métrologiques internationales, intégrant la classification AA dans le cadre formel.
Applications industrielles: Fournit une assurance de fiabilité pour les applications AA dans les domaines critiques tels que la médecine et la surveillance environnementale.
Valeur académique: Relie deux domaines : la métrologie et l'apprentissage automatique, favorisant la collaboration interdisciplinaire.
Reproductibilité: Fournit un cadre théorique clair et des détails de mise en œuvre, facilitant l'adoption par d'autres chercheurs.
L'article cite 86 références couvrant les normes métrologiques, la théorie de l'apprentissage automatique, les méthodes de quantification de l'incertitude et les domaines d'application spécifiques, fournissant une base théorique solide et un contexte d'application large pour cette recherche. Les références clés incluent la suite de documents GUM, le vocabulaire VIM, les méthodes d'apprentissage automatique bayésien et les techniques de quantification de l'incertitude.