2025-11-13T08:49:10.859507

A metrological framework for uncertainty evaluation in machine learning classification models

Bilson, Cox, Pustogvar et al.

Machine learning (ML) classification models are increasingly being used in a wide range of applications where it is important that predictions are accompanied by uncertainties, including in climate and earth observation, medical diagnosis and bioaerosol monitoring. The output of an ML classification model is a type of categorical variable known as a nominal property in the International Vocabulary of Metrology (VIM). However, concepts related to uncertainty evaluation for nominal properties are not defined in the VIM, nor is such evaluation addressed by the Guide to the Expression of Uncertainty in Measurement (GUM). In this paper we propose a metrological conceptual uncertainty evaluation framework for nominal properties. This framework is based on probability mass functions and summary statistics thereof, and it is applicable to ML classification. We also illustrate its use in the context of two applications that exemplify the issues and have significant societal impact, namely, climate and earth observation and medical diagnosis. Our framework would enable an extension of the GUM to uncertainty for nominal properties, which would make both applicable to ML classification models.

academic

Un cadre métrologique pour l'évaluation de l'incertitude dans les modèles de classification d'apprentissage automatique

Informations de base

ID de l'article: 2504.03359
Titre: A metrological framework for uncertainty evaluation in machine learning classification models
Auteurs: Samuel Bilson, Maurice Cox, Anna Pustogvar, Andrew Thompson (Laboratoire national de physique, Royaume-Uni)
Classification: cs.LG (Apprentissage automatique)
Date de publication: 15 octobre 2025 (arXiv v3)
Lien de l'article: https://arxiv.org/abs/2504.03359

Résumé

Les modèles de classification d'apprentissage automatique sont de plus en plus utilisés dans des domaines d'application critiques tels que l'observation climatique, le diagnostic médical et la surveillance des bioaérosols, applications qui exigent que les résultats de prédiction s'accompagnent d'une évaluation de l'incertitude. La sortie des modèles de classification AA est une variable catégorique, désignée dans le Vocabulaire international de métrologie (VIM) comme propriété nominale. Cependant, ni le VIM ni le Guide pour l'expression de l'incertitude de mesure (GUM) ne définissent le concept d'évaluation de l'incertitude pour les propriétés nominales. Cet article propose un cadre d'évaluation de l'incertitude métrologique pour les propriétés nominales basé sur la fonction de masse de probabilité et ses statistiques récapitulatives, applicable à la classification AA. L'utilisation du cadre est illustrée par deux études de cas d'application ayant un impact social majeur : l'observation climatique et le diagnostic médical. Ce cadre permettra au GUM de s'étendre à l'évaluation de l'incertitude des propriétés nominales, rendant ainsi les deux applicables aux modèles de classification AA.

Contexte et motivation de la recherche

Contexte du problème

Croissance des besoins applicatifs: Les modèles de classification AA sont de plus en plus largement utilisés dans des domaines critiques tels que l'observation climatique, le diagnostic médical et la surveillance des bioaérosols. Ces applications exigent que les résultats de prédiction s'accompagnent d'une évaluation fiable de l'incertitude.
Absence de normes métrologiques: Les normes métrologiques existantes (VIM et GUM) sont principalement conçues pour les variables quantitatives et manquent d'un cadre d'évaluation de l'incertitude pour les propriétés nominales (nominal properties) qui sont les sorties des modèles de classification.
Incertitudes multisources: Les modèles de classification AA impliquent plusieurs sources d'incertitude : l'incertitude des données d'entraînement, l'incertitude d'attribution de classe, l'incertitude du choix de modèle, l'incertitude des paramètres du modèle et l'incertitude des données d'entrée nouvelles.

Motivation de la recherche

Établir un cadre normalisé d'évaluation de l'incertitude permettant aux modèles de classification AA de s'intégrer dans la chaîne de traçabilité métrologique
Fournir une incertitude de prédiction fiable pour les applications à haut risque (comme le diagnostic médical)
Étendre le cadre GUM existant pour couvrir les propriétés nominales

Limitations des approches existantes

Le GUM s'applique principalement aux variables quantitatives continues et ne peut pas être directement appliqué aux sorties de classification
Les méthodes d'évaluation de conformité existantes ne s'appliquent qu'à la classification binaire basée sur des règles et ne conviennent pas aux modèles AA nécessitant un entraînement
Absence de méthode normalisée de propagation de l'incertitude pour les propriétés nominales

Contributions principales

Proposition d'un cadre métrologique d'évaluation de l'incertitude pour les propriétés nominales: Basé sur la fonction de masse de probabilité (FMP) et les statistiques récapitulatives, fournissant une méthode systématique d'évaluation de l'incertitude pour les modèles de classification AA.
Établissement d'un mécanisme de propagation de l'incertitude: Démonstration de la propagation de l'incertitude des propriétés nominales par FMP dans les modèles de mesure multi-étapes, supportant les méthodes analytiques et de Monte-Carlo.
Comparaison systématique des statistiques d'incertitude: Évaluation des caractéristiques et de l'applicabilité de plusieurs modes d'expression de l'incertitude tels que le ratio de variation de Wilcox (RVW), l'entropie informationnelle et l'indice de variation qualitative (IVQ).
Validation de l'applicabilité pratique du cadre: Démonstration de l'efficacité du cadre dans les problèmes réels par deux études de cas importantes : la classification de l'occupation des sols et la détection de la fibrillation auriculaire.
Fondation pour l'extension du GUM: Ce cadre permettra au GUM de s'étendre à l'évaluation de l'incertitude des propriétés nominales, perfectionnant le système de normes métrologiques.

Détail des méthodes

Définition de la tâche

Cet article étudie la tâche d'évaluation de l'incertitude des modèles de classification AA :

Entrée: Ensemble de variables d'entrée X (pouvant inclure des variables quantitatives et catégoriques)
Sortie: Variable catégorique Y ∈ CK = {c1, ..., cK}, où K est le nombre de classes
Objectif: Évaluer l'incertitude de la prédiction de classification y = f(x)

Cadre théorique

1. Fonction de masse de probabilité (FMP)

Pour une variable nominale, l'information complète sur l'incertitude est exprimée par la FMP :

p : CK → [0,1]
ck ↦ pk := p(ck)

satisfaisant la condition de normalisation : ∑pk = 1

2. Statistiques d'incertitude

L'article évalue systématiquement sept statistiques d'incertitude :

Ratio de variation de Wilcox (RVW):

uRVW(p) = 1 - (Kp̂-1)/(K-1)

Entropie informationnelle:

H(p) = -∑pk logK pk

Indice de variation qualitative (IVQ):

uIVQ(p) = K/(K-1)(1-∑pk²)

où p̂ est la probabilité modale (probabilité de la classe la plus élevée).

3. Propagation de l'incertitude

Pour un modèle de mesure avec entrées nominales z = g(x,y), la valeur attendue et la variance de la sortie peuvent être exprimées comme :

E[z] = ∑pk μk
Var[z] = ∑pk(σk² + μk²) - (∑pkμk)²

Identification des sources d'incertitude

L'article identifie cinq sources principales d'incertitude dans la classification AA :

Incertitude des données d'entraînement: Incertitude de mesure inhérente aux données d'entraînement elles-mêmes
Incertitude d'attribution de classe: Ambiguïté de classification inhérente à la tâche
Incertitude du choix de modèle: Incertitude liée au choix du type de modèle
Incertitude des paramètres du modèle: Incertitude de l'estimation et de l'optimisation des paramètres
Incertitude des données d'entrée nouvelles: Incertitude de mesure des données d'entrée lors de la phase de prédiction

Configuration expérimentale

Étude de cas 1 : Classification de l'occupation des sols

Ensemble de données:

Données d'imagerie satellite Sentinel-2
Région de 20 km × 20 km en Écosse
189 142 pixels, contenant quatre classes : forêt, terres agricoles, prairies, zones résidentielles
Données de 2020 et 2021

Méthode: Analyse discriminante quadratique bayésienne (ADQB)

Approche de modélisation générative
Modélisation explicite de plusieurs sources d'incertitude
Hypothèse de distribution gaussienne multivariée

Indicateurs d'évaluation:

Perte de classification (taux de mauvaise classification)
Perte d'entropie croisée attendue (PCE)
Score de Brier attendu (SBE)

Étude de cas 2 : Détection de la fibrillation auriculaire

Ensemble de données:

Ensemble de données PPG DeepBeat
134 patients, plus de 100 000 segments de signal
Durée de 25 secondes, fréquence d'échantillonnage de 32 Hz
Tâche de classification binaire (FA/non-FA)

Méthode: Réseau de neurones convolutifs + Monte Carlo Dropout

Approche de modélisation discriminative
Variante d'architecture xresnet1d50
Capture de l'incertitude aléatoire et épistémique

Résultats expérimentaux

Résultats de la classification de l'occupation des sols

Performance de classification:

Test 2020 : perte=0,012, PCE=0,079, SBE=0,031
Test 2021 : perte=0,057, PCE=0,567, SBE=0,151
Baisse significative de la performance interannuelle, reflétant l'impact du décalage de distribution

Performance des statistiques d'incertitude (2020):

Différence énorme entre médiane et moyenne (différence d'ordre de grandeur), indiquant une distribution fortement asymétrique à gauche
L'entropie informationnelle H est la plus sensible aux petites variations de valeur
L'UVR est la moins sensible aux petites variations de valeur
RVW, SDM, CNV sont équivalents dans les prédictions à haute confiance

Résultats de la détection de la fibrillation auriculaire

Performance de classification:

Perte de classification : 0,209
PCE : 0,874
SBE : 0,622

Statistiques d'incertitude:

En raison d'une performance de classification inférieure à celle de la tâche de classification de l'occupation des sols, les valeurs des statistiques d'incertitude sont généralement plus élevées
Dans la classification binaire, RVW, SDM, CNV sont mathématiquement équivalents
L'entropie informationnelle reste la statistique la plus sensible

Conclusions clés

Ordre de sensibilité des statistiques: Entropie informationnelle > IVQ > RVW/SDM/CNV > UVR
Équivalence en classification binaire: RVW, SDM, CNV sont mathématiquement équivalents en classification binaire
Approximation à haute confiance: Pour les prédictions multi-classes à haute confiance, plusieurs statistiques sont approximativement équivalentes
Relation performance-incertitude: Plus la performance de classification est mauvaise, plus les valeurs des statistiques d'incertitude sont élevées

Travaux connexes

Normes métrologiques

Suite GUM: Principalement destinée à l'évaluation de l'incertitude pour les variables quantitatives
VIM: Définit le concept de propriété nominale mais manque de méthodes d'évaluation de l'incertitude
Évaluation de conformité: S'applique uniquement à la classification binaire basée sur des règles

Évaluation de l'incertitude en AA

Méthodes bayésiennes: Telles que les réseaux de neurones bayésiens, l'inférence variationnelle
Méthodes d'ensemble: Telles que Monte Carlo Dropout, l'ensemble profond
Calibrage probabiliste: Amélioration de la fiabilité des probabilités de prédiction

Normes connexes

Sciences de laboratoire clinique: Vocabulaire de propriété nominale IFCC-IUPAC
Analyse chimique qualitative: Guide EURACHEM/CITAC
Matériaux de référence: Norme ISO 33406:2024

Conclusions et discussion

Conclusions principales

La FMP est l'expression complète de l'incertitude des propriétés nominales: Par analogie avec la PDF des variables continues, la FMP fournit l'information complète sur l'incertitude des prédictions de classification.
Chaque statistique a ses avantages: L'entropie informationnelle est la plus sensible mais peut être excessivement sensible ; les statistiques basées sur la probabilité modale comme RVW sont plus intuitives ; le choix doit être basé sur les besoins spécifiques de l'application.
Le cadre a une applicabilité pratique: Les deux études de cas démontrent l'applicabilité du cadre dans différents domaines et types de modèles.
Support de la propagation de l'incertitude: La FMP permet la propagation de l'incertitude des propriétés nominales dans les modèles multi-étapes.

Limitations

Hypothèse i.i.d.: Le cadre suppose que les données d'entraînement et de test sont indépendantes et identiquement distribuées ; le décalage de distribution affecte la fiabilité
Complexité computationnelle: Certaines méthodes (comme l'inférence bayésienne complète) ont un coût computationnel élevé
Incertitude du choix de modèle: La plupart des méthodes ne tiennent pas suffisamment compte de l'incertitude liée au choix de l'architecture du modèle
Modélisation de l'incertitude d'entrée: La modélisation explicite de l'incertitude d'entrée dans les méthodes d'apprentissage profond reste difficile

Directions futures

Extension du GUM: Intégration formelle de l'évaluation de l'incertitude des propriétés nominales dans le cadre GUM
Normalisation: Développement de normes internationales pour l'évaluation de l'incertitude des modèles de classification AA
Amélioration des méthodes: Développement de méthodes de quantification de l'incertitude plus efficaces
Extension des applications: Validation de l'efficacité du cadre dans davantage de domaines d'application critiques

Évaluation approfondie

Points forts

Combler une lacune importante: Premier cadre systématique d'évaluation métrologique de l'incertitude pour les modèles de classification AA, comblant une lacune importante dans les normes GUM/VIM.
Rigueur théorique: Basé sur les fondements de la théorie des probabilités, établissant un système théorique complet allant de la FMP aux statistiques récapitulatives, maintenant la cohérence avec les normes métrologiques existantes.
Forte applicabilité pratique: Les deux études de cas couvrent différents domaines d'application, types de données et architectures de modèles, démontrant l'applicabilité générale du cadre.
Comparaison systématique: Comparaison complète de sept statistiques d'incertitude, fournissant des conseils de sélection pour les applications pratiques.
Caractère prospectif: Fournit un support important pour le déploiement fiable des technologies AA dans les applications à haut risque.

Insuffisances

Sources d'incertitude limitées: Bien que cinq sources d'incertitude soient identifiées, elles ne sont pas toutes modélisées dans les études de cas réelles, en particulier l'incertitude du choix de modèle.
Conditions d'hypothèse: L'hypothèse i.i.d. est souvent violée dans les applications réelles, mais la discussion à ce sujet dans l'article n'est pas suffisamment approfondie.
Efficacité computationnelle: La complexité computationnelle de certaines méthodes (comme l'inférence bayésienne complète) limite les applications pratiques.
Validation limitée: Seulement deux études de cas ; la validation de l'efficacité du cadre dans davantage de domaines et de scénarios est nécessaire.

Impact

Élaboration de normes: Susceptible de promouvoir la mise à jour des normes métrologiques internationales, intégrant la classification AA dans le cadre formel.
Applications industrielles: Fournit une assurance de fiabilité pour les applications AA dans les domaines critiques tels que la médecine et la surveillance environnementale.
Valeur académique: Relie deux domaines : la métrologie et l'apprentissage automatique, favorisant la collaboration interdisciplinaire.
Reproductibilité: Fournit un cadre théorique clair et des détails de mise en œuvre, facilitant l'adoption par d'autres chercheurs.

Scénarios applicables

Applications à haut risque: Diagnostic médical, surveillance de sécurité et autres scénarios exigeant une fiabilité extrême
Environnements réglementaires: Applications industrielles et scientifiques nécessitant la conformité aux normes métrologiques
Systèmes multi-étapes: Systèmes complexes où les résultats de classification doivent être propagés aux étapes de traitement ultérieures
Assurance qualité: Systèmes de production et de service nécessitant la quantification de la fiabilité des prédictions

Références

L'article cite 86 références couvrant les normes métrologiques, la théorie de l'apprentissage automatique, les méthodes de quantification de l'incertitude et les domaines d'application spécifiques, fournissant une base théorique solide et un contexte d'application large pour cette recherche. Les références clés incluent la suite de documents GUM, le vocabulaire VIM, les méthodes d'apprentissage automatique bayésien et les techniques de quantification de l'incertitude.