A metrological framework for uncertainty evaluation in machine learning classification models
Bilson, Cox, Pustogvar et al.
Machine learning (ML) classification models are increasingly being used in a wide range of applications where it is important that predictions are accompanied by uncertainties, including in climate and earth observation, medical diagnosis and bioaerosol monitoring. The output of an ML classification model is a type of categorical variable known as a nominal property in the International Vocabulary of Metrology (VIM). However, concepts related to uncertainty evaluation for nominal properties are not defined in the VIM, nor is such evaluation addressed by the Guide to the Expression of Uncertainty in Measurement (GUM). In this paper we propose a metrological conceptual uncertainty evaluation framework for nominal properties. This framework is based on probability mass functions and summary statistics thereof, and it is applicable to ML classification. We also illustrate its use in the context of two applications that exemplify the issues and have significant societal impact, namely, climate and earth observation and medical diagnosis. Our framework would enable an extension of the GUM to uncertainty for nominal properties, which would make both applicable to ML classification models.
academic
Ein metrologisches Rahmenwerk zur Unsicherheitsbewertung in Klassifizierungsmodellen des maschinellen Lernens
Klassifizierungsmodelle des maschinellen Lernens werden zunehmend in kritischen Anwendungsbereichen wie Klimabeobachtung, medizinischer Diagnostik und Bioaerosol-Überwachung eingesetzt, wobei diese Anwendungen eine Unsicherheitsbewertung der Vorhersageergebnisse erfordern. Die Ausgabe von ML-Klassifizierungsmodellen ist eine kategoriale Variable, die im Internationalen Wörterbuch der Metrologie (VIM) als nominale Eigenschaft bezeichnet wird. Jedoch definieren weder das VIM noch der Leitfaden zur Ausdrucksweise von Messunsicherheit (GUM) ein Konzept zur Unsicherheitsbewertung nominaler Eigenschaften. Dieses Papier präsentiert ein auf Wahrscheinlichkeitsmassenfunktionen und deren zusammenfassenden Statistiken basierendes metrologisches Rahmenwerk zur Unsicherheitsbewertung nominaler Eigenschaften, das auf ML-Klassifizierung anwendbar ist. Das Rahmenwerk wird anhand von zwei Anwendungsfällen mit erheblichen gesellschaftlichen Auswirkungen – Klimabeobachtung und medizinische Diagnostik – veranschaulicht. Das Rahmenwerk ermöglicht eine Erweiterung des GUM auf die Unsicherheitsbewertung nominaler Eigenschaften und macht beide auf ML-Klassifizierungsmodelle anwendbar.
Wachsende Anwendungsanforderungen: ML-Klassifizierungsmodelle werden in kritischen Bereichen wie Klimabeobachtung, medizinischer Diagnostik und Bioaerosol-Überwachung zunehmend eingesetzt, wobei diese Anwendungen zuverlässige Unsicherheitsbewertungen der Vorhersageergebnisse erfordern.
Fehlende metrologische Standards: Die bestehenden metrologischen Standards (VIM und GUM) sind hauptsächlich für quantitative Variablen konzipiert und ermangeln eines Rahmenwerks zur Unsicherheitsbewertung nominaler Eigenschaften (nominal properties) von Klassifizierungsmodellausgaben.
Mehrere Unsicherheitsquellen: ML-Klassifizierungsmodelle beinhalten Unsicherheiten aus Trainingsdaten, Klassenzuweisung, Modellauswahl, Modellparametern und neuen Eingabedaten.
Etablierung eines standardisierten Unsicherheitsbewertungsrahmenwerks, das ML-Klassifizierungsmodellen die Integration in die metrologische Rückverfolgbarkeitskette ermöglicht
Bereitstellung zuverlässiger Vorhersageunsicherheiten für Hochrisikoanwendungen (wie medizinische Diagnostik)
Erweiterung des bestehenden GUM-Rahmenwerks zur Abdeckung nominaler Eigenschaften
Vorschlag eines metrologischen Unsicherheitsbewertungsrahmenwerks für nominale Eigenschaften: Basierend auf Wahrscheinlichkeitsmassenfunktionen (PMF) und zusammenfassenden Statistiken bietet dies eine systematische Methode zur Unsicherheitsbewertung für ML-Klassifizierungsmodelle.
Etablierung eines Unsicherheitsfortpflanzungsmechanismus: Demonstriert, wie Unsicherheiten nominaler Eigenschaften durch PMF in mehrstufigen Messmodellen fortgepflanzt werden können, mit Unterstützung für analytische und Monte-Carlo-Methoden.
Systematischer Vergleich von Unsicherheitsstatistiken: Bewertet die Eigenschaften und Anwendbarkeit mehrerer Unsicherheitsausdrucksformen wie Wilcox-Variationsquotient (WVR), Informationsentropie und qualitativem Variationsindex (IQV).
Validierung der praktischen Anwendbarkeit des Rahmenwerks: Durch zwei wichtige Anwendungsfälle – Landbedeckungsklassifizierung und Vorhofflimmern-Erkennung – wird die Wirksamkeit des Rahmenwerks bei praktischen Problemen nachgewiesen.
Grundlegung für GUM-Erweiterung: Das Rahmenwerk ermöglicht eine Erweiterung des GUM auf die Unsicherheitsbewertung nominaler Eigenschaften und vervollständigt das metrologische Normenwerk.
PMF ist die vollständige Ausdrucksform der Unsicherheit nominaler Eigenschaften: Analog zur PDF kontinuierlicher Variablen bietet die PMF vollständige Informationen zur Unsicherheit kategorischer Vorhersagen.
Mehrere Statistiken haben jeweils Vorteile: Informationsentropie ist am empfindlichsten, könnte aber überempfindlich sein; auf Modalwahrscheinlichkeit basierende Statistiken wie WVR sind intuitiver; die Auswahl sollte auf spezifischen Anwendungsanforderungen basieren.
Das Rahmenwerk ist praktisch anwendbar: Zwei Fallstudien demonstrieren die Anwendbarkeit des Rahmenwerks in verschiedenen Bereichen und Modelltypen.
Unterstützt Unsicherheitsfortpflanzung: Durch PMF kann Unsicherheitsfortpflanzung nominaler Eigenschaften in mehrstufigen Modellen realisiert werden.
i.i.d.-Annahme: Das Rahmenwerk setzt unabhängige und identisch verteilte Trainings- und Testdaten voraus; Verteilungsverschiebungen beeinflussen die Zuverlässigkeit
Rechenkomplexität: Einige Methoden (wie vollständige Bayessche Inferenz) haben hohe Rechenkosten
Modellauswahlsunsicherheit: Die meisten Methoden berücksichtigen die Unsicherheit der Modellarchitekturauswahl nicht ausreichend
Eingabeunsicherheitsmodellierung: Die explizite Modellierung von Eingabeunsicherheit in Deep-Learning-Methoden bleibt schwierig
Füllt wichtige Lücke: Erstmals wird systematisch ein metrologisches Unsicherheitsbewertungsrahmenwerk für ML-Klassifizierungsmodelle etabliert, das eine wichtige Lücke in den GUM/VIM-Standards füllt.
Theoretische Strenge: Basierend auf wahrscheinlichkeitstheoretischen Grundlagen wird ein vollständiges theoretisches System von PMF zu zusammenfassenden Statistiken etabliert, das mit bestehenden metrologischen Standards konsistent ist.
Starke Praktikabilität: Zwei Fallstudien umfassen verschiedene Anwendungsbereiche, Datentypen und Modellarchitekturen und demonstrieren die breite Anwendbarkeit des Rahmenwerks.
Systematischer Vergleich: Eine umfassende Vergleichsanalyse von sieben Unsicherheitsstatistiken bietet Auswahlrichtlinien für praktische Anwendungen.
Zukunftsorientierung: Bietet wichtige Unterstützung für die vertrauenswürdige Bereitstellung von ML-Technologie in Hochrisikoanwendungen.
Begrenzte Unsicherheitsquellen: Obwohl fünf Unsicherheitsquellen identifiziert werden, werden nicht alle in praktischen Fällen modelliert, besonders die Modellauswahlsunsicherheit.
Annahmen: Die i.i.d.-Annahme wird in praktischen Anwendungen häufig verletzt, aber das Papier behandelt dies nicht ausreichend tiefgreifend.
Das Papier zitiert 86 Referenzen, die metrologische Standards, Theorien des maschinellen Lernens, Unsicherheitsquantifizierungsmethoden und spezifische Anwendungsbereiche abdecken und eine solide theoretische Grundlage und breiten Anwendungshintergrund für diese Forschung bieten. Wichtige Referenzen umfassen GUM-Dokumentenserien, VIM-Vokabular, Bayessche Methoden des maschinellen Lernens und Unsicherheitsquantifizierungstechniken.