2025-11-13T08:49:10.859507

A metrological framework for uncertainty evaluation in machine learning classification models

Bilson, Cox, Pustogvar et al.

Machine learning (ML) classification models are increasingly being used in a wide range of applications where it is important that predictions are accompanied by uncertainties, including in climate and earth observation, medical diagnosis and bioaerosol monitoring. The output of an ML classification model is a type of categorical variable known as a nominal property in the International Vocabulary of Metrology (VIM). However, concepts related to uncertainty evaluation for nominal properties are not defined in the VIM, nor is such evaluation addressed by the Guide to the Expression of Uncertainty in Measurement (GUM). In this paper we propose a metrological conceptual uncertainty evaluation framework for nominal properties. This framework is based on probability mass functions and summary statistics thereof, and it is applicable to ML classification. We also illustrate its use in the context of two applications that exemplify the issues and have significant societal impact, namely, climate and earth observation and medical diagnosis. Our framework would enable an extension of the GUM to uncertainty for nominal properties, which would make both applicable to ML classification models.

academic

Ein metrologisches Rahmenwerk zur Unsicherheitsbewertung in Klassifizierungsmodellen des maschinellen Lernens

Grundinformationen

Papier-ID: 2504.03359
Titel: A metrological framework for uncertainty evaluation in machine learning classification models
Autoren: Samuel Bilson, Maurice Cox, Anna Pustogvar, Andrew Thompson (National Physical Laboratory, UK)
Klassifizierung: cs.LG (Maschinelles Lernen)
Veröffentlichungsdatum: 15. Oktober 2025 (arXiv v3)
Papierlink: https://arxiv.org/abs/2504.03359

Zusammenfassung

Klassifizierungsmodelle des maschinellen Lernens werden zunehmend in kritischen Anwendungsbereichen wie Klimabeobachtung, medizinischer Diagnostik und Bioaerosol-Überwachung eingesetzt, wobei diese Anwendungen eine Unsicherheitsbewertung der Vorhersageergebnisse erfordern. Die Ausgabe von ML-Klassifizierungsmodellen ist eine kategoriale Variable, die im Internationalen Wörterbuch der Metrologie (VIM) als nominale Eigenschaft bezeichnet wird. Jedoch definieren weder das VIM noch der Leitfaden zur Ausdrucksweise von Messunsicherheit (GUM) ein Konzept zur Unsicherheitsbewertung nominaler Eigenschaften. Dieses Papier präsentiert ein auf Wahrscheinlichkeitsmassenfunktionen und deren zusammenfassenden Statistiken basierendes metrologisches Rahmenwerk zur Unsicherheitsbewertung nominaler Eigenschaften, das auf ML-Klassifizierung anwendbar ist. Das Rahmenwerk wird anhand von zwei Anwendungsfällen mit erheblichen gesellschaftlichen Auswirkungen – Klimabeobachtung und medizinische Diagnostik – veranschaulicht. Das Rahmenwerk ermöglicht eine Erweiterung des GUM auf die Unsicherheitsbewertung nominaler Eigenschaften und macht beide auf ML-Klassifizierungsmodelle anwendbar.

Forschungshintergrund und Motivation

Problemhintergrund

Wachsende Anwendungsanforderungen: ML-Klassifizierungsmodelle werden in kritischen Bereichen wie Klimabeobachtung, medizinischer Diagnostik und Bioaerosol-Überwachung zunehmend eingesetzt, wobei diese Anwendungen zuverlässige Unsicherheitsbewertungen der Vorhersageergebnisse erfordern.
Fehlende metrologische Standards: Die bestehenden metrologischen Standards (VIM und GUM) sind hauptsächlich für quantitative Variablen konzipiert und ermangeln eines Rahmenwerks zur Unsicherheitsbewertung nominaler Eigenschaften (nominal properties) von Klassifizierungsmodellausgaben.
Mehrere Unsicherheitsquellen: ML-Klassifizierungsmodelle beinhalten Unsicherheiten aus Trainingsdaten, Klassenzuweisung, Modellauswahl, Modellparametern und neuen Eingabedaten.

Forschungsmotivation

Etablierung eines standardisierten Unsicherheitsbewertungsrahmenwerks, das ML-Klassifizierungsmodellen die Integration in die metrologische Rückverfolgbarkeitskette ermöglicht
Bereitstellung zuverlässiger Vorhersageunsicherheiten für Hochrisikoanwendungen (wie medizinische Diagnostik)
Erweiterung des bestehenden GUM-Rahmenwerks zur Abdeckung nominaler Eigenschaften

Einschränkungen bestehender Methoden

Der GUM ist hauptsächlich auf kontinuierliche quantitative Variablen anwendbar und kann nicht direkt auf Klassifizierungsausgaben angewendet werden
Bestehende Konformitätsbewertungsmethoden gelten nur für regelbasierte binäre Klassifizierung, nicht für trainierbare ML-Modelle
Mangel an standardisierten Methoden zur Unsicherheitsfortpflanzung nominaler Eigenschaften

Kernbeiträge

Vorschlag eines metrologischen Unsicherheitsbewertungsrahmenwerks für nominale Eigenschaften: Basierend auf Wahrscheinlichkeitsmassenfunktionen (PMF) und zusammenfassenden Statistiken bietet dies eine systematische Methode zur Unsicherheitsbewertung für ML-Klassifizierungsmodelle.
Etablierung eines Unsicherheitsfortpflanzungsmechanismus: Demonstriert, wie Unsicherheiten nominaler Eigenschaften durch PMF in mehrstufigen Messmodellen fortgepflanzt werden können, mit Unterstützung für analytische und Monte-Carlo-Methoden.
Systematischer Vergleich von Unsicherheitsstatistiken: Bewertet die Eigenschaften und Anwendbarkeit mehrerer Unsicherheitsausdrucksformen wie Wilcox-Variationsquotient (WVR), Informationsentropie und qualitativem Variationsindex (IQV).
Validierung der praktischen Anwendbarkeit des Rahmenwerks: Durch zwei wichtige Anwendungsfälle – Landbedeckungsklassifizierung und Vorhofflimmern-Erkennung – wird die Wirksamkeit des Rahmenwerks bei praktischen Problemen nachgewiesen.
Grundlegung für GUM-Erweiterung: Das Rahmenwerk ermöglicht eine Erweiterung des GUM auf die Unsicherheitsbewertung nominaler Eigenschaften und vervollständigt das metrologische Normenwerk.

Methodische Details

Aufgabendefinition

Dieses Papier untersucht die Unsicherheitsbewertungsaufgabe für ML-Klassifizierungsmodelle:

Eingabe: Satz von Eingabevariablen X (kann quantitative und kategoriale Variablen enthalten)
Ausgabe: Kategoriale Variable Y ∈ CK = {c1, ..., cK}, wobei K die Anzahl der Klassen ist
Ziel: Bewertung der Unsicherheit der Klassifizierungsvorhersage y = f(x)

Theoretisches Rahmenwerk

1. Wahrscheinlichkeitsmassenfunktion (PMF)

Für nominale Variablen wird die vollständige Unsicherheitsinformation durch die PMF ausgedrückt:

p : CK → [0,1]
ck ↦ pk := p(ck)

erfüllt die Normalisierungsbedingung: ∑pk = 1

2. Unsicherheitsstatistiken

Das Papier bewertet systematisch sieben Unsicherheitsstatistiken:

Wilcox-Variationsquotient (WVR):

uWVR(p) = 1 - (Kp̂-1)/(K-1)

Informationsentropie:

H(p) = -∑pk logK pk

Qualitativer Variationsindex (IQV):

uIQV(p) = K/(K-1)(1-∑pk²)

wobei p̂ die Modalwahrscheinlichkeit (höchste Klassenwahrscheinlichkeit) ist.

3. Unsicherheitsfortpflanzung

Für ein Messmodell mit nominalen Eingaben z = g(x,y) können der Erwartungswert und die Varianz der Ausgabe ausgedrückt werden als:

E[z] = ∑pk μk
Var[z] = ∑pk(σk² + μk²) - (∑pkμk)²

Identifizierung von Unsicherheitsquellen

Das Papier identifiziert fünf Hauptunsicherheitsquellen in der ML-Klassifizierung:

Trainingsdatenunsicherheit: Messunsicherheit der Trainingsdaten selbst
Klassenzuweisungsunsicherheit: Klassifizierungsmehrdeutigkeit, die der Aufgabe innewohnt
Modellauswahlsunsicherheit: Unsicherheit bei der Auswahl des Modelltyps
Modellparametrunsicherheit: Unsicherheit bei Parameterschätzung und Optimierung
Unsicherheit neuer Eingabedaten: Messunsicherheit von Eingabedaten in der Vorhersagephase

Experimentelle Einrichtung

Fallstudie 1: Landbedeckungsklassifizierung

Datensatz:

Sentinel-2-Satellitendaten
Region von 20 km × 20 km in Schottland
189.142 Pixel mit vier Klassen: Wald, Ackerland, Grünland, Wohngebiet
Daten aus 2020 und 2021

Methode: Bayesische quadratische Diskriminanzanalyse (BQDA)

Generatives Modellierungsverfahren
Explizite Modellierung mehrerer Unsicherheitsquellen
Multivariate Gaußsche Verteilungsannahme

Bewertungsmetriken:

Klassifizierungsverlust (Fehlklassifizierungsrate)
Erwarteter Kreuzentropieverlust (EXE)
Erwarteter Brier-Score (EBS)

Fallstudie 2: Vorhofflimmern-Erkennung

Datensatz:

DeepBeat PPG-Datensatz
134 Patienten, über 100.000 Signalsegmente
25 Sekunden Dauer, 32 Hz Abtastrate
Binäre Klassifizierungsaufgabe (AF/Nicht-AF)

Methode: Faltungsneuronales Netz + Monte Carlo Dropout

Diskriminatives Modellierungsverfahren
xresnet1d50-Variantenarchitektur
Erfassung aleatorscher und epistemischer Unsicherheit

Experimentelle Ergebnisse

Ergebnisse der Landbedeckungsklassifizierung

Klassifizierungsleistung:

2020er Test: Verlust=0,012, EXE=0,079, EBS=0,031
2021er Test: Verlust=0,057, EXE=0,567, EBS=0,151
Signifikanter Leistungsabfall über Jahre hinweg, der die Auswirkungen von Verteilungsverschiebungen widerspiegelt

Leistung der Unsicherheitsstatistiken (2020):

Riesige Unterschiede zwischen Median und Mittelwert (Größenordnungsdifferenzen), was auf eine stark linksverzerrte Verteilung hindeutet
Informationsentropie H ist am empfindlichsten gegenüber kleinen Wertänderungen
UVR ist am wenigsten empfindlich gegenüber kleinen Wertänderungen
WVR, SDM, CNV zeigen äquivalente Leistung bei hochzuverlässigen Vorhersagen

Ergebnisse der Vorhofflimmern-Erkennung

Klassifizierungsleistung:

Klassifizierungsverlust: 0,209
EXE: 0,874
EBS: 0,622

Unsicherheitsstatistiken:

Aufgrund der niedrigeren Klassifizierungsleistung im Vergleich zur Landbedeckungsaufgabe sind die Unsicherheitsstatistikwerte durchgehend höher
Bei binärer Klassifizierung sind WVR, SDM, CNV mathematisch äquivalent
Informationsentropie bleibt die empfindlichste Statistik

Wichtigste Erkenntnisse

Empfindlichkeitsreihenfolge der Statistiken: Informationsentropie > IQV > WVR/SDM/CNV > UVR
Äquivalenz bei binärer Klassifizierung: WVR, SDM, CNV sind bei binärer Klassifizierung mathematisch äquivalent
Hochzuverlässigkeitsnäherung: Für hochzuverlässige Mehrklassen-Vorhersagen sind mehrere Statistiken näherungsweise äquivalent
Leistungs-Unsicherheits-Beziehung: Je schlechter die Klassifizierungsleistung, desto höher die Unsicherheitsstatistikwerte

PMF ist die vollständige Ausdrucksform der Unsicherheit nominaler Eigenschaften: Analog zur PDF kontinuierlicher Variablen bietet die PMF vollständige Informationen zur Unsicherheit kategorischer Vorhersagen.
Mehrere Statistiken haben jeweils Vorteile: Informationsentropie ist am empfindlichsten, könnte aber überempfindlich sein; auf Modalwahrscheinlichkeit basierende Statistiken wie WVR sind intuitiver; die Auswahl sollte auf spezifischen Anwendungsanforderungen basieren.
Das Rahmenwerk ist praktisch anwendbar: Zwei Fallstudien demonstrieren die Anwendbarkeit des Rahmenwerks in verschiedenen Bereichen und Modelltypen.
Unterstützt Unsicherheitsfortpflanzung: Durch PMF kann Unsicherheitsfortpflanzung nominaler Eigenschaften in mehrstufigen Modellen realisiert werden.

Einschränkungen

i.i.d.-Annahme: Das Rahmenwerk setzt unabhängige und identisch verteilte Trainings- und Testdaten voraus; Verteilungsverschiebungen beeinflussen die Zuverlässigkeit
Rechenkomplexität: Einige Methoden (wie vollständige Bayessche Inferenz) haben hohe Rechenkosten
Modellauswahlsunsicherheit: Die meisten Methoden berücksichtigen die Unsicherheit der Modellarchitekturauswahl nicht ausreichend
Eingabeunsicherheitsmodellierung: Die explizite Modellierung von Eingabeunsicherheit in Deep-Learning-Methoden bleibt schwierig

Zukünftige Richtungen

GUM-Erweiterung: Formale Aufnahme der Unsicherheitsbewertung nominaler Eigenschaften in das GUM-Rahmenwerk
Standardisierung: Entwicklung internationaler Standards für die Unsicherheitsbewertung von ML-Klassifizierungsmodellen
Methodenverbesserung: Entwicklung effizienterer Unsicherheitsquantifizierungsmethoden
Anwendungserweiterung: Validierung der Rahmenwerkseffektivität in mehr kritischen Anwendungsbereichen

Tiefgreifende Bewertung

Stärken

Füllt wichtige Lücke: Erstmals wird systematisch ein metrologisches Unsicherheitsbewertungsrahmenwerk für ML-Klassifizierungsmodelle etabliert, das eine wichtige Lücke in den GUM/VIM-Standards füllt.
Theoretische Strenge: Basierend auf wahrscheinlichkeitstheoretischen Grundlagen wird ein vollständiges theoretisches System von PMF zu zusammenfassenden Statistiken etabliert, das mit bestehenden metrologischen Standards konsistent ist.
Starke Praktikabilität: Zwei Fallstudien umfassen verschiedene Anwendungsbereiche, Datentypen und Modellarchitekturen und demonstrieren die breite Anwendbarkeit des Rahmenwerks.
Systematischer Vergleich: Eine umfassende Vergleichsanalyse von sieben Unsicherheitsstatistiken bietet Auswahlrichtlinien für praktische Anwendungen.
Zukunftsorientierung: Bietet wichtige Unterstützung für die vertrauenswürdige Bereitstellung von ML-Technologie in Hochrisikoanwendungen.

Mängel

Begrenzte Unsicherheitsquellen: Obwohl fünf Unsicherheitsquellen identifiziert werden, werden nicht alle in praktischen Fällen modelliert, besonders die Modellauswahlsunsicherheit.
Annahmen: Die i.i.d.-Annahme wird in praktischen Anwendungen häufig verletzt, aber das Papier behandelt dies nicht ausreichend tiefgreifend.
Recheneffizienz: Die Rechenkomplexität einiger Methoden (wie vollständige Bayessche Inferenz) begrenzt praktische Anwendungen.
Begrenzte Validierung: Mit nur zwei Fallstudien ist eine Validierung der Rahmenwerkseffektivität in mehr Bereichen und Szenarien erforderlich.

Auswirkungen

Normsetzung: Wahrscheinlich zur Aktualisierung internationaler metrologischer Standards, um ML-Klassifizierung in formale Rahmenwerke einzubeziehen.
Industrielle Anwendung: Bietet Glaubwürdigkeitsgarantien für ML-Anwendungen in kritischen Bereichen wie Medizin und Umweltüberwachung.
Akademischer Wert: Verbindet die Felder Metrologie und maschinelles Lernen und fördert interdisziplinäre Zusammenarbeit.
Reproduzierbarkeit: Bietet klare theoretische Rahmenwerke und Implementierungsdetails, die von anderen Forschern leicht übernommen werden können.

Anwendungsszenarien

Hochrisikoanwendungen: Medizinische Diagnostik, Sicherheitsüberwachung und andere Szenarien mit extremen Glaubwürdigkeitsanforderungen
Regulatorische Umgebungen: Industrie- und Forschungsanwendungen, die metrologische Standards erfüllen müssen
Mehrstufige Systeme: Komplexe Systeme, in denen Klassifizierungsergebnisse an nachfolgende Verarbeitungsschritte weitergeleitet werden
Qualitätssicherung: Produktions- und Dienstleistungssysteme, die Vorhersagezuverlässigkeit quantifizieren müssen

Literaturverzeichnis

Das Papier zitiert 86 Referenzen, die metrologische Standards, Theorien des maschinellen Lernens, Unsicherheitsquantifizierungsmethoden und spezifische Anwendungsbereiche abdecken und eine solide theoretische Grundlage und breiten Anwendungshintergrund für diese Forschung bieten. Wichtige Referenzen umfassen GUM-Dokumentenserien, VIM-Vokabular, Bayessche Methoden des maschinellen Lernens und Unsicherheitsquantifizierungstechniken.