2025-11-13T08:49:10.859507

A metrological framework for uncertainty evaluation in machine learning classification models

Bilson, Cox, Pustogvar et al.
Machine learning (ML) classification models are increasingly being used in a wide range of applications where it is important that predictions are accompanied by uncertainties, including in climate and earth observation, medical diagnosis and bioaerosol monitoring. The output of an ML classification model is a type of categorical variable known as a nominal property in the International Vocabulary of Metrology (VIM). However, concepts related to uncertainty evaluation for nominal properties are not defined in the VIM, nor is such evaluation addressed by the Guide to the Expression of Uncertainty in Measurement (GUM). In this paper we propose a metrological conceptual uncertainty evaluation framework for nominal properties. This framework is based on probability mass functions and summary statistics thereof, and it is applicable to ML classification. We also illustrate its use in the context of two applications that exemplify the issues and have significant societal impact, namely, climate and earth observation and medical diagnosis. Our framework would enable an extension of the GUM to uncertainty for nominal properties, which would make both applicable to ML classification models.
academic

Ein metrologisches Rahmenwerk zur Unsicherheitsbewertung in Klassifizierungsmodellen des maschinellen Lernens

Grundinformationen

  • Papier-ID: 2504.03359
  • Titel: A metrological framework for uncertainty evaluation in machine learning classification models
  • Autoren: Samuel Bilson, Maurice Cox, Anna Pustogvar, Andrew Thompson (National Physical Laboratory, UK)
  • Klassifizierung: cs.LG (Maschinelles Lernen)
  • Veröffentlichungsdatum: 15. Oktober 2025 (arXiv v3)
  • Papierlink: https://arxiv.org/abs/2504.03359

Zusammenfassung

Klassifizierungsmodelle des maschinellen Lernens werden zunehmend in kritischen Anwendungsbereichen wie Klimabeobachtung, medizinischer Diagnostik und Bioaerosol-Überwachung eingesetzt, wobei diese Anwendungen eine Unsicherheitsbewertung der Vorhersageergebnisse erfordern. Die Ausgabe von ML-Klassifizierungsmodellen ist eine kategoriale Variable, die im Internationalen Wörterbuch der Metrologie (VIM) als nominale Eigenschaft bezeichnet wird. Jedoch definieren weder das VIM noch der Leitfaden zur Ausdrucksweise von Messunsicherheit (GUM) ein Konzept zur Unsicherheitsbewertung nominaler Eigenschaften. Dieses Papier präsentiert ein auf Wahrscheinlichkeitsmassenfunktionen und deren zusammenfassenden Statistiken basierendes metrologisches Rahmenwerk zur Unsicherheitsbewertung nominaler Eigenschaften, das auf ML-Klassifizierung anwendbar ist. Das Rahmenwerk wird anhand von zwei Anwendungsfällen mit erheblichen gesellschaftlichen Auswirkungen – Klimabeobachtung und medizinische Diagnostik – veranschaulicht. Das Rahmenwerk ermöglicht eine Erweiterung des GUM auf die Unsicherheitsbewertung nominaler Eigenschaften und macht beide auf ML-Klassifizierungsmodelle anwendbar.

Forschungshintergrund und Motivation

Problemhintergrund

  1. Wachsende Anwendungsanforderungen: ML-Klassifizierungsmodelle werden in kritischen Bereichen wie Klimabeobachtung, medizinischer Diagnostik und Bioaerosol-Überwachung zunehmend eingesetzt, wobei diese Anwendungen zuverlässige Unsicherheitsbewertungen der Vorhersageergebnisse erfordern.
  2. Fehlende metrologische Standards: Die bestehenden metrologischen Standards (VIM und GUM) sind hauptsächlich für quantitative Variablen konzipiert und ermangeln eines Rahmenwerks zur Unsicherheitsbewertung nominaler Eigenschaften (nominal properties) von Klassifizierungsmodellausgaben.
  3. Mehrere Unsicherheitsquellen: ML-Klassifizierungsmodelle beinhalten Unsicherheiten aus Trainingsdaten, Klassenzuweisung, Modellauswahl, Modellparametern und neuen Eingabedaten.

Forschungsmotivation

  • Etablierung eines standardisierten Unsicherheitsbewertungsrahmenwerks, das ML-Klassifizierungsmodellen die Integration in die metrologische Rückverfolgbarkeitskette ermöglicht
  • Bereitstellung zuverlässiger Vorhersageunsicherheiten für Hochrisikoanwendungen (wie medizinische Diagnostik)
  • Erweiterung des bestehenden GUM-Rahmenwerks zur Abdeckung nominaler Eigenschaften

Einschränkungen bestehender Methoden

  • Der GUM ist hauptsächlich auf kontinuierliche quantitative Variablen anwendbar und kann nicht direkt auf Klassifizierungsausgaben angewendet werden
  • Bestehende Konformitätsbewertungsmethoden gelten nur für regelbasierte binäre Klassifizierung, nicht für trainierbare ML-Modelle
  • Mangel an standardisierten Methoden zur Unsicherheitsfortpflanzung nominaler Eigenschaften

Kernbeiträge

  1. Vorschlag eines metrologischen Unsicherheitsbewertungsrahmenwerks für nominale Eigenschaften: Basierend auf Wahrscheinlichkeitsmassenfunktionen (PMF) und zusammenfassenden Statistiken bietet dies eine systematische Methode zur Unsicherheitsbewertung für ML-Klassifizierungsmodelle.
  2. Etablierung eines Unsicherheitsfortpflanzungsmechanismus: Demonstriert, wie Unsicherheiten nominaler Eigenschaften durch PMF in mehrstufigen Messmodellen fortgepflanzt werden können, mit Unterstützung für analytische und Monte-Carlo-Methoden.
  3. Systematischer Vergleich von Unsicherheitsstatistiken: Bewertet die Eigenschaften und Anwendbarkeit mehrerer Unsicherheitsausdrucksformen wie Wilcox-Variationsquotient (WVR), Informationsentropie und qualitativem Variationsindex (IQV).
  4. Validierung der praktischen Anwendbarkeit des Rahmenwerks: Durch zwei wichtige Anwendungsfälle – Landbedeckungsklassifizierung und Vorhofflimmern-Erkennung – wird die Wirksamkeit des Rahmenwerks bei praktischen Problemen nachgewiesen.
  5. Grundlegung für GUM-Erweiterung: Das Rahmenwerk ermöglicht eine Erweiterung des GUM auf die Unsicherheitsbewertung nominaler Eigenschaften und vervollständigt das metrologische Normenwerk.

Methodische Details

Aufgabendefinition

Dieses Papier untersucht die Unsicherheitsbewertungsaufgabe für ML-Klassifizierungsmodelle:

  • Eingabe: Satz von Eingabevariablen X (kann quantitative und kategoriale Variablen enthalten)
  • Ausgabe: Kategoriale Variable Y ∈ CK = {c1, ..., cK}, wobei K die Anzahl der Klassen ist
  • Ziel: Bewertung der Unsicherheit der Klassifizierungsvorhersage y = f(x)

Theoretisches Rahmenwerk

1. Wahrscheinlichkeitsmassenfunktion (PMF)

Für nominale Variablen wird die vollständige Unsicherheitsinformation durch die PMF ausgedrückt:

p : CK → [0,1]
ck ↦ pk := p(ck)

erfüllt die Normalisierungsbedingung: ∑pk = 1

2. Unsicherheitsstatistiken

Das Papier bewertet systematisch sieben Unsicherheitsstatistiken:

Wilcox-Variationsquotient (WVR):

uWVR(p) = 1 - (Kp̂-1)/(K-1)

Informationsentropie:

H(p) = -∑pk logK pk

Qualitativer Variationsindex (IQV):

uIQV(p) = K/(K-1)(1-∑pk²)

wobei p̂ die Modalwahrscheinlichkeit (höchste Klassenwahrscheinlichkeit) ist.

3. Unsicherheitsfortpflanzung

Für ein Messmodell mit nominalen Eingaben z = g(x,y) können der Erwartungswert und die Varianz der Ausgabe ausgedrückt werden als:

E[z] = ∑pk μk
Var[z] = ∑pk(σk² + μk²) - (∑pkμk)²

Identifizierung von Unsicherheitsquellen

Das Papier identifiziert fünf Hauptunsicherheitsquellen in der ML-Klassifizierung:

  1. Trainingsdatenunsicherheit: Messunsicherheit der Trainingsdaten selbst
  2. Klassenzuweisungsunsicherheit: Klassifizierungsmehrdeutigkeit, die der Aufgabe innewohnt
  3. Modellauswahlsunsicherheit: Unsicherheit bei der Auswahl des Modelltyps
  4. Modellparametrunsicherheit: Unsicherheit bei Parameterschätzung und Optimierung
  5. Unsicherheit neuer Eingabedaten: Messunsicherheit von Eingabedaten in der Vorhersagephase

Experimentelle Einrichtung

Fallstudie 1: Landbedeckungsklassifizierung

Datensatz:

  • Sentinel-2-Satellitendaten
  • Region von 20 km × 20 km in Schottland
  • 189.142 Pixel mit vier Klassen: Wald, Ackerland, Grünland, Wohngebiet
  • Daten aus 2020 und 2021

Methode: Bayesische quadratische Diskriminanzanalyse (BQDA)

  • Generatives Modellierungsverfahren
  • Explizite Modellierung mehrerer Unsicherheitsquellen
  • Multivariate Gaußsche Verteilungsannahme

Bewertungsmetriken:

  • Klassifizierungsverlust (Fehlklassifizierungsrate)
  • Erwarteter Kreuzentropieverlust (EXE)
  • Erwarteter Brier-Score (EBS)

Fallstudie 2: Vorhofflimmern-Erkennung

Datensatz:

  • DeepBeat PPG-Datensatz
  • 134 Patienten, über 100.000 Signalsegmente
  • 25 Sekunden Dauer, 32 Hz Abtastrate
  • Binäre Klassifizierungsaufgabe (AF/Nicht-AF)

Methode: Faltungsneuronales Netz + Monte Carlo Dropout

  • Diskriminatives Modellierungsverfahren
  • xresnet1d50-Variantenarchitektur
  • Erfassung aleatorscher und epistemischer Unsicherheit

Experimentelle Ergebnisse

Ergebnisse der Landbedeckungsklassifizierung

Klassifizierungsleistung:

  • 2020er Test: Verlust=0,012, EXE=0,079, EBS=0,031
  • 2021er Test: Verlust=0,057, EXE=0,567, EBS=0,151
  • Signifikanter Leistungsabfall über Jahre hinweg, der die Auswirkungen von Verteilungsverschiebungen widerspiegelt

Leistung der Unsicherheitsstatistiken (2020):

  • Riesige Unterschiede zwischen Median und Mittelwert (Größenordnungsdifferenzen), was auf eine stark linksverzerrte Verteilung hindeutet
  • Informationsentropie H ist am empfindlichsten gegenüber kleinen Wertänderungen
  • UVR ist am wenigsten empfindlich gegenüber kleinen Wertänderungen
  • WVR, SDM, CNV zeigen äquivalente Leistung bei hochzuverlässigen Vorhersagen

Ergebnisse der Vorhofflimmern-Erkennung

Klassifizierungsleistung:

  • Klassifizierungsverlust: 0,209
  • EXE: 0,874
  • EBS: 0,622

Unsicherheitsstatistiken:

  • Aufgrund der niedrigeren Klassifizierungsleistung im Vergleich zur Landbedeckungsaufgabe sind die Unsicherheitsstatistikwerte durchgehend höher
  • Bei binärer Klassifizierung sind WVR, SDM, CNV mathematisch äquivalent
  • Informationsentropie bleibt die empfindlichste Statistik

Wichtigste Erkenntnisse

  1. Empfindlichkeitsreihenfolge der Statistiken: Informationsentropie > IQV > WVR/SDM/CNV > UVR
  2. Äquivalenz bei binärer Klassifizierung: WVR, SDM, CNV sind bei binärer Klassifizierung mathematisch äquivalent
  3. Hochzuverlässigkeitsnäherung: Für hochzuverlässige Mehrklassen-Vorhersagen sind mehrere Statistiken näherungsweise äquivalent
  4. Leistungs-Unsicherheits-Beziehung: Je schlechter die Klassifizierungsleistung, desto höher die Unsicherheitsstatistikwerte

Verwandte Arbeiten

Metrologische Standards

  • GUM-Suite: Hauptsächlich auf Unsicherheitsbewertung quantitativer Variablen ausgerichtet
  • VIM: Definiert das Konzept nominaler Eigenschaften, ermangelt aber Unsicherheitsbewertungsmethoden
  • Konformitätsbewertung: Gilt nur für regelbasierte binäre Klassifizierung

ML-Unsicherheitsbewertung

  • Bayessche Methoden: Wie Bayessche neuronale Netze, Variationsinferenz
  • Ensemble-Methoden: Wie Monte Carlo Dropout, tiefe Ensembles
  • Probabilistische Kalibrierung: Verbesserung der Glaubwürdigkeit von Vorhersagewahrscheinlichkeiten

Verwandte Feldstandards

  • Klinische Laborwissenschaft: IFCC-IUPAC-Vokabular nominaler Eigenschaften
  • Qualitative chemische Analyse: EURACHEM/CITAC-Leitfaden
  • Referenzmaterialien: ISO 33406:2024-Standard

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. PMF ist die vollständige Ausdrucksform der Unsicherheit nominaler Eigenschaften: Analog zur PDF kontinuierlicher Variablen bietet die PMF vollständige Informationen zur Unsicherheit kategorischer Vorhersagen.
  2. Mehrere Statistiken haben jeweils Vorteile: Informationsentropie ist am empfindlichsten, könnte aber überempfindlich sein; auf Modalwahrscheinlichkeit basierende Statistiken wie WVR sind intuitiver; die Auswahl sollte auf spezifischen Anwendungsanforderungen basieren.
  3. Das Rahmenwerk ist praktisch anwendbar: Zwei Fallstudien demonstrieren die Anwendbarkeit des Rahmenwerks in verschiedenen Bereichen und Modelltypen.
  4. Unterstützt Unsicherheitsfortpflanzung: Durch PMF kann Unsicherheitsfortpflanzung nominaler Eigenschaften in mehrstufigen Modellen realisiert werden.

Einschränkungen

  1. i.i.d.-Annahme: Das Rahmenwerk setzt unabhängige und identisch verteilte Trainings- und Testdaten voraus; Verteilungsverschiebungen beeinflussen die Zuverlässigkeit
  2. Rechenkomplexität: Einige Methoden (wie vollständige Bayessche Inferenz) haben hohe Rechenkosten
  3. Modellauswahlsunsicherheit: Die meisten Methoden berücksichtigen die Unsicherheit der Modellarchitekturauswahl nicht ausreichend
  4. Eingabeunsicherheitsmodellierung: Die explizite Modellierung von Eingabeunsicherheit in Deep-Learning-Methoden bleibt schwierig

Zukünftige Richtungen

  1. GUM-Erweiterung: Formale Aufnahme der Unsicherheitsbewertung nominaler Eigenschaften in das GUM-Rahmenwerk
  2. Standardisierung: Entwicklung internationaler Standards für die Unsicherheitsbewertung von ML-Klassifizierungsmodellen
  3. Methodenverbesserung: Entwicklung effizienterer Unsicherheitsquantifizierungsmethoden
  4. Anwendungserweiterung: Validierung der Rahmenwerkseffektivität in mehr kritischen Anwendungsbereichen

Tiefgreifende Bewertung

Stärken

  1. Füllt wichtige Lücke: Erstmals wird systematisch ein metrologisches Unsicherheitsbewertungsrahmenwerk für ML-Klassifizierungsmodelle etabliert, das eine wichtige Lücke in den GUM/VIM-Standards füllt.
  2. Theoretische Strenge: Basierend auf wahrscheinlichkeitstheoretischen Grundlagen wird ein vollständiges theoretisches System von PMF zu zusammenfassenden Statistiken etabliert, das mit bestehenden metrologischen Standards konsistent ist.
  3. Starke Praktikabilität: Zwei Fallstudien umfassen verschiedene Anwendungsbereiche, Datentypen und Modellarchitekturen und demonstrieren die breite Anwendbarkeit des Rahmenwerks.
  4. Systematischer Vergleich: Eine umfassende Vergleichsanalyse von sieben Unsicherheitsstatistiken bietet Auswahlrichtlinien für praktische Anwendungen.
  5. Zukunftsorientierung: Bietet wichtige Unterstützung für die vertrauenswürdige Bereitstellung von ML-Technologie in Hochrisikoanwendungen.

Mängel

  1. Begrenzte Unsicherheitsquellen: Obwohl fünf Unsicherheitsquellen identifiziert werden, werden nicht alle in praktischen Fällen modelliert, besonders die Modellauswahlsunsicherheit.
  2. Annahmen: Die i.i.d.-Annahme wird in praktischen Anwendungen häufig verletzt, aber das Papier behandelt dies nicht ausreichend tiefgreifend.
  3. Recheneffizienz: Die Rechenkomplexität einiger Methoden (wie vollständige Bayessche Inferenz) begrenzt praktische Anwendungen.
  4. Begrenzte Validierung: Mit nur zwei Fallstudien ist eine Validierung der Rahmenwerkseffektivität in mehr Bereichen und Szenarien erforderlich.

Auswirkungen

  1. Normsetzung: Wahrscheinlich zur Aktualisierung internationaler metrologischer Standards, um ML-Klassifizierung in formale Rahmenwerke einzubeziehen.
  2. Industrielle Anwendung: Bietet Glaubwürdigkeitsgarantien für ML-Anwendungen in kritischen Bereichen wie Medizin und Umweltüberwachung.
  3. Akademischer Wert: Verbindet die Felder Metrologie und maschinelles Lernen und fördert interdisziplinäre Zusammenarbeit.
  4. Reproduzierbarkeit: Bietet klare theoretische Rahmenwerke und Implementierungsdetails, die von anderen Forschern leicht übernommen werden können.

Anwendungsszenarien

  1. Hochrisikoanwendungen: Medizinische Diagnostik, Sicherheitsüberwachung und andere Szenarien mit extremen Glaubwürdigkeitsanforderungen
  2. Regulatorische Umgebungen: Industrie- und Forschungsanwendungen, die metrologische Standards erfüllen müssen
  3. Mehrstufige Systeme: Komplexe Systeme, in denen Klassifizierungsergebnisse an nachfolgende Verarbeitungsschritte weitergeleitet werden
  4. Qualitätssicherung: Produktions- und Dienstleistungssysteme, die Vorhersagezuverlässigkeit quantifizieren müssen

Literaturverzeichnis

Das Papier zitiert 86 Referenzen, die metrologische Standards, Theorien des maschinellen Lernens, Unsicherheitsquantifizierungsmethoden und spezifische Anwendungsbereiche abdecken und eine solide theoretische Grundlage und breiten Anwendungshintergrund für diese Forschung bieten. Wichtige Referenzen umfassen GUM-Dokumentenserien, VIM-Vokabular, Bayessche Methoden des maschinellen Lernens und Unsicherheitsquantifizierungstechniken.