2025-11-13T08:49:10.859507

A metrological framework for uncertainty evaluation in machine learning classification models

Bilson, Cox, Pustogvar et al.

Machine learning (ML) classification models are increasingly being used in a wide range of applications where it is important that predictions are accompanied by uncertainties, including in climate and earth observation, medical diagnosis and bioaerosol monitoring. The output of an ML classification model is a type of categorical variable known as a nominal property in the International Vocabulary of Metrology (VIM). However, concepts related to uncertainty evaluation for nominal properties are not defined in the VIM, nor is such evaluation addressed by the Guide to the Expression of Uncertainty in Measurement (GUM). In this paper we propose a metrological conceptual uncertainty evaluation framework for nominal properties. This framework is based on probability mass functions and summary statistics thereof, and it is applicable to ML classification. We also illustrate its use in the context of two applications that exemplify the issues and have significant societal impact, namely, climate and earth observation and medical diagnosis. Our framework would enable an extension of the GUM to uncertainty for nominal properties, which would make both applicable to ML classification models.

academic

Un quadro metrologico per la valutazione dell'incertezza nei modelli di classificazione dell'apprendimento automatico

Informazioni di base

ID articolo: 2504.03359
Titolo: A metrological framework for uncertainty evaluation in machine learning classification models
Autori: Samuel Bilson, Maurice Cox, Anna Pustogvar, Andrew Thompson (National Physical Laboratory, UK)
Classificazione: cs.LG (Machine Learning)
Data di pubblicazione: 15 ottobre 2025 (arXiv v3)
Link articolo: https://arxiv.org/abs/2504.03359

Riassunto

I modelli di classificazione dell'apprendimento automatico vengono sempre più utilizzati in importanti campi applicativi come l'osservazione climatica, la diagnostica medica e il monitoraggio dei bioaerosol, applicazioni che richiedono che i risultati delle previsioni siano accompagnati da valutazioni dell'incertezza. L'output dei modelli di classificazione ML è una variabile categorica, denominata attributo nominale nel Vocabolario Internazionale di Metrologia (VIM). Tuttavia, né il VIM né la Guida all'espressione dell'incertezza di misura (GUM) definiscono il concetto di valutazione dell'incertezza per gli attributi nominali. Questo articolo propone un quadro metrologico per la valutazione dell'incertezza degli attributi nominali basato su funzioni di massa di probabilità e relative statistiche di sintesi, applicabile alla classificazione ML. L'uso del quadro è illustrato attraverso due casi di studio applicativi con significativo impatto sociale: l'osservazione climatica e la diagnostica medica. Il quadro consentirà al GUM di estendersi alla valutazione dell'incertezza degli attributi nominali, rendendo entrambi applicabili ai modelli di classificazione ML.

Contesto di ricerca e motivazione

Contesto del problema

Crescente domanda applicativa: I modelli di classificazione ML trovano applicazione sempre più diffusa in settori critici come l'osservazione climatica, la diagnostica medica e il monitoraggio dei bioaerosol, applicazioni che richiedono che i risultati delle previsioni siano accompagnati da valutazioni affidabili dell'incertezza.
Assenza di standard metrologici: Gli standard metrologici esistenti (VIM e GUM) sono stati principalmente progettati per variabili quantitative e mancano di un quadro per la valutazione dell'incertezza degli attributi nominali (nominal properties) che costituiscono l'output dei modelli di classificazione.
Incertezze da molteplici fonti: I modelli di classificazione ML coinvolgono incertezze provenienti da molteplici fonti: incertezza nei dati di addestramento, incertezza nell'assegnazione delle classi, incertezza nella selezione del modello, incertezza nei parametri del modello e incertezza nei nuovi dati di input.

Motivazione della ricerca

Stabilire un quadro standardizzato per la valutazione dell'incertezza che consenta ai modelli di classificazione ML di integrarsi nella catena di tracciabilità metrologica
Fornire valutazioni affidabili dell'incertezza delle previsioni per applicazioni ad alto rischio (come la diagnostica medica)
Estendere il quadro GUM esistente per includere gli attributi nominali

Limitazioni dei metodi esistenti

Il GUM è principalmente applicabile a variabili quantitative continue e non può essere direttamente applicato agli output di classificazione
I metodi di valutazione della conformità esistenti sono applicabili solo alla classificazione binaria basata su regole, non ai modelli ML che richiedono addestramento
Manca un metodo standardizzato per la propagazione dell'incertezza degli attributi nominali

Contributi principali

Propone un quadro metrologico per la valutazione dell'incertezza degli attributi nominali: Basato su funzioni di massa di probabilità (PMF) e statistiche di sintesi, fornisce un metodo sistematico per la valutazione dell'incertezza nei modelli di classificazione ML.
Stabilisce un meccanismo di propagazione dell'incertezza: Dimostra come propagare l'incertezza degli attributi nominali attraverso PMF in modelli di misurazione multistadio, supportando sia metodi analitici che Monte Carlo.
Confronta sistematicamente le statistiche di incertezza: Valuta le caratteristiche e l'applicabilità di molteplici modalità di espressione dell'incertezza, incluso il rapporto di variazione di Wilcox (WVR), l'entropia dell'informazione e l'indice di variazione qualitativa (IQV).
Verifica l'utilità pratica del quadro: Attraverso due importanti casi di studio applicativi (classificazione della copertura del suolo e rilevamento della fibrillazione atriale), dimostra l'efficacia del quadro nella risoluzione di problemi reali.
Pone le basi per l'estensione del GUM: Il quadro consente al GUM di estendersi alla valutazione dell'incertezza degli attributi nominali, perfezionando il sistema degli standard metrologici.

Dettagli metodologici

Definizione del compito

Questo articolo affronta il compito di valutazione dell'incertezza nei modelli di classificazione ML:

Input: Insieme di variabili di input X (può includere variabili quantitative e categoriche)
Output: Variabile categorica Y ∈ CK = {c1, ..., cK}, dove K è il numero di classi
Obiettivo: Valutare l'incertezza della previsione di classificazione y = f(x)

Quadro teorico

1. Funzione di massa di probabilità (PMF)

Per le variabili nominali, l'informazione completa sull'incertezza è espressa dalla PMF:

p : CK → [0,1]
ck ↦ pk := p(ck)

soddisfacendo la condizione di normalizzazione: ∑pk = 1

2. Statistiche di incertezza

L'articolo valuta sistematicamente sette statistiche di incertezza:

Rapporto di variazione di Wilcox (WVR):

uWVR(p) = 1 - (Kp̂-1)/(K-1)

Entropia dell'informazione:

H(p) = -∑pk logK pk

Indice di variazione qualitativa (IQV):

uIQV(p) = K/(K-1)(1-∑pk²)

dove p̂ è la probabilità modale (probabilità della classe più alta).

3. Propagazione dell'incertezza

Per un modello di misurazione con input nominali z = g(x,y), il valore atteso e la varianza dell'output possono essere espressi come:

E[z] = ∑pk μk
Var[z] = ∑pk(σk² + μk²) - (∑pkμk)²

Identificazione delle fonti di incertezza

L'articolo identifica cinque principali fonti di incertezza nella classificazione ML:

Incertezza nei dati di addestramento: Incertezza di misurazione intrinseca nei dati di addestramento
Incertezza nell'assegnazione delle classi: Ambiguità di classificazione intrinseca al compito
Incertezza nella selezione del modello: Incertezza nella scelta del tipo di modello
Incertezza nei parametri del modello: Incertezza nella stima e nell'ottimizzazione dei parametri
Incertezza nei nuovi dati di input: Incertezza di misurazione nei dati di input durante la fase di previsione

Configurazione sperimentale

Caso di studio 1: Classificazione della copertura del suolo

Dataset:

Dati di immagini satellitari Sentinel-2
Regione di 20 km × 20 km in Scozia
189.142 pixel, contenenti quattro classi: foresta, terreni agricoli, pascoli, aree residenziali
Dati del 2020 e 2021

Metodo: Analisi discriminante quadratica bayesiana (BQDA)

Approccio di modellazione generativa
Modellazione esplicita di molteplici fonti di incertezza
Assunzione di distribuzione gaussiana multivariata

Metriche di valutazione:

Perdita di classificazione (tasso di errata classificazione)
Perdita di entropia incrociata attesa (EXE)
Punteggio di Brier atteso (EBS)

Caso di studio 2: Rilevamento della fibrillazione atriale

Dataset:

Dataset DeepBeat PPG
134 pazienti, oltre 100.000 segmenti di segnale
Durata di 25 secondi, frequenza di campionamento di 32 Hz
Compito di classificazione binaria (FA/non-FA)

Metodo: Rete neurale convoluzionale + Monte Carlo Dropout

Approccio di modellazione discriminativa
Variante dell'architettura xresnet1d50
Cattura dell'incertezza aleatoria e epistemica

Risultati sperimentali

Risultati della classificazione della copertura del suolo

Prestazioni di classificazione:

Test 2020: perdita=0,012, EXE=0,079, EBS=0,031
Test 2021: perdita=0,057, EXE=0,567, EBS=0,151
Significativo calo delle prestazioni tra anni, riflettendo l'impatto dello shift di distribuzione

Prestazioni delle statistiche di incertezza (2020):

Differenze enormi tra mediana e media (differenze di ordini di grandezza), indicando una distribuzione altamente asimmetrica
L'entropia dell'informazione H è la più sensibile alle piccole variazioni di valore
UVR è la meno sensibile alle piccole variazioni di valore
WVR, SDM, CNV mostrano prestazioni equivalenti nelle previsioni ad alta confidenza

Risultati del rilevamento della fibrillazione atriale

Prestazioni di classificazione:

Perdita di classificazione: 0,209
EXE: 0,874
EBS: 0,622

Statistiche di incertezza:

Poiché le prestazioni di classificazione sono inferiori al compito di classificazione della copertura del suolo, i valori delle statistiche di incertezza sono generalmente più elevati
Nella classificazione binaria, WVR, SDM, CNV sono completamente equivalenti
L'entropia dell'informazione rimane la statistica più sensibile

Scoperte chiave

Ordinamento della sensibilità delle statistiche: Entropia dell'informazione > IQV > WVR/SDM/CNV > UVR
Equivalenza nella classificazione binaria: WVR, SDM, CNV sono matematicamente equivalenti nella classificazione binaria
Approssimazione ad alta confidenza: Per previsioni multiclasse ad alta confidenza, molteplici statistiche sono approssimativamente equivalenti
Relazione prestazioni-incertezza: Peggiori sono le prestazioni di classificazione, più elevati sono i valori delle statistiche di incertezza

Lavori correlati

Standard metrologici

Suite GUM: Principalmente orientata alla valutazione dell'incertezza per variabili quantitative
VIM: Definisce il concetto di attributo nominale ma manca di metodi di valutazione dell'incertezza
Valutazione della conformità: Applicabile solo alla classificazione binaria basata su regole

Valutazione dell'incertezza in ML

Metodi bayesiani: Come reti neurali bayesiane, inferenza variazionale
Metodi ensemble: Come Monte Carlo Dropout, deep ensemble
Calibrazione probabilistica: Miglioramento dell'affidabilità delle probabilità predittive

Standard di settori correlati

Scienza di laboratorio clinico: Vocabolario IFCC-IUPAC per attributi nominali
Analisi chimica qualitativa: Linee guida EURACHEM/CITAC
Materiali di riferimento: Standard ISO 33406:2024

Conclusioni e discussione

Conclusioni principali

PMF è l'espressione completa dell'incertezza degli attributi nominali: Per analogia con la PDF per variabili continue, PMF fornisce informazioni complete sull'incertezza delle previsioni di classificazione.
Molteplici statistiche hanno vantaggi specifici: L'entropia dell'informazione è la più sensibile ma potrebbe essere eccessivamente sensibile; le statistiche basate sulla probabilità modale come WVR sono più intuitive; la scelta dovrebbe basarsi sulle esigenze specifiche dell'applicazione.
Il quadro ha utilità pratica: I due casi di studio dimostrano l'applicabilità del quadro in diversi settori e tipi di modelli.
Supporta la propagazione dell'incertezza: Attraverso PMF è possibile realizzare la propagazione dell'incertezza degli attributi nominali in modelli multistadio.

Limitazioni

Assunzione i.i.d.: Il quadro assume che i dati di addestramento e test siano indipendenti e identicamente distribuiti; lo shift di distribuzione influisce sull'affidabilità
Complessità computazionale: Alcuni metodi (come l'inferenza bayesiana completa) hanno costi computazionali elevati
Incertezza nella selezione del modello: La maggior parte dei metodi non considera sufficientemente l'incertezza nella scelta dell'architettura del modello
Modellazione dell'incertezza di input: La modellazione esplicita dell'incertezza di input nei metodi di deep learning rimane difficile

Direzioni future

Estensione del GUM: Incorporare formalmente la valutazione dell'incertezza degli attributi nominali nel quadro GUM
Standardizzazione: Sviluppare standard internazionali per la valutazione dell'incertezza nei modelli di classificazione ML
Miglioramento dei metodi: Sviluppare metodi più efficienti per la quantificazione dell'incertezza
Estensione applicativa: Verificare l'efficacia del quadro in più settori applicativi critici

Valutazione approfondita

Punti di forza

Colma un vuoto importante: Per la prima volta, stabilisce sistematicamente un quadro metrologico per la valutazione dell'incertezza nei modelli di classificazione ML, colmando un importante vuoto negli standard GUM/VIM.
Rigore teorico: Basato su fondamenti probabilistici, stabilisce un sistema teorico completo dalla PMF alle statistiche di sintesi, mantenendo coerenza con gli standard metrologici esistenti.
Forte praticità: I due casi di studio coprono diversi settori applicativi, tipi di dati e architetture di modelli, dimostrando l'ampia applicabilità del quadro.
Confronto sistematico: Fornisce un confronto completo di sette statistiche di incertezza, offrendo indicazioni per la scelta nelle applicazioni pratiche.
Prospettiva futura: Fornisce un supporto importante per il dispiegamento affidabile della tecnologia ML in applicazioni ad alto rischio.

Insufficienze

Fonti di incertezza limitate: Sebbene identifica cinque fonti di incertezza, non tutte sono modellate nei casi pratici, in particolare l'incertezza nella selezione del modello.
Condizioni di assunzione: L'assunzione i.i.d. è frequentemente violata nelle applicazioni pratiche, ma la discussione su questo aspetto è insufficiente.
Efficienza computazionale: La complessità computazionale di alcuni metodi (come l'inferenza bayesiana completa) limita l'applicazione pratica.
Validazione limitata: Solo due casi di studio; è necessaria la validazione del quadro in più settori e scenari.

Impatto

Definizione di standard: Potrebbe promuovere l'aggiornamento degli standard metrologici internazionali, incorporando la classificazione ML in un quadro formale.
Applicazione industriale: Fornisce garanzie di affidabilità per le applicazioni ML in settori critici come la medicina e il monitoraggio ambientale.
Valore accademico: Connette i due settori della metrologia e dell'apprendimento automatico, promuovendo la collaborazione interdisciplinare.
Riproducibilità: Fornisce un quadro teorico chiaro e dettagli di implementazione, facilitando l'adozione da parte di altri ricercatori.

Scenari applicabili

Applicazioni ad alto rischio: Scenari come la diagnostica medica e il monitoraggio della sicurezza con requisiti estremi di affidabilità
Ambienti normativi: Applicazioni industriali e di ricerca che devono conformarsi agli standard metrologici
Sistemi multistadio: Sistemi complessi in cui i risultati di classificazione devono essere propagati a fasi di elaborazione successive
Assicurazione della qualità: Sistemi di produzione e servizio che richiedono la quantificazione dell'affidabilità delle previsioni

Bibliografia

L'articolo cita 86 riferimenti bibliografici, coprendo standard metrologici, teoria dell'apprendimento automatico, metodi di quantificazione dell'incertezza e settori applicativi specifici, fornendo una base teorica solida e un ampio contesto applicativo per questa ricerca. I riferimenti chiave includono documenti della serie GUM, vocabolario VIM, metodi di apprendimento automatico bayesiano e tecniche di quantificazione dell'incertezza.