A metrological framework for uncertainty evaluation in machine learning classification models
Bilson, Cox, Pustogvar et al.
Machine learning (ML) classification models are increasingly being used in a wide range of applications where it is important that predictions are accompanied by uncertainties, including in climate and earth observation, medical diagnosis and bioaerosol monitoring. The output of an ML classification model is a type of categorical variable known as a nominal property in the International Vocabulary of Metrology (VIM). However, concepts related to uncertainty evaluation for nominal properties are not defined in the VIM, nor is such evaluation addressed by the Guide to the Expression of Uncertainty in Measurement (GUM). In this paper we propose a metrological conceptual uncertainty evaluation framework for nominal properties. This framework is based on probability mass functions and summary statistics thereof, and it is applicable to ML classification. We also illustrate its use in the context of two applications that exemplify the issues and have significant societal impact, namely, climate and earth observation and medical diagnosis. Our framework would enable an extension of the GUM to uncertainty for nominal properties, which would make both applicable to ML classification models.
academic
Un quadro metrologico per la valutazione dell'incertezza nei modelli di classificazione dell'apprendimento automatico
I modelli di classificazione dell'apprendimento automatico vengono sempre più utilizzati in importanti campi applicativi come l'osservazione climatica, la diagnostica medica e il monitoraggio dei bioaerosol, applicazioni che richiedono che i risultati delle previsioni siano accompagnati da valutazioni dell'incertezza. L'output dei modelli di classificazione ML è una variabile categorica, denominata attributo nominale nel Vocabolario Internazionale di Metrologia (VIM). Tuttavia, né il VIM né la Guida all'espressione dell'incertezza di misura (GUM) definiscono il concetto di valutazione dell'incertezza per gli attributi nominali. Questo articolo propone un quadro metrologico per la valutazione dell'incertezza degli attributi nominali basato su funzioni di massa di probabilità e relative statistiche di sintesi, applicabile alla classificazione ML. L'uso del quadro è illustrato attraverso due casi di studio applicativi con significativo impatto sociale: l'osservazione climatica e la diagnostica medica. Il quadro consentirà al GUM di estendersi alla valutazione dell'incertezza degli attributi nominali, rendendo entrambi applicabili ai modelli di classificazione ML.
Crescente domanda applicativa: I modelli di classificazione ML trovano applicazione sempre più diffusa in settori critici come l'osservazione climatica, la diagnostica medica e il monitoraggio dei bioaerosol, applicazioni che richiedono che i risultati delle previsioni siano accompagnati da valutazioni affidabili dell'incertezza.
Assenza di standard metrologici: Gli standard metrologici esistenti (VIM e GUM) sono stati principalmente progettati per variabili quantitative e mancano di un quadro per la valutazione dell'incertezza degli attributi nominali (nominal properties) che costituiscono l'output dei modelli di classificazione.
Incertezze da molteplici fonti: I modelli di classificazione ML coinvolgono incertezze provenienti da molteplici fonti: incertezza nei dati di addestramento, incertezza nell'assegnazione delle classi, incertezza nella selezione del modello, incertezza nei parametri del modello e incertezza nei nuovi dati di input.
Stabilire un quadro standardizzato per la valutazione dell'incertezza che consenta ai modelli di classificazione ML di integrarsi nella catena di tracciabilità metrologica
Fornire valutazioni affidabili dell'incertezza delle previsioni per applicazioni ad alto rischio (come la diagnostica medica)
Estendere il quadro GUM esistente per includere gli attributi nominali
Il GUM è principalmente applicabile a variabili quantitative continue e non può essere direttamente applicato agli output di classificazione
I metodi di valutazione della conformità esistenti sono applicabili solo alla classificazione binaria basata su regole, non ai modelli ML che richiedono addestramento
Manca un metodo standardizzato per la propagazione dell'incertezza degli attributi nominali
Propone un quadro metrologico per la valutazione dell'incertezza degli attributi nominali: Basato su funzioni di massa di probabilità (PMF) e statistiche di sintesi, fornisce un metodo sistematico per la valutazione dell'incertezza nei modelli di classificazione ML.
Stabilisce un meccanismo di propagazione dell'incertezza: Dimostra come propagare l'incertezza degli attributi nominali attraverso PMF in modelli di misurazione multistadio, supportando sia metodi analitici che Monte Carlo.
Confronta sistematicamente le statistiche di incertezza: Valuta le caratteristiche e l'applicabilità di molteplici modalità di espressione dell'incertezza, incluso il rapporto di variazione di Wilcox (WVR), l'entropia dell'informazione e l'indice di variazione qualitativa (IQV).
Verifica l'utilità pratica del quadro: Attraverso due importanti casi di studio applicativi (classificazione della copertura del suolo e rilevamento della fibrillazione atriale), dimostra l'efficacia del quadro nella risoluzione di problemi reali.
Pone le basi per l'estensione del GUM: Il quadro consente al GUM di estendersi alla valutazione dell'incertezza degli attributi nominali, perfezionando il sistema degli standard metrologici.
Poiché le prestazioni di classificazione sono inferiori al compito di classificazione della copertura del suolo, i valori delle statistiche di incertezza sono generalmente più elevati
Nella classificazione binaria, WVR, SDM, CNV sono completamente equivalenti
L'entropia dell'informazione rimane la statistica più sensibile
PMF è l'espressione completa dell'incertezza degli attributi nominali: Per analogia con la PDF per variabili continue, PMF fornisce informazioni complete sull'incertezza delle previsioni di classificazione.
Molteplici statistiche hanno vantaggi specifici: L'entropia dell'informazione è la più sensibile ma potrebbe essere eccessivamente sensibile; le statistiche basate sulla probabilità modale come WVR sono più intuitive; la scelta dovrebbe basarsi sulle esigenze specifiche dell'applicazione.
Il quadro ha utilità pratica: I due casi di studio dimostrano l'applicabilità del quadro in diversi settori e tipi di modelli.
Supporta la propagazione dell'incertezza: Attraverso PMF è possibile realizzare la propagazione dell'incertezza degli attributi nominali in modelli multistadio.
Assunzione i.i.d.: Il quadro assume che i dati di addestramento e test siano indipendenti e identicamente distribuiti; lo shift di distribuzione influisce sull'affidabilità
Complessità computazionale: Alcuni metodi (come l'inferenza bayesiana completa) hanno costi computazionali elevati
Incertezza nella selezione del modello: La maggior parte dei metodi non considera sufficientemente l'incertezza nella scelta dell'architettura del modello
Modellazione dell'incertezza di input: La modellazione esplicita dell'incertezza di input nei metodi di deep learning rimane difficile
Colma un vuoto importante: Per la prima volta, stabilisce sistematicamente un quadro metrologico per la valutazione dell'incertezza nei modelli di classificazione ML, colmando un importante vuoto negli standard GUM/VIM.
Rigore teorico: Basato su fondamenti probabilistici, stabilisce un sistema teorico completo dalla PMF alle statistiche di sintesi, mantenendo coerenza con gli standard metrologici esistenti.
Forte praticità: I due casi di studio coprono diversi settori applicativi, tipi di dati e architetture di modelli, dimostrando l'ampia applicabilità del quadro.
Confronto sistematico: Fornisce un confronto completo di sette statistiche di incertezza, offrendo indicazioni per la scelta nelle applicazioni pratiche.
Prospettiva futura: Fornisce un supporto importante per il dispiegamento affidabile della tecnologia ML in applicazioni ad alto rischio.
Fonti di incertezza limitate: Sebbene identifica cinque fonti di incertezza, non tutte sono modellate nei casi pratici, in particolare l'incertezza nella selezione del modello.
Condizioni di assunzione: L'assunzione i.i.d. è frequentemente violata nelle applicazioni pratiche, ma la discussione su questo aspetto è insufficiente.
Efficienza computazionale: La complessità computazionale di alcuni metodi (come l'inferenza bayesiana completa) limita l'applicazione pratica.
Validazione limitata: Solo due casi di studio; è necessaria la validazione del quadro in più settori e scenari.
Definizione di standard: Potrebbe promuovere l'aggiornamento degli standard metrologici internazionali, incorporando la classificazione ML in un quadro formale.
Applicazione industriale: Fornisce garanzie di affidabilità per le applicazioni ML in settori critici come la medicina e il monitoraggio ambientale.
Valore accademico: Connette i due settori della metrologia e dell'apprendimento automatico, promuovendo la collaborazione interdisciplinare.
Riproducibilità: Fornisce un quadro teorico chiaro e dettagli di implementazione, facilitando l'adozione da parte di altri ricercatori.
L'articolo cita 86 riferimenti bibliografici, coprendo standard metrologici, teoria dell'apprendimento automatico, metodi di quantificazione dell'incertezza e settori applicativi specifici, fornendo una base teorica solida e un ampio contesto applicativo per questa ricerca. I riferimenti chiave includono documenti della serie GUM, vocabolario VIM, metodi di apprendimento automatico bayesiano e tecniche di quantificazione dell'incertezza.