A metrological framework for uncertainty evaluation in machine learning classification models
Bilson, Cox, Pustogvar et al.
Machine learning (ML) classification models are increasingly being used in a wide range of applications where it is important that predictions are accompanied by uncertainties, including in climate and earth observation, medical diagnosis and bioaerosol monitoring. The output of an ML classification model is a type of categorical variable known as a nominal property in the International Vocabulary of Metrology (VIM). However, concepts related to uncertainty evaluation for nominal properties are not defined in the VIM, nor is such evaluation addressed by the Guide to the Expression of Uncertainty in Measurement (GUM). In this paper we propose a metrological conceptual uncertainty evaluation framework for nominal properties. This framework is based on probability mass functions and summary statistics thereof, and it is applicable to ML classification. We also illustrate its use in the context of two applications that exemplify the issues and have significant societal impact, namely, climate and earth observation and medical diagnosis. Our framework would enable an extension of the GUM to uncertainty for nominal properties, which would make both applicable to ML classification models.
academic
मशीन लर्निंग वर्गीकरण मॉडल में अनिश्चितता मूल्यांकन के लिए एक मेट्रोलॉजिकल ढांचा
मशीन लर्निंग वर्गीकरण मॉडल जलवायु अवलोकन, चिकित्सा निदान और जैव एरोसोल निगरानी जैसे महत्वपूर्ण अनुप्रयोग क्षेत्रों में तेजी से उपयोग किए जा रहे हैं। ये अनुप्रयोग यह अपेक्षा करते हैं कि पूर्वानुमान परिणामों के साथ अनिश्चितता मूल्यांकन होना चाहिए। ML वर्गीकरण मॉडल का आउटपुट एक वर्गीकृत चर है, जिसे अंतर्राष्ट्रीय मेट्रोलॉजी शब्दावली (VIM) में नाममात्र गुण कहा जाता है। हालांकि, VIM और माप अनिश्चितता अभिव्यक्ति दिशानिर्देश (GUM) दोनों ही नाममात्र गुणों के लिए अनिश्चितता मूल्यांकन की अवधारणा को परिभाषित नहीं करते हैं। यह पेपर संभाव्यता द्रव्यमान फलन और इसके सारांश सांख्यिकी के आधार पर नाममात्र गुणों के लिए मेट्रोलॉजिकल अनिश्चितता मूल्यांकन का एक ढांचा प्रस्तावित करता है, जो ML वर्गीकरण के लिए उपयुक्त है। जलवायु अवलोकन और चिकित्सा निदान के दो महत्वपूर्ण सामाजिक प्रभाव वाले अनुप्रयोग मामलों के माध्यम से इस ढांचे के उपयोग को दर्शाया गया है। यह ढांचा GUM को नाममात्र गुणों के अनिश्चितता मूल्यांकन तक विस्तारित करने में सक्षम बनाएगा, जिससे दोनों ML वर्गीकरण मॉडल के लिए उपयुक्त हो जाएंगे।
अनुप्रयोग की बढ़ती मांग: ML वर्गीकरण मॉडल जलवायु अवलोकन, चिकित्सा निदान, जैव एरोसोल निगरानी जैसे महत्वपूर्ण क्षेत्रों में तेजी से लागू हो रहे हैं। ये अनुप्रयोग यह अपेक्षा करते हैं कि पूर्वानुमान परिणामों के साथ विश्वसनीय अनिश्चितता मूल्यांकन होना चाहिए।
मेट्रोलॉजिकल मानक की कमी: मौजूदा मेट्रोलॉजिकल मानक (VIM और GUM) मुख्य रूप से मात्रात्मक चर के लिए डिज़ाइन किए गए हैं। वर्गीकरण मॉडल आउटपुट के नाममात्र गुणों (nominal properties) के लिए अनिश्चितता मूल्यांकन ढांचे की कमी है।
बहु-स्रोत अनिश्चितता: ML वर्गीकरण मॉडल में प्रशिक्षण डेटा अनिश्चितता, वर्ग असाइनमेंट अनिश्चितता, मॉडल चयन अनिश्चितता, मॉडल पैरामीटर अनिश्चितता और नए इनपुट डेटा अनिश्चितता जैसे कई स्रोत शामिल हैं।
नाममात्र गुणों के लिए मेट्रोलॉजिकल अनिश्चितता मूल्यांकन ढांचा प्रस्तावित किया: संभाव्यता द्रव्यमान फलन (PMF) और सारांश सांख्यिकी के आधार पर, ML वर्गीकरण मॉडल के लिए एक व्यवस्थित अनिश्चितता मूल्यांकन विधि प्रदान की गई है।
अनिश्चितता प्रसार तंत्र स्थापित किया: दिखाया गया है कि कैसे PMF के माध्यम से बहु-चरणीय माप मॉडल में नाममात्र गुणों की अनिश्चितता को प्रसारित किया जाए, विश्लेषणात्मक और मोंटे कार्लो विधियों का समर्थन करते हुए।
अनिश्चितता सांख्यिकी की व्यवस्थित तुलना की: विलकॉक्स भिन्नता अनुपात (WVR), सूचना एंट्रॉपी, गुणात्मक भिन्नता सूचकांक (IQV) जैसे कई अनिश्चितता अभिव्यक्ति तरीकों की विशेषताओं और प्रयोज्यता का मूल्यांकन किया।
ढांचे की व्यावहारिकता को सत्यापित किया: भूमि कवर वर्गीकरण और अलिंद फिब्रिलेशन पहचान के दो महत्वपूर्ण अनुप्रयोग मामलों के माध्यम से, वास्तविक समस्याओं में ढांचे की प्रभावशीलता को प्रदर्शित किया।
GUM विस्तार के लिए आधार स्थापित किया: यह ढांचा GUM को नाममात्र गुणों के अनिश्चितता मूल्यांकन तक विस्तारित करने में सक्षम बनाता है, मेट्रोलॉजिकल मानक प्रणाली को पूर्ण करता है।
PMF नाममात्र गुणों की अनिश्चितता का पूर्ण अभिव्यक्ति है: निरंतर चर के PDF के अनुरूप, PMF वर्गीकरण पूर्वानुमान अनिश्चितता की पूर्ण जानकारी प्रदान करता है।
कई सांख्यिकी के अपने लाभ हैं: सूचना एंट्रॉपी सबसे संवेदनशील है लेकिन संभवतः अत्यधिक संवेदनशील हो सकता है; WVR जैसी मोडल संभाव्यता-आधारित सांख्यिकी अधिक सहज हैं; चयन विशिष्ट अनुप्रयोग आवश्यकताओं पर आधारित होना चाहिए।
ढांचा व्यावहारिक है: दो केस स्टडी विभिन्न क्षेत्रों और मॉडल प्रकारों में ढांचे की प्रयोज्यता को प्रदर्शित करते हैं।
अनिश्चितता प्रसार का समर्थन करता है: PMF के माध्यम से बहु-चरणीय मॉडल में नाममात्र गुणों की अनिश्चितता प्रसार को लागू किया जा सकता है।
महत्वपूर्ण अंतराल को भरना: पहली बार ML वर्गीकरण मॉडल के लिए व्यवस्थित रूप से मेट्रोलॉजिकल अनिश्चितता मूल्यांकन ढांचा स्थापित किया, GUM/VIM मानकों के महत्वपूर्ण अंतराल को भरा।
सैद्धांतिक कठोरता: संभाव्यता सिद्धांत के आधार पर, PMF से सारांश सांख्यिकी तक एक पूर्ण सैद्धांतिक प्रणाली स्थापित की, मौजूदा मेट्रोलॉजिकल मानकों के साथ सामंजस्य बनाए रखा।
व्यावहारिकता मजबूत: दो केस स्टडी विभिन्न अनुप्रयोग क्षेत्रों, डेटा प्रकारों और मॉडल आर्किटेक्चर को कवर करते हैं, ढांचे की व्यापक प्रयोज्यता को प्रदर्शित करते हैं।
व्यवस्थित तुलना: सात प्रकार की अनिश्चितता सांख्यिकी की व्यापक तुलना, व्यावहारिक अनुप्रयोग के लिए चयन मार्गदर्शन प्रदान करता है।
दूरदर्शी: उच्च जोखिम वाले अनुप्रयोगों में ML तकनीक के विश्वसनीय तैनाती के लिए महत्वपूर्ण समर्थन प्रदान करता है।
सीमित अनिश्चितता स्रोत: हालांकि पांच अनिश्चितता स्रोतों की पहचान की गई है, लेकिन वास्तविक केस स्टडी में सभी को मॉडल नहीं किया गया है, विशेष रूप से मॉडल चयन अनिश्चितता।
मान्यता शर्तें: i.i.d. मान्यता वास्तविक अनुप्रयोगों में अक्सर उल्लंघन होती है, लेकिन पेपर इस पर पर्याप्त गहराई से चर्चा नहीं करता है।
कम्प्यूटेशनल दक्षता: कुछ विधियों (जैसे पूर्ण बेयेसियन अनुमान) की कम्प्यूटेशनल जटिलता व्यावहारिक अनुप्रयोग को सीमित करती है।
सीमित सत्यापन: केवल दो केस स्टडी हैं, अधिक क्षेत्रों और परिस्थितियों में ढांचे की प्रभावशीलता को सत्यापित करने की आवश्यकता है।
पेपर 86 संदर्भों का हवाला देता है, जिसमें मेट्रोलॉजिकल मानक, मशीन लर्निंग सिद्धांत, अनिश्चितता परिमाणीकरण विधियां और विशिष्ट अनुप्रयोग क्षेत्र शामिल हैं। ये इस अनुसंधान के लिए एक मजबूत सैद्धांतिक आधार और व्यापक अनुप्रयोग पृष्ठभूमि प्रदान करते हैं। मुख्य संदर्भों में GUM श्रृंखला दस्तावेज़, VIM शब्दावली, बेयेसियन मशीन लर्निंग विधियां और अनिश्चितता परिमाणीकरण तकनीकें शामिल हैं।