2025-11-13T08:49:10.859507

A metrological framework for uncertainty evaluation in machine learning classification models

Bilson, Cox, Pustogvar et al.
Machine learning (ML) classification models are increasingly being used in a wide range of applications where it is important that predictions are accompanied by uncertainties, including in climate and earth observation, medical diagnosis and bioaerosol monitoring. The output of an ML classification model is a type of categorical variable known as a nominal property in the International Vocabulary of Metrology (VIM). However, concepts related to uncertainty evaluation for nominal properties are not defined in the VIM, nor is such evaluation addressed by the Guide to the Expression of Uncertainty in Measurement (GUM). In this paper we propose a metrological conceptual uncertainty evaluation framework for nominal properties. This framework is based on probability mass functions and summary statistics thereof, and it is applicable to ML classification. We also illustrate its use in the context of two applications that exemplify the issues and have significant societal impact, namely, climate and earth observation and medical diagnosis. Our framework would enable an extension of the GUM to uncertainty for nominal properties, which would make both applicable to ML classification models.
academic

मशीन लर्निंग वर्गीकरण मॉडल में अनिश्चितता मूल्यांकन के लिए एक मेट्रोलॉजिकल ढांचा

मूल जानकारी

  • पेपर ID: 2504.03359
  • शीर्षक: मशीन लर्निंग वर्गीकरण मॉडल में अनिश्चितता मूल्यांकन के लिए एक मेट्रोलॉजिकल ढांचा
  • लेखक: सैमुएल बिलसन, मॉरिस कॉक्स, अन्ना पुस्तोग्वर, एंड्रयू थॉम्पसन (नेशनल फिजिकल लेबोरेटरी, यूके)
  • वर्गीकरण: cs.LG (मशीन लर्निंग)
  • प्रकाशन समय: 15 अक्टूबर 2025 (arXiv v3)
  • पेपर लिंक: https://arxiv.org/abs/2504.03359

सारांश

मशीन लर्निंग वर्गीकरण मॉडल जलवायु अवलोकन, चिकित्सा निदान और जैव एरोसोल निगरानी जैसे महत्वपूर्ण अनुप्रयोग क्षेत्रों में तेजी से उपयोग किए जा रहे हैं। ये अनुप्रयोग यह अपेक्षा करते हैं कि पूर्वानुमान परिणामों के साथ अनिश्चितता मूल्यांकन होना चाहिए। ML वर्गीकरण मॉडल का आउटपुट एक वर्गीकृत चर है, जिसे अंतर्राष्ट्रीय मेट्रोलॉजी शब्दावली (VIM) में नाममात्र गुण कहा जाता है। हालांकि, VIM और माप अनिश्चितता अभिव्यक्ति दिशानिर्देश (GUM) दोनों ही नाममात्र गुणों के लिए अनिश्चितता मूल्यांकन की अवधारणा को परिभाषित नहीं करते हैं। यह पेपर संभाव्यता द्रव्यमान फलन और इसके सारांश सांख्यिकी के आधार पर नाममात्र गुणों के लिए मेट्रोलॉजिकल अनिश्चितता मूल्यांकन का एक ढांचा प्रस्तावित करता है, जो ML वर्गीकरण के लिए उपयुक्त है। जलवायु अवलोकन और चिकित्सा निदान के दो महत्वपूर्ण सामाजिक प्रभाव वाले अनुप्रयोग मामलों के माध्यम से इस ढांचे के उपयोग को दर्शाया गया है। यह ढांचा GUM को नाममात्र गुणों के अनिश्चितता मूल्यांकन तक विस्तारित करने में सक्षम बनाएगा, जिससे दोनों ML वर्गीकरण मॉडल के लिए उपयुक्त हो जाएंगे।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या पृष्ठभूमि

  1. अनुप्रयोग की बढ़ती मांग: ML वर्गीकरण मॉडल जलवायु अवलोकन, चिकित्सा निदान, जैव एरोसोल निगरानी जैसे महत्वपूर्ण क्षेत्रों में तेजी से लागू हो रहे हैं। ये अनुप्रयोग यह अपेक्षा करते हैं कि पूर्वानुमान परिणामों के साथ विश्वसनीय अनिश्चितता मूल्यांकन होना चाहिए।
  2. मेट्रोलॉजिकल मानक की कमी: मौजूदा मेट्रोलॉजिकल मानक (VIM और GUM) मुख्य रूप से मात्रात्मक चर के लिए डिज़ाइन किए गए हैं। वर्गीकरण मॉडल आउटपुट के नाममात्र गुणों (nominal properties) के लिए अनिश्चितता मूल्यांकन ढांचे की कमी है।
  3. बहु-स्रोत अनिश्चितता: ML वर्गीकरण मॉडल में प्रशिक्षण डेटा अनिश्चितता, वर्ग असाइनमेंट अनिश्चितता, मॉडल चयन अनिश्चितता, मॉडल पैरामीटर अनिश्चितता और नए इनपुट डेटा अनिश्चितता जैसे कई स्रोत शामिल हैं।

अनुसंधान प्रेरणा

  • एक मानकीकृत अनिश्चितता मूल्यांकन ढांचा स्थापित करना, जिससे ML वर्गीकरण मॉडल मेट्रोलॉजिकल ट्रेसेबिलिटी श्रृंखला में एकीकृत हो सकें
  • उच्च जोखिम वाले अनुप्रयोगों (जैसे चिकित्सा निदान) के लिए विश्वसनीय पूर्वानुमान अनिश्चितता प्रदान करना
  • मौजूदा GUM ढांचे को नाममात्र गुणों को शामिल करने के लिए विस्तारित करना

मौजूदा तरीकों की सीमाएं

  • GUM मुख्य रूप से निरंतर मात्रात्मक चर के लिए उपयुक्त है, वर्गीकरण आउटपुट पर सीधे लागू नहीं हो सकता
  • मौजूदा अनुपालन मूल्यांकन विधियां केवल नियम-आधारित द्विआधारी वर्गीकरण के लिए उपयुक्त हैं, प्रशिक्षण की आवश्यकता वाले ML मॉडल के लिए नहीं
  • नाममात्र गुणों के लिए मानकीकृत अनिश्चितता प्रसार विधि की कमी है

मुख्य योगदान

  1. नाममात्र गुणों के लिए मेट्रोलॉजिकल अनिश्चितता मूल्यांकन ढांचा प्रस्तावित किया: संभाव्यता द्रव्यमान फलन (PMF) और सारांश सांख्यिकी के आधार पर, ML वर्गीकरण मॉडल के लिए एक व्यवस्थित अनिश्चितता मूल्यांकन विधि प्रदान की गई है।
  2. अनिश्चितता प्रसार तंत्र स्थापित किया: दिखाया गया है कि कैसे PMF के माध्यम से बहु-चरणीय माप मॉडल में नाममात्र गुणों की अनिश्चितता को प्रसारित किया जाए, विश्लेषणात्मक और मोंटे कार्लो विधियों का समर्थन करते हुए।
  3. अनिश्चितता सांख्यिकी की व्यवस्थित तुलना की: विलकॉक्स भिन्नता अनुपात (WVR), सूचना एंट्रॉपी, गुणात्मक भिन्नता सूचकांक (IQV) जैसे कई अनिश्चितता अभिव्यक्ति तरीकों की विशेषताओं और प्रयोज्यता का मूल्यांकन किया।
  4. ढांचे की व्यावहारिकता को सत्यापित किया: भूमि कवर वर्गीकरण और अलिंद फिब्रिलेशन पहचान के दो महत्वपूर्ण अनुप्रयोग मामलों के माध्यम से, वास्तविक समस्याओं में ढांचे की प्रभावशीलता को प्रदर्शित किया।
  5. GUM विस्तार के लिए आधार स्थापित किया: यह ढांचा GUM को नाममात्र गुणों के अनिश्चितता मूल्यांकन तक विस्तारित करने में सक्षम बनाता है, मेट्रोलॉजिकल मानक प्रणाली को पूर्ण करता है।

विधि विवरण

कार्य परिभाषा

यह पेपर ML वर्गीकरण मॉडल के अनिश्चितता मूल्यांकन कार्य का अध्ययन करता है:

  • इनपुट: इनपुट चर का समुच्चय X (मात्रात्मक और वर्गीकृत चर दोनों शामिल हो सकते हैं)
  • आउटपुट: वर्गीकृत चर Y ∈ CK = {c1, ..., cK}, जहां K वर्गों की संख्या है
  • उद्देश्य: वर्गीकरण पूर्वानुमान y = f(x) की अनिश्चितता का मूल्यांकन करना

सैद्धांतिक ढांचा

1. संभाव्यता द्रव्यमान फलन (PMF)

नाममात्र चर के लिए, पूर्ण अनिश्चितता जानकारी PMF द्वारा व्यक्त की जाती है:

p : CK → [0,1]
ck ↦ pk := p(ck)

सामान्यीकरण शर्त को संतुष्ट करता है: ∑pk = 1

2. अनिश्चितता सांख्यिकी

पेपर सात प्रकार की अनिश्चितता सांख्यिकी का व्यवस्थित मूल्यांकन करता है:

विलकॉक्स भिन्नता अनुपात (WVR):

uWVR(p) = 1 - (Kp̂-1)/(K-1)

सूचना एंट्रॉपी:

H(p) = -∑pk logK pk

गुणात्मक भिन्नता सूचकांक (IQV):

uIQV(p) = K/(K-1)(1-∑pk²)

जहां p̂ मोडल संभाव्यता है (उच्चतम वर्ग संभाव्यता)।

3. अनिश्चितता प्रसार

नाममात्र इनपुट वाले माप मॉडल z = g(x,y) के लिए, आउटपुट के अपेक्षित मान और विचरण को इस प्रकार व्यक्त किया जा सकता है:

E[z] = ∑pk μk
Var[z] = ∑pk(σk² + μk²) - (∑pkμk)²

अनिश्चितता स्रोतों की पहचान

पेपर ML वर्गीकरण में पांच मुख्य अनिश्चितता स्रोतों की पहचान करता है:

  1. प्रशिक्षण डेटा अनिश्चितता: प्रशिक्षण डेटा स्वयं की माप अनिश्चितता
  2. वर्ग असाइनमेंट अनिश्चितता: कार्य में अंतर्निहित वर्गीकरण अस्पष्टता
  3. मॉडल चयन अनिश्चितता: मॉडल प्रकार चयन की अनिश्चितता
  4. मॉडल पैरामीटर अनिश्चितता: पैरामीटर अनुमान और अनुकूलन की अनिश्चितता
  5. नए इनपुट डेटा अनिश्चितता: पूर्वानुमान चरण में इनपुट डेटा की माप अनिश्चितता

प्रायोगिक सेटअप

केस स्टडी 1: भूमि कवर वर्गीकरण

डेटासेट:

  • Sentinel-2 उपग्रह इमेजरी डेटा
  • स्कॉटलैंड का 20km×20km क्षेत्र
  • 189,142 पिक्सेल, जिनमें वन, कृषि भूमि, घास के मैदान, आवासीय क्षेत्र चार वर्ग शामिल हैं
  • 2020 और 2021 का डेटा

विधि: बेयेसियन द्विघात विभेदक विश्लेषण (BQDA)

  • जनरेटिव मॉडलिंग विधि
  • कई अनिश्चितता स्रोतों का स्पष्ट मॉडलिंग
  • बहुभिन्न गाऊसी वितरण मान्यता

मूल्यांकन मेट्रिक्स:

  • वर्गीकरण हानि (गलत वर्गीकरण दर)
  • अपेक्षित क्रॉस-एंट्रॉपी हानि (EXE)
  • अपेक्षित ब्रियर स्कोर (EBS)

केस स्टडी 2: अलिंद फिब्रिलेशन पहचान

डेटासेट:

  • DeepBeat PPG डेटासेट
  • 134 रोगी, 100,000 से अधिक सिग्नल खंड
  • 25 सेकंड की अवधि, 32Hz नमूना दर
  • द्विआधारी वर्गीकरण कार्य (AF/गैर-AF)

विधि: कनवोल्यूशनल न्यूरल नेटवर्क + मोंटे कार्लो ड्रॉपआउट

  • विभेदक मॉडलिंग विधि
  • xresnet1d50 वेरिएंट आर्किटेक्चर
  • संज्ञानात्मक और आकस्मिक अनिश्चितता को कैप्चर करना

प्रायोगिक परिणाम

भूमि कवर वर्गीकरण परिणाम

वर्गीकरण प्रदर्शन:

  • 2020 परीक्षण: हानि=0.012, EXE=0.079, EBS=0.031
  • 2021 परीक्षण: हानि=0.057, EXE=0.567, EBS=0.151
  • वर्षों के बीच प्रदर्शन में महत्वपूर्ण गिरावट, वितरण बदलाव के प्रभाव को दर्शाता है

अनिश्चितता सांख्यिकी प्रदर्शन (2020):

  • माध्यिका और माध्य में विशाल अंतर (परिमाण का क्रम अंतर), वितरण के अत्यधिक बाईं ओर झुकाव को दर्शाता है
  • सूचना एंट्रॉपी H छोटे मान परिवर्तन में सबसे संवेदनशील है
  • UVR छोटे मान परिवर्तन में सबसे कम संवेदनशील है
  • WVR, SDM, CNV उच्च आत्मविश्वास पूर्वानुमान में समान प्रदर्शन करते हैं

अलिंद फिब्रिलेशन पहचान परिणाम

वर्गीकरण प्रदर्शन:

  • वर्गीकरण हानि: 0.209
  • EXE: 0.874
  • EBS: 0.622

अनिश्चितता सांख्यिकी:

  • भूमि कवर कार्य की तुलना में वर्गीकरण प्रदर्शन कम होने के कारण, अनिश्चितता सांख्यिकी मान सामान्यतः अधिक हैं
  • द्विआधारी वर्गीकरण में, WVR, SDM, CNV पूरी तरह से समान हैं
  • सूचना एंट्रॉपी अभी भी सबसे संवेदनशील सांख्यिकी है

मुख्य निष्कर्ष

  1. सांख्यिकी संवेदनशीलता क्रम: सूचना एंट्रॉपी > IQV > WVR/SDM/CNV > UVR
  2. द्विआधारी वर्गीकरण समानता: WVR, SDM, CNV द्विआधारी वर्गीकरण में गणितीय रूप से समान हैं
  3. उच्च आत्मविश्वास सन्निकटन: उच्च आत्मविश्वास वाले बहु-वर्ग पूर्वानुमान के लिए, कई सांख्यिकी लगभग समान हैं
  4. प्रदर्शन-अनिश्चितता संबंध: वर्गीकरण प्रदर्शन जितना खराब होता है, अनिश्चितता सांख्यिकी मान उतना अधिक होता है

संबंधित कार्य

मेट्रोलॉजिकल मानक

  • GUM सूट: मुख्य रूप से मात्रात्मक चर के अनिश्चितता मूल्यांकन के लिए
  • VIM: नाममात्र गुण की अवधारणा को परिभाषित करता है लेकिन अनिश्चितता मूल्यांकन विधि की कमी है
  • अनुपालन मूल्यांकन: केवल नियम-आधारित द्विआधारी वर्गीकरण के लिए उपयुक्त

ML अनिश्चितता मूल्यांकन

  • बेयेसियन विधियां: जैसे बेयेसियन न्यूरल नेटवर्क, परिवर्तनशील अनुमान
  • समूह विधियां: जैसे मोंटे कार्लो ड्रॉपआउट, गहन समूह
  • संभाव्यता अंशांकन: पूर्वानुमान संभाव्यता की विश्वसनीयता में सुधार

संबंधित क्षेत्र मानक

  • नैदानिक प्रयोगशाला विज्ञान: IFCC-IUPAC नाममात्र गुण शब्दावली
  • गुणात्मक रासायनिक विश्लेषण: EURACHEM/CITAC दिशानिर्देश
  • संदर्भ सामग्री: ISO 33406:2024 मानक

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. PMF नाममात्र गुणों की अनिश्चितता का पूर्ण अभिव्यक्ति है: निरंतर चर के PDF के अनुरूप, PMF वर्गीकरण पूर्वानुमान अनिश्चितता की पूर्ण जानकारी प्रदान करता है।
  2. कई सांख्यिकी के अपने लाभ हैं: सूचना एंट्रॉपी सबसे संवेदनशील है लेकिन संभवतः अत्यधिक संवेदनशील हो सकता है; WVR जैसी मोडल संभाव्यता-आधारित सांख्यिकी अधिक सहज हैं; चयन विशिष्ट अनुप्रयोग आवश्यकताओं पर आधारित होना चाहिए।
  3. ढांचा व्यावहारिक है: दो केस स्टडी विभिन्न क्षेत्रों और मॉडल प्रकारों में ढांचे की प्रयोज्यता को प्रदर्शित करते हैं।
  4. अनिश्चितता प्रसार का समर्थन करता है: PMF के माध्यम से बहु-चरणीय मॉडल में नाममात्र गुणों की अनिश्चितता प्रसार को लागू किया जा सकता है।

सीमाएं

  1. i.i.d. मान्यता: ढांचा प्रशिक्षण और परीक्षण डेटा की स्वतंत्र और समान वितरण मान्यता करता है, वितरण बदलाव विश्वसनीयता को प्रभावित करेगा
  2. कम्प्यूटेशनल जटिलता: कुछ विधियां (जैसे पूर्ण बेयेसियन अनुमान) कम्प्यूटेशनल लागत अधिक है
  3. मॉडल चयन अनिश्चितता: अधिकांश विधियां मॉडल आर्किटेक्चर चयन की अनिश्चितता को पर्याप्त रूप से विचार नहीं करती हैं
  4. इनपुट अनिश्चितता मॉडलिंग: गहन शिक्षण विधियों में इनपुट अनिश्चितता की स्पष्ट मॉडलिंग अभी भी कठिन है

भविष्य की दिशाएं

  1. GUM विस्तार: नाममात्र गुण अनिश्चितता मूल्यांकन को GUM ढांचे में औपचारिक रूप से शामिल करना
  2. मानकीकरण: ML वर्गीकरण मॉडल अनिश्चितता मूल्यांकन के लिए अंतर्राष्ट्रीय मानक तैयार करना
  3. विधि सुधार: अधिक कुशल अनिश्चितता परिमाणीकरण विधियां विकसित करना
  4. अनुप्रयोग विस्तार: अधिक महत्वपूर्ण अनुप्रयोग क्षेत्रों में ढांचे की प्रभावशीलता को सत्यापित करना

गहन मूल्यांकन

शक्तियां

  1. महत्वपूर्ण अंतराल को भरना: पहली बार ML वर्गीकरण मॉडल के लिए व्यवस्थित रूप से मेट्रोलॉजिकल अनिश्चितता मूल्यांकन ढांचा स्थापित किया, GUM/VIM मानकों के महत्वपूर्ण अंतराल को भरा।
  2. सैद्धांतिक कठोरता: संभाव्यता सिद्धांत के आधार पर, PMF से सारांश सांख्यिकी तक एक पूर्ण सैद्धांतिक प्रणाली स्थापित की, मौजूदा मेट्रोलॉजिकल मानकों के साथ सामंजस्य बनाए रखा।
  3. व्यावहारिकता मजबूत: दो केस स्टडी विभिन्न अनुप्रयोग क्षेत्रों, डेटा प्रकारों और मॉडल आर्किटेक्चर को कवर करते हैं, ढांचे की व्यापक प्रयोज्यता को प्रदर्शित करते हैं।
  4. व्यवस्थित तुलना: सात प्रकार की अनिश्चितता सांख्यिकी की व्यापक तुलना, व्यावहारिक अनुप्रयोग के लिए चयन मार्गदर्शन प्रदान करता है।
  5. दूरदर्शी: उच्च जोखिम वाले अनुप्रयोगों में ML तकनीक के विश्वसनीय तैनाती के लिए महत्वपूर्ण समर्थन प्रदान करता है।

कमियां

  1. सीमित अनिश्चितता स्रोत: हालांकि पांच अनिश्चितता स्रोतों की पहचान की गई है, लेकिन वास्तविक केस स्टडी में सभी को मॉडल नहीं किया गया है, विशेष रूप से मॉडल चयन अनिश्चितता।
  2. मान्यता शर्तें: i.i.d. मान्यता वास्तविक अनुप्रयोगों में अक्सर उल्लंघन होती है, लेकिन पेपर इस पर पर्याप्त गहराई से चर्चा नहीं करता है।
  3. कम्प्यूटेशनल दक्षता: कुछ विधियों (जैसे पूर्ण बेयेसियन अनुमान) की कम्प्यूटेशनल जटिलता व्यावहारिक अनुप्रयोग को सीमित करती है।
  4. सीमित सत्यापन: केवल दो केस स्टडी हैं, अधिक क्षेत्रों और परिस्थितियों में ढांचे की प्रभावशीलता को सत्यापित करने की आवश्यकता है।

प्रभाव

  1. मानक निर्माण: अंतर्राष्ट्रीय मेट्रोलॉजिकल मानकों के अपडेट को बढ़ावा देने की संभावना है, ML वर्गीकरण को औपचारिक ढांचे में शामिल करेगा।
  2. औद्योगिक अनुप्रयोग: चिकित्सा, पर्यावरण निगरानी जैसे महत्वपूर्ण क्षेत्रों में ML अनुप्रयोग के लिए विश्वसनीयता आश्वासन प्रदान करता है।
  3. शैक्षणिक मूल्य: मेट्रोलॉजी और मशीन लर्निंग दो क्षेत्रों को जोड़ता है, अंतःविषय सहयोग को बढ़ावा देता है।
  4. पुनरुत्पादनीयता: स्पष्ट सैद्धांतिक ढांचा और कार्यान्वयन विवरण प्रदान करता है, अन्य शोधकर्ताओं को अपनाने में सुविधा देता है।

प्रयोज्य परिदृश्य

  1. उच्च जोखिम वाले अनुप्रयोग: चिकित्सा निदान, सुरक्षा निगरानी जैसे विश्वसनीयता की अत्यधिक मांग वाले परिदृश्य
  2. नियामक वातावरण: मेट्रोलॉजिकल मानकों के अनुपालन की आवश्यकता वाले औद्योगिक और अनुसंधान अनुप्रयोग
  3. बहु-चरणीय प्रणाली: वर्गीकरण परिणामों को बाद के प्रसंस्करण चरणों में प्रसारित करने की आवश्यकता वाली जटिल प्रणाली
  4. गुणवत्ता आश्वासन: पूर्वानुमान विश्वसनीयता को परिमाणित करने की आवश्यकता वाली उत्पादन और सेवा प्रणाली

संदर्भ

पेपर 86 संदर्भों का हवाला देता है, जिसमें मेट्रोलॉजिकल मानक, मशीन लर्निंग सिद्धांत, अनिश्चितता परिमाणीकरण विधियां और विशिष्ट अनुप्रयोग क्षेत्र शामिल हैं। ये इस अनुसंधान के लिए एक मजबूत सैद्धांतिक आधार और व्यापक अनुप्रयोग पृष्ठभूमि प्रदान करते हैं। मुख्य संदर्भों में GUM श्रृंखला दस्तावेज़, VIM शब्दावली, बेयेसियन मशीन लर्निंग विधियां और अनिश्चितता परिमाणीकरण तकनीकें शामिल हैं।