A metrological framework for uncertainty evaluation in machine learning classification models
Bilson, Cox, Pustogvar et al.
Machine learning (ML) classification models are increasingly being used in a wide range of applications where it is important that predictions are accompanied by uncertainties, including in climate and earth observation, medical diagnosis and bioaerosol monitoring. The output of an ML classification model is a type of categorical variable known as a nominal property in the International Vocabulary of Metrology (VIM). However, concepts related to uncertainty evaluation for nominal properties are not defined in the VIM, nor is such evaluation addressed by the Guide to the Expression of Uncertainty in Measurement (GUM). In this paper we propose a metrological conceptual uncertainty evaluation framework for nominal properties. This framework is based on probability mass functions and summary statistics thereof, and it is applicable to ML classification. We also illustrate its use in the context of two applications that exemplify the issues and have significant societal impact, namely, climate and earth observation and medical diagnosis. Our framework would enable an extension of the GUM to uncertainty for nominal properties, which would make both applicable to ML classification models.
academic
إطار قياسي لتقييم عدم اليقين في نماذج تصنيف التعلم الآلي
يتم استخدام نماذج تصنيف التعلم الآلي بشكل متزايد في مجالات التطبيق الحرجة مثل المراقبة المناخية والتشخيص الطبي ومراقبة الهباء البيولوجي، وهذه التطبيقات تتطلب أن تكون النتائج المتنبأ بها مصحوبة بتقييم عدم اليقين. يتمثل مخرجات نموذج تصنيف التعلم الآلي في متغير تصنيفي، يُشار إليه في المعجم الدولي للقياس (VIM) باسم الخاصية الاسمية. ومع ذلك، لا يحدد كل من VIM وإرشادات التعبير عن عدم اليقين في القياس (GUM) مفهوم تقييم عدم اليقين للخصائص الاسمية. تقترح هذه الورقة إطار عمل لتقييم عدم اليقين القياسي للخصائص الاسمية بناءً على دالة الكتلة الاحتمالية والإحصائيات الملخصة، وينطبق على تصنيف التعلم الآلي. يتم توضيح استخدام الإطار من خلال دراستي حالة في المراقبة المناخية والتشخيص الطبي ذات التأثير الاجتماعي الكبير. سيمكّن هذا الإطار GUM من التوسع ليشمل تقييم عدم اليقين للخصائص الاسمية، مما يجعل كليهما قابلاً للتطبيق على نماذج تصنيف التعلم الآلي.
نمو احتياجات التطبيق: يتم استخدام نماذج تصنيف التعلم الآلي على نطاق واسع متزايد في المجالات الحرجة مثل المراقبة المناخية والتشخيص الطبي ومراقبة الهباء البيولوجي، وتتطلب هذه التطبيقات أن تكون النتائج المتنبأ بها مصحوبة بتقييم موثوق لعدم اليقين.
غياب المعايير القياسية: تم تصميم المعايير القياسية الحالية (VIM و GUM) بشكل أساسي للمتغيرات الكمية، وتفتقر إلى إطار عمل لتقييم عدم اليقين للخصائص الاسمية (الخصائص الفئوية) لمخرجات نماذج التصنيف.
عدم اليقين متعدد المصادر: تتضمن نماذج تصنيف التعلم الآلي عدم اليقين من مصادر متعددة تشمل عدم اليقين في بيانات التدريب، وعدم اليقين في تخصيص الفئات، وعدم اليقين في اختيار النموذج، وعدم اليقين في معاملات النموذج، وعدم اليقين في بيانات الإدخال الجديدة.
اقتراح إطار عمل قياسي لتقييم عدم اليقين للخصائص الاسمية: بناءً على دالة الكتلة الاحتمالية والإحصائيات الملخصة، يوفر طريقة منهجية لتقييم عدم اليقين في نماذج تصنيف التعلم الآلي.
إنشاء آلية نشر عدم اليقين: يوضح كيفية نشر عدم اليقين للخصائص الاسمية من خلال دالة الكتلة الاحتمالية في نماذج القياس متعددة المراحل، مع دعم الطرق التحليلية وطرق مونت كارلو.
مقارنة منهجية لإحصائيات عدم اليقين: يقيّم خصائص وقابلية تطبيق طرق متعددة للتعبير عن عدم اليقين مثل نسبة التباين لويلكوكس (WVR) والإنتروبيا المعلوماتية ومؤشر التباين النوعي (IQV).
التحقق من الجدوى العملية للإطار: من خلال دراستي حالة مهمتين في تصنيف استخدام الأراضي والكشف عن الرجفان الأذيني، يثبت فعالية الإطار في المشاكل العملية.
وضع الأساس لتوسيع GUM: يمكّن هذا الإطار توسيع GUM ليشمل تقييم عدم اليقين للخصائص الاسمية، مما يحسّن نظام المعايير القياسية.
دالة الكتلة الاحتمالية هي التعبير الكامل عن عدم اليقين للخصائص الاسمية: بالقياس على دالة الكثافة الاحتمالية للمتغيرات المستمرة، توفر دالة الكتلة الاحتمالية المعلومات الكاملة لعدم اليقين في التنبؤ التصنيفي.
لكل إحصائية متعددة مزاياها: الإنتروبيا المعلوماتية الأكثر حساسية لكن قد تكون حساسة جداً؛ الإحصائيات القائمة على احتمالية الفئة الأكثر تكراراً مثل WVR أكثر حدسية؛ يجب أن يكون الاختيار بناءً على احتياجات التطبيق المحددة.
الإطار له جدوى عملية: تثبت دراستا الحالة قابلية تطبيق الإطار عبر مجالات مختلفة وأنواع نماذج مختلفة.
يدعم نشر عدم اليقين: يمكن تحقيق نشر عدم اليقين للخصائص الاسمية عبر نماذج متعددة المراحل من خلال دالة الكتلة الاحتمالية.
ملء فجوة مهمة: أول إطار عمل منهجي لتقييم عدم اليقين القياسي لنماذج تصنيف التعلم الآلي، مما يملأ فجوة مهمة في معايير GUM/VIM.
صرامة نظرية: بناءً على أساس نظرية الاحتمالات، يؤسس نظام نظري كامل من دالة الكتلة الاحتمالية إلى الإحصائيات الملخصة، مع الحفاظ على الاتساق مع المعايير القياسية الموجودة.
قوة عملية: تغطي دراستا الحالة مجالات تطبيق مختلفة وأنواع بيانات ومعماريات نماذج، مما يثبت قابلية التطبيق الواسعة للإطار.
مقارنة منهجية: توفر مقارنة شاملة لسبع إحصائيات لعدم اليقين، مما يوفر إرشادات الاختيار للتطبيقات العملية.
رؤية استشرافية: توفر دعماً مهماً للنشر الموثوق به لتكنولوجيا التعلم الآلي في التطبيقات عالية المخاطر.
تستشهد الورقة بـ 86 مرجعاً، تغطي معايير القياس ونظرية التعلم الآلي وطرق قياس عدم اليقين والمجالات التطبيقية المحددة، مما يوفر أساساً نظرياً قوياً وخلفية تطبيقية واسعة لهذا البحث. تتضمن المراجع الرئيسية وثائق سلسلة GUM ومعجم VIM وطرق التعلم الآلي البايزي وتقنيات قياس عدم اليقين.