2025-11-13T08:49:10.859507

A metrological framework for uncertainty evaluation in machine learning classification models

Bilson, Cox, Pustogvar et al.
Machine learning (ML) classification models are increasingly being used in a wide range of applications where it is important that predictions are accompanied by uncertainties, including in climate and earth observation, medical diagnosis and bioaerosol monitoring. The output of an ML classification model is a type of categorical variable known as a nominal property in the International Vocabulary of Metrology (VIM). However, concepts related to uncertainty evaluation for nominal properties are not defined in the VIM, nor is such evaluation addressed by the Guide to the Expression of Uncertainty in Measurement (GUM). In this paper we propose a metrological conceptual uncertainty evaluation framework for nominal properties. This framework is based on probability mass functions and summary statistics thereof, and it is applicable to ML classification. We also illustrate its use in the context of two applications that exemplify the issues and have significant societal impact, namely, climate and earth observation and medical diagnosis. Our framework would enable an extension of the GUM to uncertainty for nominal properties, which would make both applicable to ML classification models.
academic

إطار قياسي لتقييم عدم اليقين في نماذج تصنيف التعلم الآلي

المعلومات الأساسية

  • معرّف الورقة: 2504.03359
  • العنوان: إطار قياسي لتقييم عدم اليقين في نماذج تصنيف التعلم الآلي
  • المؤلفون: صموئيل بيلسون، موريس كوكس، آنا بوستوجفار، أندرو تومسون (المختبر الوطني للفيزياء، المملكة المتحدة)
  • التصنيف: cs.LG (التعلم الآلي)
  • تاريخ النشر: 15 أكتوبر 2025 (arXiv v3)
  • رابط الورقة: https://arxiv.org/abs/2504.03359

الملخص

يتم استخدام نماذج تصنيف التعلم الآلي بشكل متزايد في مجالات التطبيق الحرجة مثل المراقبة المناخية والتشخيص الطبي ومراقبة الهباء البيولوجي، وهذه التطبيقات تتطلب أن تكون النتائج المتنبأ بها مصحوبة بتقييم عدم اليقين. يتمثل مخرجات نموذج تصنيف التعلم الآلي في متغير تصنيفي، يُشار إليه في المعجم الدولي للقياس (VIM) باسم الخاصية الاسمية. ومع ذلك، لا يحدد كل من VIM وإرشادات التعبير عن عدم اليقين في القياس (GUM) مفهوم تقييم عدم اليقين للخصائص الاسمية. تقترح هذه الورقة إطار عمل لتقييم عدم اليقين القياسي للخصائص الاسمية بناءً على دالة الكتلة الاحتمالية والإحصائيات الملخصة، وينطبق على تصنيف التعلم الآلي. يتم توضيح استخدام الإطار من خلال دراستي حالة في المراقبة المناخية والتشخيص الطبي ذات التأثير الاجتماعي الكبير. سيمكّن هذا الإطار GUM من التوسع ليشمل تقييم عدم اليقين للخصائص الاسمية، مما يجعل كليهما قابلاً للتطبيق على نماذج تصنيف التعلم الآلي.

السياق البحثي والدافع

خلفية المشكلة

  1. نمو احتياجات التطبيق: يتم استخدام نماذج تصنيف التعلم الآلي على نطاق واسع متزايد في المجالات الحرجة مثل المراقبة المناخية والتشخيص الطبي ومراقبة الهباء البيولوجي، وتتطلب هذه التطبيقات أن تكون النتائج المتنبأ بها مصحوبة بتقييم موثوق لعدم اليقين.
  2. غياب المعايير القياسية: تم تصميم المعايير القياسية الحالية (VIM و GUM) بشكل أساسي للمتغيرات الكمية، وتفتقر إلى إطار عمل لتقييم عدم اليقين للخصائص الاسمية (الخصائص الفئوية) لمخرجات نماذج التصنيف.
  3. عدم اليقين متعدد المصادر: تتضمن نماذج تصنيف التعلم الآلي عدم اليقين من مصادر متعددة تشمل عدم اليقين في بيانات التدريب، وعدم اليقين في تخصيص الفئات، وعدم اليقين في اختيار النموذج، وعدم اليقين في معاملات النموذج، وعدم اليقين في بيانات الإدخال الجديدة.

الدافع البحثي

  • إنشاء إطار عمل موحد لتقييم عدم اليقين يمكّن نماذج تصنيف التعلم الآلي من الاندماج في سلسلة التتبع القياسي
  • توفير عدم اليقين متنبأ به موثوق به للتطبيقات عالية المخاطر (مثل التشخيص الطبي)
  • توسيع إطار عمل GUM الحالي ليشمل الخصائص الاسمية

قيود الطرق الموجودة

  • ينطبق GUM بشكل أساسي على المتغيرات الكمية المستمرة ولا يمكن تطبيقه مباشرة على مخرجات التصنيف
  • تنطبق طرق تقييم الامتثال الموجودة فقط على التصنيف الثنائي القائم على القواعد، وليست مناسبة لنماذج التعلم الآلي التي تتطلب تدريباً
  • غياب طرق موحدة لنشر عدم اليقين للخصائص الاسمية

المساهمات الأساسية

  1. اقتراح إطار عمل قياسي لتقييم عدم اليقين للخصائص الاسمية: بناءً على دالة الكتلة الاحتمالية والإحصائيات الملخصة، يوفر طريقة منهجية لتقييم عدم اليقين في نماذج تصنيف التعلم الآلي.
  2. إنشاء آلية نشر عدم اليقين: يوضح كيفية نشر عدم اليقين للخصائص الاسمية من خلال دالة الكتلة الاحتمالية في نماذج القياس متعددة المراحل، مع دعم الطرق التحليلية وطرق مونت كارلو.
  3. مقارنة منهجية لإحصائيات عدم اليقين: يقيّم خصائص وقابلية تطبيق طرق متعددة للتعبير عن عدم اليقين مثل نسبة التباين لويلكوكس (WVR) والإنتروبيا المعلوماتية ومؤشر التباين النوعي (IQV).
  4. التحقق من الجدوى العملية للإطار: من خلال دراستي حالة مهمتين في تصنيف استخدام الأراضي والكشف عن الرجفان الأذيني، يثبت فعالية الإطار في المشاكل العملية.
  5. وضع الأساس لتوسيع GUM: يمكّن هذا الإطار توسيع GUM ليشمل تقييم عدم اليقين للخصائص الاسمية، مما يحسّن نظام المعايير القياسية.

شرح الطريقة

تعريف المهمة

تدرس هذه الورقة مهمة تقييم عدم اليقين في نماذج تصنيف التعلم الآلي:

  • الإدخال: مجموعة متغيرات الإدخال X (قد تتضمن متغيرات كمية وتصنيفية)
  • الإخراج: متغير تصنيفي Y ∈ CK = {c1, ..., cK}، حيث K هو عدد الفئات
  • الهدف: تقييم عدم اليقين في التنبؤ التصنيفي y = f(x)

الإطار النظري

1. دالة الكتلة الاحتمالية (PMF)

بالنسبة للمتغيرات الاسمية، يتم التعبير عن المعلومات الكاملة لعدم اليقين بواسطة دالة الكتلة الاحتمالية:

p : CK → [0,1]
ck ↦ pk := p(ck)

تحقق شرط التطبيع: ∑pk = 1

2. إحصائيات عدم اليقين

تقيّم الورقة بشكل منهجي سبع إحصائيات لعدم اليقين:

نسبة التباين لويلكوكس (WVR):

uWVR(p) = 1 - (Kp̂-1)/(K-1)

الإنتروبيا المعلوماتية:

H(p) = -∑pk logK pk

مؤشر التباين النوعي (IQV):

uIQV(p) = K/(K-1)(1-∑pk²)

حيث p̂ هي احتمالية الفئة الأكثر تكراراً (الفئة المشروطة).

3. نشر عدم اليقين

بالنسبة لنموذج قياس يحتوي على إدخالات اسمية z = g(x,y)، يمكن التعبير عن القيمة المتوقعة والتباين للمخرجات على النحو التالي:

E[z] = ∑pk μk
Var[z] = ∑pk(σk² + μk²) - (∑pkμk)²

تحديد مصادر عدم اليقين

تحدد الورقة خمسة مصادر رئيسية لعدم اليقين في تصنيف التعلم الآلي:

  1. عدم اليقين في بيانات التدريب: عدم اليقين في القياس الكامن في بيانات التدريب نفسها
  2. عدم اليقين في تخصيص الفئات: الغموض التصنيفي المتأصل في المهمة
  3. عدم اليقين في اختيار النموذج: عدم اليقين في اختيار نوع النموذج
  4. عدم اليقين في معاملات النموذج: عدم اليقين في تقدير المعاملات والتحسين
  5. عدم اليقين في بيانات الإدخال الجديدة: عدم اليقين في القياس لبيانات الإدخال في مرحلة التنبؤ

إعداد التجارب

دراسة الحالة 1: تصنيف استخدام الأراضي

مجموعة البيانات:

  • بيانات صور Sentinel-2 الفضائية
  • منطقة بحجم 20 كم × 20 كم في اسكتلندا
  • 189,142 بكسل، تتضمن أربع فئات: غابات وأراضي زراعية وأراضي عشبية ومناطق سكنية
  • بيانات من عامي 2020 و 2021

الطريقة: تحليل التمييز الثنائي البايزي (BQDA)

  • طريقة النمذجة التوليدية
  • نمذجة صريحة لمصادر عدم اليقين المتعددة
  • افتراض التوزيع الغاوسي متعدد المتغيرات

مقاييس التقييم:

  • خسارة التصنيف (معدل الخطأ في التصنيف)
  • خسارة الإنتروبيا المتقاطعة المتوقعة (EXE)
  • درجة بريير المتوقعة (EBS)

دراسة الحالة 2: الكشف عن الرجفان الأذيني

مجموعة البيانات:

  • مجموعة بيانات DeepBeat PPG
  • 134 مريضاً، أكثر من 100,000 جزء إشارة
  • مدة 25 ثانية، معدل أخذ العينات 32 هرتز
  • مهمة تصنيف ثنائية (الرجفان الأذيني/غير الرجفان الأذيني)

الطريقة: شبكة عصبية التفافية + Dropout مونت كارلو

  • طريقة النمذجة التمييزية
  • معمارية xresnet1d50 المتغيرة
  • التقاط عدم اليقين المعرفي والعرضي

نتائج التجارب

نتائج تصنيف استخدام الأراضي

الأداء التصنيفي:

  • اختبار 2020: الخسارة=0.012، EXE=0.079، EBS=0.031
  • اختبار 2021: الخسارة=0.057، EXE=0.567، EBS=0.151
  • انخفاض الأداء عبر السنوات كبير، مما يعكس تأثير تحول التوزيع

أداء إحصائيات عدم اليقين (2020):

  • الفروقات بين الوسيط والمتوسط ضخمة (فروقات بمقاييس مختلفة)، مما يشير إلى توزيع منحرف بشدة نحو اليسار
  • الإنتروبيا المعلوماتية H الأكثر حساسية للتغييرات الصغيرة
  • UVR الأقل حساسية للتغييرات الصغيرة
  • WVR و SDM و CNV متكافئة في التنبؤات عالية الثقة

نتائج الكشف عن الرجفان الأذيني

الأداء التصنيفي:

  • خسارة التصنيف: 0.209
  • EXE: 0.874
  • EBS: 0.622

إحصائيات عدم اليقين:

  • نظراً لأن أداء التصنيف أقل من مهمة تصنيف استخدام الأراضي، فإن قيم إحصائيات عدم اليقين أعلى بشكل عام
  • في التصنيف الثنائي، WVR و SDM و CNV متكافئة تماماً
  • الإنتروبيا المعلوماتية لا تزال الإحصائية الأكثر حساسية

النتائج الرئيسية

  1. ترتيب حساسية الإحصائيات: الإنتروبيا المعلوماتية > IQV > WVR/SDM/CNV > UVR
  2. التكافؤ في التصنيف الثنائي: WVR و SDM و CNV متكافئة رياضياً في التصنيف الثنائي
  3. التقريب عالي الثقة: بالنسبة للتنبؤات متعددة الفئات عالية الثقة، تكون إحصائيات متعددة متقاربة تقريباً
  4. العلاقة بين الأداء وعدم اليقين: كلما ساءت أداء التصنيف، ارتفعت قيم إحصائيات عدم اليقين

الأعمال ذات الصلة

المعايير القياسية

  • مجموعة GUM: موجهة بشكل أساسي لتقييم عدم اليقين للمتغيرات الكمية
  • VIM: يحدد مفهوم الخاصية الاسمية لكن يفتقر إلى طرق تقييم عدم اليقين
  • تقييم الامتثال: ينطبق فقط على التصنيف الثنائي القائم على القواعد

تقييم عدم اليقين في التعلم الآلي

  • الطرق البايزية: مثل الشبكات العصبية البايزية والاستدلال المتغير
  • طرق التجميع: مثل Dropout مونت كارلو والتجميع العميق
  • معايرة الاحتمالية: تحسين موثوقية احتمالات التنبؤ

المعايير ذات الصلة في المجالات الأخرى

  • العلوم المخبرية السريرية: معجم IFCC-IUPAC للخصائص الاسمية
  • التحليل الكيميائي النوعي: إرشادات EURACHEM/CITAC
  • المواد المرجعية: معيار ISO 33406:2024

الخلاصات والمناقشة

الخلاصات الرئيسية

  1. دالة الكتلة الاحتمالية هي التعبير الكامل عن عدم اليقين للخصائص الاسمية: بالقياس على دالة الكثافة الاحتمالية للمتغيرات المستمرة، توفر دالة الكتلة الاحتمالية المعلومات الكاملة لعدم اليقين في التنبؤ التصنيفي.
  2. لكل إحصائية متعددة مزاياها: الإنتروبيا المعلوماتية الأكثر حساسية لكن قد تكون حساسة جداً؛ الإحصائيات القائمة على احتمالية الفئة الأكثر تكراراً مثل WVR أكثر حدسية؛ يجب أن يكون الاختيار بناءً على احتياجات التطبيق المحددة.
  3. الإطار له جدوى عملية: تثبت دراستا الحالة قابلية تطبيق الإطار عبر مجالات مختلفة وأنواع نماذج مختلفة.
  4. يدعم نشر عدم اليقين: يمكن تحقيق نشر عدم اليقين للخصائص الاسمية عبر نماذج متعددة المراحل من خلال دالة الكتلة الاحتمالية.

القيود

  1. افتراض التوزيع المتطابق المستقل: يفترض الإطار أن بيانات التدريب والاختبار موزعة بشكل مستقل ومتطابق، وتحول التوزيع يؤثر على الموثوقية
  2. التعقيد الحسابي: بعض الطرق (مثل الاستدلال البايزي الكامل) لها تكاليف حسابية عالية
  3. عدم اليقين في اختيار النموذج: لم تأخذ معظم الطرق في الاعتبار بشكل كافٍ عدم اليقين في اختيار معمارية النموذج
  4. نمذجة عدم اليقين في الإدخال: لا تزال نمذجة عدم اليقين في الإدخال بشكل صريح في طرق التعلم العميق صعبة

الاتجاهات المستقبلية

  1. توسيع GUM: إدراج تقييم عدم اليقين للخصائص الاسمية رسمياً في إطار عمل GUM
  2. التوحيد: وضع معايير دولية لتقييم عدم اليقين في نماذج تصنيف التعلم الآلي
  3. تحسين الطرق: تطوير طرق أكثر كفاءة لقياس عدم اليقين
  4. توسيع التطبيقات: التحقق من فعالية الإطار في مزيد من المجالات التطبيقية الحرجة

التقييم المتعمق

المزايا

  1. ملء فجوة مهمة: أول إطار عمل منهجي لتقييم عدم اليقين القياسي لنماذج تصنيف التعلم الآلي، مما يملأ فجوة مهمة في معايير GUM/VIM.
  2. صرامة نظرية: بناءً على أساس نظرية الاحتمالات، يؤسس نظام نظري كامل من دالة الكتلة الاحتمالية إلى الإحصائيات الملخصة، مع الحفاظ على الاتساق مع المعايير القياسية الموجودة.
  3. قوة عملية: تغطي دراستا الحالة مجالات تطبيق مختلفة وأنواع بيانات ومعماريات نماذج، مما يثبت قابلية التطبيق الواسعة للإطار.
  4. مقارنة منهجية: توفر مقارنة شاملة لسبع إحصائيات لعدم اليقين، مما يوفر إرشادات الاختيار للتطبيقات العملية.
  5. رؤية استشرافية: توفر دعماً مهماً للنشر الموثوق به لتكنولوجيا التعلم الآلي في التطبيقات عالية المخاطر.

أوجه القصور

  1. مصادر عدم اليقين المحدودة: على الرغم من تحديد خمسة مصادر لعدم اليقين، لم يتم نمذجة جميعها في الحالات العملية، خاصة عدم اليقين في اختيار النموذج.
  2. الافتراضات: افتراض التوزيع المتطابق المستقل غالباً ما يتم انتهاكه في التطبيقات العملية، لكن النقاش حول هذا غير كافٍ.
  3. الكفاءة الحسابية: يحد التعقيد الحسابي لبعض الطرق (مثل الاستدلال البايزي الكامل) من التطبيق العملي.
  4. التحقق المحدود: هناك فقط دراستا حالة، وهناك حاجة للتحقق من فعالية الإطار في مزيد من المجالات والسيناريوهات.

التأثير

  1. وضع المعايير: من المتوقع أن يدفع نحو تحديث المعايير القياسية الدولية، مما يدرج تصنيف التعلم الآلي في الإطار الرسمي.
  2. التطبيق الصناعي: يوفر ضمانات موثوقية لتطبيقات التعلم الآلي في المجالات الحرجة مثل الطب والمراقبة البيئية.
  3. القيمة الأكاديمية: يربط بين مجالي القياس والتعلم الآلي، مما يعزز التعاون بين التخصصات.
  4. قابلية الاستنساخ: يوفر إطار عمل نظري واضح وتفاصيل التنفيذ، مما يسهل على الباحثين الآخرين اعتماده.

السيناريوهات المناسبة

  1. التطبيقات عالية المخاطر: السيناريوهات التي تتطلب موثوقية عالية جداً مثل التشخيص الطبي والمراقبة الأمنية
  2. البيئات التنظيمية: التطبيقات الصناعية والبحثية التي تتطلب الامتثال للمعايير القياسية
  3. الأنظمة متعددة المراحل: الأنظمة المعقدة حيث تحتاج نتائج التصنيف إلى الانتشار إلى خطوات المعالجة اللاحقة
  4. ضمان الجودة: الأنظمة الإنتاجية والخدمية التي تتطلب قياس موثوقية التنبؤ

المراجع

تستشهد الورقة بـ 86 مرجعاً، تغطي معايير القياس ونظرية التعلم الآلي وطرق قياس عدم اليقين والمجالات التطبيقية المحددة، مما يوفر أساساً نظرياً قوياً وخلفية تطبيقية واسعة لهذا البحث. تتضمن المراجع الرئيسية وثائق سلسلة GUM ومعجم VIM وطرق التعلم الآلي البايزي وتقنيات قياس عدم اليقين.