Uncertainty-aware machine learners, such as Bayesian neural networks, output a quantification of uncertainty instead of a point prediction. In this work, we provide uncertainty-aware learners with a principled framework to characterize, and identify ways to eliminate, errors that arise from reducible (epistemic) uncertainty. We introduce a principled definition of epistemic error, and provide a decompositional epistemic error bound which operates in the very general setting of imperfect multitask learning under distribution shift. In this setting, the training (source) data may arise from multiple tasks, the test (target) data may differ systematically from the source data tasks, and/or the learner may not arrive at an accurate characterization of the source data. Our bound separately attributes epistemic errors to each of multiple aspects of the learning procedure and environment. As corollaries of the general result, we provide epistemic error bounds specialized to the settings of Bayesian transfer learning and distribution shift within $ε$-neighborhoods. We additionally leverage the terms in our bound to provide a novel definition of negative transfer.
- معرّف الورقة: 2505.23496
- العنوان: Epistemic Errors of Imperfect Multitask Learners When Distributions Shift
- المؤلفون: Sabina J. Sloman, Michele Caprio, Samuel Kaski
- التصنيف: cs.LG stat.ML
- تاريخ النشر: 13 أكتوبر 2025 (نسخة arXiv الأولية)
- رابط الورقة: https://arxiv.org/abs/2505.23496
تقدم هذه الورقة إطاراً نظرياً منهجياً لنماذج التعلم الآلي الواعية بعدم اليقين (مثل الشبكات العصبية البايزية) لتوصيف والقضاء على الأخطاء الناجمة عن عدم اليقين القابل للاختزال (المعرفي). تقدم الورقة تعريفاً منهجياً لخطأ المعرفة وتوفر حدوداً تحليلية لخطأ المعرفة في الإعداد العام جداً للتعلم متعدد المهام غير الكامل تحت تحول التوزيع. في هذا الإعداد، قد تأتي بيانات التدريب (المصدر) من مهام متعددة، وقد تختلف بيانات الاختبار (الهدف) بشكل منهجي عن مهام المصدر، و/أو قد يفشل المتعلم في توصيف بيانات المصدر بدقة. يعزو الحد خطأ المعرفة إلى جوانب متعددة من عملية التعلم والبيئة.
المشكلة الأساسية التي يعالجها هذا البحث هي: كيفية توفير إطار نظري لمتعلمي الوعي بعدم اليقين لتوصيف وتقليل خطأ المعرفة؟ بشكل محدد:
- قيود نظرية التعلم التقليدية: تركز نظرية التعلم الإحصائي الحالية بشكل أساسي على خطأ التعميم، لكنها غير كافية للمتعلمين الذين يقومون بتحديد كمي عدم اليقين في الإخراج.
- الخلط بين أنواع عدم اليقين: تخلط الطرق التقليدية بين عدم اليقين المعرفي القابل للاختزال وعدم اليقين العشوائي غير القابل للاختزال، مما يفشل في توجيه تحسينات النموذج بفعالية.
- نقص الدعم النظري للسيناريوهات المعقدة: في سيناريوهات التعلم متعدد المهام والتحول التوزيعي والتعلم غير الكامل المعقدة والواقعية، يوجد نقص في التوجيه النظري.
- القيمة التطبيقية العملية: في المجالات عالية المخاطر مثل الطب، يعتبر تحديد كمي دقيق لعدم اليقين أمراً حاسماً
- تحسين النظرية: ملء الفجوة في نظرية التعلم الواعية بعدم اليقين
- توجيه الممارسة: توفير أساس نظري لاختيار النموذج والتحسين
- لا يمكن لنظرية PAC والأطر التقليدية الأخرى التمييز بين خطأ المعرفة والخطأ العشوائي
- نقص إطار نظري موحد لسيناريوهات التعلم متعدد المهام وتحول التوزيع
- عادة ما تفترض الحدود الموجودة التعلم الكامل أو عدم وجود تحول توزيعي
- إدخال مفهوم حد خطأ المعرفة: اقتراح أداة نظرية جديدة تسمى حد خطأ المعرفة، مخصصة للمتعلمين الواعين بعدم اليقين
- حد خطأ المعرفة التحليلي: توفير حد في الإعداد العام للتعلم متعدد المهام غير الكامل وتحول التوزيع يحلل خطأ المعرفة إلى ثلاثة مكونات
- متغيرات الحالات الخاصة: توفير حدود خطأ معرفة متخصصة لنقل التعلم البايزي وتحول التوزيع داخل الحي ε
- تعريف جديد للنقل السلبي: توفير توصيف نظري جديد لظاهرة النقل السلبي بناءً على الحدود
يُعرّف خطأ المعرفة بأنه درجة الخطأ في فهم المتعلم لعملية توليد البيانات (DGP)، ويتم تشكيله رسمياً كـ:
e:=dTV(P^,Qt)
حيث P^ هي توزيع التنبؤ للمتعلم، و Qt هو توزيع مهمة الهدف، و dTV هي مسافة التباين الكلي.
- توزيع المهام: تُأخذ المهام نفسها من توزيع مهام من الدرجة الثانية Q∈Δ(ΔX)
- مهام المصدر: تأتي بيانات التدريب من n مهام مصدر، كل مهمة Q∼QS
- مهمة الهدف: مهمة الاختبار Qt∼QT
- تحول التوزيع: يحدث عندما QS=QT
- مركز توزيع المهام (التعريف 1):
Qˉ(x):=∫ΔXQ(x)q(Q)dQ=EQ∼Q[Q(x)]
- تباين توزيع المهام (التعريف 2):
V[Q]:=supx∈X∫ΔX[Q(x)−Qˉ(x)]2q(Q)dQ
- انحياز التقريب (التعريف 7):
B:=dTV(P∗,QˉS)
حيث P∗=argminP∈πdTV(P,QˉS)
- عدم الكفاية في التقارب (التعريف 8):
C:=dTV(P^,P∗)
- درجة تحول التوزيع (التعريف 9):
D:=dTV(QˉS,QˉT)
بالنظر إلى فئة النموذج π، والمتنبئ P^∈π، وتوزيع مهام المصدر QS، وتوزيع مهام الهدف المحدود من الدرجة الثانية QT:
Pr(e≥α+B+C+D)≤α2V[QT]
يحلل هذا الحد خطأ المعرفة إلى:
- B: قيود النموذج (انحياز التقريب)
- C: ندرة البيانات (عدم الكفاية في التقارب)
- D: تحول التوزيع
- V[QT]: تباين مهمة الهدف
استخدام عدم المساواة في المثلث في فضاء متري لبناء مسار:
dTV(P^,Qt)≤dTV(P^,P∗)+dTV(P∗,QˉS)+dTV(QˉS,QˉT)+dTV(QˉT,Qt)
دمج عدم مساواة Chebyshev للتحكم في تأثير تباين المهام.
- إطار موحد: معالجة التعلم متعدد المهام والتعلم غير الكامل وتحول التوزيع في إطار واحد للمرة الأولى
- تحليل تحليلي: تحليل خطأ المعرفة المعقد إلى مكونات قابلة للتفسير
- توجيه عملي: يتوافق كل مكون مع استراتيجيات تحسين محددة
- الصرامة النظرية: بناءً على تحليل فضاء متري صارم ونظرية الاحتمالات
بالنسبة لمتعلم بايزي، يمكن التعبير عن حد عدم الكفاية في التقارب كتقارب الخلفية البارامترية:
CΘ:=dTV(P1Θ,P∗Θ)
يربط هذا مباشرة تقارب الخلفية بخطأ المعرفة.
تحت قيود الحي ε:
Pr(e≥α+B+C+D)≤α2β(V[QS]+vol(QT))
حيث β=(1−bT)/bS، و vol(QT)=(diam(QS)+ε)2.
- النموذج: الانحدار الخطي البايزي
- توليد البيانات: x∼N(β1Sξ1+β2Sξ2,σS)
- الأولويات: نموذج Normal-Inverse-Gamma
- تقريب المسافة: استخدام عدم مساواة Pinsker لتقريب مسافة التباين الكلي
- تأثير تقارب الخلفية (الشكل 1a): ينخفض خطأ المعرفة مع زيادة احتمالية تقارب الخلفية للمعاملات المولدة للبيانات المصدرية
- تأثير حجم الحي (الشكل 1b): يزداد خطأ المعرفة مع زيادة حجم الحي ε
- ظاهرة النقل السلبي (الشكل 3): ترتبط صرامة الحد ارتباطاً وثيقاً بظاهرة النقل السلبي
- توافق عالي بين التنبؤات النظرية والملاحظات التجريبية
- تصبح الحدود أكثر ارتخاءً في حالات النقل السلبي، وهو ما يتوافق مع التحليل النظري
- تختلف الأهمية النسبية لكل مكون حسب السيناريو
- تعميم المجال متعدد المهام: Baxter (2000)، أعمال Maurer وآخرين، لكن لم تأخذ في الاعتبار تحول التوزيع
- نظرية التكيف المجالي: Redko وآخرون (2019)، لكن يفترضون أن المتعلم يعرف تحول التوزيع
- نظرية التعلم Credal: Caprio وآخرون (2024)، لكن محدود بمتعلمين محددين
- التعلم العميق البايزي: Papamarkou وآخرون (2024)
- التنبؤ المطابق: Angelopoulos و Bates (2023)
- التعلم Credal: Caprio وآخرون (2024)
- إعداد أكثر عمومية: معالجة التعلم متعدد المهام والتعلم غير الكامل وتحول التوزيع في نفس الوقت
- مستقل عن المتعلم: لا يعتمد على خوارزمية تعلم محددة
- تحليل تحليلي: توفير توجيه قابل للتطبيق للتحسين
- توفير أول حد تحليلي لخطأ المعرفة للمتعلمين الواعين بعدم اليقين
- العمل في إعداد عام جداً، يغطي سيناريوهات عملية متعددة
- توفير إطار نظري توجيهي لاختيار النموذج والتحسين
- التعقيد الحسابي: عادة ما يكون من الصعب حساب مسافة التباين الكلي بدقة
- الافتراضات: تتطلب افتراضات تقنية مثل التوزيعات المحدودة من الدرجة الثانية
- التنبؤ المطابق: لا يمكن للإطار توصيف إعداد التنبؤ المطابق بالكامل
- التحقق التجريبي: التحقق فقط على بيانات اصطناعية منخفضة الأبعاد
- التوسع إلى المهام والبيانات المعتمدة على الوقت
- توصيف كامل لإعداد التنبؤ المطابق
- التحقق التجريبي على البيانات عالية الأبعاد والحقيقية
- تطوير نسخ حدود أسهل في الحساب
- قوة الابتكار النظري: أول إطار نظري منهجي للتعلم الواعي بعدم اليقين
- قيمة عملية عالية: يوجه التحليل التحليلي التحسينات العملية مباشرة
- الصرامة الرياضية: إثبات كامل وأساس نظري متين
- الوضوح في الكتابة: هيكل منطقي وتعريفات مفاهيم واضحة
- الجدوى الحسابية: التحديات في الحساب العملي للنتائج النظرية
- قيود التجربة: نطاق وتعقيد التجارب محدود
- الافتراضات الصارمة: قد يكون من الصعب تلبية بعض الافتراضات التقنية في الممارسة
- نطاق التطبيق: الدعم غير الكامل لبعض طرق تحديد كمي عدم اليقين (مثل التنبؤ المطابق)
- المساهمة النظرية: وضع أساس لنظرية التعلم الواعية بعدم اليقين
- التوجيه العملي: توفير أساس لاختيار النموذج في التطبيقات عالية المخاطر
- الإلهام البحثي: فتح اتجاهات بحثية جديدة
- التشخيص الطبي: التنبؤات السريرية التي تتطلب تحديد كمي دقيق لعدم اليقين
- مخاطر مالية: نمذجة المخاطر في بيئات أسواق متعددة
- القيادة الذاتية: اتخاذ القرارات الآمنة تحت تغيير البيئة
- الاكتشاف العلمي: نقل المعرفة بين المجالات
تستشهد هذه الورقة بأعمال مهمة في نظرية التعلم الإحصائي والاستدلال البايزي وتحديد كمي عدم اليقين، بما في ذلك:
- Shalev-Shwarz & Ben-David (2014): أساسيات نظرية التعلم الإحصائي
- Papamarkou et al. (2024): التعلم العميق البايزي
- Angelopoulos & Bates (2023): التنبؤ المطابق
- Redko et al. (2019): نظرية التكيف المجالي
هذه ورقة ذات مساهمة مهمة في نظرية التعلم الآلي الواعية بعدم اليقين، وتوفر أساساً نظرياً متيناً وإطار تحليل عملي لهذا المجال. على الرغم من وجود مجال للتحسين في الجدوى الحسابية والتحقق التجريبي، فإن ابتكارها النظري وقيمتها العملية تجعلها عملاً مهماً في هذا المجال.