2025-11-12T09:37:10.141820

Epistemic Errors of Imperfect Multitask Learners When Distributions Shift

Sloman, Caprio, Kaski

Uncertainty-aware machine learners, such as Bayesian neural networks, output a quantification of uncertainty instead of a point prediction. In this work, we provide uncertainty-aware learners with a principled framework to characterize, and identify ways to eliminate, errors that arise from reducible (epistemic) uncertainty. We introduce a principled definition of epistemic error, and provide a decompositional epistemic error bound which operates in the very general setting of imperfect multitask learning under distribution shift. In this setting, the training (source) data may arise from multiple tasks, the test (target) data may differ systematically from the source data tasks, and/or the learner may not arrive at an accurate characterization of the source data. Our bound separately attributes epistemic errors to each of multiple aspects of the learning procedure and environment. As corollaries of the general result, we provide epistemic error bounds specialized to the settings of Bayesian transfer learning and distribution shift within $Îµ$-neighborhoods. We additionally leverage the terms in our bound to provide a novel definition of negative transfer.

academic

أخطاء المعرفة لمتعلمي المهام المتعددة غير الكاملين عند تحول التوزيعات

المعلومات الأساسية

معرّف الورقة: 2505.23496
العنوان: Epistemic Errors of Imperfect Multitask Learners When Distributions Shift
المؤلفون: Sabina J. Sloman, Michele Caprio, Samuel Kaski
التصنيف: cs.LG stat.ML
تاريخ النشر: 13 أكتوبر 2025 (نسخة arXiv الأولية)
رابط الورقة: https://arxiv.org/abs/2505.23496

الملخص

تقدم هذه الورقة إطاراً نظرياً منهجياً لنماذج التعلم الآلي الواعية بعدم اليقين (مثل الشبكات العصبية البايزية) لتوصيف والقضاء على الأخطاء الناجمة عن عدم اليقين القابل للاختزال (المعرفي). تقدم الورقة تعريفاً منهجياً لخطأ المعرفة وتوفر حدوداً تحليلية لخطأ المعرفة في الإعداد العام جداً للتعلم متعدد المهام غير الكامل تحت تحول التوزيع. في هذا الإعداد، قد تأتي بيانات التدريب (المصدر) من مهام متعددة، وقد تختلف بيانات الاختبار (الهدف) بشكل منهجي عن مهام المصدر، و/أو قد يفشل المتعلم في توصيف بيانات المصدر بدقة. يعزو الحد خطأ المعرفة إلى جوانب متعددة من عملية التعلم والبيئة.

خلفية البحث والدافع

تعريف المشكلة

المشكلة الأساسية التي يعالجها هذا البحث هي: كيفية توفير إطار نظري لمتعلمي الوعي بعدم اليقين لتوصيف وتقليل خطأ المعرفة؟ بشكل محدد:

قيود نظرية التعلم التقليدية: تركز نظرية التعلم الإحصائي الحالية بشكل أساسي على خطأ التعميم، لكنها غير كافية للمتعلمين الذين يقومون بتحديد كمي عدم اليقين في الإخراج.
الخلط بين أنواع عدم اليقين: تخلط الطرق التقليدية بين عدم اليقين المعرفي القابل للاختزال وعدم اليقين العشوائي غير القابل للاختزال، مما يفشل في توجيه تحسينات النموذج بفعالية.
نقص الدعم النظري للسيناريوهات المعقدة: في سيناريوهات التعلم متعدد المهام والتحول التوزيعي والتعلم غير الكامل المعقدة والواقعية، يوجد نقص في التوجيه النظري.

أهمية البحث

القيمة التطبيقية العملية: في المجالات عالية المخاطر مثل الطب، يعتبر تحديد كمي دقيق لعدم اليقين أمراً حاسماً
تحسين النظرية: ملء الفجوة في نظرية التعلم الواعية بعدم اليقين
توجيه الممارسة: توفير أساس نظري لاختيار النموذج والتحسين

قيود الطرق الموجودة

لا يمكن لنظرية PAC والأطر التقليدية الأخرى التمييز بين خطأ المعرفة والخطأ العشوائي
نقص إطار نظري موحد لسيناريوهات التعلم متعدد المهام وتحول التوزيع
عادة ما تفترض الحدود الموجودة التعلم الكامل أو عدم وجود تحول توزيعي

المساهمات الأساسية

إدخال مفهوم حد خطأ المعرفة: اقتراح أداة نظرية جديدة تسمى حد خطأ المعرفة، مخصصة للمتعلمين الواعين بعدم اليقين
حد خطأ المعرفة التحليلي: توفير حد في الإعداد العام للتعلم متعدد المهام غير الكامل وتحول التوزيع يحلل خطأ المعرفة إلى ثلاثة مكونات
متغيرات الحالات الخاصة: توفير حدود خطأ معرفة متخصصة لنقل التعلم البايزي وتحول التوزيع داخل الحي ε
تعريف جديد للنقل السلبي: توفير توصيف نظري جديد لظاهرة النقل السلبي بناءً على الحدود

شرح الطريقة

تعريف المهمة

يُعرّف خطأ المعرفة بأنه درجة الخطأ في فهم المتعلم لعملية توليد البيانات (DGP)، ويتم تشكيله رسمياً كـ: $e := d_{TV}(\hat{P}, Q^t)$

حيث $\hat{P}$ هي توزيع التنبؤ للمتعلم، و $Q^t$ هو توزيع مهمة الهدف، و $d_{TV}$ هي مسافة التباين الكلي.

الإطار النظري الأساسي

إعداد التعلم متعدد المهام

توزيع المهام: تُأخذ المهام نفسها من توزيع مهام من الدرجة الثانية $\mathcal{Q} \in \Delta(\Delta_X)$
مهام المصدر: تأتي بيانات التدريب من $n$ مهام مصدر، كل مهمة $Q \sim \mathcal{Q}^S$
مهمة الهدف: مهمة الاختبار $Q^t \sim \mathcal{Q}^T$
تحول التوزيع: يحدث عندما $\mathcal{Q}^S \neq \mathcal{Q}^T$

التعريفات الرئيسية

مركز توزيع المهام (التعريف 1): $\bar{Q}(x) := \int_{\Delta_X} Q(x) q(Q) dQ = \mathbb{E}_{Q \sim \mathcal{Q}}[Q(x)]$
تباين توزيع المهام (التعريف 2): $V[\mathcal{Q}] := \sup_{x \in X} \int_{\Delta_X} [Q(x) - \bar{Q}(x)]^2 q(Q) dQ$
انحياز التقريب (التعريف 7): $B := d_{TV}(P^*, \bar{Q}^S)$ حيث $P^* = \arg\min_{P \in \pi} d_{TV}(P, \bar{Q}^S)$
عدم الكفاية في التقارب (التعريف 8): $C := d_{TV}(\hat{P}, P^*)$
درجة تحول التوزيع (التعريف 9): $D := d_{TV}(\bar{Q}^S, \bar{Q}^T)$

النتائج النظرية الرئيسية

النظرية 1 (النتيجة الرئيسية)

بالنظر إلى فئة النموذج $\pi$ ، والمتنبئ $\hat{P} \in \pi$ ، وتوزيع مهام المصدر $\mathcal{Q}^S$ ، وتوزيع مهام الهدف المحدود من الدرجة الثانية $\mathcal{Q}^T$ :

$\Pr(e \geq \alpha + B + C + D) \leq \frac{V[\mathcal{Q}^T]}{\alpha^2}$

يحلل هذا الحد خطأ المعرفة إلى:

B: قيود النموذج (انحياز التقريب)
C: ندرة البيانات (عدم الكفاية في التقارب)
D: تحول التوزيع
$V[\mathcal{Q}^T]$ : تباين مهمة الهدف

خطوط إثبات

استخدام عدم المساواة في المثلث في فضاء متري لبناء مسار: $d_{TV}(\hat{P}, Q^t) \leq d_{TV}(\hat{P}, P^*) + d_{TV}(P^*, \bar{Q}^S) + d_{TV}(\bar{Q}^S, \bar{Q}^T) + d_{TV}(\bar{Q}^T, Q^t)$

دمج عدم مساواة Chebyshev للتحكم في تأثير تباين المهام.

نقاط الابتكار التقني

إطار موحد: معالجة التعلم متعدد المهام والتعلم غير الكامل وتحول التوزيع في إطار واحد للمرة الأولى
تحليل تحليلي: تحليل خطأ المعرفة المعقد إلى مكونات قابلة للتفسير
توجيه عملي: يتوافق كل مكون مع استراتيجيات تحسين محددة
الصرامة النظرية: بناءً على تحليل فضاء متري صارم ونظرية الاحتمالات

تحليل الحالات الخاصة

نقل التعلم البايزي (المتغير 1)

بالنسبة لمتعلم بايزي، يمكن التعبير عن حد عدم الكفاية في التقارب كتقارب الخلفية البارامترية: $C^{\Theta} := d_{TV}(P^{\Theta}_1, P^{\Theta}_*)$

يربط هذا مباشرة تقارب الخلفية بخطأ المعرفة.

حي التباين الكلي (المتغير 2)

تحت قيود الحي $\varepsilon$ : $\Pr(e \geq \alpha + B + C + D) \leq \frac{\beta}{\alpha^2}(V[\mathcal{Q}^S] + \text{vol}(\mathcal{Q}^T))$

حيث $\beta = (1-b_T)/b_S$ ، و $\text{vol}(\mathcal{Q}^T) = (\text{diam}(\mathcal{Q}^S) + \varepsilon)^2$ .

التحقق التجريبي

إعداد التجربة

النموذج: الانحدار الخطي البايزي
توليد البيانات: $x \sim N(\beta_1^S \xi_1 + \beta_2^S \xi_2, \sigma^S)$
الأولويات: نموذج Normal-Inverse-Gamma
تقريب المسافة: استخدام عدم مساواة Pinsker لتقريب مسافة التباين الكلي

النتائج التجريبية الرئيسية

تأثير تقارب الخلفية (الشكل 1a): ينخفض خطأ المعرفة مع زيادة احتمالية تقارب الخلفية للمعاملات المولدة للبيانات المصدرية
تأثير حجم الحي (الشكل 1b): يزداد خطأ المعرفة مع زيادة حجم الحي $\varepsilon$
ظاهرة النقل السلبي (الشكل 3): ترتبط صرامة الحد ارتباطاً وثيقاً بظاهرة النقل السلبي

النتائج التجريبية

توافق عالي بين التنبؤات النظرية والملاحظات التجريبية
تصبح الحدود أكثر ارتخاءً في حالات النقل السلبي، وهو ما يتوافق مع التحليل النظري
تختلف الأهمية النسبية لكل مكون حسب السيناريو

الأعمال ذات الصلة

نظرية التعلم الإحصائي

تعميم المجال متعدد المهام: Baxter (2000)، أعمال Maurer وآخرين، لكن لم تأخذ في الاعتبار تحول التوزيع
نظرية التكيف المجالي: Redko وآخرون (2019)، لكن يفترضون أن المتعلم يعرف تحول التوزيع
نظرية التعلم Credal: Caprio وآخرون (2024)، لكن محدود بمتعلمين محددين

تحديد كمي عدم اليقين

التعلم العميق البايزي: Papamarkou وآخرون (2024)
التنبؤ المطابق: Angelopoulos و Bates (2023)
التعلم Credal: Caprio وآخرون (2024)

مزايا هذه الورقة

إعداد أكثر عمومية: معالجة التعلم متعدد المهام والتعلم غير الكامل وتحول التوزيع في نفس الوقت
مستقل عن المتعلم: لا يعتمد على خوارزمية تعلم محددة
تحليل تحليلي: توفير توجيه قابل للتطبيق للتحسين

الخلاصة والمناقشة

الاستنتاجات الرئيسية

توفير أول حد تحليلي لخطأ المعرفة للمتعلمين الواعين بعدم اليقين
العمل في إعداد عام جداً، يغطي سيناريوهات عملية متعددة
توفير إطار نظري توجيهي لاختيار النموذج والتحسين

القيود

التعقيد الحسابي: عادة ما يكون من الصعب حساب مسافة التباين الكلي بدقة
الافتراضات: تتطلب افتراضات تقنية مثل التوزيعات المحدودة من الدرجة الثانية
التنبؤ المطابق: لا يمكن للإطار توصيف إعداد التنبؤ المطابق بالكامل
التحقق التجريبي: التحقق فقط على بيانات اصطناعية منخفضة الأبعاد

الاتجاهات المستقبلية

التوسع إلى المهام والبيانات المعتمدة على الوقت
توصيف كامل لإعداد التنبؤ المطابق
التحقق التجريبي على البيانات عالية الأبعاد والحقيقية
تطوير نسخ حدود أسهل في الحساب

التقييم المتعمق

المزايا

قوة الابتكار النظري: أول إطار نظري منهجي للتعلم الواعي بعدم اليقين
قيمة عملية عالية: يوجه التحليل التحليلي التحسينات العملية مباشرة
الصرامة الرياضية: إثبات كامل وأساس نظري متين
الوضوح في الكتابة: هيكل منطقي وتعريفات مفاهيم واضحة

أوجه القصور

الجدوى الحسابية: التحديات في الحساب العملي للنتائج النظرية
قيود التجربة: نطاق وتعقيد التجارب محدود
الافتراضات الصارمة: قد يكون من الصعب تلبية بعض الافتراضات التقنية في الممارسة
نطاق التطبيق: الدعم غير الكامل لبعض طرق تحديد كمي عدم اليقين (مثل التنبؤ المطابق)

التأثير

المساهمة النظرية: وضع أساس لنظرية التعلم الواعية بعدم اليقين
التوجيه العملي: توفير أساس لاختيار النموذج في التطبيقات عالية المخاطر
الإلهام البحثي: فتح اتجاهات بحثية جديدة

السيناريوهات المطبقة

التشخيص الطبي: التنبؤات السريرية التي تتطلب تحديد كمي دقيق لعدم اليقين
مخاطر مالية: نمذجة المخاطر في بيئات أسواق متعددة
القيادة الذاتية: اتخاذ القرارات الآمنة تحت تغيير البيئة
الاكتشاف العلمي: نقل المعرفة بين المجالات

المراجع

تستشهد هذه الورقة بأعمال مهمة في نظرية التعلم الإحصائي والاستدلال البايزي وتحديد كمي عدم اليقين، بما في ذلك:

Shalev-Shwarz & Ben-David (2014): أساسيات نظرية التعلم الإحصائي
Papamarkou et al. (2024): التعلم العميق البايزي
Angelopoulos & Bates (2023): التنبؤ المطابق
Redko et al. (2019): نظرية التكيف المجالي

هذه ورقة ذات مساهمة مهمة في نظرية التعلم الآلي الواعية بعدم اليقين، وتوفر أساساً نظرياً متيناً وإطار تحليل عملي لهذا المجال. على الرغم من وجود مجال للتحسين في الجدوى الحسابية والتحقق التجريبي، فإن ابتكارها النظري وقيمتها العملية تجعلها عملاً مهماً في هذا المجال.