2025-11-14T22:04:10.870857

Characterizing the Multiclass Learnability of Forgiving 0-1 Loss Functions

Trauger, Trauger, Tewari

In this paper we will give a characterization of the learnability of forgiving 0-1 loss functions in the finite label multiclass setting. To do this, we create a new combinatorial dimension that is based off of the Natarajan Dimension and we show that a hypothesis class is learnable in our setting if and only if this Generalized Natarajan Dimension is finite. We also show a connection to learning with set-valued feedback. Through our results we show that the learnability of a set learning problem is characterized by the Natarajan Dimension.

academic

توصيف قابلية التعلم متعددة الفئات لدوال الخسارة المتسامحة 0-1

المعلومات الأساسية

معرف الورقة: 2510.08382
العنوان: توصيف قابلية التعلم متعددة الفئات لدوال الخسارة المتسامحة 0-1
المؤلفون: جاكوب تراوجر (جامعة ميشيغان)، تايسون تراوجر (جامعة ولاية أوهايو)، أمبوج تيواري (جامعة ميشيغان)
التصنيف: cs.LG (التعلم الآلي)، stat.ML (الإحصائيات - التعلم الآلي)
وقت النشر: أكتوبر 2025 (نسخة arXiv المسبقة)
رابط الورقة: https://arxiv.org/abs/2510.08382

الملخص

تقدم هذه الورقة توصيفاً لقابلية التعلم لدوال الخسارة المتسامحة 0-1 في إعدادات التصنيف متعدد الفئات ذات العلامات المحدودة. لهذا الغرض، ابتكر المؤلفون بُعداً توليفياً جديداً بناءً على بُعد ناتاراجان وأثبتوا أن فئة الافتراضات قابلة للتعلم في هذا الإعداد إذا وفقط إذا كان هذا البُعد الناتاراجاني المعمم محدوداً. تُظهر الورقة أيضاً الارتباط مع التعلم بالتغذية الراجعة ذات القيمة المحددة، حيث تشير النتائج إلى أن قابلية التعلم لمشاكل التعلم المحددة يتم توصيفها ببُعد ناتاراجان.

خلفية البحث والدافع

خلفية المشكلة

في نظرية التعلم الآلي، يُعتبر توصيف قابلية التعلم لمهام التصنيف مسألة أساسية. بالنسبة للتصنيف الثنائي، يوصف بُعد VC بشكل كامل قابلية التعلم PAC؛ وبالنسبة للتصنيف متعدد الفئات في الحالات ذات العلامات المحدودة، يلعب بُعد ناتاراجان دوراً مماثلاً. ومع ذلك، تستند جميع هذه النظريات إلى دالة الخسارة المعيارية 0-1، التي تتمتع بخاصية "تطابق اللامتمايزات" (Identity of Indiscernibles)، أي أن الخسارة تساوي صفراً إذا وفقط إذا كانت العلامتان متساويتان.

دافع البحث

في التطبيقات العملية، غالباً ما يكون هناك حاجة لدوال خسارة أكثر "تسامحاً"، على سبيل المثال:

مهام إعادة صياغة الجمل: قد تكون جمل متعددة مختلفة بمثابة إعادة صياغة صحيحة
المقاييس المستندة إلى الحد الأدنى: يمكن قبول المخرجات ضمن نطاق حد معين
التعلم بالتغذية الراجعة ذات القيمة المحددة: يحتاج التنبؤ فقط إلى أن يكون ضمن مجموعة معينة

في هذه السيناريوهات، قد تنتج مخرجات متعددة مختلفة خسارة صفرية لنفس العلامة الحقيقية، مما يكسر الافتراضات الأساسية للنظرية التقليدية.

قيود الطرق الموجودة

تستند جميع نظريات قابلية التعلم الموجودة (بُعد VC، بُعد ناتاراجان، وغيرها) بشكل ضمني إلى ربط تساوي العلامات بقيمة الخسارة. عندما لا تفي دالة الخسارة بخاصية تطابق اللامتمايزات، لا تنطبق هذه النظريات بعد الآن، وهناك حاجة إلى إطار نظري جديد لتوصيف قابلية التعلم.

المساهمات الأساسية

اقتراح بُعد ناتاراجان المعمم: ابتكار بُعد توليفي جديد بناءً على بُعد ناتاراجان، مناسب لدوال الخسارة المتسامحة 0-1
توصيف كامل لقابلية التعلم: إثبات أن فئة الافتراضات قابلة للتعلم PAC تحت الخسارة المتسامحة 0-1 إذا وفقط إذا كان البُعد الناتاراجاني المعمم محدوداً
حل مشاكل التعلم المحددة: توصيف قابلية التعلم للتعلم بالتغذية الراجعة ذات القيمة المحددة في الإعداد الدفعي لأول مرة
إنشاء إطار نظري: تأسيس نظرية تعلم منهجية لدوال الخسارة التي لا تفي بخاصية تطابق اللامتمايزات

شرح الطريقة

تعريف المهمة

فضاء الإدخال: $X$ (فضاء إدخال تعسفي) فضاء الإخراج: $Y = [k]$ (مجموعة علامات محدودة، $|Y| = k$ ) فئة الافتراضات: $H \subset Y^X$ دالة الخسارة: $\ell: Y \times Y \to \{0,1\}$ ، تحقق القيود التالية:

الثنائية: $\forall y_1, y_2 \in Y, \ell(y_1, y_2) \in \{0,1\}$
التماثل: $\forall y_1, y_2 \in Y, \ell(y_1, y_2) = \ell(y_2, y_1)$
عدم الاحتواء: $\forall y_1, y_2 \in Y, \sigma(y_1) \not\subset \sigma(y_2)$
الانعكاسية: $\forall y \in Y, \ell(y, y) = 0$

حيث $\sigma(y) = \{y' | \ell(y, y') = 0\}$ تمثل جميع العلامات التي تنتج خسارة صفرية مع $y$ .

بناء النظرية الأساسية

1. البُعد الناتاراجاني المعمم

التعريف 4 (البُعد الناتاراجاني المعمم): تقوم فئة الافتراضات $H$ بتفتيت مجموعة ناتاراجان معممة $S = \{s_1, ..., s_n\}$ ، إذا كان هناك $h_1, h_2 \in H$ بحيث:

شرط الفصل: $\forall s_i \in S, \sigma(h_1(s_i)) \neq \sigma(h_2(s_i))$
شرط التحقق: $\forall S' \subseteq S$ $\forall S^{'} \subseteq S$ ، يوجد $h \in H$ $h \in H$ بحيث:
- $\forall s \in S': \sigma(h(s)) = \sigma(h_1(s))$
- $\forall s \in S \setminus S': \sigma(h(s)) = \sigma(h_2(s))$

البُعد الناتاراجاني المعمم $\text{GNdim}(H, \ell)$ هو أساس أكبر مجموعة يمكن لـ $H$ تفتيتها بطريقة ناتاراجان معممة.

2. بناء مشاكل التعلم المكافئة

الرؤية الأساسية: من خلال تعريف علاقة التكافؤ $y \sim y' \Leftrightarrow \sigma(y) = \sigma(y')$ ، يتم تحويل المشكلة الأصلية إلى مشكلة تعلم متعددة فئات معيارية على الفضاء الحاصل $Y_C = Y/\sim$ .

اللمة 1: دالة الخسارة تحترم علاقة التكافؤ، أي إذا كان $y_1 \sim y_1'$ و $y_2 \sim y_2'$ ، فإن $\ell(y_1, y_2) = \ell(y_1', y_2')$ .

النتيجة 1: مشكلة التعلم الأصلية $(X, Y, H, \ell)$ مكافئة لمشكلة التعلم على الفضاء الحاصل $(X, Y_C, H_C, \ell_C)$ .

النتيجة 2: $\text{GNdim}(H, \ell) = \text{Ndim}(H_C)$

النظريات الرئيسية

النظرية 1 (النتيجة الرئيسية): مشكلة التعلم $(X, Y, H, \ell)$ قابلة للتعلم PAC إذا وفقط إذا كان $\text{GNdim}(H, \ell) < \infty$ .

خطوط الإثبات

الضرورة (اللمة 2):

استخدام البرهان بالتناقض، بافتراض أن $\text{GNdim}(H, \ell) = \infty$
بناء عائلة توزيعات معادية بحيث لا يؤدي أي خوارزمية تعلم بشكل جيد على بعض التوزيعات
الاستفادة من خاصية التفتيت لبناء عائلة دوال معقدة على $2^m$ نقطة
إثبات احتمالي لوجود توزيع محقق بحيث تكون خسارة أي خوارزمية على الأقل $\frac{1}{2k}$

الكفاية (اللمة 3):

الاستفادة من بناء مشكلة التعلم المكافئة
تحليل الخسارة الأصلية إلى مجموع خطي لخسائر 0-1 معيارية: $1 - L_D(h) = \sum_{i=1}^k (1 - L_{D_i}(h))$
نظراً لأن $H_C$ تتمتع ببُعد ناتاراجان محدود، فإنها تتمتع بخاصية التقارب المنتظم
إثبات فعالية خوارزمية ERM من خلال الحد المشترك

الإعداد التجريبي

هذه ورقة نظرية بحتة، تعتمد بشكل أساسي على الإثبات الرياضي للتحقق من النتائج النظرية، بدون إعداد تجريبي بالمعنى التقليدي. يتم التحقق النظري من خلال الطرق التالية:

طرق التحقق النظري

الإثبات البنائي: إثبات الضرورة من خلال بناء توزيعات معادية محددة
إثبات الاختزال: اختزال المشاكل المعقدة إلى مشاكل تعلم متعددة فئات معيارية معروفة
تحليل البُعد: توصيف قابلية التعلم من خلال محدودية البُعد التوليفي

تحليل الأمثلة التطبيقية

تتحقق الورقة من صحة النظرية من خلال مشاكل التعلم المحددة، وتبني مصفوفات خسارة محددة لتوضيح قابلية تطبيق النظرية.

النتائج التجريبية

النتائج النظرية الرئيسية

إكمال إثبات النظرية 1: إثبات ناجح لأن البُعد الناتاراجاني المعمم يوصف بشكل كامل قابلية التعلم PAC لدوال الخسارة المتسامحة 0-1.

توصيف التعلم المحدد (النتيجة 3): بالنسبة لمشاكل التعلم المحددة، حيث يتم تعريف دالة الخسارة على النحو التالي: $\ell(y, v) = \begin{cases} 0 & y \in v \\ 1 & \text{خلاف ذلك} \end{cases}$

تم إثبات أن قابلية التعلم لهذه المشكلة يتم توصيفها ببُعد ناتاراجان المعياري، أي $\text{GNdim}(H, \ell) = \text{Ndim}(H)$ .

الرؤى النظرية

خاصية الحفاظ على البُعد: في كثير من الحالات، حتى عندما تصبح دالة الخسارة أكثر تسامحاً، قد يبقى التعقيد التعليمي (المقاس بالبُعد) دون تغيير
وجود التوزيعات المعادية: الطبيعة الصارمة لتعلم PAC تعني أنه حتى لو كانت دالة الخسارة صفرية في الغالب، قد لا تزال هناك توزيعات تجعل التعلم صعباً
أهمية الفضاء الحاصل: من خلال علاقات التكافؤ المناسبة، يمكن اختزال مشاكل التعلم المعقدة إلى مشاكل معيارية

الأعمال ذات الصلة

نظرية التعلم الكلاسيكية

نظرية VC: Vapnik & Chervonenkis (1974) وضعت أساس نظرية قابلية التعلم للتصنيف الثنائي
بُعد ناتاراجان: Natarajan (1989) وسعت النظرية إلى التصنيف متعدد الفئات
بُعد DS: Daniely & Shalev-Shwartz (2014) تعاملت مع حالات العلامات اللانهائية

إعدادات التعلم الموسعة

فئات المفاهيم الجزئية: Alon et al. (2022) درست فئات المفاهيم المعرفة جزئياً
التعلم متعدد المخرجات: Raman et al. (2024) وصفت مشاكل التعلم متعددة المخرجات
التعلم المحدد على الإنترنت: Raman et al. (2024) درست التغذية الراجعة ذات القيمة المحددة في الإعداد على الإنترنت

موضع مساهمة هذه الورقة

تملأ هذه الورقة الفراغ في نظرية دوال الخسارة المتسامحة في الإعداد الدفعي، وتتعامل بشكل منهجي لأول مرة مع دوال الخسارة التي لا تفي بخاصية تطابق اللامتمايزات.

الخلاصة والنقاش

الاستنتاجات الرئيسية

التوصيف الكامل: البُعد الناتاراجاني المعمم يوصف بشكل كامل قابلية التعلم PAC لدوال الخسارة المتسامحة 0-1
حل التعلم المحدد: توصيف كامل لقابلية التعلم للتعلم المحدد في الإعداد الدفعي لأول مرة
توحيد النظرية: تأسيس إطار نظري موحد لدوال الخسارة التي لا تفي بخاصية تطابق اللامتمايزات

القيود

افتراض التماثل: تتطلب النظرية الحالية تماثل دالة الخسارة، وقد يكون هذا الافتراض صارماً جداً
قيد العلامات المحدودة: تنطبق النظرية فقط على حالات العلامات المحدودة، والتوسع إلى العلامات اللانهائية لا يزال قيد البحث
معدل التعلم: على الرغم من توصيف قابلية التعلم، لم يتم تحليل كيفية تغير معدل التعلم مع درجة تسامح دالة الخسارة

الاتجاهات المستقبلية

إزالة افتراض التماثل: دراسة قابلية التعلم لدوال الخسارة غير المتماثلة
توسع العلامات اللانهائية: مشابه لتوسع بُعد DS لبُعد ناتاراجان
تحليل معدل التعلم: دراسة كيفية اعتماد التعقيد العينة على درجة تسامح دالة الخسارة
تصميم الخوارزميات: تصميم خوارزميات فعالة متخصصة لدوال الخسارة المتسامحة

التقييم المتعمق

المميزات

الابتكار النظري قوي: أول معالجة منهجية لدوال الخسارة التي لا تفي بخاصية تطابق اللامتمايزات، ملء فراغ نظري مهم
الصرامة الرياضية: إثبات كامل وصارم، خاصة الحيلة الذكية في اختزال المشاكل المعقدة إلى مشاكل معروفة من خلال بناء الفضاء الحاصل
القيمة العملية عالية: حل الأساس النظري لمشاكل مثل التعلم المحدد، ذات قيمة تطبيقية مهمة
الكتابة واضحة: هيكل الورقة واضح، التعبير الرياضي دقيق، سهل الفهم والتحقق

أوجه القصور

قيود الافتراضات: افتراضات التماثل والعلامات المحدودة تحد من نطاق تطبيق النظرية
نقص تحليل الخوارزميات: على الرغم من إثبات فعالية ERM، لم يتم تحليل عميق لتصميم الخوارزميات والتحسين
عدم كفاية التحقق التجريبي: كعمل نظري بحت، يفتقر إلى التحقق على مجموعات البيانات الفعلية وحالات التطبيق
تحليل التعقيد غير مكتمل: لم يتم توفير حدود محددة لتعقيد العينة

التأثير

مساهمة نظرية كبيرة: فتح اتجاه بحثي جديد في نظرية التعلم، من المتوقع أن يثير الكثير من الأبحاث اللاحقة
قيمة عملية كبيرة: توفير أساس نظري لمشاكل مثل التعلم المحدد والتعلم متعدد العلامات
قابلية إعادة الإنتاج جيدة: النتائج النظرية تستند بالكامل على الإثبات الرياضي، مع قابلية إعادة إنتاج مثالية
قوة الإلهام: قد تنطبق الطرق التقنية المقترحة (بناء الفضاء الحاصل، العلاقات المكافئة، وغيرها) على مشاكل نظرية تعلم أخرى

السيناريوهات القابلة للتطبيق

التنبؤ بالقيمة المحددة: أنظمة التوصيات واسترجاع المعلومات وغيرها من السيناريوهات التي تحتاج إلى إرجاع مجموعة مرشحة
التعلم متعدد العلامات: تصنيف النصوص وتوسيم الصور وغيرها من المهام التي تسمح بإجابات صحيحة متعددة
التعلم القوي: سيناريوهات التعلم التي تحتاج إلى تحمل ضوضاء العلامات
التعلم التقريبي: مهام التنبؤ التي تسمح بدرجة معينة من التقريب

المراجع

تستشهد الورقة بالأدبيات المهمة في مجال نظرية التعلم، بما في ذلك:

Vapnik & Chervonenkis (1974): العمل الأساسي لنظرية VC
Natarajan (1989): المساهمة المهمة في نظرية التعلم متعدد الفئات
Shalev-Shwartz & Ben-David (2014): كتاب نظرية التعلم الحديثة
الأعمال الحديثة ذات الصلة مثل Daniely et al., Brukhim et al., Raman et al. وغيرها

التقييم الشامل: هذه ورقة نظرية عالية الجودة تقدم مساهمات مهمة في مجال نظرية التعلم. على الرغم من وجود بعض قيود الافتراضات، فإنها تفتح اتجاهاً بحثياً جديداً وتتمتع بقيمة نظرية وعملية مهمة.