2025-11-19T09:43:12.754426

Understanding Self-supervised Contrastive Learning through Supervised Objectives

Lee

Self-supervised representation learning has achieved impressive empirical success, yet its theoretical understanding remains limited. In this work, we provide a theoretical perspective by formulating self-supervised representation learning as an approximation to supervised representation learning objectives. Based on this formulation, we derive a loss function closely related to popular contrastive losses such as InfoNCE, offering insight into their underlying principles. Our derivation naturally introduces the concepts of prototype representation bias and a balanced contrastive loss, which help explain and improve the behavior of self-supervised learning algorithms. We further show how components of our theoretical framework correspond to established practices in contrastive learning. Finally, we empirically validate the effect of balancing positive and negative pair interactions. All theoretical proofs are provided in the appendix, and our code is included in the supplementary material.

academic

فهم التعلم التباعدي ذاتي الإشراف من خلال أهداف موجهة بالإشراف

المعلومات الأساسية

معرّف الورقة: 2510.10572
العنوان: فهم التعلم التباعدي ذاتي الإشراف من خلال أهداف موجهة بالإشراف
المؤلف: Byeongchan Lee (KAIST)
التصنيف: cs.LG (تعلم الآلة)
مؤتمر النشر: Transactions on Machine Learning Research (10/2025)
رابط الورقة: https://arxiv.org/abs/2510.10572

الملخص

حقق التعلم التمثيلي ذاتي الإشراف نجاحاً مثيراً للإعجاب من الناحية التجريبية، لكن فهمه النظري لا يزال محدوداً. تقدم هذه الورقة منظوراً نظرياً من خلال صياغة التعلم التمثيلي ذاتي الإشراف كتقريب لأهداف التعلم التمثيلي الموجه بالإشراف. بناءً على هذه الصياغة، يشتق المؤلف دوال خسارة مرتبطة ارتباطاً وثيقاً بخسائر التباعد الشهيرة مثل InfoNCE، مما يوفر رؤية لفهم مبادئها الأساسية. تقدم عملية الاشتقاق بشكل طبيعي مفاهيم انحياز التمثيل النموذجي وخسارة التباعد المتوازنة، مما يساعد في شرح وتحسين سلوك خوارزميات التعلم ذاتي الإشراف.

خلفية البحث والدافع

المشاكل الأساسية

نقص الفهم النظري: على الرغم من النجاح التجريبي للتعلم ذاتي الإشراف، فإن أساسه النظري لا يزال غير كافٍ، مع نقص في الفهم العميق لسبب فعالية هذه الطرق.
الطبيعة التجريبية لتصميم الطرق: تتقدم طرق التعلم ذاتي الإشراف الحالية بشكل أساسي من خلال الابتكار المعماري، وليس من الأهداف الرسمية، مما يفتقر إلى التوجيه النظري.
العلاقة غير الواضحة بين الموجه والذاتي: لم يتم شرح الروابط الجوهرية بين التعلم الموجه والتعلم ذاتي الإشراف بشكل كافٍ.

دافع البحث

بناء الأساس النظري: توفير أساس نظري متين للتعلم ذاتي الإشراف، وشرح الأسباب الجذرية لفعاليته
توجيه تحسين الطرق: توفير توجيه أصولي لتصميم الخوارزميات من خلال التحليل النظري
ربط الموجه والذاتي: إنشاء روابط نظرية بين نموذجي التعلم

المساهمات الأساسية

بناء إطار نظري: اقتراح إطار نظري يصيغ التعلم التمثيلي ذاتي الإشراف كتقريب للتعلم التمثيلي الموجه بالإشراف، واشتقاق دوال خسارة تباعدية مرتبطة ارتباطاً وثيقاً بخسارة InfoNCE
توفير رؤى نظرية: توفير تفسيرات نظرية للممارسات الشائعة في التعلم التباعدي (مثل تطبيع التمثيل، استخدام مجموعات البيانات المتوازنة)
إدخال مفاهيم: إدخال مفهوم انحياز التمثيل النموذجي (prototype representation bias)، ومراقبة ارتباطه بأداء المصب
تحسين الطرق: اقتراح خسارة التباعد المتوازنة كامتداد طبيعي لخسارة InfoNCE، تحقيق أداء أفضل من خلال تحسين التوازن

شرح الطريقة

تعريف المهمة

تعريف مهمة التعلم التمثيلي كتعلم مشفر $f_θ: \mathcal{X} → \mathbb{R}^d \setminus \{0\}$ بحيث:

تتجمع تمثيلات الصور ذات المفاهيم البصرية المتطابقة معاً
تنفصل تمثيلات الصور ذات المفاهيم البصرية المختلفة عن بعضها

الإطار النظري

مشكلة التعلم التمثيلي الموجه بالإشراف

أولاً، صياغة التعلم الموجه كمشكلة تحسين نموذجية: $\min_θ -s(f_θ(t(x)), μ_y) + λ \max_{y' ≠ y} s(f_θ(t(x)), μ_{y'})$

حيث:

$s(·,·)$ هو مقياس التشابه (التشابه الكوسيني)
$μ_y$ هو التمثيل النموذجي للتصنيف $y$
$λ > 0$ هو معامل التوازن

بناء التمثيل النموذجي

تعريف التمثيل النموذجي كتوقع تمثيلات الصور من نفس التصنيف: $\hat{μ}_y := \mathbb{E}_{T,X|y}f_θ(T(X))$

التقريب ذاتي الإشراف

في إعداد التعلم ذاتي الإشراف، استخدام تمثيل نموذجي بديل: $\tilde{μ} := \mathbb{E}_T f_θ(T(x))$

الاشتقاق النظري

الحد الأعلى لحد الجذب (النظرية 4.4)

تحت افتراضات التشابه الكوسيني وتطبيع L2: $-s(f_θ(t(x)), \mathbb{E}_T f_θ(T(x))) ≤ -\mathbb{E}_T s(f_θ(t(x)), f_θ(T(x)))$

الحد الأعلى لحد الدفع (النظرية 4.6)

تحت افتراض مجموعة البيانات المتوازنة: $\max_{y' ≠ y} s(f_θ(t(x)), \mathbb{E}_{T',X'|y'}f_θ(T'(X'))) ≤ \mathbb{E}_{T'}\left[\frac{1}{να}\log\mathbb{E}_{X'}\exp(αs(f_θ(t(x)), f_θ(T'(X'))))\right] + \frac{1}{να}\log n$

دالة الخسارة الكلية

دمج الحدود العليا المذكورة أعلاه: $\tilde{l}(θ) = \frac{1}{α|\hat{T}|}\sum_{t' ∈ \hat{T}}\left[-\log\frac{\exp(αs(f_θ(t(x)), f_θ(t'(x))))}{\left(\sum_{x' ∈ \hat{X}}\exp(αs(f_θ(t(x)), f_θ(t'(x'))))\right)^{λ/ν}}\right]$

نقاط الابتكار التقني

جسر نظري: إنشاء أول رابط نظري رسمي بين التعلم الموجه والتعلم ذاتي الإشراف
اشتقاق الحدود العليا: الحصول على حدود قابلة للمعالجة من خلال الاشتقاق الرياضي الصارم
تحليل انحياز النموذج: تحديد كمي للانحياز الناتج عن التقريب ذاتي الإشراف وتحليل تأثيره
تصميم خسارة متوازنة: اقتراح دالة خسارة محسّنة بناءً على التحليل النظري

إعداد التجارب

مجموعات البيانات

مجموعة البيانات الرئيسية: ImageNet (1,281,167 صورة تدريب، 50,000 صورة تحقق، 1,000 فئة)
مجموعات البيانات الإضافية: CIFAR-10 (50,000 صورة تدريب، 10,000 صورة اختبار، 10 فئات)
مجموعات البيانات غير المتوازنة: ImageNet-LT (115,846 صورة، تتبع توزيع باريتو)

مقاييس التقييم

التقييم الخطي: تجميد العمود الفقري المدرب مسبقاً، تدريب دقة التصنيف الخطي من الدرجة الأولى
تقييم k-NN: دقة تصنيف k-NN بناءً على تشابه التمثيل

الطرق المقارنة

طرق الأساس: SimCLR والمتغيرات الخاصة به
متغيرات دالة الخسارة:
- خسارة التباعد المتوازنة
- خسارة NT-Xent المعممة
- خسارة التباعد المفكوكة

تفاصيل التنفيذ

البنية المعمارية: ResNet-50 backbone + مشفر MLP بـ 3 طبقات
إعدادات التدريب: حجم الدفعة 512، 100 حقبة، محسّن SGD
تعزيز البيانات: القص العشوائي، تشويه اللون، تحويل الرمادي، التمويه الغاوسي، القلب الأفقي

نتائج التجارب

النتائج الرئيسية

تجارب التحقق من النظرية

العلاقة بين انحياز التمثيل النموذجي والأداء:
- SimCLR الأساسي: دقة 65.98%، انحياز 36.72
- إزالة التمويه الغاوسي: دقة 64.57%، انحياز 37.43
- إضافة الدوران العشوائي: دقة 63.30%، انحياز 38.11
- الاكتشاف: يتوافق الانحياز الأقل للتمثيل النموذجي مع دقة أعلى
تأثير مقياس التشابه:
- التشابه الكوسيني + التطبيع: 65.98%
- الضرب النقطي (بدون تطبيع): 0.43%
- المسافة الإقليدية السالبة (بدون تطبيع): 10.63%
تأثير توازن البيانات:
- التوزيع المنتظم: 20.82%
- التوزيع طويل الذيل: 13.65%

تجارب معامل التوازن

نتائج ImageNet

خسارة التباعد المتوازنة: أفضل أداء عند (α=4, λ=2) تصل إلى 67.40%
خسارة NT-Xent المعممة: أفضل أداء عند (α=2, λ=2) تصل إلى 66.85%
تحسن الأداء: تحسن خسارة التباعد المتوازنة بحوالي 1.5% مقارنة بـ NT-Xent القياسية

نتائج CIFAR-10

خسارة التباعد المتوازنة: أفضل أداء عند (α=1, λ=4) تصل إلى 86.08%
خسارة NT-Xent المعممة: أفضل أداء عند (α=2, λ=2) تصل إلى 85.85%

تجارب الاستبعاد

تأثير استراتيجيات تعزيز البيانات

التحقق من التنبؤات النظرية من خلال إضافة/إزالة تحويلات مختلفة:

إزالة تشويه اللون: انخفاض الأداء إلى 62.56%
إضافة قطع عشوائي: تحسن الأداء إلى 65.76%
إعداد الأساس: 65.98%

تحليل إحكام الحد الأعلى

حد الجذب الأعلى: الفجوة تتناقص تدريجياً وتستقر أثناء التدريب
حد الدفع الأعلى: يحافظ على فجوة أكبر نسبياً مقارنة بحد الجذب لكنها قابلة للتحكم

الأعمال ذات الصلة

خسائر التعلم التباعدي

التطور التاريخي: من خسارة التباعد لـ Chopra وآخرين (2005) إلى خسارة triplet وخسارة InfoNCE
مساهمة هذه الورقة: توفير منظور نظري جديد بناءً على التقريب من التعلم الموجه

نظرية التعلم ذاتي الإشراف

المنظورات الحالية:
- منظور تعظيم المعلومات المتبادلة
- منظور التعلم الموحد للتغاير
- منظور تعلم التضمين الطيفي
الابتكار في هذه الورقة: أول رابط نظري صريح مع التعلم الموجه

ممارسات التعلم التباعدي

تصميم البنية: شبكات Siamese، مشفرات الزخم، عمليات stop-gradient
التفسير النظري: توفير أساس نظري لهذه الممارسات

الاستنتاج والمناقشة

الاستنتاجات الرئيسية

التوحيد النظري: نجح في بناء جسر نظري بين التعلم الموجه والتعلم ذاتي الإشراف
التوجيه العملي: توفير تفسيرات نظرية للممارسات الشائعة في التعلم التباعدي
تحسين الطرق: تحقيق تحسن في الأداء من خلال خسارة التباعد المتوازنة المقترحة بناءً على التحليل النظري

القيود

قيود الافتراضات: يعتمد التحليل النظري على افتراضات مثل التشابه الكوسيني وتطبيع L2 ومجموعات البيانات المتوازنة
خطأ التقريب: لا يزال الانحياز الناتج عن التقريب ذاتي الإشراف يتطلب مزيد من البحث
نطاق التجارب: التحقق الأساسي على مهام تصنيف الصور، مع عدم استكشاف الملاءمة في المجالات الأخرى

الاتجاهات المستقبلية

توسيع النظرية: تخفيف الافتراضات الحالية، بناء إطار نظري أكثر عمومية
تحسين الطرق: تصميم خوارزميات تعلم ذاتي إشراف أكثر فعالية بناءً على تحليل الانحياز
توسيع التطبيقات: توسيع الإطار النظري إلى طرائق وحالات استخدام أخرى

التقييم المتعمق

المميزات

المساهمات النظرية

قوة الابتكار: توفير أول رابط نظري رسمي بين التعلم الموجه والتعلم ذاتي الإشراف
صرامة الاشتقاق: عملية الاشتقاق الرياضي كاملة، مع توفير جميع الإثباتات في الملحق
عمق الرؤية: يوفر مفهوم انحياز التمثيل النموذجي منظوراً جديداً لفهم التعلم ذاتي الإشراف

التحقق التجريبي

تصميم معقول: يتم تصميم التجارب بشكل وثيق حول التنبؤات النظرية، مع تحقق شامل
نتائج مقنعة: توافق عالي بين التنبؤات النظرية والنتائج التجريبية
تحليل شامل: التحقق من الإطار النظري من زوايا متعددة

القيمة العملية

تحسين الطرق: تحقيق خسارة التباعد المتوازنة لتحسن فعلي في الأداء
معنى التوجيه: توفير توجيه نظري لتصميم خوارزميات التعلم ذاتي الإشراف
إمكانية التكرار: توفير تفاصيل تنفيذ كاملة والأكواد

أوجه القصور

القيود النظرية

افتراضات قوية: يعتمد التحليل النظري على افتراضات تقييدية متعددة، قد تحد من نطاق التطبيق
تقريب خشن: قد تقدم بعض التقريبات في الاشتقاق النظري أخطاء أكبر
قابلية التعميم غير المختبرة: لم يتم التحقق الكافي من قابلية تطبيق الإطار النظري في المجالات الأخرى

نقص التجارب

مجموعات بيانات محدودة: التحقق الأساسي على ImageNet و CIFAR-10، مع نقص التقييم على مجموعات بيانات متنوعة أكثر
مهام موحدة: التركيز الأساسي على تصنيف الصور، مع عدم كفاية التحقق من مهام الرؤية الأخرى
طرق مقارنة محدودة: المقارنة الأساسية مع عائلة SimCLR، مع نقص المقارنة مع طرق التعلم ذاتي الإشراف الأخرى

التأثير

المساهمات الأكاديمية

أساس نظري: توفير أساس نظري مهم لمجال التعلم ذاتي الإشراف
إلهام البحث: قد يلهم المزيد من أعمال التحليل النظري
توجيه الطرق: توفير توجيه نظري لتصميم الخوارزميات اللاحقة

القيمة العملية

تحسن الأداء: تحقيق خسارة التباعد المتوازنة لتحسن فعلي في الأداء
مبادئ التصميم: توفير مبادئ تصميم الخوارزميات للممارسين
توجيه ضبط المعاملات: توفير أساس نظري لاختيار المعاملات الفائقة

السيناريوهات المناسبة

سيناريوهات البحث: مناسبة لأبحاث خوارزميات التعلم ذاتي الإشراف التي تتطلب توجيهاً نظرياً
التطبيقات الصناعية: مناسبة لتطبيقات رؤية الحاسوب التي تتطلب تمثيلات عالية الجودة
الأغراض التعليمية: مناسبة كمادة تعليمية لفهم مبادئ التعلم ذاتي الإشراف

المراجع

تستشهد هذه الورقة بأعمال مهمة في مجالات التعلم ذاتي الإشراف والتعلم التباعدي وتعلم التمثيل، بما في ذلك:

Chen et al. (2020a): إطار عمل SimCLR
He et al. (2020): طريقة MoCo
Oord et al. (2018): خسارة InfoNCE
Wang & Isola (2020): تحليل التوافق والتوحيد في التعلم التباعدي

التقييم الشامل: هذه ورقة عالية الجودة في التحليل النظري، نجحت في بناء جسر نظري بين التعلم الموجه والتعلم ذاتي الإشراف، وتوفير رؤى مهمة لفهم فعالية التعلم التباعدي. على الرغم من وجود بعض قيود الافتراضات النظرية، فإن مساهماتها ذات أهمية كبيرة لتعزيز التطور النظري لمجال التعلم ذاتي الإشراف.