Self-supervised representation learning has achieved impressive empirical success, yet its theoretical understanding remains limited. In this work, we provide a theoretical perspective by formulating self-supervised representation learning as an approximation to supervised representation learning objectives. Based on this formulation, we derive a loss function closely related to popular contrastive losses such as InfoNCE, offering insight into their underlying principles. Our derivation naturally introduces the concepts of prototype representation bias and a balanced contrastive loss, which help explain and improve the behavior of self-supervised learning algorithms. We further show how components of our theoretical framework correspond to established practices in contrastive learning. Finally, we empirically validate the effect of balancing positive and negative pair interactions. All theoretical proofs are provided in the appendix, and our code is included in the supplementary material.
- معرّف الورقة: 2510.10572
- العنوان: فهم التعلم التباعدي ذاتي الإشراف من خلال أهداف موجهة بالإشراف
- المؤلف: Byeongchan Lee (KAIST)
- التصنيف: cs.LG (تعلم الآلة)
- مؤتمر النشر: Transactions on Machine Learning Research (10/2025)
- رابط الورقة: https://arxiv.org/abs/2510.10572
حقق التعلم التمثيلي ذاتي الإشراف نجاحاً مثيراً للإعجاب من الناحية التجريبية، لكن فهمه النظري لا يزال محدوداً. تقدم هذه الورقة منظوراً نظرياً من خلال صياغة التعلم التمثيلي ذاتي الإشراف كتقريب لأهداف التعلم التمثيلي الموجه بالإشراف. بناءً على هذه الصياغة، يشتق المؤلف دوال خسارة مرتبطة ارتباطاً وثيقاً بخسائر التباعد الشهيرة مثل InfoNCE، مما يوفر رؤية لفهم مبادئها الأساسية. تقدم عملية الاشتقاق بشكل طبيعي مفاهيم انحياز التمثيل النموذجي وخسارة التباعد المتوازنة، مما يساعد في شرح وتحسين سلوك خوارزميات التعلم ذاتي الإشراف.
- نقص الفهم النظري: على الرغم من النجاح التجريبي للتعلم ذاتي الإشراف، فإن أساسه النظري لا يزال غير كافٍ، مع نقص في الفهم العميق لسبب فعالية هذه الطرق.
- الطبيعة التجريبية لتصميم الطرق: تتقدم طرق التعلم ذاتي الإشراف الحالية بشكل أساسي من خلال الابتكار المعماري، وليس من الأهداف الرسمية، مما يفتقر إلى التوجيه النظري.
- العلاقة غير الواضحة بين الموجه والذاتي: لم يتم شرح الروابط الجوهرية بين التعلم الموجه والتعلم ذاتي الإشراف بشكل كافٍ.
- بناء الأساس النظري: توفير أساس نظري متين للتعلم ذاتي الإشراف، وشرح الأسباب الجذرية لفعاليته
- توجيه تحسين الطرق: توفير توجيه أصولي لتصميم الخوارزميات من خلال التحليل النظري
- ربط الموجه والذاتي: إنشاء روابط نظرية بين نموذجي التعلم
- بناء إطار نظري: اقتراح إطار نظري يصيغ التعلم التمثيلي ذاتي الإشراف كتقريب للتعلم التمثيلي الموجه بالإشراف، واشتقاق دوال خسارة تباعدية مرتبطة ارتباطاً وثيقاً بخسارة InfoNCE
- توفير رؤى نظرية: توفير تفسيرات نظرية للممارسات الشائعة في التعلم التباعدي (مثل تطبيع التمثيل، استخدام مجموعات البيانات المتوازنة)
- إدخال مفاهيم: إدخال مفهوم انحياز التمثيل النموذجي (prototype representation bias)، ومراقبة ارتباطه بأداء المصب
- تحسين الطرق: اقتراح خسارة التباعد المتوازنة كامتداد طبيعي لخسارة InfoNCE، تحقيق أداء أفضل من خلال تحسين التوازن
تعريف مهمة التعلم التمثيلي كتعلم مشفر fθ:X→Rd∖{0} بحيث:
- تتجمع تمثيلات الصور ذات المفاهيم البصرية المتطابقة معاً
- تنفصل تمثيلات الصور ذات المفاهيم البصرية المختلفة عن بعضها
أولاً، صياغة التعلم الموجه كمشكلة تحسين نموذجية:
minθ−s(fθ(t(x)),μy)+λmaxy′=ys(fθ(t(x)),μy′)
حيث:
- s(⋅,⋅) هو مقياس التشابه (التشابه الكوسيني)
- μy هو التمثيل النموذجي للتصنيف y
- λ>0 هو معامل التوازن
تعريف التمثيل النموذجي كتوقع تمثيلات الصور من نفس التصنيف:
μ^y:=ET,X∣yfθ(T(X))
في إعداد التعلم ذاتي الإشراف، استخدام تمثيل نموذجي بديل:
μ~:=ETfθ(T(x))
تحت افتراضات التشابه الكوسيني وتطبيع L2:
−s(fθ(t(x)),ETfθ(T(x)))≤−ETs(fθ(t(x)),fθ(T(x)))
تحت افتراض مجموعة البيانات المتوازنة:
maxy′=ys(fθ(t(x)),ET′,X′∣y′fθ(T′(X′)))≤ET′[να1logEX′exp(αs(fθ(t(x)),fθ(T′(X′))))]+να1logn
دمج الحدود العليا المذكورة أعلاه:
l~(θ)=α∣T^∣1∑t′∈T^[−log(∑x′∈X^exp(αs(fθ(t(x)),fθ(t′(x′)))))λ/νexp(αs(fθ(t(x)),fθ(t′(x))))]
- جسر نظري: إنشاء أول رابط نظري رسمي بين التعلم الموجه والتعلم ذاتي الإشراف
- اشتقاق الحدود العليا: الحصول على حدود قابلة للمعالجة من خلال الاشتقاق الرياضي الصارم
- تحليل انحياز النموذج: تحديد كمي للانحياز الناتج عن التقريب ذاتي الإشراف وتحليل تأثيره
- تصميم خسارة متوازنة: اقتراح دالة خسارة محسّنة بناءً على التحليل النظري
- مجموعة البيانات الرئيسية: ImageNet (1,281,167 صورة تدريب، 50,000 صورة تحقق، 1,000 فئة)
- مجموعات البيانات الإضافية: CIFAR-10 (50,000 صورة تدريب، 10,000 صورة اختبار، 10 فئات)
- مجموعات البيانات غير المتوازنة: ImageNet-LT (115,846 صورة، تتبع توزيع باريتو)
- التقييم الخطي: تجميد العمود الفقري المدرب مسبقاً، تدريب دقة التصنيف الخطي من الدرجة الأولى
- تقييم k-NN: دقة تصنيف k-NN بناءً على تشابه التمثيل
- طرق الأساس: SimCLR والمتغيرات الخاصة به
- متغيرات دالة الخسارة:
- خسارة التباعد المتوازنة
- خسارة NT-Xent المعممة
- خسارة التباعد المفكوكة
- البنية المعمارية: ResNet-50 backbone + مشفر MLP بـ 3 طبقات
- إعدادات التدريب: حجم الدفعة 512، 100 حقبة، محسّن SGD
- تعزيز البيانات: القص العشوائي، تشويه اللون، تحويل الرمادي، التمويه الغاوسي، القلب الأفقي
- العلاقة بين انحياز التمثيل النموذجي والأداء:
- SimCLR الأساسي: دقة 65.98%، انحياز 36.72
- إزالة التمويه الغاوسي: دقة 64.57%، انحياز 37.43
- إضافة الدوران العشوائي: دقة 63.30%، انحياز 38.11
- الاكتشاف: يتوافق الانحياز الأقل للتمثيل النموذجي مع دقة أعلى
- تأثير مقياس التشابه:
- التشابه الكوسيني + التطبيع: 65.98%
- الضرب النقطي (بدون تطبيع): 0.43%
- المسافة الإقليدية السالبة (بدون تطبيع): 10.63%
- تأثير توازن البيانات:
- التوزيع المنتظم: 20.82%
- التوزيع طويل الذيل: 13.65%
- خسارة التباعد المتوازنة: أفضل أداء عند (α=4, λ=2) تصل إلى 67.40%
- خسارة NT-Xent المعممة: أفضل أداء عند (α=2, λ=2) تصل إلى 66.85%
- تحسن الأداء: تحسن خسارة التباعد المتوازنة بحوالي 1.5% مقارنة بـ NT-Xent القياسية
- خسارة التباعد المتوازنة: أفضل أداء عند (α=1, λ=4) تصل إلى 86.08%
- خسارة NT-Xent المعممة: أفضل أداء عند (α=2, λ=2) تصل إلى 85.85%
التحقق من التنبؤات النظرية من خلال إضافة/إزالة تحويلات مختلفة:
- إزالة تشويه اللون: انخفاض الأداء إلى 62.56%
- إضافة قطع عشوائي: تحسن الأداء إلى 65.76%
- إعداد الأساس: 65.98%
- حد الجذب الأعلى: الفجوة تتناقص تدريجياً وتستقر أثناء التدريب
- حد الدفع الأعلى: يحافظ على فجوة أكبر نسبياً مقارنة بحد الجذب لكنها قابلة للتحكم
- التطور التاريخي: من خسارة التباعد لـ Chopra وآخرين (2005) إلى خسارة triplet وخسارة InfoNCE
- مساهمة هذه الورقة: توفير منظور نظري جديد بناءً على التقريب من التعلم الموجه
- المنظورات الحالية:
- منظور تعظيم المعلومات المتبادلة
- منظور التعلم الموحد للتغاير
- منظور تعلم التضمين الطيفي
- الابتكار في هذه الورقة: أول رابط نظري صريح مع التعلم الموجه
- تصميم البنية: شبكات Siamese، مشفرات الزخم، عمليات stop-gradient
- التفسير النظري: توفير أساس نظري لهذه الممارسات
- التوحيد النظري: نجح في بناء جسر نظري بين التعلم الموجه والتعلم ذاتي الإشراف
- التوجيه العملي: توفير تفسيرات نظرية للممارسات الشائعة في التعلم التباعدي
- تحسين الطرق: تحقيق تحسن في الأداء من خلال خسارة التباعد المتوازنة المقترحة بناءً على التحليل النظري
- قيود الافتراضات: يعتمد التحليل النظري على افتراضات مثل التشابه الكوسيني وتطبيع L2 ومجموعات البيانات المتوازنة
- خطأ التقريب: لا يزال الانحياز الناتج عن التقريب ذاتي الإشراف يتطلب مزيد من البحث
- نطاق التجارب: التحقق الأساسي على مهام تصنيف الصور، مع عدم استكشاف الملاءمة في المجالات الأخرى
- توسيع النظرية: تخفيف الافتراضات الحالية، بناء إطار نظري أكثر عمومية
- تحسين الطرق: تصميم خوارزميات تعلم ذاتي إشراف أكثر فعالية بناءً على تحليل الانحياز
- توسيع التطبيقات: توسيع الإطار النظري إلى طرائق وحالات استخدام أخرى
- قوة الابتكار: توفير أول رابط نظري رسمي بين التعلم الموجه والتعلم ذاتي الإشراف
- صرامة الاشتقاق: عملية الاشتقاق الرياضي كاملة، مع توفير جميع الإثباتات في الملحق
- عمق الرؤية: يوفر مفهوم انحياز التمثيل النموذجي منظوراً جديداً لفهم التعلم ذاتي الإشراف
- تصميم معقول: يتم تصميم التجارب بشكل وثيق حول التنبؤات النظرية، مع تحقق شامل
- نتائج مقنعة: توافق عالي بين التنبؤات النظرية والنتائج التجريبية
- تحليل شامل: التحقق من الإطار النظري من زوايا متعددة
- تحسين الطرق: تحقيق خسارة التباعد المتوازنة لتحسن فعلي في الأداء
- معنى التوجيه: توفير توجيه نظري لتصميم خوارزميات التعلم ذاتي الإشراف
- إمكانية التكرار: توفير تفاصيل تنفيذ كاملة والأكواد
- افتراضات قوية: يعتمد التحليل النظري على افتراضات تقييدية متعددة، قد تحد من نطاق التطبيق
- تقريب خشن: قد تقدم بعض التقريبات في الاشتقاق النظري أخطاء أكبر
- قابلية التعميم غير المختبرة: لم يتم التحقق الكافي من قابلية تطبيق الإطار النظري في المجالات الأخرى
- مجموعات بيانات محدودة: التحقق الأساسي على ImageNet و CIFAR-10، مع نقص التقييم على مجموعات بيانات متنوعة أكثر
- مهام موحدة: التركيز الأساسي على تصنيف الصور، مع عدم كفاية التحقق من مهام الرؤية الأخرى
- طرق مقارنة محدودة: المقارنة الأساسية مع عائلة SimCLR، مع نقص المقارنة مع طرق التعلم ذاتي الإشراف الأخرى
- أساس نظري: توفير أساس نظري مهم لمجال التعلم ذاتي الإشراف
- إلهام البحث: قد يلهم المزيد من أعمال التحليل النظري
- توجيه الطرق: توفير توجيه نظري لتصميم الخوارزميات اللاحقة
- تحسن الأداء: تحقيق خسارة التباعد المتوازنة لتحسن فعلي في الأداء
- مبادئ التصميم: توفير مبادئ تصميم الخوارزميات للممارسين
- توجيه ضبط المعاملات: توفير أساس نظري لاختيار المعاملات الفائقة
- سيناريوهات البحث: مناسبة لأبحاث خوارزميات التعلم ذاتي الإشراف التي تتطلب توجيهاً نظرياً
- التطبيقات الصناعية: مناسبة لتطبيقات رؤية الحاسوب التي تتطلب تمثيلات عالية الجودة
- الأغراض التعليمية: مناسبة كمادة تعليمية لفهم مبادئ التعلم ذاتي الإشراف
تستشهد هذه الورقة بأعمال مهمة في مجالات التعلم ذاتي الإشراف والتعلم التباعدي وتعلم التمثيل، بما في ذلك:
- Chen et al. (2020a): إطار عمل SimCLR
- He et al. (2020): طريقة MoCo
- Oord et al. (2018): خسارة InfoNCE
- Wang & Isola (2020): تحليل التوافق والتوحيد في التعلم التباعدي
التقييم الشامل: هذه ورقة عالية الجودة في التحليل النظري، نجحت في بناء جسر نظري بين التعلم الموجه والتعلم ذاتي الإشراف، وتوفير رؤى مهمة لفهم فعالية التعلم التباعدي. على الرغم من وجود بعض قيود الافتراضات النظرية، فإن مساهماتها ذات أهمية كبيرة لتعزيز التطور النظري لمجال التعلم ذاتي الإشراف.