On the Alignment Between Supervised and Self-Supervised Contrastive Learning
Luthra, Mishra, Galanti
Self-supervised contrastive learning (CL) has achieved remarkable empirical success, often producing representations that rival supervised pre-training on downstream tasks. Recent theory explains this by showing that the CL loss closely approximates a supervised surrogate, Negatives-Only Supervised Contrastive Learning (NSCL) loss, as the number of classes grows. Yet this loss-level similarity leaves an open question: {\em Do CL and NSCL also remain aligned at the representation level throughout training, not just in their objectives?}
We address this by analyzing the representation alignment of CL and NSCL models trained under shared randomness (same initialization, batches, and augmentations). First, we show that their induced representations remain similar: specifically, we prove that the similarity matrices of CL and NSCL stay close under realistic conditions. Our bounds provide high-probability guarantees on alignment metrics such as centered kernel alignment (CKA) and representational similarity analysis (RSA), and they clarify how alignment improves with more classes, higher temperatures, and its dependence on batch size. In contrast, we demonstrate that parameter-space coupling is inherently unstable: divergence between CL and NSCL weights can grow exponentially with training time.
Finally, we validate these predictions empirically, showing that CL-NSCL alignment strengthens with scale and temperature, and that NSCL tracks CL more closely than other supervised objectives. This positions NSCL as a principled bridge between self-supervised and supervised learning. Our code and project page are available at [\href{https://github.com/DLFundamentals/understanding_ssl_v2}{code}, \href{https://dlfundamentals.github.io/cl-nscl-representation-alignment/}{project page}].
academic
حول المحاذاة بين التعلم الخاضع للإشراف والتعلم الخاضع للإشراف الذاتي بالتناقض
حقق التعلم الخاضع للإشراف الذاتي بالتناقض (CL) نجاحاً تجريبياً ملحوظاً، حيث ينتج عادة تمثيلات يمكن مقارنتها بالتدريب المسبق الخاضع للإشراف. تفسر الأعمال النظرية الحديثة هذه الظاهرة، مما يدل على أنه عندما يزداد عدد الفئات، يقترب فقدان CL بشكل وثيق من وكيل خاضع للإشراف - فقدان التعلم الخاضع للإشراف بالتناقض ذي العينات السلبية فقط (NSCL). ومع ذلك، فإن هذا التشابه على مستوى الفقدان يترك سؤالاً مفتوحاً: هل يبقى CL و NSCL محاذيين على مستوى التمثيل طوال عملية التدريب، وليس فقط على مستوى دالة الهدف؟
تعالج هذه الورقة هذا السؤال من خلال تحليل محاذاة التمثيل لنماذج CL و NSCL المدربة تحت عشوائية مشتركة (نفس التهيئة والدفعات وتعزيز البيانات). تثبت الدراسة أن التمثيلات المستحثة تحافظ على التشابه: بشكل محدد، تثبت أن مصفوفات التشابه لـ CL و NSCL تبقى قريبة تحت ظروف واقعية. توفر الحدود ضمانات احتمالية عالية لمقاييس المحاذاة (مثل محاذاة النواة المركزية CKA وتحليل التشابه التمثيلي RSA)، وتوضح كيف تتحسن المحاذاة مع المزيد من الفئات ودرجات حرارة أعلى، وتعتمديتها على حجم الدفعة.
المشكلة الأساسية التي تعالجها هذه الورقة هي: هل يبقى التعلم الخاضع للإشراف الذاتي بالتناقض (CL) والتعلم الخاضع للإشراف بالتناقض ذي العينات السلبية فقط (NSCL) محاذيين على مستوى التمثيل طوال عملية التدريب؟
الفجوة بين النجاح التجريبي والتفسير النظري: بينما يؤدي CL بشكل ممتاز في الممارسة العملية، لا يزال غامضاً لماذا يتعلم ميزات محاذاة مع حدود الفئات الدلالية
عدم كفاية التشابه على مستوى الفقدان: الأعمال السابقة (Luthra et al., 2025) أثبتت فقط تشابه CL و NSCL على مستوى دالة الفقدان، لكن هذا لا يضمن اتساق مسارات التحسين
أهمية محاذاة التمثيل: التشابه على مستوى الفقدان لا يضمن أن تبقى المعاملات والتمثيلات مقترنة طوال التدريب، وقد تتباعد بسبب الاختلافات في الانحناء أو ضوضاء التدرج أو جدولة معدل التعلم
بالنظر إلى مجموعة بيانات متوازنة الفئات S={(xi,yi)}i=1N⊂X×[C]، حيث يحتوي كل فئة على n عينة (N=Cn). يقوم المشفر fw:X→Rd بتعيين المدخلات إلى تضمينات.
دع Σt∈[−1,1]N×N تكون مصفوفة التشابه الثنائية للمجموعة المرجعية الثابتة في الخطوة t. تحليل التطور المقترن للتشابه لـ CL و NSCL:
ΣtCL,ΣtNSCL∈[−1,1]N×N
Luthra et al. (2025): التعلم الخاضع للإشراف الذاتي بالتناقض يقارب تقريباً التعلم الخاضع للإشراف بالتناقض
Chen et al. (2020): إطار عمل بسيط للتعلم بالتناقض للتمثيلات البصرية (SimCLR)
Khosla et al. (2020): التعلم الخاضع للإشراف بالتناقض
Kornblith et al. (2019): تشابه التمثيلات العصبية معاد النظر فيه (CKA)
Kriegeskorte et al. (2008): تحليل التشابه التمثيلي
الملخص: تؤسس هذه الورقة نظرياً اتصالاً عميقاً بين التعلم الخاضع للإشراف الذاتي بالتناقض والتعلم الخاضع للإشراف، وتثبت من خلال التحليل الرياضي الصارم محاذاة على مستوى التمثيل، مما يوفر رؤية مهمة لفهم آليات نجاح التعلم الذاتي. على الرغم من أن فائدة الحدود النظرية محدودة، فإن ابتكارها المنهجي والتحقق التجريبي يساهمان بشكل مهم في التطور النظري في هذا المجال.