2025-11-24T02:10:17.177762

On the Alignment Between Supervised and Self-Supervised Contrastive Learning

Luthra, Mishra, Galanti
Self-supervised contrastive learning (CL) has achieved remarkable empirical success, often producing representations that rival supervised pre-training on downstream tasks. Recent theory explains this by showing that the CL loss closely approximates a supervised surrogate, Negatives-Only Supervised Contrastive Learning (NSCL) loss, as the number of classes grows. Yet this loss-level similarity leaves an open question: {\em Do CL and NSCL also remain aligned at the representation level throughout training, not just in their objectives?} We address this by analyzing the representation alignment of CL and NSCL models trained under shared randomness (same initialization, batches, and augmentations). First, we show that their induced representations remain similar: specifically, we prove that the similarity matrices of CL and NSCL stay close under realistic conditions. Our bounds provide high-probability guarantees on alignment metrics such as centered kernel alignment (CKA) and representational similarity analysis (RSA), and they clarify how alignment improves with more classes, higher temperatures, and its dependence on batch size. In contrast, we demonstrate that parameter-space coupling is inherently unstable: divergence between CL and NSCL weights can grow exponentially with training time. Finally, we validate these predictions empirically, showing that CL-NSCL alignment strengthens with scale and temperature, and that NSCL tracks CL more closely than other supervised objectives. This positions NSCL as a principled bridge between self-supervised and supervised learning. Our code and project page are available at [\href{https://github.com/DLFundamentals/understanding_ssl_v2}{code}, \href{https://dlfundamentals.github.io/cl-nscl-representation-alignment/}{project page}].
academic

حول المحاذاة بين التعلم الخاضع للإشراف والتعلم الخاضع للإشراف الذاتي بالتناقض

المعلومات الأساسية

  • معرّف الورقة: 2510.08852
  • العنوان: حول المحاذاة بين التعلم الخاضع للإشراف والتعلم الخاضع للإشراف الذاتي بالتناقض
  • المؤلفون: Achleshwar Luthra, Priyadarsi Mishra, Tomer Galanti (جامعة تكساس A&M)
  • التصنيف: cs.LG
  • تاريخ النشر: 9 أكتوبر 2025 (نسخة أولية)
  • رابط الورقة: https://arxiv.org/abs/2510.08852v1

الملخص

حقق التعلم الخاضع للإشراف الذاتي بالتناقض (CL) نجاحاً تجريبياً ملحوظاً، حيث ينتج عادة تمثيلات يمكن مقارنتها بالتدريب المسبق الخاضع للإشراف. تفسر الأعمال النظرية الحديثة هذه الظاهرة، مما يدل على أنه عندما يزداد عدد الفئات، يقترب فقدان CL بشكل وثيق من وكيل خاضع للإشراف - فقدان التعلم الخاضع للإشراف بالتناقض ذي العينات السلبية فقط (NSCL). ومع ذلك، فإن هذا التشابه على مستوى الفقدان يترك سؤالاً مفتوحاً: هل يبقى CL و NSCL محاذيين على مستوى التمثيل طوال عملية التدريب، وليس فقط على مستوى دالة الهدف؟

تعالج هذه الورقة هذا السؤال من خلال تحليل محاذاة التمثيل لنماذج CL و NSCL المدربة تحت عشوائية مشتركة (نفس التهيئة والدفعات وتعزيز البيانات). تثبت الدراسة أن التمثيلات المستحثة تحافظ على التشابه: بشكل محدد، تثبت أن مصفوفات التشابه لـ CL و NSCL تبقى قريبة تحت ظروف واقعية. توفر الحدود ضمانات احتمالية عالية لمقاييس المحاذاة (مثل محاذاة النواة المركزية CKA وتحليل التشابه التمثيلي RSA)، وتوضح كيف تتحسن المحاذاة مع المزيد من الفئات ودرجات حرارة أعلى، وتعتمديتها على حجم الدفعة.

السياق البحثي والدافع

المشكلة الأساسية

المشكلة الأساسية التي تعالجها هذه الورقة هي: هل يبقى التعلم الخاضع للإشراف الذاتي بالتناقض (CL) والتعلم الخاضع للإشراف بالتناقض ذي العينات السلبية فقط (NSCL) محاذيين على مستوى التمثيل طوال عملية التدريب؟

دافع البحث

  1. الفجوة بين النجاح التجريبي والتفسير النظري: بينما يؤدي CL بشكل ممتاز في الممارسة العملية، لا يزال غامضاً لماذا يتعلم ميزات محاذاة مع حدود الفئات الدلالية
  2. عدم كفاية التشابه على مستوى الفقدان: الأعمال السابقة (Luthra et al., 2025) أثبتت فقط تشابه CL و NSCL على مستوى دالة الفقدان، لكن هذا لا يضمن اتساق مسارات التحسين
  3. أهمية محاذاة التمثيل: التشابه على مستوى الفقدان لا يضمن أن تبقى المعاملات والتمثيلات مقترنة طوال التدريب، وقد تتباعد بسبب الاختلافات في الانحناء أو ضوضاء التدرج أو جدولة معدل التعلم

قيود الطرق الموجودة

  • منظور تعظيم المعلومات المتبادلة: ربطت النظرية المبكرة CL بتعظيم المعلومات المتبادلة بين الآراء، لكن القيود المفرطة تقلل الأداء اللاحقة
  • الاستقامة والتوحيد: بينما تكون المعايير الهندسية بديهية، إلا أنها لا تفسر بالكامل كيفية تنظيم الفئات الدلالية المختلفة تحت تدريب CL
  • نظرية استرجاع التجميع: تعتمد معظم النتائج على افتراضات مقيدة، مثل استقلالية التعزيز المشروط بهوية التجميع المعطاة

المساهمات الأساسية

  1. المساهمات النظرية:
    • إثبات أن مصفوفات التشابه لـ CL و NSCL تبقى قريبة طوال التدريب تحت العشوائية المشتركة
    • توفير حدود احتمالية عالية لمقاييس محاذاة CKA و RSA
    • الكشف عن كيفية تغير المحاذاة مع عدد الفئات ومعامل درجة الحرارة وحجم الدفعة
  2. الابتكار المنهجي:
    • الانتقال من تحليل فضاء المعاملات إلى فضاء التمثيل، مما يتجنب عدم الاستقرار الكامن في اقتران فضاء المعاملات
    • إنشاء ديناميكيات وكيل "انخفاض التشابه" التي تتابع بأمانة تطور التشابه المستحث بواسطة SGD في فضاء المعاملات
  3. التحقق التجريبي:
    • التحقق من التنبؤات النظرية على مجموعات بيانات متعددة
    • إثبات أن NSCL أقرب إلى CL من الطرق الخاضعة للإشراف الأخرى
    • تأكيد تحسن المحاذاة مع الحجم ودرجة الحرارة

شرح الطريقة

تعريف المهمة

بالنظر إلى مجموعة بيانات متوازنة الفئات S={(xi,yi)}i=1NX×[C]S = \{(x_i, y_i)\}_{i=1}^N \subset \mathcal{X} \times [C]، حيث يحتوي كل فئة على nn عينة (N=CnN = Cn). يقوم المشفر fw:XRdf_w: \mathcal{X} \to \mathbb{R}^d بتعيين المدخلات إلى تضمينات.

الطريقة الأساسية: تحليل فضاء التشابه

1. ديناميكيات مصفوفة التشابه

دع Σt[1,1]N×N\Sigma_t \in [-1,1]^{N \times N} تكون مصفوفة التشابه الثنائية للمجموعة المرجعية الثابتة في الخطوة tt. تحليل التطور المقترن للتشابه لـ CL و NSCL: ΣtCL,ΣtNSCL[1,1]N×N\Sigma^{CL}_t, \Sigma^{NSCL}_t \in [-1,1]^{N \times N}

2. انخفاض التشابه الوكيل

بالنسبة للدفعة الصغيرة المحققة Bt={(xj,xj,yj)}j=1BB_t = \{(x_j, x'_j, y_j)\}_{j=1}^B، حدد خريطة تدرج الدفعة: GtCL:=ΣˉBtCL(ΣtCL),GtNSCL:=ΣˉBtNSCL(ΣtNSCL)G^{CL}_t := \nabla_\Sigma \bar{\ell}^{CL}_{B_t}(\Sigma^{CL}_t), \quad G^{NSCL}_t := \nabla_\Sigma \bar{\ell}^{NSCL}_{B_t}(\Sigma^{NSCL}_t)

التحديث الوكيل هو: Σt+1CL=ΣtCLηtGtCL,Σt+1NSCL=ΣtNSCLηtGtNSCL\Sigma^{CL}_{t+1} = \Sigma^{CL}_t - \eta_t G^{CL}_t, \quad \Sigma^{NSCL}_{t+1} = \Sigma^{NSCL}_t - \eta_t G^{NSCL}_t

النتائج النظرية الرئيسية

النظرية 1: الاقتران في فضاء التشابه

باحتمالية لا تقل عن 1δ1-\delta، لأي تسلسل خطوة (ηt)t=0T1(\eta_t)_{t=0}^{T-1}: ΣTCLΣTNSCLFexp(12τ2Bt=0T1ηt)1τB(t=0T1ηt)ΔC,δ(B;τ)\|\Sigma^{CL}_T - \Sigma^{NSCL}_T\|_F \leq \exp\left(\frac{1}{2\tau^2 B}\sum_{t=0}^{T-1}\eta_t\right) \frac{1}{\tau\sqrt{B}}\left(\sum_{t=0}^{T-1}\eta_t\right)\Delta_{C,\delta}(B;\tau)

حيث ΔC,δ(B;τ)=2e2/τ(1C+ϵB,δ)11CϵB,δ\Delta_{C,\delta}(B;\tau) = \frac{2e^{2/\tau}(\frac{1}{C}+\epsilon_{B,\delta})}{1-\frac{1}{C}-\epsilon_{B,\delta}}، و ϵB,δ=12Blog(TBδ)\epsilon_{B,\delta} = \sqrt{\frac{1}{2B}\log(\frac{TB}{\delta})}.

الحدود السفلى لـ CKA و RSA

النتيجة 1 (الحد الأدنى لـ CKA):تحت إعدادات النظرية 1، باحتمالية لا تقل عن 1δ1-\delta: CKAT1ρT1+ρTCKA_T \geq \frac{1-\rho_T}{1+\rho_T}

النتيجة 2 (الحد الأدنى لـ RSA):بالمثل: RSAT1rT1+rTRSA_T \geq \frac{1-r_T}{1+r_T}

نقاط الابتكار التقني

  1. من فضاء المعاملات إلى فضاء التمثيل: تجنب مشاكل الانحراف الأسي في فضاء المعاملات
  2. استخدام الأرثوجونالية الكتلية: الاستفادة من الأرثوجونالية لتدرجات نقاط الارتساء المختلفة لتبسيط التحليل
  3. استقرار التعديل بدرجة الحرارة: المصطلح 1τ2B\frac{1}{\tau^2 B} في العامل الأسي يجعل فضاء التشابه أكثر استقراراً من فضاء المعاملات

إعداد التجارب

مجموعات البيانات

  • CIFAR-10/100: 50,000 صورة تدريب، 10,000 صورة تحقق
  • Mini-ImageNet: مجموعة فرعية من 100 فئة من ImageNet-1K
  • Tiny-ImageNet: 100,000 صورة بحجم 64×64، 200 فئة
  • ImageNet-1K: مجموعة بيانات ImageNet الكاملة

مقاييس التقييم

  • محاذاة النواة المركزية الخطية (CKA): الناتج الداخلي المعياري لمصفوفات التشابه المركزية
  • تحليل التشابه التمثيلي (RSA): ارتباط بيرسون للعناصر غير القطرية لمصفوفات عدم التشابه التمثيلي
  • دقة مصنف أقرب مركز فئة (NCCC) والاختبار الخطي (LP)

الطرق المقارنة

  • NSCL: التعلم الخاضع للإشراف بالتناقض ذي العينات السلبية فقط
  • SCL: التعلم الخاضع للإشراف بالتناقض (Khosla et al., 2020)
  • CE: فقدان الإنتروبيا المتقاطعة

تفاصيل التنفيذ

  • البنية المعمارية: مشفر ResNet-50 + رأس إسقاط MLP ثنائي الطبقات
  • المحسّن: محسّن LARS، الزخم 0.9، تحلل الوزن 1e-6
  • حجم الدفعة: 1024
  • معدل التعلم: معدل التعلم الأساسي 0.3، مقياس حسب حجم الدفعة
  • استراتيجية التدريب: 10 جولات إحماء + جدولة معدل التعلم بالجيب

نتائج التجارب

النتائج الرئيسية

1. مقارنة المحاذاة بين طرق الإشراف المختلفة

عبر جميع مجموعات البيانات، تحافظ NSCL باستمرار على أعلى محاذاة مع CL:

  • Tiny-ImageNet: يصل CKA لـ CL-NSCL إلى 0.87 بعد 1000 جولة، بينما CL-SCL يصل فقط إلى 0.043
  • ترتيب المحاذاة: NSCL > CE > SCL

2. تأثير عدد الفئات على المحاذاة

التحقق من التنبؤات النظرية: المزيد من الفئات يؤدي إلى محاذاة أقوى بين CL و NSCL

  • عبر جميع مجموعات البيانات، تزداد قيم RSA و CKA بشكل رتيب مع زيادة عدد فئات التدريب CC'
  • التحقق الكامل على ImageNet-1K من فئتين إلى 1000 فئة

3. تأثير معامل درجة الحرارة

درجات حرارة أعلى تحسن المحاذاة، مما يتحقق من التحليل النظري:

  • أعلى محاذاة عند τ=1.0\tau = 1.0
  • تناقص متتالي عند τ=0.5\tau = 0.5 و τ=0.1\tau = 0.1
  • يحافظ على اتجاه متسق عبر جميع مجموعات البيانات

4. تأثير حجم الدفعة

تغييرات المحاذاة تحت جداول معدل التعلم المختلفة:

  • مقياس O(B): تنخفض المحاذاة مع زيادة حجم الدفعة
  • مقياس O(√B)، O(∜B)، O(1): تزداد المحاذاة مع حجم الدفعة
  • تتطابق النتائج مع اعتماد الحدود النظرية على العلاقة

فضاء الأوزان مقابل فضاء التمثيل

  • فضاء الأوزان: تتباعد معاملات CL والطرق الخاضعة للإشراف بسرعة
  • فضاء التمثيل: يحافظ CKA و RSA على محاذاة عالية (>0.8)
  • يثبت استقرار محاذاة التمثيل مقابل تباعد المعاملات

أداء المهام اللاحقة

مجموعة البياناتCL(NCCC/LP)NSCL(NCCC/LP)SCL(NCCC/LP)CE(NCCC/LP)
CIFAR-1088.37/90.1694.47/94.0994.93/94.6792.97/93.39
CIFAR-10054.62/65.6560.14/68.3864.06/69.5267.35/68.04
Mini-ImageNet60.78/65.3063.92/72.6074.78/76.0075.20/74.00
Tiny-ImageNet40.59/44.6140.76/45.7948.63/48.7348.28/52.57

الأعمال ذات الصلة

نظرية التعلم بالتناقض

  1. منظور المعلومات المتبادلة: ربطت الأعمال المبكرة CL بتعظيم المعلومات المتبادلة، لكن القيود المفرطة تضر بالأداء
  2. المنظور الهندسي: خصائص الاستقامة والتوحيد، لكنها لا تفسر بالكامل تنظيم الفئات الدلالية
  3. استرجاع التجميع: معظمها يعتمد على افتراضات مقيدة، مثل الاستقلالية الشرطية

الاتصالات بالتعلم الخاضع للإشراف

  1. النماذج الخطية: أهداف التعلم الذاتي مثل VicReg تتطابق مع خسائر التربيع الخاضعة للإشراف
  2. حدود بدون تسميات: يعتمد العمل على Luthra et al. (2025) الذي يؤسس الاقتران الصريح بين CL و NSCL

أبحاث نظرية أخرى

  • ديناميكيات تعلم الميزات، دور التعزيز، تحليل رأس الإسقاط، تعقيد العينات، وغيرها

الخلاصة والنقاش

الاستنتاجات الرئيسية

  1. استقرار محاذاة التمثيل: يحافظ CL و NSCL على اقتران وثيق في فضاء التمثيل، على الرغم من أن المعاملات قد تتباعد
  2. اتساق النظرية والممارسة: التجارب تتحقق من التنبؤات النظرية لتأثيرات عدد الفئات ودرجة الحرارة وحجم الدفعة
  3. NSCL كجسر: تتابع NSCL CL بشكل أفضل من الطرق الخاضعة للإشراف الأخرى، وهي جسر أساسي بين التعلم الذاتي والخاضع للإشراف

القيود

  1. إحكام الحدود: قد تكون الحدود النظرية فضفاضة جداً في حالات الحجم الكبير والتدريب الطويل
  2. تحليل الحالة الأسوأ: استخدام حدود التركيز الموحدة ذات الاحتمالية العالية، مما يفضل العمومية على الإحكام
  3. العامل الأسي: في التدريب الكبير الذي يتجاوز بضع جولات، قد يجعل العامل الأسي الحد غير فعال

الاتجاهات المستقبلية

  1. حدود أكثر إحكاماً: الاستفادة من البنية المعتمدة على البيانات بدلاً من حدود الحالة الأسوأ
  2. التوسع إلى نماذج SSL أخرى: توسيع الإطار إلى طرق غير تناقضية
  3. تحسينات عملية: تحسين فائدة الضمانات مع الحفاظ على الاستقرار

التقييم المتعمق

المزايا

  1. مساهمة نظرية كبيرة: أول ضمانات نظرية صارمة لمحاذاة CL-NSCL في فضاء التمثيل
  2. ابتكار منهجي: نهج تحليل فضاء التشابه جديد وفعال
  3. تجارب شاملة: التحقق من التنبؤات النظرية عبر مجموعات بيانات متعددة من زوايا مختلفة، مع تصميم تجريبي معقول
  4. قيمة عملية: توفير منظور جديد لفهم آليات نجاح التعلم الذاتي

أوجه القصور

  1. فائدة الحدود: قد تكون الحدود النظرية فضفاضة جداً للتطبيق العملي
  2. قيود الافتراضات: افتراض العشوائية المشتركة قد لا يكون واقعياً في التطبيقات العملية
  3. قيود الطريقة: تركز فقط على نموذج التعلم بالتناقض، لا تغطي طرق SSL الأخرى

التأثير

  1. الأهمية النظرية: توفير إضافة مهمة لنظرية التعلم الذاتي
  2. الإلهام المنهجي: قد تلهم طريقة تحليل فضاء التشابه الأبحاث اللاحقة
  3. التوجيه العملي: توفير أساس نظري لاختيار وكيل إشراف مناسب

السيناريوهات المعمول بها

  • البحث الذي يتطلب فهم العلاقة بين التعلم الذاتي والخاضع للإشراف
  • التحليل النظري لطرق التعلم بالتناقض
  • أبحاث استقرار التعلم التمثيلي

المراجع

  1. Luthra et al. (2025): التعلم الخاضع للإشراف الذاتي بالتناقض يقارب تقريباً التعلم الخاضع للإشراف بالتناقض
  2. Chen et al. (2020): إطار عمل بسيط للتعلم بالتناقض للتمثيلات البصرية (SimCLR)
  3. Khosla et al. (2020): التعلم الخاضع للإشراف بالتناقض
  4. Kornblith et al. (2019): تشابه التمثيلات العصبية معاد النظر فيه (CKA)
  5. Kriegeskorte et al. (2008): تحليل التشابه التمثيلي

الملخص: تؤسس هذه الورقة نظرياً اتصالاً عميقاً بين التعلم الخاضع للإشراف الذاتي بالتناقض والتعلم الخاضع للإشراف، وتثبت من خلال التحليل الرياضي الصارم محاذاة على مستوى التمثيل، مما يوفر رؤية مهمة لفهم آليات نجاح التعلم الذاتي. على الرغم من أن فائدة الحدود النظرية محدودة، فإن ابتكارها المنهجي والتحقق التجريبي يساهمان بشكل مهم في التطور النظري في هذا المجال.