2025-11-24T02:10:17.177762

On the Alignment Between Supervised and Self-Supervised Contrastive Learning

Luthra, Mishra, Galanti

Self-supervised contrastive learning (CL) has achieved remarkable empirical success, often producing representations that rival supervised pre-training on downstream tasks. Recent theory explains this by showing that the CL loss closely approximates a supervised surrogate, Negatives-Only Supervised Contrastive Learning (NSCL) loss, as the number of classes grows. Yet this loss-level similarity leaves an open question: {\em Do CL and NSCL also remain aligned at the representation level throughout training, not just in their objectives?} We address this by analyzing the representation alignment of CL and NSCL models trained under shared randomness (same initialization, batches, and augmentations). First, we show that their induced representations remain similar: specifically, we prove that the similarity matrices of CL and NSCL stay close under realistic conditions. Our bounds provide high-probability guarantees on alignment metrics such as centered kernel alignment (CKA) and representational similarity analysis (RSA), and they clarify how alignment improves with more classes, higher temperatures, and its dependence on batch size. In contrast, we demonstrate that parameter-space coupling is inherently unstable: divergence between CL and NSCL weights can grow exponentially with training time. Finally, we validate these predictions empirically, showing that CL-NSCL alignment strengthens with scale and temperature, and that NSCL tracks CL more closely than other supervised objectives. This positions NSCL as a principled bridge between self-supervised and supervised learning. Our code and project page are available at [\href{https://github.com/DLFundamentals/understanding_ssl_v2}{code}, \href{https://dlfundamentals.github.io/cl-nscl-representation-alignment/}{project page}].

academic

पर्यवेक्षित और स्व-पर्यवेक्षित विपरीत शिक्षा के बीच संरेखण पर

मूल जानकारी

पेपर ID: 2510.08852
शीर्षक: पर्यवेक्षित और स्व-पर्यवेक्षित विपरीत शिक्षा के बीच संरेखण पर
लेखक: Achleshwar Luthra, Priyadarsi Mishra, Tomer Galanti (टेक्सास A&M विश्वविद्यालय)
वर्गीकरण: cs.LG
प्रकाशन तिथि: 9 अक्टूबर 2025 (प्रीप्रिंट)
पेपर लिंक: https://arxiv.org/abs/2510.08852v1

सारांश

स्व-पर्यवेक्षित विपरीत शिक्षा (CL) ने अनुभवजन्य रूप से उल्लेखनीय सफलता प्राप्त की है, जो आमतौर पर पर्यवेक्षित पूर्व-प्रशिक्षण के साथ तुलनीय प्रतिनिधित्व उत्पन्न करती है। हाल के सिद्धांत ने इस घटना की व्याख्या की है, जो दर्शाता है कि जब वर्गों की संख्या बढ़ती है, तो CL हानि एक पर्यवेक्षित प्रॉक्सी को कसकर अनुमानित करती है - केवल नकारात्मक नमूना पर्यवेक्षित विपरीत शिक्षा (NSCL) हानि। हालांकि, हानि स्तर की यह समानता एक खुला प्रश्न छोड़ती है: क्या CL और NSCL पूरी प्रशिक्षण प्रक्रिया में प्रतिनिधित्व स्तर पर भी संरेखित रहते हैं, केवल लक्ष्य फ़ंक्शन पर नहीं?

यह पेपर साझा यादृच्छिकता (समान आरंभीकरण, बैच और डेटा संवर्धन) के तहत प्रशिक्षित CL और NSCL मॉडल के प्रतिनिधित्व संरेखण का विश्लेषण करके इस प्रश्न को संबोधित करता है। अनुसंधान प्रमाणित करता है कि वे प्रेरित प्रतिनिधित्व समान रहते हैं: विशेष रूप से, यह साबित करता है कि वास्तविक परिस्थितियों में CL और NSCL की समानता मैट्रिक्स निकट रहती है। सीमाएं संरेखण मेट्रिक्स (जैसे केंद्रीकृत कर्नल संरेखण CKA और प्रतिनिधित्व समानता विश्लेषण RSA) के लिए उच्च संभावना गारंटी प्रदान करती हैं, और स्पष्ट करती हैं कि संरेखण अधिक वर्गों, उच्च तापमान के साथ कैसे सुधरता है, और बैच आकार पर इसकी निर्भरता।

अनुसंधान पृष्ठभूमि और प्रेरणा

मूल समस्या

इस पेपर को हल करने के लिए मूल समस्या है: क्या स्व-पर्यवेक्षित विपरीत शिक्षा (CL) और केवल नकारात्मक नमूना पर्यवेक्षित विपरीत शिक्षा (NSCL) प्रशिक्षण प्रक्रिया में प्रतिनिधित्व स्तर पर संरेखित रहते हैं?

अनुसंधान प्रेरणा

अनुभवजन्य सफलता और सैद्धांतिक व्याख्या का अंतर: हालांकि CL व्यावहारिक रूप से उत्कृष्ट प्रदर्शन करता है, यह अभी भी रहस्य है कि यह शब्दार्थ वर्ग सीमाओं के साथ संरेखित विशेषताएं क्यों सीखता है
हानि स्तर समानता की अपर्याप्तता: पूर्व कार्य (Luthra et al., 2025) ने केवल CL और NSCL की हानि फ़ंक्शन स्तर पर समानता साबित की, लेकिन यह अनुकूलन प्रक्षेपवक्र की सामंजस्य की गारंटी नहीं दे सकता
प्रतिनिधित्व संरेखण की महत्ता: हानि स्तर की समानता यह सुनिश्चित नहीं कर सकती कि पैरामीटर और प्रतिनिधित्व प्रशिक्षण के दौरान युग्मित रहें, वक्रता, ढाल शोर या सीखने की दर अनुसूची में अंतर के कारण विचलित हो सकते हैं

मौजूदा विधियों की सीमाएं

पारस्परिक जानकारी अधिकतमकरण दृष्टिकोण: प्रारंभिक सिद्धांत CL को दृश्य-अंतर पारस्परिक जानकारी अधिकतमकरण से जोड़ते हैं, लेकिन अत्यधिक बाधा डाउनस्ट्रीम प्रदर्शन को कम करती है
संरेखण और एकरूपता: ज्यामितीय मानदंड सहज हैं, लेकिन CL प्रशिक्षण के तहत विभिन्न शब्दार्थ वर्गों के संगठन को पूरी तरह से समझा नहीं सकते
क्लस्टरिंग पुनर्प्राप्ति सिद्धांत: अधिकांश परिणाम प्रतिबंधात्मक धारणाओं पर निर्भर करते हैं, जैसे दिए गए क्लस्टर पहचान की संवर्धन सशर्त स्वतंत्रता

मूल योगदान

सैद्धांतिक योगदान:
- साझा यादृच्छिकता के तहत, CL और NSCL की समानता मैट्रिक्स प्रशिक्षण प्रक्रिया में निकट रहती है, यह साबित किया
- CKA और RSA संरेखण मेट्रिक्स के लिए उच्च संभावना निचली सीमाएं प्रदान की
- वर्गों की संख्या, तापमान पैरामीटर और बैच आकार के साथ संरेखण कैसे बदलता है, यह प्रकट किया
विधि नवाचार:
- पैरामीटर स्पेस से प्रतिनिधित्व स्पेस विश्लेषण की ओर स्थानांतरण, पैरामीटर स्पेस युग्मन की अंतर्निहित अस्थिरता से बचा
- "समानता अवतरण" प्रॉक्सी गतिशीलता स्थापित की, जो पैरामीटर स्पेस SGD द्वारा प्रेरित समानता विकास को विश्वस्ततापूर्वक ट्रैक करती है
प्रायोगिक सत्यापन:
- कई डेटासेट पर सैद्धांतिक भविष्यवाणियों को सत्यापित किया
- NSCL अन्य पर्यवेक्षित विधियों की तुलना में CL के करीब है, यह साबित किया
- पैमाने और तापमान के साथ संरेखण वृद्धि की पुष्टि की

विधि विवरण

कार्य परिभाषा

वर्ग-संतुलित डेटासेट $S = \{(x_i, y_i)\}_{i=1}^N \subset \mathcal{X} \times [C]$ दिया गया, जहां प्रत्येक वर्ग में $n$ नमूने हैं ( $N = Cn$ )। एनकोडर $f_w: \mathcal{X} \to \mathbb{R}^d$ इनपुट को एम्बेडिंग में मैप करता है।

मूल विधि: समानता स्पेस विश्लेषण

1. समानता मैट्रिक्स गतिशीलता

मान लीजिए $\Sigma_t \in [-1,1]^{N \times N}$ चरण $t$ पर निश्चित संदर्भ सेट की जोड़ीदार समानता मैट्रिक्स है। CL और NSCL समानता के युग्मित विकास का विश्लेषण करें: $\Sigma^{CL}_t, \Sigma^{NSCL}_t \in [-1,1]^{N \times N}$

2. प्रॉक्सी समानता अवतरण

प्राप्त मिनी-बैच $B_t = \{(x_j, x'_j, y_j)\}_{j=1}^B$ के लिए, बैच ढाल मैपिंग परिभाषित करें: $G^{CL}_t := \nabla_\Sigma \bar{\ell}^{CL}_{B_t}(\Sigma^{CL}_t), \quad G^{NSCL}_t := \nabla_\Sigma \bar{\ell}^{NSCL}_{B_t}(\Sigma^{NSCL}_t)$

प्रॉक्सी अपडेट: $\Sigma^{CL}_{t+1} = \Sigma^{CL}_t - \eta_t G^{CL}_t, \quad \Sigma^{NSCL}_{t+1} = \Sigma^{NSCL}_t - \eta_t G^{NSCL}_t$

मुख्य सैद्धांतिक परिणाम

प्रमेय 1: समानता स्पेस युग्मन

कम से कम $1-\delta$ की संभावना के साथ, किसी भी चरण आकार अनुक्रम $(\eta_t)_{t=0}^{T-1}$ के लिए: $\|\Sigma^{CL}_T - \Sigma^{NSCL}_T\|_F \leq \exp\left(\frac{1}{2\tau^2 B}\sum_{t=0}^{T-1}\eta_t\right) \frac{1}{\tau\sqrt{B}}\left(\sum_{t=0}^{T-1}\eta_t\right)\Delta_{C,\delta}(B;\tau)$

जहां $\Delta_{C,\delta}(B;\tau) = \frac{2e^{2/\tau}(\frac{1}{C}+\epsilon_{B,\delta})}{1-\frac{1}{C}-\epsilon_{B,\delta}}$ , $\epsilon_{B,\delta} = \sqrt{\frac{1}{2B}\log(\frac{TB}{\delta})}$ ।

CKA और RSA निचली सीमाएं

अनुमान 1 (CKA निचली सीमा): प्रमेय 1 की सेटिंग में, कम से कम $1-\delta$ की संभावना के साथ: $CKA_T \geq \frac{1-\rho_T}{1+\rho_T}$

अनुमान 2 (RSA निचली सीमा): इसी तरह: $RSA_T \geq \frac{1-r_T}{1+r_T}$

तकनीकी नवाचार बिंदु

पैरामीटर स्पेस से प्रतिनिधित्व स्पेस: पैरामीटर स्पेस में घातीय विचलन समस्याओं से बचा
ब्लॉक ऑर्थोगोनैलिटी उपयोग: विभिन्न एंकर बिंदु ढाल की ऑर्थोगोनैलिटी का उपयोग करके विश्लेषण को सरल बनाया
तापमान मॉड्यूलेशन स्थिरता: घातीय कारक में $\frac{1}{\tau^2 B}$ पद समानता स्पेस को पैरामीटर स्पेस की तुलना में अधिक स्थिर बनाता है

प्रायोगिक सेटअप

डेटासेट

CIFAR-10/100: 50,000 प्रशिक्षण छवियां, 10,000 सत्यापन छवियां
Mini-ImageNet: ImageNet-1K के 100 वर्गों का उपसमूह
Tiny-ImageNet: 100,000 64×64 छवियां, 200 वर्ग
ImageNet-1K: संपूर्ण ImageNet डेटासेट

मूल्यांकन मेट्रिक्स

रैखिक CKA (केंद्रीकृत कर्नल संरेखण): केंद्रीकृत समानता मैट्रिक्स का सामान्यीकृत Frobenius आंतरिक उत्पाद
RSA (प्रतिनिधित्व समानता विश्लेषण): प्रतिनिधित्व असमानता मैट्रिक्स के गैर-विकर्ण तत्वों का Pearson सहसंबंध
निकटतम वर्ग केंद्र वर्गीकरणकर्ता (NCCC) और रैखिक जांच (LP) सटीकता

तुलना विधियां

NSCL: केवल नकारात्मक नमूना पर्यवेक्षित विपरीत शिक्षा
SCL: पर्यवेक्षित विपरीत शिक्षा (Khosla et al., 2020)
CE: क्रॉस-एंट्रॉपी हानि

कार्यान्वयन विवरण

आर्किटेक्चर: ResNet-50 एनकोडर + दो-परत MLP प्रक्षेपण सिर
अनुकूलक: LARS अनुकूलक, गति 0.9, वजन क्षय 1e-6
बैच आकार: 1024
सीखने की दर: आधार सीखने की दर 0.3, बैच आकार द्वारा स्केल किया गया
प्रशिक्षण रणनीति: 10 राउंड वार्मअप + कोसाइन सीखने की दर अनुसूची

प्रायोगिक परिणाम

मुख्य परिणाम

1. विभिन्न पर्यवेक्षित विधियों की संरेखण तुलना

सभी डेटासेट पर, NSCL और CL की संरेखण सर्वदा सर्वोच्च है:

Tiny-ImageNet: 1000 राउंड के बाद CL-NSCL का CKA 0.87 तक पहुंचता है, जबकि CL-SCL केवल 0.043 है
संरेखण क्रम: NSCL > CE > SCL

2. वर्गों की संख्या का संरेखण पर प्रभाव

सैद्धांतिक भविष्यवाणी को सत्यापित करता है: अधिक वर्ग मजबूत CL-NSCL संरेखण की ओर ले जाते हैं

सभी डेटासेट पर, प्रशिक्षण वर्गों की संख्या $C'$ बढ़ने के साथ, RSA और CKA मान एकरस रूप से बढ़ते हैं
ImageNet-1K पर 2 वर्गों से 1000 वर्गों तक की पूर्ण सत्यापन

3. तापमान पैरामीटर का प्रभाव

उच्च तापमान संरेखण में सुधार करता है, सैद्धांतिक विश्लेषण को सत्यापित करता है:

$\tau = 1.0$ पर संरेखण सर्वोच्च है
$\tau = 0.5$ और $\tau = 0.1$ क्रमशः घटते हैं
सभी डेटासेट पर सुसंगत प्रवृत्ति बनी रहती है

4. बैच आकार का प्रभाव

विभिन्न सीखने की दर स्केलिंग के तहत संरेखण परिवर्तन:

O(B) स्केलिंग: बैच आकार में कमी के साथ संरेखण घटता है
O(√B), O(∜B), O(1) स्केलिंग: बैच आकार बढ़ने के साथ संरेखण बढ़ता है
परिणाम सैद्धांतिक सीमा की निर्भरता संबंध के अनुरूप हैं

पैरामीटर स्पेस बनाम प्रतिनिधित्व स्पेस

वजन स्पेस: CL और पर्यवेक्षित विधियों के पैरामीटर तेजी से विचलित होते हैं
प्रतिनिधित्व स्पेस: CKA और RSA उच्च संरेखण (>0.8) बनाए रखते हैं
पैरामीटर विचलन के विपरीत प्रतिनिधित्व संरेखण की स्थिरता को साबित करता है

डाउनस्ट्रीम कार्य प्रदर्शन

डेटासेट	CL(NCCC/LP)	NSCL(NCCC/LP)	SCL(NCCC/LP)	CE(NCCC/LP)
CIFAR-10	88.37/90.16	94.47/94.09	94.93/94.67	92.97/93.39
CIFAR-100	54.62/65.65	60.14/68.38	64.06/69.52	67.35/68.04
Mini-ImageNet	60.78/65.30	63.92/72.60	74.78/76.00	75.20/74.00
Tiny-ImageNet	40.59/44.61	40.76/45.79	48.63/48.73	48.28/52.57

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

प्रतिनिधित्व संरेखण की स्थिरता: CL और NSCL प्रतिनिधित्व स्पेस में कसकर युग्मित रहते हैं, भले ही पैरामीटर विचलित हो सकते हैं
सिद्धांत और व्यवहार की सामंजस्य: प्रयोग वर्गों की संख्या, तापमान और बैच आकार प्रभावों की सैद्धांतिक भविष्यवाणियों को सत्यापित करते हैं
पुल के रूप में NSCL: NSCL अन्य पर्यवेक्षित विधियों की तुलना में CL को बेहतर तरीके से ट्रैक करता है, यह स्व-पर्यवेक्षित और पर्यवेक्षित शिक्षा का सिद्धांत पुल है

सीमाएं

सीमाओं की कसाई: सैद्धांतिक सीमाएं बड़े पैमाने पर, लंबे प्रशिक्षण परिस्थितियों में बहुत ढीली हो सकती हैं
सबसे खराब स्थिति विश्लेषण: सामान्यता के लिए पक्षपाती, कसाई के लिए नहीं, सुसंगत उच्च संभावना एकाग्रता सीमाओं का उपयोग करता है
घातीय कारक: कुछ राउंड से अधिक बड़े पैमाने पर प्रशिक्षण में, घातीय कारक सीमा को अमान्य कर सकता है

भविष्य की दिशाएं

अधिक कसी सीमाएं: सबसे खराब स्थिति सीमाओं के बजाय डेटा-निर्भर संरचना का उपयोग करना
अन्य SSL प्रतिमानों में विस्तार: गैर-विपरीत विधियों तक ढांचे का विस्तार करना
व्यावहारिक सुधार: स्थिरता बनाए रखते हुए गारंटी की व्यावहारिकता में सुधार करना

गहन मूल्यांकन

शक्तियां

महत्वपूर्ण सैद्धांतिक योगदान: प्रतिनिधित्व स्पेस में CL-NSCL संरेखण के लिए पहली बार कठोर सैद्धांतिक गारंटी
विधि नवाचार: पैरामीटर स्पेस से समानता स्पेस विश्लेषण की ओर दृष्टिकोण नया और प्रभावी है
व्यापक प्रयोग: कई डेटासेट, बहु-कोण सैद्धांतिक भविष्यवाणी सत्यापन, उचित प्रायोगिक डिजाइन
व्यावहारिक मूल्य: स्व-पर्यवेक्षित शिक्षा की सफलता तंत्र को समझने के लिए नया दृष्टिकोण प्रदान करता है

कमियां

सीमा व्यावहारिकता: सैद्धांतिक सीमाएं वास्तविक अनुप्रयोगों में बहुत ढीली हो सकती हैं
धारणा सीमाएं: साझा यादृच्छिकता की धारणा वास्तविक अनुप्रयोगों में अवास्तविक हो सकती है
विधि सीमाएं: केवल विपरीत शिक्षा प्रतिमान पर विचार करता है, अन्य SSL विधियों को शामिल नहीं करता

प्रभाव

सैद्धांतिक महत्व: स्व-पर्यवेक्षित शिक्षा सिद्धांत के लिए महत्वपूर्ण पूरक प्रदान करता है
विधि प्रेरणा: समानता स्पेस विश्लेषण विधि बाद के अनुसंधान को प्रेरित कर सकती है
व्यावहारिक मार्गदर्शन: उपयुक्त पर्यवेक्षित प्रॉक्सी चुनने के लिए सैद्धांतिक आधार प्रदान करता है

लागू परिदृश्य

स्व-पर्यवेक्षित और पर्यवेक्षित शिक्षा संबंध को समझने की आवश्यकता वाले अनुसंधान
विपरीत शिक्षा विधि का सैद्धांतिक विश्लेषण
प्रतिनिधित्व शिक्षा की स्थिरता अनुसंधान

संदर्भ

Luthra et al. (2025): स्व-पर्यवेक्षित विपरीत शिक्षा लगभग पर्यवेक्षित विपरीत शिक्षा है
Chen et al. (2020): दृश्य प्रतिनिधित्व की विपरीत शिक्षा के लिए एक सरल ढांचा (SimCLR)
Khosla et al. (2020): पर्यवेक्षित विपरीत शिक्षा
Kornblith et al. (2019): तंत्रिका नेटवर्क प्रतिनिधित्व की समानता पुनः देखी गई (CKA)
Kriegeskorte et al. (2008): प्रतिनिधित्व समानता विश्लेषण

सारांश: यह पेपर सैद्धांतिक रूप से स्व-पर्यवेक्षित विपरीत शिक्षा और पर्यवेक्षित शिक्षा के बीच गहरे संबंध स्थापित करता है, कठोर गणितीय विश्लेषण के माध्यम से प्रतिनिधित्व स्तर पर संरेखण को साबित करता है, और स्व-पर्यवेक्षित शिक्षा की सफलता तंत्र को समझने के लिए महत्वपूर्ण अंतर्दृष्टि प्रदान करता है। हालांकि सैद्धांतिक सीमाओं की व्यावहारिकता सीमित है, लेकिन इसके विधि नवाचार और प्रायोगिक सत्यापन इस क्षेत्र के सैद्धांतिक विकास में महत्वपूर्ण योगदान देते हैं।