Self-supervised representation learning has achieved impressive empirical success, yet its theoretical understanding remains limited. In this work, we provide a theoretical perspective by formulating self-supervised representation learning as an approximation to supervised representation learning objectives. Based on this formulation, we derive a loss function closely related to popular contrastive losses such as InfoNCE, offering insight into their underlying principles. Our derivation naturally introduces the concepts of prototype representation bias and a balanced contrastive loss, which help explain and improve the behavior of self-supervised learning algorithms. We further show how components of our theoretical framework correspond to established practices in contrastive learning. Finally, we empirically validate the effect of balancing positive and negative pair interactions. All theoretical proofs are provided in the appendix, and our code is included in the supplementary material.
- पेपर ID: 2510.10572
- शीर्षक: Understanding Self-supervised Contrastive Learning through Supervised Objectives
- लेखक: Byeongchan Lee (KAIST)
- वर्गीकरण: cs.LG (मशीन लर्निंग)
- प्रकाशन सम्मेलन: Transactions on Machine Learning Research (10/2025)
- पेपर लिंक: https://arxiv.org/abs/2510.10572
स्व-पर्यवेक्षित प्रतिनिधित्व शिक्षा ने अनुभवजन्य रूप से प्रभावशाली सफलता प्राप्त की है, लेकिन इसकी सैद्धांतिक समझ अभी भी सीमित है। यह पेपर स्व-पर्यवेक्षित प्रतिनिधित्व शिक्षा को पर्यवेक्षित प्रतिनिधित्व शिक्षा उद्देश्यों के सन्निकटन के रूप में तैयार करके एक सैद्धांतिक दृष्टिकोण प्रदान करता है। इस तैयारी के आधार पर, लेखक ने InfoNCE जैसे लोकप्रिय विपरीत हानि से निकटता से संबंधित हानि फलन प्राप्त किए हैं, जो इसके अंतर्निहित सिद्धांतों को समझने के लिए अंतर्दृष्टि प्रदान करते हैं। व्युत्पत्ति प्रक्रिया स्वाभाविक रूप से प्रोटोटाइप प्रतिनिधित्व पूर्वाग्रह और संतुलित विपरीत हानि की अवधारणाओं को पेश करती है, जो स्व-पर्यवेक्षित शिक्षा एल्गोरिदम के व्यवहार को समझाने और सुधारने में सहायता करती है।
- सैद्धांतिक समझ की कमी: स्व-पर्यवेक्षित शिक्षा अनुभवजन्य रूप से सफल है, लेकिन इसकी सैद्धांतिक नींव अपर्याप्त है, और यह समझने में कमी है कि ये विधियां प्रभावी क्यों हैं।
- विधि डिजाइन की अनुभवजन्यता: मौजूदा स्व-पर्यवेक्षित शिक्षा विधियां मुख्य रूप से आर्किटेक्चर नवाचार के माध्यम से आगे बढ़ती हैं, औपचारिक उद्देश्यों से नहीं, सैद्धांतिक मार्गदर्शन की कमी है।
- पर्यवेक्षित और स्व-पर्यवेक्षित के बीच संबंध अस्पष्ट: पर्यवेक्षित शिक्षा और स्व-पर्यवेक्षित शिक्षा के बीच आंतरिक संबंध पर्याप्त रूप से स्पष्ट नहीं किए गए हैं।
- सैद्धांतिक नींव निर्माण: स्व-पर्यवेक्षित शिक्षा के लिए एक मजबूत सैद्धांतिक आधार प्रदान करना, इसकी प्रभावशीलता के मूल कारणों को समझाना
- विधि सुधार मार्गदर्शन: सैद्धांतिक विश्लेषण के माध्यम से एल्गोरिदम डिजाइन के लिए सिद्धांतपूर्ण मार्गदर्शन प्रदान करना
- पर्यवेक्षित और स्व-पर्यवेक्षित को जोड़ना: दोनों शिक्षण प्रतिमानों के बीच सैद्धांतिक संबंध स्थापित करना
- सैद्धांतिक ढांचा निर्माण: स्व-पर्यवेक्षित प्रतिनिधित्व शिक्षा को पर्यवेक्षित प्रतिनिधित्व शिक्षा के सन्निकटन के रूप में तैयार करने का एक सैद्धांतिक ढांचा प्रस्तावित करना, और इससे InfoNCE हानि से निकटता से संबंधित विपरीत हानि फलन प्राप्त करना
- सैद्धांतिक अंतर्दृष्टि प्रदान: विपरीत शिक्षा में सामान्य प्रथाओं (जैसे प्रतिनिधित्व सामान्यीकरण, संतुलित डेटासेट उपयोग) के लिए सैद्धांतिक व्याख्या प्रदान करना
- अवधारणा परिचय: प्रोटोटाइप प्रतिनिधित्व पूर्वाग्रह (prototype representation bias) की अवधारणा पेश करना, और इसके डाउनस्ट्रीम प्रदर्शन के साथ संबंध का अवलोकन करना
- विधि सुधार: InfoNCE हानि के प्राकृतिक विस्तार के रूप में संतुलित विपरीत हानि का प्रस्ताव करना, संतुलन में सुधार के माध्यम से बेहतर प्रदर्शन प्राप्त करना
प्रतिनिधित्व शिक्षा कार्य को एनकोडर fθ:X→Rd∖{0} सीखने के रूप में परिभाषित करना, जैसे कि:
- समान दृश्य अवधारणा वाली छवियों का प्रतिनिधित्व एक साथ एकत्रित होता है
- विभिन्न दृश्य अवधारणा वाली छवियों का प्रतिनिधित्व एक दूसरे से अलग होता है
पहले पर्यवेक्षित शिक्षा को प्रोटोटाइप अनुकूलन समस्या के रूप में तैयार करना:
minθ−s(fθ(t(x)),μy)+λmaxy′=ys(fθ(t(x)),μy′)
जहां:
- s(⋅,⋅) समानता माप है (कोसाइन समानता)
- μy लेबल y का प्रोटोटाइप प्रतिनिधित्व है
- λ>0 संतुलन पैरामीटर है
प्रोटोटाइप प्रतिनिधित्व को समान लेबल वाली छवियों के प्रतिनिधित्व की अपेक्षा के रूप में परिभाषित करना:
μ^y:=ET,X∣yfθ(T(X))
स्व-पर्यवेक्षित सेटिंग में, विकल्प प्रोटोटाइप प्रतिनिधित्व का उपयोग करना:
μ~:=ETfθ(T(x))
कोसाइन समानता और L2 सामान्यीकरण धारणा के तहत:
−s(fθ(t(x)),ETfθ(T(x)))≤−ETs(fθ(t(x)),fθ(T(x)))
संतुलित डेटासेट धारणा के तहत:
maxy′=ys(fθ(t(x)),ET′,X′∣y′fθ(T′(X′)))≤ET′[να1logEX′exp(αs(fθ(t(x)),fθ(T′(X′))))]+να1logn
उपरोक्त ऊपरी सीमाओं को जोड़ना:
l~(θ)=α∣T^∣1∑t′∈T^[−log(∑x′∈X^exp(αs(fθ(t(x)),fθ(t′(x′)))))λ/νexp(αs(fθ(t(x)),fθ(t′(x))))]
- सैद्धांतिक पुल: पहली बार पर्यवेक्षित शिक्षा और स्व-पर्यवेक्षित शिक्षा के बीच औपचारिक सैद्धांतिक संबंध स्थापित करना
- ऊपरी सीमा व्युत्पत्ति: कठोर गणितीय व्युत्पत्ति के माध्यम से प्रबंधनीय ऊपरी सीमा प्राप्त करना
- प्रोटोटाइप पूर्वाग्रह विश्लेषण: स्व-पर्यवेक्षित सन्निकटन द्वारा लाए गए पूर्वाग्रह को मापना और इसके प्रभाव का विश्लेषण करना
- संतुलित हानि डिजाइन: सैद्धांतिक विश्लेषण के आधार पर सुधारी गई हानि फलन का प्रस्ताव करना
- मुख्य डेटासेट: ImageNet (1,281,167 प्रशिक्षण छवियां, 50,000 सत्यापन छवियां, 1,000 वर्ग)
- पूरक डेटासेट: CIFAR-10 (50,000 प्रशिक्षण छवियां, 10,000 परीक्षण छवियां, 10 वर्ग)
- असंतुलित डेटासेट: ImageNet-LT (115,846 छवियां, Pareto वितरण का पालन करते हुए)
- रैखिक मूल्यांकन: पूर्व-प्रशिक्षित backbone को फ्रीज करना, रैखिक वर्गीकरणकर्ता प्रशिक्षण की Top-1 सटीकता
- k-निकटतम पड़ोसी मूल्यांकन: प्रतिनिधित्व समानता के आधार पर k-NN वर्गीकरण सटीकता
- आधार विधियां: SimCLR और इसके वेरिएंट
- हानि फलन वेरिएंट:
- संतुलित विपरीत हानि
- सामान्यीकृत NT-Xent हानि
- विघटित विपरीत हानि
- नेटवर्क आर्किटेक्चर: ResNet-50 backbone + 3-परत MLP प्रोजेक्टर
- प्रशिक्षण कॉन्फ़िगरेशन: बैच आकार 512, 100 epoch, SGD ऑप्टिमाइज़र
- डेटा संवर्धन: यादृच्छिक क्रॉपिंग, रंग विकृति, ग्रेस्केल रूपांतरण, गाऊसी ब्लर, क्षैतिज फ्लिप
- प्रोटोटाइप प्रतिनिधित्व पूर्वाग्रह और प्रदर्शन संबंध:
- आधार SimCLR: 65.98% सटीकता, 36.72 पूर्वाग्रह
- गाऊसी ब्लर हटाना: 64.57% सटीकता, 37.43 पूर्वाग्रह
- यादृच्छिक घुमाव जोड़ना: 63.30% सटीकता, 38.11 पूर्वाग्रह
- खोज: कम प्रोटोटाइप प्रतिनिधित्व पूर्वाग्रह उच्च सटीकता के अनुरूप है
- समानता माप प्रभाव:
- कोसाइन समानता + सामान्यीकरण: 65.98%
- डॉट उत्पाद (बिना सामान्यीकरण): 0.43%
- नकारात्मक यूक्लिडियन दूरी (बिना सामान्यीकरण): 10.63%
- डेटा संतुलन प्रभाव:
- समान वितरण: 20.82%
- लंबी-पूंछ वितरण: 13.65%
- संतुलित विपरीत हानि: (α=4, λ=2) पर सर्वोत्तम प्रदर्शन 67.40% तक पहुंचता है
- सामान्यीकृत NT-Xent हानि: (α=2, λ=2) पर सर्वोत्तम प्रदर्शन 66.85% तक पहुंचता है
- प्रदर्शन सुधार: संतुलित विपरीत हानि मानक NT-Xent की तुलना में लगभग 1.5% सुधार
- संतुलित विपरीत हानि: (α=1, λ=4) पर सर्वोत्तम प्रदर्शन 86.08% तक पहुंचता है
- सामान्यीकृत NT-Xent हानि: (α=2, λ=2) पर सर्वोत्तम प्रदर्शन 85.85% तक पहुंचता है
विभिन्न परिवर्तनों को जोड़ना/हटाना सैद्धांतिक भविष्यवाणी को सत्यापित करने के लिए:
- रंग विकृति हटाना: प्रदर्शन 62.56% तक गिरता है
- यादृच्छिक cutout जोड़ना: प्रदर्शन 65.76% तक सुधरता है
- आधार कॉन्फ़िगरेशन: 65.98%
- आकर्षण पद ऊपरी सीमा: प्रशिक्षण प्रक्रिया में अंतर धीरे-धीरे कम होता है और स्थिर होता है
- प्रतिकर्षण पद ऊपरी सीमा: आकर्षण पद की तुलना में बड़ा लेकिन नियंत्रणीय अंतर बनाए रखता है
- ऐतिहासिक विकास: Chopra et al. (2005) की विपरीत हानि से triplet हानि, InfoNCE हानि तक
- इस पेपर का योगदान: पर्यवेक्षित शिक्षा सन्निकटन के आधार पर नया सैद्धांतिक दृष्टिकोण प्रदान करना
- मौजूदा दृष्टिकोण:
- पारस्परिक जानकारी अधिकतमकरण दृष्टिकोण
- सहप्रसरण शिक्षा एकीकृत दृष्टिकोण
- वर्णक्रमीय एम्बेडिंग शिक्षा दृष्टिकोण
- इस पेपर का नवाचार: पहली बार पर्यवेक्षित शिक्षा के साथ स्पष्ट सैद्धांतिक संबंध स्थापित करना
- आर्किटेक्चर डिजाइन: Siamese नेटवर्क, गति एनकोडर, stop-gradient संचालन
- सैद्धांतिक व्याख्या: यह पेपर इन प्रथाओं के लिए सैद्धांतिक आधार प्रदान करता है
- सैद्धांतिक एकीकरण: पर्यवेक्षित शिक्षा और स्व-पर्यवेक्षित शिक्षा के बीच सैद्धांतिक पुल सफलतापूर्वक स्थापित करना
- व्यावहारिक मार्गदर्शन: विपरीत शिक्षा में सामान्य प्रथाओं के लिए सैद्धांतिक व्याख्या प्रदान करना
- विधि सुधार: सैद्धांतिक विश्लेषण के आधार पर प्रस्तावित संतुलित विपरीत हानि प्रदर्शन सुधार प्राप्त करती है
- धारणा सीमाएं: सैद्धांतिक विश्लेषण कोसाइन समानता, L2 सामान्यीकरण, संतुलित डेटासेट आदि धारणाओं पर निर्भर करता है
- सन्निकटन त्रुटि: स्व-पर्यवेक्षित सन्निकटन द्वारा लाया गया पूर्वाग्रह आगे के अनुसंधान की आवश्यकता है
- प्रयोग श्रेणी: मुख्य रूप से छवि वर्गीकरण कार्यों पर सत्यापित, अन्य क्षेत्रों में प्रयोज्यता की खोज की जानी बाकी है
- सैद्धांतिक विस्तार: मौजूदा धारणाओं को शिथिल करना, अधिक सामान्य सैद्धांतिक ढांचा निर्माण करना
- विधि सुधार: पूर्वाग्रह विश्लेषण के आधार पर अधिक प्रभावी स्व-पर्यवेक्षित एल्गोरिदम डिजाइन करना
- अनुप्रयोग विस्तार: सैद्धांतिक ढांचा को अन्य मोडल और कार्यों तक विस्तारित करना
- मजबूत नवाचार: पहली बार पर्यवेक्षित शिक्षा और स्व-पर्यवेक्षित शिक्षा के बीच औपचारिक सैद्धांतिक संबंध प्रदान करना
- कठोर व्युत्पत्ति: गणितीय व्युत्पत्ति प्रक्रिया पूर्ण है, सभी प्रमाण परिशिष्ट में प्रदान किए गए हैं
- गहन अंतर्दृष्टि: प्रोटोटाइप प्रतिनिधित्व पूर्वाग्रह अवधारणा स्व-पर्यवेक्षित शिक्षा को समझने के लिए नया दृष्टिकोण प्रदान करती है
- उचित डिजाइन: प्रयोग डिजाइन सैद्धांतिक भविष्यवाणी के साथ घनिष्ठ रूप से जुड़ा है, सत्यापन पर्याप्त है
- प्रेरक परिणाम: सैद्धांतिक भविष्यवाणी और प्रायोगिक परिणाम उच्च स्तर पर सुसंगत हैं
- व्यापक विश्लेषण: कई कोणों से सैद्धांतिक ढांचे की प्रभावशीलता को सत्यापित करना
- विधि सुधार: संतुलित विपरीत हानि वास्तविक प्रदर्शन सुधार प्राप्त करती है
- मार्गदर्शन महत्व: स्व-पर्यवेक्षित शिक्षा एल्गोरिदम डिजाइन के लिए सैद्धांतिक मार्गदर्शन प्रदान करता है
- पुनरुत्पादनशीलता: पूर्ण कोड और कार्यान्वयन विवरण प्रदान करता है
- मजबूत धारणाएं: सैद्धांतिक विश्लेषण कई प्रतिबंधकारी धारणाओं पर निर्भर करता है, जो प्रयोज्यता श्रेणी को सीमित कर सकता है
- कठोर सन्निकटन: कुछ सैद्धांतिक व्युत्पत्तियों में सन्निकटन बड़ी त्रुटि पेश कर सकता है
- सामान्यीकरण सत्यापन प्रतीक्षा: सैद्धांतिक ढांचा की अन्य क्षेत्रों में प्रयोज्यता अभी पूरी तरह सत्यापित नहीं हुई है
- सीमित डेटासेट: मुख्य रूप से ImageNet और CIFAR-10 पर सत्यापित, अधिक विविध मूल्यांकन की कमी है
- एकल कार्य: मुख्य रूप से छवि वर्गीकरण पर केंद्रित, अन्य दृश्य कार्यों का सत्यापन अपर्याप्त है
- सीमित तुलनात्मक विधियां: मुख्य रूप से SimCLR श्रृंखला विधियों के साथ तुलना, अन्य स्व-पर्यवेक्षित विधियों के साथ तुलना की कमी है
- सैद्धांतिक आधार: स्व-पर्यवेक्षित शिक्षा क्षेत्र के लिए महत्वपूर्ण सैद्धांतिक आधार प्रदान करता है
- अनुसंधान प्रेरणा: अधिक सैद्धांतिक विश्लेषण कार्य को प्रेरित कर सकता है
- विधि मार्गदर्शन: बाद के एल्गोरिदम डिजाइन के लिए सैद्धांतिक मार्गदर्शन प्रदान करता है
- प्रदर्शन सुधार: संतुलित विपरीत हानि वास्तविक प्रदर्शन सुधार प्राप्त करती है
- डिजाइन सिद्धांत: व्यावहारिकों के लिए एल्गोरिदम डिजाइन सिद्धांत प्रदान करता है
- हाइपरपैरामीटर मार्गदर्शन: हाइपरपैरामीटर चयन के लिए सैद्धांतिक आधार प्रदान करता है
- अनुसंधान परिदृश्य: सैद्धांतिक मार्गदर्शन की आवश्यकता वाले स्व-पर्यवेक्षित शिक्षा एल्गोरिदम अनुसंधान के लिए उपयुक्त
- औद्योगिक अनुप्रयोग: उच्च गुणवत्ता वाले प्रतिनिधित्व की आवश्यकता वाले कंप्यूटर दृष्टि अनुप्रयोगों के लिए उपयुक्त
- शिक्षा उपयोग: स्व-पर्यवेक्षित शिक्षा सिद्धांतों को समझने के लिए शिक्षण सामग्री के रूप में उपयुक्त
यह पेपर स्व-पर्यवेक्षित शिक्षा, विपरीत शिक्षा और प्रतिनिधित्व शिक्षा क्षेत्र के महत्वपूर्ण कार्यों का हवाला देता है, जिसमें शामिल हैं:
- Chen et al. (2020a): SimCLR ढांचा
- He et al. (2020): MoCo विधि
- Oord et al. (2018): InfoNCE हानि
- Wang & Isola (2020): विपरीत शिक्षा का संरेखण और एकरूपता विश्लेषण
समग्र मूल्यांकन: यह एक उच्च गुणवत्ता वाला सैद्धांतिक विश्लेषण पेपर है, जो पर्यवेक्षित शिक्षा और स्व-पर्यवेक्षित शिक्षा के बीच सैद्धांतिक पुल सफलतापूर्वक स्थापित करता है, विपरीत शिक्षा की प्रभावशीलता को समझने के लिए महत्वपूर्ण अंतर्दृष्टि प्रदान करता है। हालांकि कुछ सैद्धांतिक धारणाओं की सीमाएं हैं, लेकिन इसका योगदान स्व-पर्यवेक्षित शिक्षा के सैद्धांतिक विकास को आगे बढ़ाने के लिए महत्वपूर्ण है।