2025-11-21T00:19:15.639831

Enhancing Self-Supervised Learning with Semantic Pairs A New Dataset and Empirical Study

Alkhalefi, Leontidis, Zhong
Instance discrimination is a self-supervised representation learning paradigm wherein individual instances within a dataset are treated as distinct classes. This is typically achieved by generating two disparate views of each instance by applying stochastic transformations, encouraging the model to learn representations invariant to the common underlying object across these views. While this approach facilitates the acquisition of invariant representations for dataset instances under various handcrafted transformations (e.g., random cropping, colour jittering), an exclusive reliance on such data transformations for achieving invariance may inherently limit the model's generalizability to unseen datasets and diverse downstream tasks. The inherent limitation stems from the fact that the finite set of transformations within the data processing pipeline is unable to encompass the full spectrum of potential data variations. In this study, we provide the technical foundation for leveraging semantic pairs to enhance the generalizability of the model's representation and empirically demonstrate that incorporating semantic pairs mitigates the issue of limited transformation coverage. Specifically, we propose that by exposing the model to semantic pairs (i.e., two instances belonging to the same semantic category), we introduce varied real-world scene contexts, thereby fostering the development of more generalizable object representations. To validate this hypothesis, we constructed and released a novel dataset comprising curated semantic pairs and conducted extensive experimentation to empirically establish that their inclusion enables the model to learn more general representations, ultimately leading to improved performance across diverse downstream tasks.
academic

आत्म-पर्यवेक्षित शिक्षा को सिमेंटिक जोड़ियों के साथ बढ़ाना: एक नया डेटासेट और अनुभवजन्य अध्ययन

बुनियादी जानकारी

  • पेपर ID: 2510.08722
  • शीर्षक: आत्म-पर्यवेक्षित शिक्षा को सिमेंटिक जोड़ियों के साथ बढ़ाना: एक नया डेटासेट और अनुभवजन्य अध्ययन
  • लेखक: मोहम्मद अलखलेफी, जॉर्जियोस लिओंटिडिस, मिंगजुन झोंग (एबरडीन विश्वविद्यालय)
  • वर्गीकरण: cs.LG cs.AI
  • प्रकाशन समय: 13 अक्टूबर 2025 (arXiv v2)
  • पेपर लिंक: https://arxiv.org/abs/2510.08722v2

सारांश

यह पेपर उदाहरण-विभेदक आत्म-पर्यवेक्षित शिक्षा विधियों की सीमाओं को संबोधित करता है और सिमेंटिक जोड़ियों (semantic pairs) का उपयोग करके मॉडल की सामान्यीकरण क्षमता को बढ़ाने की विधि प्रस्तावित करता है। पारंपरिक उदाहरण-विभेदक विधियां यादृच्छिक रूपांतरण के माध्यम से एक ही उदाहरण के विभिन्न दृश्य उत्पन्न करती हैं, लेकिन यह विधि सीमित रूपांतरण सेट से प्रभावित है, जो वास्तविक दुनिया के डेटा की संपूर्ण परिवर्तनशीलता को कवर नहीं कर सकती। लेखकों ने एक सावधानीपूर्वक तैयार किया गया सिमेंटिक जोड़ी डेटासेट बनाया है और व्यापक प्रयोगों के माध्यम से सत्यापित किया है कि सिमेंटिक जोड़ियां मॉडल को अधिक सार्वभौमिक प्रतिनिधित्व सीखने में मदद कर सकती हैं, जिससे कई डाउनस्ट्रीम कार्यों में बेहतर प्रदर्शन प्राप्त होता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

मूल समस्या

पारंपरिक उदाहरण-विभेदक आत्म-पर्यवेक्षित शिक्षा विधियों में निम्नलिखित प्रमुख सीमाएं हैं:

  1. रूपांतरण कवरेज अपर्याप्त: सीमित हस्तनिर्मित रूपांतरणों (जैसे यादृच्छिक क्रॉपिंग, रंग जिटर) पर निर्भर, वास्तविक दुनिया के डेटा की संपूर्ण परिवर्तनशीलता को शामिल नहीं कर सकते
  2. सीमित सामान्यीकरण क्षमता: अदेखे डेटासेट और विविध डाउनस्ट्रीम कार्यों पर सामान्यीकरण क्षमता सीमित है
  3. अनुचित संबंध सीखना: पृष्ठभूमि और अग्रभाग वस्तुओं के बीच अनुचित संबंध सीख सकते हैं

अनुसंधान प्रेरणा

लेखकों ने देखा कि पारंपरिक विधियां दो संवर्धित दृश्यों के बीच साझा जानकारी को कैप्चर करती हैं, लेकिन इसमें असंबंधित पृष्ठभूमि जानकारी और विस्तृत विशेषताएं शामिल हो सकती हैं। सिमेंटिक जोड़ियां एक ही वर्ग के विभिन्न उदाहरणों को विभिन्न संदर्भों में रखकर, मॉडल को प्रासंगिक कार्य जानकारी पर ध्यान केंद्रित करने और असंबंधित जानकारी को अनदेखा करने के लिए निर्देशित करती हैं।

सैद्धांतिक आधार

पेपर प्रस्तावित करता है कि सिमेंटिक जोड़ियां चार प्रमुख अपरिवर्तनशीलताओं को बढ़ाती हैं:

  • अवरोधन अपरिवर्तनशीलता: आंशिक रूप से अवरुद्ध वस्तुओं को पहचानना
  • पृष्ठभूमि अपरिवर्तनशीलता: विभिन्न पृष्ठभूमि में वस्तुओं को पहचानना
  • पैटर्न अपरिवर्तनशीलता: सतह पैटर्न परिवर्तन के प्रति मजबूत रहना
  • प्रकाश अपरिवर्तनशीलता: विभिन्न प्रकाश स्थितियों के अनुकूल होना

मूल योगदान

  1. सैद्धांतिक स्पष्टीकरण: सिमेंटिक जोड़ियां कैसे उदाहरण-विभेदक विधियों की सामान्यीकरण क्षमता को बढ़ाती हैं, इसकी गहन व्याख्या
  2. डेटासेट निर्माण: सावधानीपूर्वक तैयार किया गया सिमेंटिक जोड़ी डेटासेट बनाया गया, जिसमें 187 वर्ग हैं, प्रति वर्ग 157 जोड़ियां, कुल 29,359 सिमेंटिक जोड़ियां
  3. व्यवस्थित तुलना: कई SOTA आत्म-पर्यवेक्षित शिक्षा विधियों की तुलना की गई, यह निर्धारित किया गया कि कौन सी विधि सिमेंटिक जोड़ियों से सबसे अच्छी तरह सीख सकती है
  4. अनुभवजन्य सत्यापन: स्थानांतरण शिक्षा और लक्ष्य पहचान कार्यों के माध्यम से सिमेंटिक जोड़ियों की प्रभावशीलता सत्यापित की गई

विधि विस्तार

कार्य परिभाषा

यह अनुसंधान आत्म-पर्यवेक्षित प्रतिनिधित्व शिक्षा पर केंद्रित है, विशेष रूप से उदाहरण-विभेदक प्रतिमान। कार्य का उद्देश्य ऐसे सार्वभौमिक दृश्य प्रतिनिधित्व सीखना है जो मानव एनोटेशन के बिना कई डाउनस्ट्रीम कार्यों में अच्छा प्रदर्शन कर सकें।

डेटासेट निर्माण विधि

सिमेंटिक जोड़ी डेटासेट

  • आकार: 187 वर्ग, प्रति वर्ग 157 जोड़ियां, कुल 29,359 सिमेंटिक जोड़ियां
  • निर्माण रणनीति: सटीक सिमेंटिक संरेखण सुनिश्चित करने के लिए हस्तनिर्मित एनोटेशन, स्वचालित मिलान विधियों की त्रुटियों से बचना
  • वर्ग चयन: ImageNet-1K से मानक बेंचमार्क डेटासेट (जैसे STL-10, CIFAR) के साथ सिमेंटिक ओवरलैप वाली श्रेणियों का चयन
  • गुणवत्ता आश्वासन: 6 महीने की पूर्णकालिक मानव तैयारी (प्रतिदिन 8 घंटे)

संवर्धित जोड़ी डेटासेट (आधारभूत)

  • आकार: 187 वर्ग, प्रति वर्ग 157 छवियां, कुल 29,359 छवियां
  • उत्पादन विधि: यादृच्छिक रूपांतरण (क्रॉपिंग, रोटेशन, फ्लिपिंग, रंग जिटर) के माध्यम से सिंथेटिक जोड़ियां उत्पन्न करना

प्रायोगिक ढांचा

चार-चरणीय तुलना ढांचा अपनाया गया:

  1. डेटासेट निर्माण: सिमेंटिक जोड़ी और संवर्धित जोड़ी डेटासेट बनाना
  2. छवि रूपांतरण: मानक यादृच्छिक रूपांतरण पाइपलाइन लागू करना
  3. मॉडल प्रशिक्षण: दोनों डेटासेट पर कई SOTA विधियां प्रशिक्षित करना
  4. प्रदर्शन मूल्यांकन: डाउनस्ट्रीम कार्यों के माध्यम से प्रतिनिधित्व गुणवत्ता का मूल्यांकन करना

तकनीकी नवाचार बिंदु

  1. सटीक सिमेंटिक संरेखण: हस्तनिर्मित तैयारी के माध्यम से सिमेंटिक जोड़ियों की सटीकता सुनिश्चित करना, स्वचालित विधियों के शोर से बचना
  2. अलगाव प्रभाव विश्लेषण: सिमेंटिक जोड़ियों को अलग से प्रशिक्षित करना, संवर्धित डेटा के साथ मिश्रण से भ्रम से बचना
  3. व्यवस्थित मूल्यांकन: कई SSL विधियों पर सिमेंटिक जोड़ियों की सार्वभौमिक प्रभावशीलता सत्यापित करना

प्रायोगिक सेटअप

डेटासेट

  • प्रशिक्षण पूर्व डेटा: सिमेंटिक जोड़ी डेटासेट बनाम संवर्धित जोड़ी डेटासेट (प्रत्येक 29,359 जोड़ियां/छवियां)
  • मूल्यांकन डेटासेट:
    • स्थानांतरण शिक्षा: STL-10, CIFAR-10, CIFAR-100
    • लक्ष्य पहचान: PASCAL VOC
    • तुलनात्मक प्रयोग: Tiny-ImageNet

मूल्यांकन मेट्रिक्स

  • स्थानांतरण शिक्षा: रैखिक मूल्यांकन सटीकता
  • लक्ष्य पहचान: AP50, AP, AP75
  • कम्प्यूटेशनल दक्षता: प्रशिक्षण समय तुलना

तुलनात्मक विधियां

  • विपरीत शिक्षा: SimCLR
  • गैर-विपरीत शिक्षा:
    • सूचना अधिकतमकरण: VicReg
    • ज्ञान आसवन: BYOL, DINO

कार्यान्वयन विवरण

  • बैकबोन नेटवर्क: ResNet-50, ViT-S/8
  • बैच आकार: 256
  • इनपुट रिज़ॉल्यूशन: 64×64 पिक्सल
  • प्रशिक्षण एपोक्स: 200-800 एपोक्स
  • हार्डवेयर: A100 80G GPU

प्रायोगिक परिणाम

मुख्य परिणाम

स्थानांतरण शिक्षा प्रदर्शन

सभी मूल्यांकित डेटासेट पर, सिमेंटिक जोड़ी प्रशिक्षण वाले मॉडल संवर्धित जोड़ी आधारभूत से बेहतर हैं:

विधिCIFAR-10CIFAR-100STL-10
SimCLR (AP)81.76%-81.76%
SimCLR (SP)83.60%59.58%85.59%
सुधार+0.8%+0.9%+3.8%

दीर्घकालीन प्रशिक्षण प्रभाव

प्रशिक्षण को 800 एपोक्स तक बढ़ाने के बाद, प्रदर्शन अंतर बना रहता है:

  • SimCLR (SP): 86.56% (STL-10)
  • SimCLR (AP): 82.41% (STL-10)
  • सुधार परिमाण: +3.75%

कम्प्यूटेशनल दक्षता तुलना

Tiny-ImageNet की तुलना में, सिमेंटिक जोड़ी डेटासेट महत्वपूर्ण लाभ प्रदर्शित करता है:

डेटासेटवर्ग संख्यानमूना संख्याCIFAR-10STL-10प्रशिक्षण समय
सिमेंटिक जोड़ी18729.4K83.60%85.59%4.5h
Tiny-ImageNet200100K79.43%79.61%13h

विलोपन प्रयोग

रूपांतरण हटाने का प्रयोग

जब विशिष्ट रूपांतरण हटाए जाते हैं, तो सिमेंटिक जोड़ी मॉडल अधिक मजबूत प्रदर्शन दिखाता है:

  • ग्रेस्केल रूपांतरण हटाना: SimCLR (AP) में 9.69% की गिरावट, SimCLR (SP) लगभग अप्रभावित
  • केवल यादृच्छिक क्रॉपिंग रखना: SimCLR (AP) प्रदर्शन 24.25% तक गिरता है, SimCLR (SP) 64.23% बनाए रखता है

आर्किटेक्चर सामान्यीकरण

ViT आर्किटेक्चर पर परिणाम सिमेंटिक जोड़ियों की सार्वभौमिक प्रभावशीलता की पुष्टि करते हैं:

विधिCIFAR-10CIFAR-100STL-10
DINO (SP)81.8%65.3%82.1%
DINO (AP)81.1%64.5%79.2%

डेटा स्केल प्रभाव

प्रशिक्षण नमूनों में कमी के साथ, सिमेंटिक जोड़ियों का लाभ अधिक स्पष्ट हो जाता है:

  • 50 छवियां/वर्ग: सिमेंटिक जोड़ी लाभ +4.20%
  • 157 छवियां/वर्ग: सिमेंटिक जोड़ी लाभ +3.83%

लक्ष्य पहचान परिणाम

PASCAL VOC लक्ष्य पहचान कार्य पर:

विधिAP50APAP75
SimCLR (SP)75.02%50.30%55.22%
SimCLR (AP)73.82%48.9%53.72%
सुधार+1.2%+1.4%+1.5%

प्रायोगिक निष्कर्ष

  1. विपरीत शिक्षा लाभ: SimCLR सिमेंटिक जोड़ियों का उपयोग करने में सर्वश्रेष्ठ प्रदर्शन करता है, सभी डेटासेट पर सबसे बड़ा सुधार प्राप्त करता है
  2. रूपांतरण निर्भरता में कमी: सिमेंटिक जोड़ी प्रशिक्षण वाले मॉडल डेटा रूपांतरण पर निर्भरता में उल्लेखनीय कमी दिखाते हैं
  3. छोटे नमूने लाभ: सीमित प्रशिक्षण डेटा की स्थिति में, सिमेंटिक जोड़ियों का लाभ अधिक स्पष्ट है
  4. सार्वभौमिक प्रयोज्यता: सिमेंटिक जोड़ियों के लाभ विभिन्न आर्किटेक्चर और कार्यों में सत्यापित होते हैं

संबंधित कार्य

आत्म-पर्यवेक्षित शिक्षा विधि वर्गीकरण

पेपर संबंधित कार्यों को तीन प्रमुख श्रेणियों में विभाजित करता है:

विपरीत शिक्षा

  • SimCLR: अंत-से-अंत विधि, बड़े बैच नकारात्मक नमूने का उपयोग करता है
  • MoCo: गति विपरीत विधि, शब्दकोश में नकारात्मक नमूने संग्रहीत करता है
  • PIRL: स्मृति पुस्तकालय में नकारात्मक नमूने संग्रहीत करता है

गैर-विपरीत शिक्षा

  • क्लस्टरिंग विधियां: DeepCluster, SWAV
  • ज्ञान आसवन: BYOL, SimSiam, DINO
  • सूचना अधिकतमकरण: Barlow Twins, VICReg

विपरीत शिक्षा में वृद्धि

  • नकारात्मक नमूना खनन: कठिन नकारात्मक नमूनों का खनन करना
  • सकारात्मक नमूना निर्माण: सिमेंटिक समानता का उपयोग करके सकारात्मक नमूना जोड़ी बनाना

इस पेपर और संबंधित कार्य में अंतर

  1. अलगाव प्रभाव अनुसंधान: सिमेंटिक जोड़ियों और संवर्धित डेटा के मिश्रण से बचना
  2. सटीक सिमेंटिक संरेखण: हस्तनिर्मित तैयारी गुणवत्ता सुनिश्चित करता है
  3. व्यवस्थित तुलना: कई विधियों पर प्रभावशीलता सत्यापित करना

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. सिमेंटिक जोड़ी प्रभावशीलता: सिमेंटिक जोड़ियां आत्म-पर्यवेक्षित मॉडल की सामान्यीकरण क्षमता में उल्लेखनीय सुधार कर सकती हैं
  2. विपरीत शिक्षा लाभ: विपरीत शिक्षा विधियां (विशेष रूप से SimCLR) सिमेंटिक जोड़ियों से सबसे अधिक लाभान्वित होती हैं
  3. रूपांतरण निर्भरता में कमी: सिमेंटिक जोड़ी प्रशिक्षण मानव डेटा रूपांतरण पर निर्भरता को कम करता है
  4. कम्प्यूटेशनल दक्षता सुधार: बड़े पैमाने के डेटासेट की तुलना में, सावधानीपूर्वक तैयार किया गया सिमेंटिक जोड़ी डेटासेट कम कम्प्यूटेशनल संसाधनों के साथ बेहतर परिणाम प्राप्त कर सकता है

सीमाएं

  1. डेटासेट आकार: वर्तमान डेटासेट अपेक्षाकृत छोटा है (187 वर्ग), स्केलेबिलिटी सत्यापन की प्रतीक्षा में है
  2. मानव लागत: हस्तनिर्मित तैयारी प्रक्रिया समय लेने वाली है, स्वचालन की डिग्री सीमित है
  3. डोमेन विशिष्टता: मुख्य रूप से दृश्य कार्यों पर सत्यापित, अन्य मोडल की प्रयोज्यता अज्ञात है
  4. सैद्धांतिक व्याख्या: विपरीत शिक्षा सिमेंटिक जोड़ियों के लिए अधिक उपयुक्त क्यों है, इसकी सैद्धांतिक व्याख्या अभी भी अपर्याप्त है

भविष्य की दिशाएं

  1. बड़े पैमाने पर विस्तार: बड़े सिमेंटिक स्पेस में सिमेंटिक जोड़ी विधि की स्केलेबिलिटी की खोज करना
  2. स्वचालित तैयारी: अधिक सटीक स्वचालित सिमेंटिक जोड़ी मिलान विधि विकसित करना
  3. क्रॉस-मोडल अनुप्रयोग: सिमेंटिक जोड़ी अवधारणा को अन्य मोडल में विस्तारित करना
  4. सैद्धांतिक विश्लेषण: विपरीत शिक्षा सिमेंटिक संबंधों का उपयोग करने के आंतरिक तंत्र का गहन अनुसंधान

गहन मूल्यांकन

शक्तियां

  1. स्पष्ट समस्या परिभाषा: पारंपरिक उदाहरण-विभेदक विधियों की मूल सीमाओं की सटीक पहचान
  2. उचित विधि डिजाइन: हस्तनिर्मित तैयारी के माध्यम से सिमेंटिक जोड़ी गुणवत्ता सुनिश्चित करना, शोर हस्तक्षेप से बचना
  3. कठोर प्रायोगिक डिजाइन: नियंत्रण चर विधि का उपयोग करके, सिमेंटिक जोड़ियों के स्वतंत्र प्रभाव को अलग करना
  4. विश्वसनीय परिणाम: कई डेटासेट, कई विधियों पर सुसंगत सुधार सत्यापित किया गया
  5. उच्च व्यावहारिक मूल्य: प्रदान किया गया डेटासेट और कोड क्षेत्र विकास को बढ़ावा दे सकता है

कमियां

  1. सीमित सैद्धांतिक गहराई: सिमेंटिक जोड़ियां प्रभावी क्यों हैं, इसकी सैद्धांतिक व्याख्या पर्याप्त नहीं है
  2. स्केल सीमा: प्रयोग मुख्य रूप से अपेक्षाकृत छोटे डेटासेट पर किए गए हैं
  3. लागत विचार अपर्याप्त: हस्तनिर्मित तैयारी की उच्च लागत व्यावहारिक अनुप्रयोग को सीमित कर सकती है
  4. अधूरी तुलना: अन्य सिमेंटिक वृद्धि विधियों के साथ सीधी तुलना की कमी

प्रभाव

  1. शैक्षणिक योगदान: आत्म-पर्यवेक्षित शिक्षा क्षेत्र के लिए नई अनुसंधान दिशा और बेंचमार्क डेटासेट प्रदान करता है
  2. व्यावहारिक मूल्य: विधि सरल और प्रभावी है, मौजूदा ढांचे में कार्यान्वयन करना आसान है
  3. पुनरुत्पादनीयता: लेखक डेटासेट और कोड सार्वजनिक करने का वचन देते हैं, परिणाम पुनरुत्पादन में सहायता करता है
  4. प्रेरणा महत्व: बेहतर आत्म-पर्यवेक्षित शिक्षा डेटा कैसे बनाया जाए, इसके लिए विचार प्रदान करता है

प्रयोज्य परिदृश्य

  1. संसाधन-सीमित वातावरण: जब कम्प्यूटेशनल संसाधन सीमित हों लेकिन उच्च गुणवत्ता वाले प्रतिनिधित्व की आवश्यकता हो
  2. विशिष्ट डोमेन अनुप्रयोग: विशिष्ट डाउनस्ट्रीम कार्यों पर अच्छे परिणाम प्राप्त करने की आवश्यकता हो
  3. अनुसंधान प्रोटोटाइप: सिमेंटिक संबंधों के प्रतिनिधित्व शिक्षा में भूमिका का अनुसंधान करने के लिए आधार
  4. शैक्षणिक उद्देश्य: आत्म-पर्यवेक्षित शिक्षा में डेटा गुणवत्ता बनाम मात्रा के व्यापार-बंद को समझने में सहायता करता है

संदर्भ

पेपर आत्म-पर्यवेक्षित शिक्षा क्षेत्र के महत्वपूर्ण कार्यों का हवाला देता है, जिनमें शामिल हैं:

  • विपरीत शिक्षा शास्त्रीय विधियां: SimCLR, MoCo, PIRL
  • गैर-विपरीत शिक्षा विधियां: BYOL, DINO, VicReg
  • संबंधित डेटासेट: ImageNet, CIFAR, STL-10
  • सिमेंटिक जोड़ी संबंधित अनुसंधान: सकारात्मक नमूना निर्माण पर हाल के कार्य

समग्र मूल्यांकन: यह एक उच्च गुणवत्ता वाला अनुभवजन्य अनुसंधान पेपर है जो सावधानीपूर्वक डिजाइन किए गए प्रयोगों के माध्यम से आत्म-पर्यवेक्षित शिक्षा में सिमेंटिक जोड़ियों की महत्वपूर्ण भूमिका को सत्यापित करता है। हालांकि सैद्धांतिक गहराई में कुछ कमी है, लेकिन इसका व्यावहारिक मूल्य और क्षेत्र में योगदान स्वीकृति के योग्य है। पेपर द्वारा प्रदान किया गया डेटासेट और निष्कर्ष भविष्य के अनुसंधान के लिए महत्वपूर्ण आधार प्रदान करेंगे।