2025-11-13T23:07:14.450110

Collaborative Unlabeled Data Optimization

Shang, Sun, Liu et al.

This paper pioneers a novel data-centric paradigm to maximize the utility of unlabeled data, tackling a critical question: How can we enhance the efficiency and sustainability of deep learning training by optimizing the data itself? We begin by identifying three key limitations in existing model-centric approaches, all rooted in a shared bottleneck: knowledge extracted from data is locked to model parameters, hindering its reusability and scalability. To this end, we propose CoOpt, a highly efficient, parallelized framework for collaborative unlabeled data optimization, thereby effectively encoding knowledge into the data itself. By distributing unlabeled data and leveraging publicly available task-agnostic models, CoOpt facilitates scalable, reusable, and sustainable training pipelines. Extensive experiments across diverse datasets and architectures demonstrate its efficacy and efficiency, achieving 13.6% and 6.8% improvements on Tiny-ImageNet and ImageNet-1K, respectively, with training speedups of $1.94 \times $ and $1.2 \times$.

academic

सहयोगी अनलेबल्ड डेटा अनुकूलन

बुनियादी जानकारी

पेपर ID: 2505.14117
शीर्षक: Beyond Model-Centric: Collaborative Data Optimization for Reusing and Sharing
लेखक: Xinyi Shang (UCL), Peng Sun (Zhejiang University & Westlake University), Fengyuan Liu (USTC), Tao Lin (Westlake University)
वर्गीकरण: cs.LG cs.AI
प्रकाशन समय/सम्मेलन: Preprint (arXiv:2505.14117v2)
पेपर लिंक: https://arxiv.org/abs/2505.14117v2

सारांश

यह पेपर एक नए डेटा-केंद्रित प्रतिमान की स्थापना करता है, जिसका उद्देश्य अनलेबल्ड डेटा की उपयोगिता को अधिकतम करना है। यह एक महत्वपूर्ण प्रश्न का समाधान करता है: डेटा को स्वयं अनुकूलित करके गहन शिक्षण प्रशिक्षण की स्थिरता और दक्षता को कैसे बढ़ाया जाए? लेखकों ने पहले मौजूदा मॉडल-केंद्रित विधियों की दो मुख्य सीमाओं की पहचान की है, जो एक सामान्य बाधा से उत्पन्न होती हैं: डेटा से निकाली गई जानकारी मॉडल पैरामीटर में बंद रहती है, जो इसकी पुनः प्रयोज्यता और स्केलेबिलिटी में बाधा डालती है। इसके लिए, COOPT प्रस्तावित किया गया है - एक कुशल समानांतर सहयोगी अनलेबल्ड डेटा अनुकूलन ढांचा। वितरित प्रसंस्करण के माध्यम से अनलेबल्ड डेटा और सार्वजनिक रूप से उपलब्ध कार्य-अज्ञेय पूर्व मॉडल का उपयोग करके, COOPT कच्चे अनलेबल्ड डेटा को ज्ञान-समृद्ध प्रशिक्षण सेट में परिवर्तित करता है जो प्रभावी, कुशल, पुनः प्रयोज्य और साझा करने में आसान है। ImageNet-1K पर BYOL की तुलना में 7.9% का सुधार प्राप्त किया गया है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या की पृष्ठभूमि

बड़े डेटा युग में, हालांकि डेटा प्रचुर है, अधिकांश डेटा अभी भी अनलेबल्ड है। अनलेबल्ड डेटा का उपयोग करने के लिए वर्तमान मुख्य प्रतिमान स्व-निरीक्षित शिक्षा (SSL) है, जो एक मॉडल-केंद्रित दृष्टिकोण है जो सावधानीपूर्वक डिज़ाइन किए गए प्रॉक्सी कार्यों और हानि कार्यों के माध्यम से डेटा जानकारी को मॉडल पैरामीटर में एन्कोड करता है।

मुख्य समस्या

मौजूदा मॉडल-केंद्रित विधियों में दो मुख्य चुनौतियाँ हैं:

आर्किटेक्चर युग्मन: प्रशिक्षण प्रोटोकॉल विशिष्ट नेटवर्क आर्किटेक्चर के साथ कसकर जुड़ा हुआ है, जो प्रशिक्षित मॉडल की अन्य आर्किटेक्चर पर स्थानांतरणीयता और पुनः प्रयोज्यता में गंभीर रूप से बाधा डालता है
कम्प्यूटेशनल दक्षता समस्या: त्वरण में प्रगति के बावजूद, बड़े पैमाने पर अनलेबल्ड डेटासेट पर प्रशिक्षण अभी भी कम्प्यूटेशनल रूप से निषिद्ध है

मूल बाधा

इन चुनौतियों का मूल एक सामान्य बाधा है: डेटा से निकाली गई जानकारी मॉडल पैरामीटर में बंद रहती है, जो इसकी अनुकूलनशीलता को सीमित करती है और विभिन्न कार्यों या आर्किटेक्चर में कुशल पुनः उपयोग को रोकती है।

अनुसंधान प्रेरणा

मॉडल-केंद्रित प्रतिमान को तोड़ने के लिए, लेखकों ने एक डेटा-केंद्रित प्रतिमान प्रस्तावित किया है, जो अनलेबल्ड डेटा को अनुकूलित करने के उद्देश्य के माध्यम से मॉडल पैरामीटर के बजाय डेटा में ही जानकारी को प्रभावी ढंग से एन्कोड करता है।

मुख्य योगदान

COOPT ढांचा प्रस्तावित करना: अनलेबल्ड डेटा के सहयोगी अनुकूलन के लिए पहला डेटा-केंद्रित ढांचा, जो कार्य-अज्ञेय पूर्व मॉडल का उपयोग करके कच्चे अनलेबल्ड नमूनों को अनुकूलित डेटा में परिवर्तित करता है, उच्च प्रदर्शन, उच्च दक्षता, मजबूत सामान्यीकरण और पुनः प्रयोज्यता प्राप्त करता है
लक्ष्य वितरण असंगति समस्या की पहचान और समाधान: COOPT ढांचे के भीतर एक महत्वपूर्ण समस्या - लक्ष्य वितरण असंगति (Target Distribution Inconsistency) की पहचान की गई है, और इसे हल करने के लिए एक हल्के वजन वाली लक्ष्य संरेखण रणनीति पेश की गई है
व्यापक प्रायोगिक सत्यापन: कई डेटासेट और मॉडल पर व्यापक प्रयोग किए गए हैं, जो COOPT के लाभों को सत्यापित करते हैं, यह साबित करते हुए कि भले ही सभी पूर्व मॉडल कमजोर हों, COOPT अभी भी प्रशिक्षण के प्रारंभिक चरण को प्रभावी ढंग से तेज कर सकता है

विधि विवरण

कार्य परिभाषा

डेटा अनुकूलन परिभाषा: बड़े पैमाने पर अनलेबल्ड डेटासेट $D = D_X = \{x_i\}_{i=1}^N$ दिया गया है, डेटा अनुकूलन का उद्देश्य इसे लक्ष्य $D_Y = \{y_i\}_{i=1}^N$ निर्दिष्ट करना है ताकि एक इष्टतम लेबल किए गए डेटासेट $D' = \{(x_i, y_i)\}_{i=1}^N$ का निर्माण किया जा सके, जिससे $D'$ पर प्रशिक्षित मॉडल $D$ पर प्रशिक्षित मॉडल की तुलना में काफी कम प्रशिक्षण लागत पर उच्च प्रदर्शन प्राप्त कर सके।

उद्देश्य कार्य: $E_{(x,y)\sim P_T}[\ell(\phi_{\theta_D}(x), y)] > E_{(x,y)\sim P_T}[\ell(\phi_{\theta_{D'}}(x), y)]$

जहाँ $P_T$ परीक्षण वितरण है, $\ell$ हानि कार्य है, $\theta_D$ और $\theta_{D'}$ क्रमशः $D$ और $D'$ पर प्रशिक्षित नेटवर्क पैरामीटर हैं।

मॉडल आर्किटेक्चर

COOPT एक सहयोगी समानांतर ढांचा है, जिसमें एक खुला डेटा प्लेटफॉर्म और K प्रतिभागी हैं, प्रत्येक प्रतिभागी के पास विभिन्न पूर्व मॉडल हैं।

पाँच-चरणीय संचालन प्रवाह:

चरण 1: डेटा वितरण

खुला डेटा प्लेटफॉर्म अनलेबल्ड डेटा $D$ को K गैर-अतिव्यापी उपसमुच्चय में यादृच्छिक रूप से विभाजित करता है
प्रत्येक प्रतिभागी एक उपसमुच्चय $D^{(k)}$ डाउनलोड करता है

चरण 2: डेटा अनुकूलन

प्रत्येक प्रतिभागी अपने पूर्व मॉडल $\psi_k$ का उपयोग करके अपने डेटासेट $D^{(k)}$ को अनुकूलित करता है
परिभाषा 1 के अनुसार लक्ष्य निर्दिष्ट करना: $D' = \{(x_i, y_i) | y_i = W\psi(x_i), \forall x_i \in D_X\}$

चरण 3: डेटा संरेखण

लक्ष्य वितरण असंगति समस्या को हल करना
सीखने योग्य परिवर्तन मैट्रिक्स $T^{(k)}$ का उपयोग करके लक्ष्य वितरण को इष्टतम पूर्व मॉडल के साथ संरेखित करना

चरण 4: डेटा अपलोड

प्रतिभागी अनुकूलित डेटासेट को प्लेटफॉर्म पर वापस अपलोड करते हैं

चरण 5: डेटा विलय

प्लेटफॉर्म सभी अनुकूलित डेटासेट को एकीकृत डेटासेट बनाने के लिए एकत्रित करता है

तकनीकी नवाचार

1. लक्ष्य वितरण असंगति समस्या की पहचान

सहयोगी ढांचे में, विभिन्न प्रतिभागियों द्वारा विभिन्न पूर्व मॉडल का उपयोग लक्ष्य वितरण असंगति का कारण बनता है, जो मॉडल सामान्यीकरण क्षमता को प्रभावित करता है।

2. पूर्व मॉडल गुणवत्ता मूल्यांकन

समान हानि (Uniform Value Loss) का उपयोग करके पूर्व मॉडल गुणवत्ता का मूल्यांकन: $V_{uniform}(\psi; S) = \log E_{x_i, x_j \sim S}[e^{\tau \|\psi(x_i) - \psi(x_j)\|_2^2}]$

जहाँ कम समान मान उच्च गुणवत्ता वाले पूर्व मॉडल को इंगित करता है।

3. लक्ष्य संरेखण रणनीति

परिवर्तन मैट्रिक्स को अनुकूलित करके लक्ष्य संरेखण प्राप्त करना: $T^{(k)} = \arg\min_{T \in \mathbb{R}^{n \times n}} \{\|T \cdot \psi^{(k)}(S_X) - S_Y^*\|_2^2\}$

जहाँ $S_Y^*$ साझा डेटासेट पर इष्टतम पूर्व मॉडल का लक्ष्य है।

प्रायोगिक सेटअप

डेटासेट

ImageNet-1K (224×224)
Tiny-ImageNet (64×64)
CIFAR-100 (32×32)
CIFAR-10 (32×32)

मूल्यांकन मेट्रिक्स

सटीकता: प्रतिनिधित्व गुणवत्ता का मूल्यांकन करने के लिए ऑफलाइन रैखिक जांच रणनीति का उपयोग
कम्प्यूटेशनल दक्षता: समय लागत (सेकंड) के माध्यम से परिमाणित

तुलनात्मक विधियाँ

अत्याधुनिक स्व-निरीक्षित शिक्षा विधियों के साथ तुलना:

SimCLR, BYOL, DINO, MoCo, SimSiam, SwAV, DCL

कार्यान्वयन विवरण

4 NVIDIA RTX 4090 GPU का उपयोग
पूर्व मॉडल: कई पूर्व-प्रशिक्षित CLIP मॉडल
अनुकूलक: AdamW
बैच आकार: 128 (ImageNet-1K के लिए 256)
3 यादृच्छिक बीज का उपयोग करके माध्य और विचरण की रिपोर्ट

प्रायोगिक परिणाम

मुख्य परिणाम

स्व-निरीक्षित शिक्षा विधियों के साथ तुलना (तालिका 1):

CIFAR-10: 89.5% vs BYOL 82.8% (↑5.6%), प्रशिक्षण गति 1.87× सुधार
CIFAR-100: 67.3% vs DCL 58.2% (↑9.1%), प्रशिक्षण गति 1.95× सुधार
Tiny-ImageNet: 60.3% vs DCL 44.6% (↑15.7%), प्रशिक्षण गति 1.94× सुधार
ImageNet-1K: 69.8% vs BYOL 61.9% (↑7.9%), प्रशिक्षण गति 1.20× सुधार

केंद्रीकृत अनुकूलन के साथ तुलना (तालिका 2):

CIFAR-100 पर COOPT: 65.8% vs केंद्रीकृत 62.1%
प्रशिक्षण समय: 16.31s vs 23.71s

सामान्यीकरण और पुनः प्रयोज्यता प्रयोग

क्रॉस-आर्किटेक्चर सामान्यीकरण (तालिका 3): COOPT कई नेटवर्क आर्किटेक्चर पर BYOL से काफी बेहतर है:

ResNet-50: 63.8% vs 60.4%
ResNet-101: 65.7% vs 61.5%
MobileNet-v2: 58.1% vs 24.0%
EfficientNet-b0: 70.7% vs 2.3%
ViT: 57.8% vs 38.5%

विलोपन प्रयोग

लक्ष्य संरेखण की आवश्यकता:

बिना संरेखण: प्रदर्शन में महत्वपूर्ण गिरावट
इष्टतम मॉडल के लिए संरेखण: 16.9% प्रदर्शन सुधार
संरेखण रणनीति की प्रभावशीलता t-SNE दृश्य के माध्यम से सत्यापित

साझा डेटा आकार का प्रभाव:

केवल 0.05% साझा डेटा अच्छे परिणाम प्राप्त करने के लिए पर्याप्त है
ImageNet-1K पर, 0.001% डेटा पर्याप्त है

कम्प्यूटेशनल ओवरहेड:

समान मान अनुमान: 139.16s
संरेखण प्रक्रिया: 36.97s
BYOL के 133,766.19s की तुलना में, ओवरहेड न्यूनतम है

प्रायोगिक निष्कर्ष

कमजोर पूर्व मॉडल अभी भी प्रभावी हैं: भले ही सभी पूर्व मॉडल कमजोर हों, COOPT अभी भी प्रशिक्षण के प्रारंभिक चरण को काफी तेज कर सकता है
निरंतर अनुकूलन क्षमता: जैसे-जैसे पूर्व मॉडल विकसित होते हैं, डेटा गुणवत्ता में सुधार होता रहता है, 10 राउंड के बाद 4.6% प्रदर्शन सुधार प्राप्त होता है
पूर्व डेटासेट प्रभाव: ImageNet-1K पर प्रशिक्षित पूर्व मॉडल का उपयोग सभी डेटासेट पर महत्वपूर्ण सुधार प्राप्त करता है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

COOPT ने मॉडल-केंद्रित प्रतिमान की सीमाओं को सफलतापूर्वक तोड़ा है, डेटा-केंद्रित सहयोगी अनुकूलन को लागू किया है
अनुकूलित डेटा आर्किटेक्चर-अज्ञेय, पुनः प्रयोज्य और कुशल है
भले ही पूर्व मॉडल कमजोर हों, अभी भी प्रशिक्षण को प्रभावी ढंग से तेज कर सकते हैं

सीमाएँ

जब सभी पूर्व मॉडल अत्यंत कमजोर हों, तो समग्र प्रदर्शन अनिवार्य रूप से गिरता है
गोपनीयता सुरक्षा तंत्र को आगे बढ़ाने की आवश्यकता है
वर्तमान में मुख्य रूप से खुले स्रोत अनलेबल्ड डेटा के अनुकूलन पर ध्यान केंद्रित है

भविष्य की दिशाएँ

अत्यंत कमजोर पूर्व मॉडल द्वारा अनुकूलित डेटा का प्रभावी ढंग से उपयोग करने के लिए अधिक उन्नत रणनीतियाँ विकसित करना
गोपनीयता सुरक्षा तंत्र को बढ़ाना
अधिक प्रकार के डेटा और कार्यों तक विस्तार करना

गहन मूल्यांकन

शक्तियाँ

प्रतिमान नवाचार: मॉडल-केंद्रित से डेटा-केंद्रित में परिवर्तन, महत्वपूर्ण सैद्धांतिक महत्व रखता है
व्यावहारिक मूल्य: ज्ञान पुनः प्रयोज्यता और प्रशिक्षण दक्षता की व्यावहारिक समस्याओं को हल करता है
व्यवस्थित दृष्टिकोण: समस्या पहचान और समाधान सहित एक संपूर्ण सहयोगी अनुकूलन ढांचा प्रदान करता है
पर्याप्त प्रयोग: कई डेटासेट और आर्किटेक्चर पर व्यापक सत्यापन

कमियाँ

अपर्याप्त सैद्धांतिक विश्लेषण: डेटा अनुकूलन प्रभावी क्यों है इसके गहन सैद्धांतिक विश्लेषण का अभाव
सीमित गोपनीयता विचार: हालांकि गोपनीयता समस्या का उल्लेख किया गया है, समाधान पर्याप्त नहीं है
पूर्व मॉडल निर्भरता: विधि प्रभाव पूर्व मॉडल गुणवत्ता पर गंभीर रूप से निर्भर है
स्केलेबिलिटी सत्यापन: बड़े पैमाने पर डेटासेट पर स्केलेबिलिटी को सत्यापित करने की आवश्यकता है

प्रभाव

शैक्षणिक योगदान: अनलेबल्ड डेटा उपयोग के लिए नई सोच प्रदान करता है, संभवतः प्रतिमान परिवर्तन को प्रेरित कर सकता है
व्यावहारिक मूल्य: संसाधन-सीमित परिदृश्यों के लिए महत्वपूर्ण अनुप्रयोग मूल्य है
पुनरुत्पादनशीलता: लेखक कोड को सार्वजनिक करने का वचन देते हैं, परिणाम पुनरुत्पादन में सहायता करता है

लागू परिदृश्य

वितरित संसाधन परिदृश्य: कई पक्षों का सहयोग लेकिन संसाधन बिखरे हुए हों
मॉडल बार-बार परिवर्तन: ज्ञान को आर्किटेक्चर में पुनः उपयोग करने की आवश्यकता हो
बड़े पैमाने पर अनलेबल्ड डेटा: पारंपरिक स्व-निरीक्षित शिक्षा की लागत बहुत अधिक हो

संदर्भ

यह पेपर स्व-निरीक्षित शिक्षा, ज्ञान आसवन और डेटासेट आसवन क्षेत्र के महत्वपूर्ण कार्यों का संदर्भ देता है, जिसमें शामिल हैं:

Chen et al. (2020): SimCLR
Grill et al. (2020): BYOL
He et al. (2020): MoCo
Wang & Isola (2020): विपरीत प्रतिनिधित्व शिक्षा की सैद्धांतिक नींव
Sun et al. (2024): RELA विधि का सैद्धांतिक सत्यापन