This paper pioneers a novel data-centric paradigm to maximize the utility of unlabeled data, tackling a critical question: How can we enhance the efficiency and sustainability of deep learning training by optimizing the data itself? We begin by identifying three key limitations in existing model-centric approaches, all rooted in a shared bottleneck: knowledge extracted from data is locked to model parameters, hindering its reusability and scalability. To this end, we propose CoOpt, a highly efficient, parallelized framework for collaborative unlabeled data optimization, thereby effectively encoding knowledge into the data itself. By distributing unlabeled data and leveraging publicly available task-agnostic models, CoOpt facilitates scalable, reusable, and sustainable training pipelines. Extensive experiments across diverse datasets and architectures demonstrate its efficacy and efficiency, achieving 13.6% and 6.8% improvements on Tiny-ImageNet and ImageNet-1K, respectively, with training speedups of $1.94 \times $ and $1.2 \times$.
- معرّف الورقة: 2505.14117
- العنوان: Beyond Model-Centric: Collaborative Data Optimization for Reusing and Sharing
- المؤلفون: Xinyi Shang (UCL)، Peng Sun (جامعة Zhejiang وجامعة Westlake)، Fengyuan Liu (USTC)، Tao Lin (جامعة Westlake)
- التصنيف: cs.LG cs.AI
- وقت النشر/المؤتمر: ورقة بحثية أولية (arXiv:2505.14117v2)
- رابط الورقة: https://arxiv.org/abs/2505.14117v2
تقدم هذه الورقة نموذجاً جديداً يركز على البيانات بهدف تعظيم فائدة البيانات غير المسماة، وتعالج سؤالاً حاسماً: كيف يمكن تحسين البيانات نفسها لتعزيز استدامة وكفاءة التدريب في التعلم العميق؟ يحدد المؤلفون أولاً حدين رئيسيين في الأساليب الموجهة بالنموذج الحالية، وكلاهما ينبع من اختناق مشترك: المعرفة المستخرجة من البيانات محصورة في معاملات النموذج، مما يعيق إعادة استخدامها وقابليتها للتوسع. لهذا الغرض، يقترحون COOPT، إطار عمل تحسين بيانات غير مسماة تعاونية موازي فعال. من خلال معالجة البيانات غير المسماة بشكل موزع والاستفادة من نماذج أولية عامة متاحة للجمهور، يحول COOPT البيانات الخام غير المسماة إلى مجموعة تدريب غنية بالمعرفة، تتمتع بالفعالية والكفاءة وإعادة الاستخدام وسهولة المشاركة. حقق تحسناً بنسبة 7.9% مقارنة بـ BYOL على ImageNet-1K.
في عصر البيانات الضخمة، على الرغم من وفرة البيانات، لا تزال معظم البيانات غير مسماة. يتمثل النموذج السائد الحالي للاستفادة من البيانات غير المسماة في التعلم شبه الموجه (SSL)، وهو أسلوب يركز على النموذج يقوم بترميز معلومات البيانات في معاملات النموذج من خلال مهام وظيفية وتوابع خسارة مصممة بعناية.
توجد تحديان رئيسيان في الأساليب الموجهة بالنموذج الحالية:
- الاقتران المعماري: بروتوكول التدريب مرتبط بإحكام بمعمارية شبكة معينة، مما يعيق بشدة قابلية نقل وإعادة استخدام نماذج التدريب على معماريات أخرى
- مشاكل الكفاءة الحسابية: على الرغم من التقدم في التسريع، لا يزال التدريب على مجموعات بيانات غير مسماة واسعة النطاق محظوراً من الناحية الحسابية
يكمن جوهر هذه التحديات في اختناق مشترك: المعرفة المستخرجة من البيانات محصورة في معاملات النموذج، مما يحد من قابليتها للتكيف ويمنع إعادة الاستخدام الفعالة عبر المهام أو المعماريات المختلفة.
لتجاوز نموذج يركز على النموذج، يقترح المؤلفون نموذجاً يركز على البيانات يقوم بترميز المعرفة بشكل فعال في البيانات نفسها وليس في معاملات النموذج من خلال تحسين البيانات غير المسماة مباشرة.
- اقتراح إطار عمل COOPT: أول إطار عمل يركز على البيانات لتحسين البيانات غير المسماة التعاونية، من خلال الاستفادة من نماذج أولية عامة، يحول العينات غير المسماة الخام إلى بيانات محسّنة، مما يحقق أداء عالية وكفاءة عالية وتعميم قوي وقابلية إعادة استخدام
- تحديد ومعالجة مشكلة عدم اتساق التوزيع المستهدف: تحديد المشكلة الحاسمة ضمن إطار عمل COOPT - عدم اتساق التوزيع المستهدف (Target Distribution Inconsistency)، وإدخال استراتيجية محاذاة هدف خفيفة الوزن لحلها
- التحقق التجريبي الشامل: إجراء تجارب شاملة على مجموعات بيانات ونماذج متعددة للتحقق من مزايا COOPT، مما يثبت أن COOPT يمكنه تسريع المرحلة المبكرة من التدريب بشكل فعال حتى عندما تكون جميع النماذج الأولية ضعيفة
تعريف تحسين البيانات: بالنظر إلى مجموعة بيانات غير مسماة واسعة النطاق D=DX={xi}i=1N، يهدف تحسين البيانات إلى تعيين أهداف DY={yi}i=1N لبناء مجموعة بيانات مسماة مثلى D′={(xi,yi)}i=1N، بحيث يمكن للنموذج المدرب على D′ تحقيق أداء أعلى بتكلفة تدريب أقل بكثير من النموذج المدرب على D.
دالة الهدف:
E(x,y)∼PT[ℓ(ϕθD(x),y)]>E(x,y)∼PT[ℓ(ϕθD′(x),y)]
حيث PT هو توزيع الاختبار، و ℓ هي دالة الخسارة، و θD و θD′ هما معاملات الشبكة المدربة على D و D′ على التوالي.
COOPT هو إطار عمل موازي تعاوني يتضمن منصة بيانات مفتوحة و K مشارك، كل مشارك مزود بنماذج أولية مختلفة.
الخطوة 1: توزيع البيانات
- تقسم منصة البيانات المفتوحة البيانات غير المسماة D عشوائياً إلى K مجموعات فرعية غير متداخلة
- يقوم كل مشارك بتنزيل مجموعة فرعية واحدة D(k)
الخطوة 2: تحسين البيانات
- يقوم كل مشارك بتحسين مجموعة البيانات الخاصة به D(k) باستخدام النموذج الأولي ψk
- تعيين الهدف وفقاً للتعريف 1: D′={(xi,yi)∣yi=Wψ(xi),∀xi∈DX}
الخطوة 3: محاذاة البيانات
- حل مشكلة عدم اتساق التوزيع المستهدف
- استخدام مصفوفة تحويل قابلة للتعلم T(k) لمحاذاة التوزيع المستهدف إلى النموذج الأولي الأمثل
الخطوة 4: تحميل البيانات
- يقوم المشاركون بتحميل مجموعات البيانات المحسّنة مرة أخرى إلى المنصة
الخطوة 5: دمج البيانات
- تقوم المنصة بتجميع جميع مجموعات البيانات المحسّنة لتشكيل مجموعة بيانات موحدة
في الإطار التعاوني، يؤدي استخدام المشاركين المختلفين لنماذج أولية مختلفة إلى عدم اتساق التوزيع المستهدف، مما يؤثر على قدرة النموذج على التعميم.
استخدام خسارة القيمة المنتظمة (Uniform Value Loss) لتقييم جودة النموذج الأولي:
Vuniform(ψ;S)=logExi,xj∼S[eτ∥ψ(xi)−ψ(xj)∥22]
حيث تشير القيمة المنتظمة الأقل إلى نموذج أولي ذي جودة أعلى.
تحقيق محاذاة الهدف من خلال تحسين مصفوفة التحويل:
T(k)=argminT∈Rn×n{∥T⋅ψ(k)(SX)−SY∗∥22}
حيث SY∗ هو الهدف من النموذج الأولي الأمثل على مجموعة البيانات المشتركة.
- ImageNet-1K (224×224)
- Tiny-ImageNet (64×64)
- CIFAR-100 (32×32)
- CIFAR-10 (32×32)
- الدقة: استخدام استراتيجية الاستقصاء الخطي دون الاتصال لتقييم جودة التمثيل
- الكفاءة الحسابية: تحديد كمية من خلال تكلفة الوقت (بالثواني)
المقارنة مع أحدث طرق التعلم شبه الموجه:
- SimCLR, BYOL, DINO, MoCo, SimSiam, SwAV, DCL
- استخدام 4 وحدات معالجة رسومات NVIDIA RTX 4090
- النماذج الأولية: نماذج CLIP مدربة مسبقاً متعددة
- المحسّن: AdamW
- حجم الدفعة: 128 (256 لـ ImageNet-1K)
- الإبلاغ عن المتوسط والتباين باستخدام 3 بذور عشوائية
المقارنة مع طرق التعلم شبه الموجه (الجدول 1):
- CIFAR-10: 89.5% مقابل BYOL 82.8% (↑5.6%)، تحسن السرعة 1.87×
- CIFAR-100: 67.3% مقابل DCL 58.2% (↑9.1%)، تحسن السرعة 1.95×
- Tiny-ImageNet: 60.3% مقابل DCL 44.6% (↑15.7%)، تحسن السرعة 1.94×
- ImageNet-1K: 69.8% مقابل BYOL 61.9% (↑7.9%)، تحسن السرعة 1.20×
المقارنة مع التحسين المركزي (الجدول 2):
- COOPT على CIFAR-100: 65.8% مقابل 62.1% المركزي
- وقت التدريب: 16.31 ثانية مقابل 23.71 ثانية
التعميم عبر المعماريات (الجدول 3):
يتفوق COOPT بشكل كبير على BYOL على معماريات شبكة متعددة:
- ResNet-50: 63.8% مقابل 60.4%
- ResNet-101: 65.7% مقابل 61.5%
- MobileNet-v2: 58.1% مقابل 24.0%
- EfficientNet-b0: 70.7% مقابل 2.3%
- ViT: 57.8% مقابل 38.5%
ضرورة محاذاة الهدف:
- بدون محاذاة: انخفاض كبير في الأداء
- المحاذاة إلى النموذج الأمثل: تحسن الأداء بنسبة 16.9%
- تم التحقق من فعالية استراتيجية المحاذاة من خلال تصور t-SNE
تأثير حجم البيانات المشتركة:
- يكفي 0.05% فقط من البيانات المشتركة لتحقيق نتائج جيدة
- على ImageNet-1K، 0.001% من البيانات كافية
التكلفة الحسابية:
- تقدير القيمة المنتظمة: 139.16 ثانية
- عملية المحاذاة: 36.97 ثانية
- مقارنة بـ 133,766.19 ثانية لـ BYOL، التكلفة ضئيلة جداً
- النماذج الأولية الضعيفة لا تزال فعالة: حتى عندما تكون جميع النماذج الأولية ضعيفة، يمكن لـ COOPT تسريع المرحلة المبكرة من التدريب بشكل كبير
- إمكانية التحسين المستمر: مع تطور النماذج الأولية، تستمر جودة البيانات في التحسن، مع تحسن الأداء بنسبة 4.6% بعد 10 جولات
- تأثير مجموعة البيانات الأولية: يحقق استخدام النماذج الأولية المدربة على ImageNet-1K تحسناً كبيراً على جميع مجموعات البيانات
أساليب موجهة بالنموذج تتعلم التمثيلات من خلال مهام وظيفية:
- InstDisc: تمييز الحالات
- MoCo: التباين الزخم
- SimCLR: إطار عمل التعلم التباين البسيط
- BYOL: التعلم الذاتي
الاستفادة من العلامات الناعمة التي ينتجها نموذج المعلم لتحسين تدريب الطالب، لكن المعرفة لا تزال محصورة في معاملات النموذج.
تعلم مجموعة بيانات مختصرة، مع التركيز بشكل أساسي على تحسين البيانات المسماة.
- نجح COOPT في تجاوز قيود النموذج الموجه بالنموذج، وتحقيق التحسين التعاوني الموجه بالبيانات
- تتمتع البيانات المحسّنة بخصائص عدم الاعتماد على المعمارية وإعادة الاستخدام والكفاءة
- حتى مع النماذج الأولية الضعيفة، يمكن تسريع التدريب بشكل فعال
- عندما تكون جميع النماذج الأولية ضعيفة جداً، ينخفض الأداء الإجمالي حتماً
- تحتاج آليات حماية الخصوصية إلى تحسين إضافي
- يركز حالياً بشكل أساسي على تحسين البيانات غير المسماة مفتوحة المصدر
- تطوير استراتيجيات أكثر تقدماً للاستفادة بشكل فعال من البيانات المحسّنة بواسطة النماذج الأولية الضعيفة جداً
- تعزيز آليات حماية الخصوصية
- التوسع إلى أنواع بيانات ومهام أكثر
- الابتكار في النموذج: التحول من الموجه بالنموذج إلى الموجه بالبيانات، ذو أهمية نظرية كبيرة
- القيمة العملية: حل المشاكل العملية لإعادة استخدام المعرفة وكفاءة التدريب
- الأسلوب المنهجي: توفير إطار عمل تحسين تعاوني شامل، بما في ذلك تحديد المشكلة والحل
- التجارب الشاملة: التحقق الشامل على مجموعات بيانات ومعماريات متعددة
- نقص التحليل النظري: افتقار إلى تحليل نظري متعمق لسبب فعالية تحسين البيانات
- اعتبارات الخصوصية المحدودة: على الرغم من ذكر مشاكل الخصوصية، الحلول غير كافية
- الاعتماد على النموذج الأولي: تعتمد فعالية الطريقة بشكل كبير على جودة النموذج الأولي
- التحقق من قابلية التوسع: الحاجة إلى التحقق من قابلية التوسع على مجموعات بيانات أكبر
- المساهمة الأكاديمية: توفير أفكار جديدة لاستخدام البيانات غير المسماة، قد تؤدي إلى تحول في النموذج
- القيمة العملية: ذات أهمية تطبيقية كبيرة للسيناريوهات ذات الموارد المحدودة
- إمكانية التكرار: التزم المؤلفون بنشر الكود، مما يساعد على تكرار النتائج
- السيناريوهات الموزعة للموارد: حالات التعاون متعدد الأطراف مع موارد مشتتة
- تبديل النموذج المتكرر: السيناريوهات التي تتطلب إعادة استخدام المعرفة عبر المعماريات
- البيانات غير المسماة واسعة النطاق: الحالات التي تكون فيها تكلفة التعلم شبه الموجه التقليدي مرتفعة جداً
تستشهد هذه الورقة بأعمال مهمة في مجالات التعلم شبه الموجه وتحويل المعرفة وتحطيم مجموعة البيانات، بما في ذلك:
- Chen et al. (2020): SimCLR
- Grill et al. (2020): BYOL
- He et al. (2020): MoCo
- Wang & Isola (2020): الأساس النظري للتعلم التمثيل التباين
- Sun et al. (2024): التحقق النظري من طريقة RELA