2025-11-16T15:07:12.519849

Data or Language Supervision: What Makes CLIP Better than DINO?

Liu, Zhang, Ghosh et al.
CLIP outperforms self-supervised models like DINO as vision encoders for vision-language models (VLMs), but it remains unclear whether this advantage stems from CLIP's language supervision or its much larger training data. To disentangle these factors, we pre-train CLIP and DINO under controlled settings -- using the same architecture, dataset, and training configuration -- achieving similar ImageNet accuracy. Embedding analysis shows that CLIP captures high-level semantics (e.g., object categories, text), while DINO is more responsive to low-level features like colors and styles. When integrated into VLMs and evaluated on 20 VQA benchmarks, CLIP excels at text-intensive tasks, while DINO slightly outperforms on vision-centric ones. Variants of language supervision (e.g., sigmoid loss, pre-trained language encoders) yield limited gains. Our findings provide scientific insights into vision encoder design and its impact on VLM performance.
academic

البيانات أم الإشراف اللغوي: ما الذي يجعل CLIP أفضل من DINO؟

المعلومات الأساسية

  • معرّف الورقة: 2510.11835
  • العنوان: Data or Language Supervision: What Makes CLIP Better than DINO?
  • المؤلفون: Yiming Liu, Yuhui Zhang, Dhruba Ghosh, Ludwig Schmidt, Serena Yeung-Levy (جامعة ستانفورد، جامعة تسينغهوا)
  • التصنيف: cs.CV cs.AI cs.CL cs.LG cs.MM
  • تاريخ النشر: 13 أكتوبر 2025
  • رابط الورقة: https://arxiv.org/abs/2510.11835

الملخص

يتفوق CLIP كمشفّر بصري في نماذج الرؤية واللغة (VLMs) على نماذج التعلم الذاتي الموجهة مثل DINO، لكن ما إذا كان هذا التفوق ناشئاً عن الإشراف اللغوي أم عن بيانات تدريب بحجم أكبر لا يزال غير واضح. لفصل هذه العوامل، قام الباحثون بتدريب CLIP و DINO مسبقاً في إعدادات محكومة - باستخدام نفس البنية المعمارية والمجموعة البيانية والتكوين التدريبي - وحصلوا على دقة ImageNet متشابهة. يُظهر تحليل التضمينات أن CLIP يلتقط دلالات عالية المستوى (مثل فئات الأشياء والنصوص)، بينما DINO أكثر استجابة للميزات منخفضة المستوى مثل الألوان والأسلوب. عند دمجها في نماذج الرؤية واللغة وتقييمها على 20 معيار VQA، يُظهر CLIP تفوقاً في المهام الكثيفة بالنصوص، بينما يُظهر DINO ميزة طفيفة في المهام المركزة على الرؤية. أنتجت متغيرات الإشراف اللغوي (مثل خسارة sigmoid والمشفّرات اللغوية المدربة مسبقاً) مكاسب محدودة.

الخلفية البحثية والدافع

المشكلة الأساسية

المشكلة الأساسية التي تسعى هذه الدراسة لحلها هي: هل يأتي تفوق CLIP على DINO في نماذج الرؤية واللغة من الإشراف اللغوي أم من بيانات تدريب بحجم أكبر؟

أهمية المشكلة

  1. الأهمية العملية: المشفّر البصري هو "عين" نماذج الرؤية واللغة، وأدائه يؤثر مباشرة على قدرة الفهم البصري للنظام بأكمله
  2. القيمة النظرية: فهم تأثير إشارات الإشراف المختلفة على تعلم التمثيل البصري يوفر إرشادات علمية لتصميم مشفّرات بصرية أفضل
  3. تحسين الموارد: توضيح العوامل الرئيسية يساعد على اتخاذ خيارات تصميم أفضل في ظل الموارد المحدودة

حدود الطرق الموجودة

  1. العوامل المربكة: نماذج CLIP و DINO الموجودة تختلف في حجم بيانات التدريب بما يصل إلى 100 مرة، مما يجعل من الصعب فصل تأثير نوع الإشراف وحجم البيانات
  2. غياب التجارب المضبوطة: الدراسات المقارنة السابقة تعتمد على نماذج مدربة مسبقاً بإعدادات تدريب مختلفة، مما يمنع المقارنة العادلة
  3. فهم آلي غير كافٍ: هناك نقص في الفهم العميق لكيفية تغيير الإشراف اللغوي لفضاء التمثيل البصري

الدافع البحثي

من خلال تصميم تجريبي محكوم بدقة، تدريب CLIP و DINO في ظروف متطابقة، وبالتالي تحليل التأثير الحقيقي للإشراف اللغوي على أداء المشفّر البصري بشكل علمي.

المساهمات الأساسية

  1. تجارب محكومة للمرة الأولى: تدريب CLIP و DINO بنفس البنية المعمارية (ViT-B/16) والمجموعة البيانية (مجموعة فرعية من DataComp بـ 10 مليون صورة) والتكوين التدريبي، مما يحقق مقارنة عادلة
  2. تحليل فضاء التضمين: تحليل عميق لكيفية تغيير الإشراف اللغوي للتمثيل البصري، مع اكتشاف أن CLIP يركز على الدلالات العالية المستوى بينما DINO أكثر حساسية للميزات البصرية منخفضة المستوى
  3. تقييم أداء نماذج الرؤية واللغة: تقييم منهجي لكلا المشفّرين على 20 معيار VQA، مع اكتشاف أن CLIP يتفوق بشكل كبير على DINO في مهام OCR (تحسن بنسبة 7.5%)
  4. استكشاف متغيرات الإشراف: التحقق من المكاسب المحدودة لأشكال مختلفة من الإشراف اللغوي (خسارة SigLIP، نماذج لغوية مدربة مسبقاً)
  5. رؤى علمية: توفير مبادئ إرشادية قائمة على التجارب لتصميم المشفّرات البصرية

شرح الطريقة

تعريف المهمة

المدخلات: مجموعة بيانات صور، وصفياً نصوص مقترنة اختيارية المخرجات: مشفّر بصري قادر على تعيين الصور إلى فضاء التمثيل الدلالي القيود: تغيير نوع الإشراف فقط مع التحكم في جميع المتغيرات الأخرى

تصميم التجارب المضبوطة

توحيد البنية المعمارية

  • شبكة العمود الفقري: ViT-B/16 كبنية معمارية مشتركة لكلا النموذجين
  • حجم المعاملات: ضمان تساوي تعقيد النموذج

توحيد المجموعة البيانية

  • مصدر البيانات: مجموعة فرعية من 10 ملايين صورة من مجموعة DataComp
  • المعالجة المسبقة: قص مركزي موحد وتغيير حجم إلى 224×224
  • الفروقات الإشرافية: يستخدم CLIP أزواج صورة-نص، بينما يستخدم DINO الصور فقط

توحيد التكوين التدريبي

  • المحسّن: AdamW
  • معدل التعلم: 1e-3، مع تحلل جيبي
  • عدد الحقب: 20 حقبة
  • الأجهزة: 4 وحدات معالجة رسومات A100، التدريب لمدة 3 أيام

طريقة تحليل التضمين

تحديد أزواج الصور المختلفة

تعريف فئتين من أزواج الصور لتحليل الاختلافات بين النموذجين:

g1 = (clip_sim > 0.8) ∧ (dino_sim < 0.5)  # تشابه عالي في CLIP، منخفض في DINO
g2 = (dino_sim > 0.8) ∧ (clip_sim < 0.5)  # تشابه عالي في DINO، منخفض في CLIP

تجارب التحقق الكمية

  1. اختبار الحساسية الدلالية: استخدام صور تحتوي على أحرف/أرقام مختلفة لاختبار القدرة على التمييز الدلالي
  2. اختبار حساسية الأنماط البصرية: استخدام أنماط بصرية بسيطة متكررة لاختبار حساسية الميزات منخفضة المستوى

خطة دمج نماذج الرؤية واللغة

اختيار الإطار

  • البنية الأساسية: LLaVA-1.5
  • المكون المستبدل: جزء المشفّر البصري فقط
  • تدفق التدريب: التدريب المسبق + الضبط الدقيق للتعليمات البصرية

معايير التقييم

  • VMCBench: معيار موحد متعدد الخيارات للإجابة على الأسئلة البصرية يتضمن 20 مجموعة بيانات
  • أنواع المهام: VQA عام، الاستدلال، فهم المستندات والرسوم البيانية، OCR وغيرها

إعداد التجارب

المجموعات البيانية

  1. بيانات التدريب: مجموعة فرعية من DataComp بـ 10 ملايين
    • الحجم: 10 ملايين زوج صورة-نص
    • المعالجة المسبقة: قص مركزي، دقة 224×224
  2. مجموعات بيانات التقييم:
    • مهام التصنيف: ImageNet, CIFAR-10, Stanford Cars, Flowers, CUB, ImageNetV2, CIFAR-10.1
    • مهام VQA: 20 مجموعة فرعية من VMCBench، بما في ذلك OCRVQA, TextVQA وغيرها

مقاييس التقييم

  • دقة الاستكشاف الخطي: الطريقة القياسية لتقييم جودة المشفّر البصري
  • دقة VQA: معدل صحة الإجابة على الأسئلة متعددة الخيارات
  • تشابه جيب التمام: مؤشر تحليل فضاء التضمين

طرق المقارنة

  • النماذج الرسمية: نماذج CLIP و DINO المدربة مسبقاً المُصدرة رسمياً
  • النماذج المضبوطة: CLIP و DINO المدربة في ظروف متطابقة
  • متغيرات الإشراف: نسخة خسارة SigLIP، نسخة النموذج اللغوي المدرب مسبقاً

تفاصيل التنفيذ

  • اختيار نقطة التفتيش: اختيار أفضل نقطة تفتيش بناءً على أداء مجموعة التحقق
  • تكرار التقييم: حفظ وتقييم كل 500 خطوة
  • الدلالة الإحصائية: التحقق من استقرار النتائج عبر بذور عشوائية متعددة

نتائج التجارب

النتائج الرئيسية

أداء مهام التصنيف

النموذجImageNetCIFAR-10Stanford CarsFlowersCUB
CLIP المضبوط65.8%90.7%74.7%78.7%52.3%
DINO المضبوط66.4%92.1%54.1%80.7%43.0%

الاكتشافات الرئيسية:

  • أداء متطابقة تقريباً في مهام التصنيف العامة
  • تفوق كبير لـ CLIP في مهام التصنيف الدقيق (Stanford Cars: +20.6%, CUB: +9.3%)

أداء مهام نماذج الرؤية واللغة

نوع المهمةLLaVA-CLIPLLaVA-DINOالفرق
VQA عام46.2%46.0%+0.2%
الاستدلال41.2%41.5%-0.3%
المستندات والرسوم البيانية33.2%33.1%+0.1%
مهام OCR47.5%40.0%+7.5%

الاكتشافات الرئيسية:

  • أداء متطابقة في معظم المهام
  • تفوق كبير لـ CLIP في المهام المتعلقة بـ OCR

نتائج تحليل التضمين

التحقق الكمي

  1. حساسية المحتوى الدلالي:
    • متوسط التشابه في DINO: 0.877
    • متوسط التشابه في CLIP: 0.713 (أقل، مما يشير إلى تمييز دلالي أفضل)
  2. حساسية الأنماط البصرية:
    • متوسط التشابه في DINO: 0.478 (أقل، مما يشير إلى تمييز تفاصيل بصرية أفضل)
    • متوسط التشابه في CLIP: 0.497

التحليل النوعي

  • مزايا CLIP: التقاط أفضل لفئات الأشياء والنصوص المضمنة والدلالات العالية المستوى
  • مزايا DINO: حساسية أكبر للألوان والأسلوب والميزات البصرية منخفضة المستوى

تجارب متغيرات الإشراف

المتغيرمتوسط دقة VMCBench
CLIP القياسي41.4%
خسارة SigLIP40.8%
النموذج اللغوي المدرب مسبقاً40.5%

الخلاصة: تحسينات محدودة من أشكال مختلفة من الإشراف اللغوي.

تجارب العمود الفقري للنموذج اللغوي

نتائج استخدام Qwen2-7B بدلاً من Vicuna-7B:

مجموعة النموذجVQA عامOCRالمتوسط
CLIP + Qwen257.90%51.40%49.69%
DINO + Qwen254.02%47.59%47.72%

الأعمال ذات الصلة

نماذج الرؤية واللغة

  • الأعمال الممثلة: LLaVA, Qwen2.5-VL وغيرها
  • خصائص البنية المعمارية: مشفّر بصري + نموذج لغوي + وحدة ربط
  • مساهمة هذه الورقة: التركيز على التحليل المنهجي لمكون المشفّر البصري

تعلم التمثيل البصري

  1. طرق التعلم الذاتي الموجهة: DINO, SimCLR وغيرها، تتعلم التمثيل من خلال التنبؤ بالعلاقات من تعزيزات الصور
  2. طرق الإشراف اللغوي: CLIP, EVA-CLIP, SigLIP وغيرها، تستخدم محاذاة الصورة والنص للتعلم
  3. الابتكار في هذه الورقة: أول مقارنة منهجية بين النموذجين في ظروف محكومة

بحث خيارات تصميم نماذج الرؤية واللغة

  • الأبحاث الموجودة: تركز في الغالب على مكونات البنية المعمارية واستراتيجيات البيانات والتكوينات التدريبية
  • الحدود: تعتمد على نماذج مدربة مسبقاً بإعدادات تدريب مختلفة، مع غياب التحكم في المتغيرات
  • ميزة هذه الورقة: تصميم تجريبي محكوم بدقة

الخلاصة والنقاش

الاستنتاجات الرئيسية

  1. حجم البيانات مقابل نوع الإشراف: عند التحكم في حجم البيانات، الإشراف اللغوي يجلب فعلاً مزايا محددة
  2. الفروقات في التمثيل: يتعلم CLIP تمثيلات دلالية عالية المستوى، بينما DINO يركز على ميزات بصرية منخفضة المستوى
  3. خصوصية المهمة: يُظهر CLIP تفوقاً واضحاً في المهام الكثيفة بالنصوص، بينما يكون الاثنان متطابقين في المهام المركزة على الرؤية
  4. شكل الإشراف: متغيرات الإشراف اللغوي المختلفة تنتج تحسينات محدودة

الحدود

  1. قيود حجم البيانات: التجارب تُجرى فقط على مجموعة فرعية من 10 ملايين صورة، وتحتاج إلى التوسع إلى بيانات بمليارات الصور للتحقق
  2. وحدة البنية المعمارية: تم اختبار ViT-B/16 فقط، قد تختلف الاستنتاجات مع بنى معمارية أخرى
  3. تغطية المهام: التركيز الأساسي على مهام VQA، لا تزال استنتاجات المهام الأخرى المتعلقة بالرؤية واللغة بحاجة إلى التحقق

الاتجاهات المستقبلية

  1. التحقق على نطاق واسع: تكرار التجارب المضبوطة على بيانات بمليارات الصور
  2. الطرق المختلطة: استكشاف استراتيجيات التدريب المختلطة التي تجمع بين التعلم الذاتي الموجهة والإشراف اللغوي
  3. استكشاف البنية المعمارية: التحقق من عمومية الاستنتاجات عبر بنى بصرية مختلفة

التقييم المتعمق

المزايا

  1. تصميم تجريبي صارم: أول تحقيق حقيقي للتجارب المضبوطة، مما يزيل العوامل المربكة
  2. تحليل عميق وشامل: تحليل متعدد المستويات من فضاء التضمين إلى المهام النهائية
  3. قيمة علمية عالية: توفير إرشادات تصميم قائمة على التجارب للمجال
  4. قابلية عالية للتكرار: إعدادات تجريبية مفصلة وكود مفتوح المصدر
  5. كتابة واضحة: بنية منطقية واضحة وتعبير دقيق للاستنتاجات

أوجه القصور

  1. قيود الحجم: مجموعة بيانات 10 ملايين نسبياً صغيرة، قد لا تعكس بشكل كامل حالة التدريب على نطاق واسع
  2. قيود المهام: التركيز الأساسي على مهام VQA، لم يتم التحقق بشكل كافٍ من القابلية للتعميم على مهام رؤية-لغة أخرى
  3. نقص التحليل النظري: نقص في التفسيرات النظرية لسبب إنتاج الإشراف اللغوي لهذه الفروقات

التأثير

  1. المساهمة الأكاديمية: توفير أساس علمي لتصميم المشفّرات البصرية، ملء فجوة في المجال
  2. القيمة العملية: توجيه اختيار المشفّر البصري في أنظمة نماذج الرؤية واللغة الفعلية
  3. مساهمة منهجية: يمكن تطبيق منهج تصميم التجارب المضبوطة على دراسات مقارنة أخرى

السيناريوهات المطبقة

  1. تطوير نماذج الرؤية واللغة: توفير أساس لاختيار المشفّر البصري المناسب
  2. توجيه البحث: توفير اتجاهات لأبحاث تعلم التمثيل البصري
  3. تحسين الموارد: اتخاذ خيارات تصميم أفضل في ظل الموارد المحدودة

المراجع

تستشهد هذه الورقة بأعمال مهمة في مجالات نماذج الرؤية واللغة وتعلم التمثيل البصري، بما في ذلك:

  • CLIP (Radford et al., 2021)
  • DINO (Caron et al., 2021)
  • LLaVA (Liu et al., 2023)
  • SigLIP (Zhai et al., 2023)
  • DataComp (Gadre et al., 2023)

التقييم الشامل: هذه ورقة بحثية عالية الجودة قائمة على التجارب، تجيب على سؤال علمي مهم في المجال من خلال تصميم تجريبي محكوم بدقة. الطريقة البحثية صارمة وعلمية، والاستنتاجات ذات قيمة نظرية وعملية مهمة، وتوفر إرشادات قيمة لتطوير نماذج الرؤية واللغة.