Data or Language Supervision: What Makes CLIP Better than DINO?
Liu, Zhang, Ghosh et al.
CLIP outperforms self-supervised models like DINO as vision encoders for vision-language models (VLMs), but it remains unclear whether this advantage stems from CLIP's language supervision or its much larger training data. To disentangle these factors, we pre-train CLIP and DINO under controlled settings -- using the same architecture, dataset, and training configuration -- achieving similar ImageNet accuracy. Embedding analysis shows that CLIP captures high-level semantics (e.g., object categories, text), while DINO is more responsive to low-level features like colors and styles. When integrated into VLMs and evaluated on 20 VQA benchmarks, CLIP excels at text-intensive tasks, while DINO slightly outperforms on vision-centric ones. Variants of language supervision (e.g., sigmoid loss, pre-trained language encoders) yield limited gains. Our findings provide scientific insights into vision encoder design and its impact on VLM performance.
academic
البيانات أم الإشراف اللغوي: ما الذي يجعل CLIP أفضل من DINO؟
يتفوق CLIP كمشفّر بصري في نماذج الرؤية واللغة (VLMs) على نماذج التعلم الذاتي الموجهة مثل DINO، لكن ما إذا كان هذا التفوق ناشئاً عن الإشراف اللغوي أم عن بيانات تدريب بحجم أكبر لا يزال غير واضح. لفصل هذه العوامل، قام الباحثون بتدريب CLIP و DINO مسبقاً في إعدادات محكومة - باستخدام نفس البنية المعمارية والمجموعة البيانية والتكوين التدريبي - وحصلوا على دقة ImageNet متشابهة. يُظهر تحليل التضمينات أن CLIP يلتقط دلالات عالية المستوى (مثل فئات الأشياء والنصوص)، بينما DINO أكثر استجابة للميزات منخفضة المستوى مثل الألوان والأسلوب. عند دمجها في نماذج الرؤية واللغة وتقييمها على 20 معيار VQA، يُظهر CLIP تفوقاً في المهام الكثيفة بالنصوص، بينما يُظهر DINO ميزة طفيفة في المهام المركزة على الرؤية. أنتجت متغيرات الإشراف اللغوي (مثل خسارة sigmoid والمشفّرات اللغوية المدربة مسبقاً) مكاسب محدودة.
تجارب محكومة للمرة الأولى: تدريب CLIP و DINO بنفس البنية المعمارية (ViT-B/16) والمجموعة البيانية (مجموعة فرعية من DataComp بـ 10 مليون صورة) والتكوين التدريبي، مما يحقق مقارنة عادلة
تحليل فضاء التضمين: تحليل عميق لكيفية تغيير الإشراف اللغوي للتمثيل البصري، مع اكتشاف أن CLIP يركز على الدلالات العالية المستوى بينما DINO أكثر حساسية للميزات البصرية منخفضة المستوى
تقييم أداء نماذج الرؤية واللغة: تقييم منهجي لكلا المشفّرين على 20 معيار VQA، مع اكتشاف أن CLIP يتفوق بشكل كبير على DINO في مهام OCR (تحسن بنسبة 7.5%)
استكشاف متغيرات الإشراف: التحقق من المكاسب المحدودة لأشكال مختلفة من الإشراف اللغوي (خسارة SigLIP، نماذج لغوية مدربة مسبقاً)
رؤى علمية: توفير مبادئ إرشادية قائمة على التجارب لتصميم المشفّرات البصرية
المدخلات: مجموعة بيانات صور، وصفياً نصوص مقترنة اختيارية
المخرجات: مشفّر بصري قادر على تعيين الصور إلى فضاء التمثيل الدلالي
القيود: تغيير نوع الإشراف فقط مع التحكم في جميع المتغيرات الأخرى
تستشهد هذه الورقة بأعمال مهمة في مجالات نماذج الرؤية واللغة وتعلم التمثيل البصري، بما في ذلك:
CLIP (Radford et al., 2021)
DINO (Caron et al., 2021)
LLaVA (Liu et al., 2023)
SigLIP (Zhai et al., 2023)
DataComp (Gadre et al., 2023)
التقييم الشامل: هذه ورقة بحثية عالية الجودة قائمة على التجارب، تجيب على سؤال علمي مهم في المجال من خلال تصميم تجريبي محكوم بدقة. الطريقة البحثية صارمة وعلمية، والاستنتاجات ذات قيمة نظرية وعملية مهمة، وتوفر إرشادات قيمة لتطوير نماذج الرؤية واللغة.