2025-11-16T15:07:12.519849

Data or Language Supervision: What Makes CLIP Better than DINO?

Liu, Zhang, Ghosh et al.

CLIP outperforms self-supervised models like DINO as vision encoders for vision-language models (VLMs), but it remains unclear whether this advantage stems from CLIP's language supervision or its much larger training data. To disentangle these factors, we pre-train CLIP and DINO under controlled settings -- using the same architecture, dataset, and training configuration -- achieving similar ImageNet accuracy. Embedding analysis shows that CLIP captures high-level semantics (e.g., object categories, text), while DINO is more responsive to low-level features like colors and styles. When integrated into VLMs and evaluated on 20 VQA benchmarks, CLIP excels at text-intensive tasks, while DINO slightly outperforms on vision-centric ones. Variants of language supervision (e.g., sigmoid loss, pre-trained language encoders) yield limited gains. Our findings provide scientific insights into vision encoder design and its impact on VLM performance.

academic

Data or Language Supervision: What Makes CLIP Better than DINO?

基本信息

论文ID: 2510.11835
标题: Data or Language Supervision: What Makes CLIP Better than DINO?
作者: Yiming Liu, Yuhui Zhang, Dhruba Ghosh, Ludwig Schmidt, Serena Yeung-Levy (Stanford University, Tsinghua University)
分类: cs.CV cs.AI cs.CL cs.LG cs.MM
发表时间: 2025年10月13日
论文链接: https://arxiv.org/abs/2510.11835

摘要

CLIP在视觉-语言模型(VLMs)中作为视觉编码器优于DINO等自监督模型，但其优势是来自语言监督还是更大规模的训练数据仍不清楚。为了解耦这些因素，研究者在控制设置下预训练CLIP和DINO——使用相同的架构、数据集和训练配置——获得了相似的ImageNet准确率。嵌入分析显示CLIP捕获高级语义（如对象类别、文本），而DINO更响应颜色和风格等低级特征。当集成到VLMs并在20个VQA基准上评估时，CLIP在文本密集型任务上表现出色，而DINO在视觉中心任务上略有优势。语言监督的变体（如sigmoid损失、预训练语言编码器）产生的收益有限。

实践意义：视觉编码器是VLMs的"眼睛"，其性能直接影响整个系统的视觉理解能力
理论价值：理解不同监督信号对视觉表征学习的影响，为设计更好的视觉编码器提供科学指导
资源优化：明确关键因素有助于在有限资源下做出更好的设计选择

现有方法局限性

混杂因素：现有的CLIP和DINO模型在训练数据规模上相差高达100倍，使得难以分离监督类型和数据规模的影响
缺乏控制实验：之前的比较研究基于不同训练设置的预训练模型，无法进行公平比较
机制理解不足：对于语言监督如何改变视觉表征空间缺乏深入分析

研究动机

通过严格控制的实验设计，在相同条件下训练CLIP和DINO，从而科学地分析语言监督对视觉编码器性能的真实影响。

核心贡献

首次控制实验：在相同架构(ViT-B/16)、数据集(DataComp 10M子集)和训练配置下训练CLIP和DINO，实现公平比较
嵌入空间分析：深入分析语言监督如何改变视觉表征，发现CLIP更关注高级语义，DINO更敏感于低级视觉特征
VLM性能评估：在20个VQA基准上系统评估两种编码器，发现CLIP在OCR任务上显著优于DINO(7.5%提升)
监督变体探索：验证了不同语言监督形式(SigLIP损失、预训练语言模型)的有限收益
科学洞察：为视觉编码器设计提供了基于实证的指导原则

骨干网络：ViT-B/16作为两个模型的共同架构
参数规模：确保模型复杂度一致

数据集统一

数据来源：DataComp数据集的10M图像子集
预处理：统一的中心裁剪和224×224尺寸调整
监督差异：CLIP使用图像-文本对，DINO仅使用图像

训练配置统一

优化器：AdamW
学习率：1e-3，余弦衰减
训练轮数：20 epochs
硬件：4个A100 GPU，训练3天

嵌入分析方法

差异化图像对识别

定义两类图像对来分析模型分歧：

g1 = (clip_sim > 0.8) ∧ (dino_sim < 0.5)  # CLIP高相似，DINO低相似
g2 = (dino_sim > 0.8) ∧ (clip_sim < 0.5)  # DINO高相似，CLIP低相似

定量验证实验

语义敏感性测试：使用包含不同字母/数字的图像测试语义区分能力
视觉模式敏感性测试：使用简单重复视觉模式测试低级特征敏感性

VLM集成方案

框架选择

基础架构：LLaVA-1.5
替换组件：仅替换视觉编码器部分
训练流程：预训练 + 视觉指令微调

评估基准

VMCBench：包含20个数据集的统一多选视觉问答基准
任务类型：一般VQA、推理、文档图表理解、OCR等

实验设置

数据集

训练数据：DataComp 10M子集
- 规模：1000万图像-文本对
- 预处理：中心裁剪，224×224分辨率
评估数据集：
- 分类任务：ImageNet, CIFAR-10, Stanford Cars, Flowers, CUB, ImageNetV2, CIFAR-10.1
- VQA任务：VMCBench的20个子集，包括OCRVQA, TextVQA等