CLIP outperforms self-supervised models like DINO as vision encoders for vision-language models (VLMs), but it remains unclear whether this advantage stems from CLIP's language supervision or its much larger training data. To disentangle these factors, we pre-train CLIP and DINO under controlled settings -- using the same architecture, dataset, and training configuration -- achieving similar ImageNet accuracy. Embedding analysis shows that CLIP captures high-level semantics (e.g., object categories, text), while DINO is more responsive to low-level features like colors and styles. When integrated into VLMs and evaluated on 20 VQA benchmarks, CLIP excels at text-intensive tasks, while DINO slightly outperforms on vision-centric ones. Variants of language supervision (e.g., sigmoid loss, pre-trained language encoders) yield limited gains. Our findings provide scientific insights into vision encoder design and its impact on VLM performance.
academic 论文ID : 2510.11835标题 : Data or Language Supervision: What Makes CLIP Better than DINO?作者 : Yiming Liu, Yuhui Zhang, Dhruba Ghosh, Ludwig Schmidt, Serena Yeung-Levy (Stanford University, Tsinghua University)分类 : cs.CV cs.AI cs.CL cs.LG cs.MM发表时间 : 2025年10月13日论文链接 : https://arxiv.org/abs/2510.11835 CLIP在视觉-语言模型(VLMs)中作为视觉编码器优于DINO等自监督模型,但其优势是来自语言监督还是更大规模的训练数据仍不清楚。为了解耦这些因素,研究者在控制设置下预训练CLIP和DINO——使用相同的架构、数据集和训练配置——获得了相似的ImageNet准确率。嵌入分析显示CLIP捕获高级语义(如对象类别、文本),而DINO更响应颜色和风格等低级特征。当集成到VLMs并在20个VQA基准上评估时,CLIP在文本密集型任务上表现出色,而DINO在视觉中心任务上略有优势。语言监督的变体(如sigmoid损失、预训练语言编码器)产生的收益有限。
该研究要解决的核心问题是:CLIP相比DINO在视觉-语言模型中的优越性能是源于语言监督还是更大规模的训练数据?
实践意义 :视觉编码器是VLMs的"眼睛",其性能直接影响整个系统的视觉理解能力理论价值 :理解不同监督信号对视觉表征学习的影响,为设计更好的视觉编码器提供科学指导资源优化 :明确关键因素有助于在有限资源下做出更好的设计选择混杂因素 :现有的CLIP和DINO模型在训练数据规模上相差高达100倍,使得难以分离监督类型和数据规模的影响缺乏控制实验 :之前的比较研究基于不同训练设置的预训练模型,无法进行公平比较机制理解不足 :对于语言监督如何改变视觉表征空间缺乏深入分析通过严格控制的实验设计,在相同条件下训练CLIP和DINO,从而科学地分析语言监督对视觉编码器性能的真实影响。
首次控制实验 :在相同架构(ViT-B/16)、数据集(DataComp 10M子集)和训练配置下训练CLIP和DINO,实现公平比较嵌入空间分析 :深入分析语言监督如何改变视觉表征,发现CLIP更关注高级语义,DINO更敏感于低级视觉特征VLM性能评估 :在20个VQA基准上系统评估两种编码器,发现CLIP在OCR任务上显著优于DINO(7.5%提升)监督变体探索 :验证了不同语言监督形式(SigLIP损失、预训练语言模型)的有限收益科学洞察 :为视觉编码器设计提供了基于实证的指导原则输入 :图像数据集,可选配对的文本描述
输出 :视觉编码器,能够将图像映射到语义表征空间
约束 :在控制所有其他变量的前提下,仅改变监督信号类型
骨干网络 :ViT-B/16作为两个模型的共同架构参数规模 :确保模型复杂度一致数据来源 :DataComp数据集的10M图像子集预处理 :统一的中心裁剪和224×224尺寸调整监督差异 :CLIP使用图像-文本对,DINO仅使用图像优化器 :AdamW学习率 :1e-3,余弦衰减训练轮数 :20 epochs硬件 :4个A100 GPU,训练3天定义两类图像对来分析模型分歧:
g1 = (clip_sim > 0.8) ∧ (dino_sim < 0.5) # CLIP高相似,DINO低相似
g2 = (dino_sim > 0.8) ∧ (clip_sim < 0.5) # DINO高相似,CLIP低相似
语义敏感性测试 :使用包含不同字母/数字的图像测试语义区分能力视觉模式敏感性测试 :使用简单重复视觉模式测试低级特征敏感性基础架构 :LLaVA-1.5替换组件 :仅替换视觉编码器部分训练流程 :预训练 + 视觉指令微调VMCBench :包含20个数据集的统一多选视觉问答基准任务类型 :一般VQA、推理、文档图表理解、OCR等训练数据 :DataComp 10M子集规模:1000万图像-文本对 预处理:中心裁剪,224×224分辨率 评估数据集 :分类任务 :ImageNet, CIFAR-10, Stanford Cars, Flowers, CUB, ImageNetV2, CIFAR-10.1VQA任务 :VMCBench的20个子集,包括OCRVQA, TextVQA等线性探测准确率 :评估视觉编码器质量的标准方法VQA准确率 :多选问答的正确率余弦相似度 :嵌入空间分析指标官方模型 :官方发布的CLIP和DINO预训练模型控制模型 :在相同条件下训练的CLIP和DINO监督变体 :SigLIP损失版本、预训练语言模型版本检查点选择 :基于验证集性能选择最佳检查点评估频率 :每500步保存并评估统计显著性 :在多个随机种子下验证结果稳定性模型 ImageNet CIFAR-10 Stanford Cars Flowers CUB 控制CLIP 65.8% 90.7% 74.7% 78.7% 52.3% 控制DINO 66.4% 92.1% 54.1% 80.7% 43.0%
关键发现 :
在一般分类任务上性能相当 CLIP在细粒度分类任务上显著优于DINO(Stanford Cars: +20.6%, CUB: +9.3%) 任务类型 LLaVA-CLIP LLaVA-DINO 差异 一般VQA 46.2% 46.0% +0.2% 推理 41.2% 41.5% -0.3% 文档图表 33.2% 33.1% +0.1% OCR任务 47.5% 40.0% +7.5%
关键发现 :
大多数任务性能相当 CLIP在OCR相关任务上显著优于DINO 语义内容敏感性 :DINO平均相似度:0.877 CLIP平均相似度:0.713(更低,表示语义区分更好) 视觉模式敏感性 :DINO平均相似度:0.478(更低,表示视觉细节区分更好) CLIP平均相似度:0.497 CLIP优势 :更好地捕获对象类别和嵌入文本等高级语义DINO优势 :更敏感于颜色、风格等低级视觉特征变体 VMCBench平均准确率 标准CLIP 41.4% SigLIP损失 40.8% 预训练语言模型 40.5%
结论 :不同形式的语言监督改进有限。
使用Qwen2-7B替代Vicuna-7B的结果:
模型组合 一般VQA OCR 平均 CLIP + Qwen2 57.90% 51.40% 49.69% DINO + Qwen2 54.02% 47.59% 47.72%
代表性工作 :LLaVA, Qwen2.5-VL等架构特点 :视觉编码器 + 语言模型 + 连接模块本文贡献 :专注于视觉编码器组件的系统性分析自监督方法 :DINO, SimCLR等,通过图像增强的关系预测学习表征语言监督方法 :CLIP, EVA-CLIP, SigLIP等,利用图像-文本对齐学习本文创新 :首次在控制条件下系统比较两种范式现有研究 :多聚焦于架构组件、数据策略、训练配置局限性 :基于不同训练设置的预训练模型,缺乏控制变量本文优势 :严格的控制实验设计数据规模vs监督类型 :在控制数据规模的情况下,语言监督确实带来特定优势表征差异 :CLIP学习高级语义表征,DINO关注低级视觉特征任务特异性 :CLIP在文本密集型任务上优势明显,视觉中心任务上两者相当监督形式 :不同语言监督变体的改进有限数据规模限制 :实验仅在10M图像子集上进行,需要扩展到十亿级数据验证架构单一 :仅测试ViT-B/16,其他架构的结论可能不同任务覆盖 :主要关注VQA任务,其他视觉-语言任务的结论待验证大规模验证 :在十亿级数据上重复控制实验混合方法 :探索结合自监督和语言监督的混合训练策略架构探索 :在不同视觉架构上验证结论的普适性实验设计严谨 :首次实现真正的控制实验,消除混杂因素分析深入全面 :从嵌入空间到下游任务的多层次分析科学价值高 :为领域提供了基于实证的设计指导可复现性强 :详细的实验设置和开源代码写作清晰 :逻辑结构清晰,结论表述准确规模局限 :10M数据集相对较小,可能无法完全反映大规模训练的情况任务局限 :主要关注VQA任务,对其他视觉-语言任务的泛化性未充分验证理论分析不足 :对于为什么语言监督产生这些差异缺乏理论解释学术贡献 :为视觉编码器设计提供了科学基础,填补了领域空白实用价值 :指导实际VLM系统的视觉编码器选择方法论贡献 :控制实验的设计思路可应用于其他比较研究VLM开发 :为选择合适的视觉编码器提供依据研究指导 :为视觉表征学习研究提供方向资源优化 :在有限资源下做出更好的设计选择本文引用了视觉-语言模型、视觉表征学习等领域的重要工作,包括:
CLIP (Radford et al., 2021) DINO (Caron et al., 2021) LLaVA (Liu et al., 2023) SigLIP (Zhai et al., 2023) DataComp (Gadre et al., 2023) 总体评价 :这是一篇高质量的实证研究论文,通过严格的控制实验设计回答了领域内的重要科学问题。研究方法科学严谨,结论具有重要的理论和实践价值,为视觉-语言模型的发展提供了有价值的指导。