2025-11-16T15:07:12.519849

Data or Language Supervision: What Makes CLIP Better than DINO?

Liu, Zhang, Ghosh et al.
CLIP outperforms self-supervised models like DINO as vision encoders for vision-language models (VLMs), but it remains unclear whether this advantage stems from CLIP's language supervision or its much larger training data. To disentangle these factors, we pre-train CLIP and DINO under controlled settings -- using the same architecture, dataset, and training configuration -- achieving similar ImageNet accuracy. Embedding analysis shows that CLIP captures high-level semantics (e.g., object categories, text), while DINO is more responsive to low-level features like colors and styles. When integrated into VLMs and evaluated on 20 VQA benchmarks, CLIP excels at text-intensive tasks, while DINO slightly outperforms on vision-centric ones. Variants of language supervision (e.g., sigmoid loss, pre-trained language encoders) yield limited gains. Our findings provide scientific insights into vision encoder design and its impact on VLM performance.
academic

Data or Language Supervision: What Makes CLIP Better than DINO?

基本信息

  • 论文ID: 2510.11835
  • 标题: Data or Language Supervision: What Makes CLIP Better than DINO?
  • 作者: Yiming Liu, Yuhui Zhang, Dhruba Ghosh, Ludwig Schmidt, Serena Yeung-Levy (Stanford University, Tsinghua University)
  • 分类: cs.CV cs.AI cs.CL cs.LG cs.MM
  • 发表时间: 2025年10月13日
  • 论文链接: https://arxiv.org/abs/2510.11835

摘要

CLIP在视觉-语言模型(VLMs)中作为视觉编码器优于DINO等自监督模型,但其优势是来自语言监督还是更大规模的训练数据仍不清楚。为了解耦这些因素,研究者在控制设置下预训练CLIP和DINO——使用相同的架构、数据集和训练配置——获得了相似的ImageNet准确率。嵌入分析显示CLIP捕获高级语义(如对象类别、文本),而DINO更响应颜色和风格等低级特征。当集成到VLMs并在20个VQA基准上评估时,CLIP在文本密集型任务上表现出色,而DINO在视觉中心任务上略有优势。语言监督的变体(如sigmoid损失、预训练语言编码器)产生的收益有限。

研究背景与动机

核心问题

该研究要解决的核心问题是:CLIP相比DINO在视觉-语言模型中的优越性能是源于语言监督还是更大规模的训练数据?

问题重要性

  1. 实践意义:视觉编码器是VLMs的"眼睛",其性能直接影响整个系统的视觉理解能力
  2. 理论价值:理解不同监督信号对视觉表征学习的影响,为设计更好的视觉编码器提供科学指导
  3. 资源优化:明确关键因素有助于在有限资源下做出更好的设计选择

现有方法局限性

  1. 混杂因素:现有的CLIP和DINO模型在训练数据规模上相差高达100倍,使得难以分离监督类型和数据规模的影响
  2. 缺乏控制实验:之前的比较研究基于不同训练设置的预训练模型,无法进行公平比较
  3. 机制理解不足:对于语言监督如何改变视觉表征空间缺乏深入分析

研究动机

通过严格控制的实验设计,在相同条件下训练CLIP和DINO,从而科学地分析语言监督对视觉编码器性能的真实影响。

核心贡献

  1. 首次控制实验:在相同架构(ViT-B/16)、数据集(DataComp 10M子集)和训练配置下训练CLIP和DINO,实现公平比较
  2. 嵌入空间分析:深入分析语言监督如何改变视觉表征,发现CLIP更关注高级语义,DINO更敏感于低级视觉特征
  3. VLM性能评估:在20个VQA基准上系统评估两种编码器,发现CLIP在OCR任务上显著优于DINO(7.5%提升)
  4. 监督变体探索:验证了不同语言监督形式(SigLIP损失、预训练语言模型)的有限收益
  5. 科学洞察:为视觉编码器设计提供了基于实证的指导原则

方法详解

任务定义

输入:图像数据集,可选配对的文本描述 输出:视觉编码器,能够将图像映射到语义表征空间 约束:在控制所有其他变量的前提下,仅改变监督信号类型

控制实验设计

架构统一

  • 骨干网络:ViT-B/16作为两个模型的共同架构
  • 参数规模:确保模型复杂度一致

数据集统一

  • 数据来源:DataComp数据集的10M图像子集
  • 预处理:统一的中心裁剪和224×224尺寸调整
  • 监督差异:CLIP使用图像-文本对,DINO仅使用图像

训练配置统一

  • 优化器:AdamW
  • 学习率:1e-3,余弦衰减
  • 训练轮数:20 epochs
  • 硬件:4个A100 GPU,训练3天

嵌入分析方法

差异化图像对识别

定义两类图像对来分析模型分歧:

g1 = (clip_sim > 0.8) ∧ (dino_sim < 0.5)  # CLIP高相似,DINO低相似
g2 = (dino_sim > 0.8) ∧ (clip_sim < 0.5)  # DINO高相似,CLIP低相似

定量验证实验

  1. 语义敏感性测试:使用包含不同字母/数字的图像测试语义区分能力
  2. 视觉模式敏感性测试:使用简单重复视觉模式测试低级特征敏感性

VLM集成方案

框架选择

  • 基础架构:LLaVA-1.5
  • 替换组件:仅替换视觉编码器部分
  • 训练流程:预训练 + 视觉指令微调

评估基准

  • VMCBench:包含20个数据集的统一多选视觉问答基准
  • 任务类型:一般VQA、推理、文档图表理解、OCR等

实验设置

数据集

  1. 训练数据:DataComp 10M子集
    • 规模:1000万图像-文本对
    • 预处理:中心裁剪,224×224分辨率
  2. 评估数据集
    • 分类任务:ImageNet, CIFAR-10, Stanford Cars, Flowers, CUB, ImageNetV2, CIFAR-10.1
    • VQA任务:VMCBench的20个子集,包括OCRVQA, TextVQA等

评价指标

  • 线性探测准确率:评估视觉编码器质量的标准方法
  • VQA准确率:多选问答的正确率
  • 余弦相似度:嵌入空间分析指标

对比方法

  • 官方模型:官方发布的CLIP和DINO预训练模型
  • 控制模型:在相同条件下训练的CLIP和DINO
  • 监督变体:SigLIP损失版本、预训练语言模型版本

实现细节

  • 检查点选择:基于验证集性能选择最佳检查点
  • 评估频率:每500步保存并评估
  • 统计显著性:在多个随机种子下验证结果稳定性

实验结果

主要结果

分类任务性能

模型ImageNetCIFAR-10Stanford CarsFlowersCUB
控制CLIP65.8%90.7%74.7%78.7%52.3%
控制DINO66.4%92.1%54.1%80.7%43.0%

关键发现

  • 在一般分类任务上性能相当
  • CLIP在细粒度分类任务上显著优于DINO(Stanford Cars: +20.6%, CUB: +9.3%)

VLM任务性能

任务类型LLaVA-CLIPLLaVA-DINO差异
一般VQA46.2%46.0%+0.2%
推理41.2%41.5%-0.3%
文档图表33.2%33.1%+0.1%
OCR任务47.5%40.0%+7.5%

关键发现

  • 大多数任务性能相当
  • CLIP在OCR相关任务上显著优于DINO

嵌入分析结果

定量验证

  1. 语义内容敏感性
    • DINO平均相似度:0.877
    • CLIP平均相似度:0.713(更低,表示语义区分更好)
  2. 视觉模式敏感性
    • DINO平均相似度:0.478(更低,表示视觉细节区分更好)
    • CLIP平均相似度:0.497

定性分析

  • CLIP优势:更好地捕获对象类别和嵌入文本等高级语义
  • DINO优势:更敏感于颜色、风格等低级视觉特征

监督变体实验

变体VMCBench平均准确率
标准CLIP41.4%
SigLIP损失40.8%
预训练语言模型40.5%

结论:不同形式的语言监督改进有限。

语言模型骨干实验

使用Qwen2-7B替代Vicuna-7B的结果:

模型组合一般VQAOCR平均
CLIP + Qwen257.90%51.40%49.69%
DINO + Qwen254.02%47.59%47.72%

相关工作

视觉-语言模型

  • 代表性工作:LLaVA, Qwen2.5-VL等
  • 架构特点:视觉编码器 + 语言模型 + 连接模块
  • 本文贡献:专注于视觉编码器组件的系统性分析

视觉表征学习

  1. 自监督方法:DINO, SimCLR等,通过图像增强的关系预测学习表征
  2. 语言监督方法:CLIP, EVA-CLIP, SigLIP等,利用图像-文本对齐学习
  3. 本文创新:首次在控制条件下系统比较两种范式

VLM设计选择研究

  • 现有研究:多聚焦于架构组件、数据策略、训练配置
  • 局限性:基于不同训练设置的预训练模型,缺乏控制变量
  • 本文优势:严格的控制实验设计

结论与讨论

主要结论

  1. 数据规模vs监督类型:在控制数据规模的情况下,语言监督确实带来特定优势
  2. 表征差异:CLIP学习高级语义表征,DINO关注低级视觉特征
  3. 任务特异性:CLIP在文本密集型任务上优势明显,视觉中心任务上两者相当
  4. 监督形式:不同语言监督变体的改进有限

局限性

  1. 数据规模限制:实验仅在10M图像子集上进行,需要扩展到十亿级数据验证
  2. 架构单一:仅测试ViT-B/16,其他架构的结论可能不同
  3. 任务覆盖:主要关注VQA任务,其他视觉-语言任务的结论待验证

未来方向

  1. 大规模验证:在十亿级数据上重复控制实验
  2. 混合方法:探索结合自监督和语言监督的混合训练策略
  3. 架构探索:在不同视觉架构上验证结论的普适性

深度评价

优点

  1. 实验设计严谨:首次实现真正的控制实验,消除混杂因素
  2. 分析深入全面:从嵌入空间到下游任务的多层次分析
  3. 科学价值高:为领域提供了基于实证的设计指导
  4. 可复现性强:详细的实验设置和开源代码
  5. 写作清晰:逻辑结构清晰,结论表述准确

不足

  1. 规模局限:10M数据集相对较小,可能无法完全反映大规模训练的情况
  2. 任务局限:主要关注VQA任务,对其他视觉-语言任务的泛化性未充分验证
  3. 理论分析不足:对于为什么语言监督产生这些差异缺乏理论解释

影响力

  1. 学术贡献:为视觉编码器设计提供了科学基础,填补了领域空白
  2. 实用价值:指导实际VLM系统的视觉编码器选择
  3. 方法论贡献:控制实验的设计思路可应用于其他比较研究

适用场景

  1. VLM开发:为选择合适的视觉编码器提供依据
  2. 研究指导:为视觉表征学习研究提供方向
  3. 资源优化:在有限资源下做出更好的设计选择

参考文献

本文引用了视觉-语言模型、视觉表征学习等领域的重要工作,包括:

  • CLIP (Radford et al., 2021)
  • DINO (Caron et al., 2021)
  • LLaVA (Liu et al., 2023)
  • SigLIP (Zhai et al., 2023)
  • DataComp (Gadre et al., 2023)

总体评价:这是一篇高质量的实证研究论文,通过严格的控制实验设计回答了领域内的重要科学问题。研究方法科学严谨,结论具有重要的理论和实践价值,为视觉-语言模型的发展提供了有价值的指导。